Appearance
开启实时识别、翻译
方法名
startGummySpeechTranscriber
注意
识别结果在初始化回调中返回
用法
- 用法如下:
js
let params = {
//音频资源,可选值:请参考插件文档
audioSource: "DEFAULT",
//音频采样率,默认值:16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
sampleRate: this.form.sampleRate,
//音频输入通道,可选值请参考插件文档
channel: "CHANNEL_IN_MONO",
//编码,可选值请参考插件文档
encoding: "ENCODING_PCM_16BIT",
//帧大小
waveFrameSize: 20 * 2 * 16000 / 1000,
//是否保存录音文件
saveAudio: this.form.saveAudio,
//音频编码格式,注意!例如opus,表示将用户送入的pcm数据压缩成opus数据进行传输,而不是让用户送入opus数据。
srFormat: this.form.format,
//模型选择, 注意模型对应的采样率要求。
model: this.form.model,
//在本次语音识别中,将应用与该热词ID对应的热词信息。
// vocabularyId:"1234567890",
// 设置是否启用识别功能。
// 模型支持单独开启识别或翻译功能,也可同时启用两种功能,但至少需要开启其中一种能力。
transcriptionEnabled: true,
// 设置是否启用翻译功能。要正常输出翻译结果,需配置translation_target_languages参数。
// 模型支持单独开启识别或翻译功能,也可同时启用两种功能,但至少需要开启其中一种能力。
translationEnabled: this.form.translationEnabled,
// 设置源(待识别/翻译语言)语言代码。如果无法提前确定语种,可不设置,默认为auto。
sourceLanguage: this.form.sourceLanguage,
// 设置翻译目标语言代码。目标语言的代码与source_language参数一致。
// 目前暂不支持同时翻译为多种语言,请仅设置一个目标语言以完成翻译。
translationTargetLanguage: this.form.translationTargetLanguage,
// 设置最大结束静音时长,单位为毫秒(ms),取值范围为200ms至6000ms。
// 若语音结束后静音时长超过该预设值,系统将判定当前语句已结束。
// maxEndSilence:800,
// DNS解析的超时时间设置(单位ms),默认5000
// dnsTimeout: 500,
//若文档中不包含某些参数,但是此功能支持这个参数,可以用如下万能接口设置参数
// extendConfig: {
// vocabulary: {
// "热词1": 2,
// "热词2": 2
// }
// },
// 注意!!!不要在端侧使用长效API Key!!!
// 注意!!!不要在端侧使用长效API Key!!!
// 注意!!!不要在端侧使用长效API Key!!!
// 将长效API Key硬编码在端侧代码中,会导致安全风险!!!
// 请在自建服务端获得临时鉴权Token(有效期60s,最长可设置1800s),再下发到端侧进行使用。
// 临时鉴权Token: https://help.aliyun.com/zh/model-studio/obtain-temporary-authentication-token
//
// 服务只需要在临时Token(API Key)快过期前刷新一次。各端侧在Token(API Key)快过期前从服务获得新的
// 临时Token(API Key)。
apikey: AppConfig.dashApiKey
};
module.startGummySpeechTranscriber({
params: params,
//成功执行的函数
success: (res) => {
console.log(res)
},
//失败执行的函数
fail: (res) => {
console.log(res)
},
//接口调用完成返回函数,不管成功还是失败都会返回
complete: (res) => {
console.log(res)
}
})js
module.startGummySpeechTranscriber({
params: {
//音频资源,可选值:请参考插件文档
audioSource: "DEFAULT",
//音频采样率,默认值:16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
sampleRate: sampleRate.value,
//音频输入通道,可选值请参考插件文档
channel: "CHANNEL_IN_MONO",
//编码,可选值请参考插件文档
encoding: "ENCODING_PCM_16BIT",
//帧大小
waveFrameSize: 20 * 2 * 16000 / 1000,
//是否保存录音文件
saveAudio: saveAudio.value,
//音频编码格式,注意!例如opus,表示将用户送入的pcm数据压缩成opus数据进行传输,而不是让用户送入opus数据。
srFormat: format.value,
//模型选择, 注意模型对应的采样率要求。
model: model.value,
//在本次语音识别中,将应用与该热词ID对应的热词信息。
// vocabularyId:"1234567890",
// 设置是否启用识别功能。
// 模型支持单独开启识别或翻译功能,也可同时启用两种功能,但至少需要开启其中一种能力。
transcriptionEnabled: true,
// 设置是否启用翻译功能。要正常输出翻译结果,需配置translation_target_languages参数。
// 模型支持单独开启识别或翻译功能,也可同时启用两种功能,但至少需要开启其中一种能力。
translationEnabled: translationEnabled.value,
// 设置源(待识别/翻译语言)语言代码。如果无法提前确定语种,可不设置,默认为auto。
sourceLanguage: sourceLanguage.value,
// 设置翻译目标语言代码。目标语言的代码与source_language参数一致。
// 目前暂不支持同时翻译为多种语言,请仅设置一个目标语言以完成翻译。
translationTargetLanguage: translationTargetLanguage.value,
// 设置最大结束静音时长,单位为毫秒(ms),取值范围为200ms至6000ms。
// 若语音结束后静音时长超过该预设值,系统将判定当前语句已结束。
// maxEndSilence:800,
// DNS解析的超时时间设置(单位ms),默认5000
// dnsTimeout: 500,
//若文档中不包含某些参数,但是此功能支持这个参数,可以用如下万能接口设置参数
// extendConfig: {
// vocabulary: {
// "热词1": 2,
// "热词2": 2
// }
// },
// 注意!!!不要在端侧使用长效API Key!!!
// 注意!!!不要在端侧使用长效API Key!!!
// 注意!!!不要在端侧使用长效API Key!!!
// 将长效API Key硬编码在端侧代码中,会导致安全风险!!!
// 请在自建服务端获得临时鉴权Token(有效期60s,最长可设置1800s),再下发到端侧进行使用。
// 临时鉴权Token: https://help.aliyun.com/zh/model-studio/obtain-temporary-authentication-token
//
// 服务只需要在临时Token(API Key)快过期前刷新一次。各端侧在Token(API Key)快过期前从服务获得新的
// 临时Token(API Key)。
apikey: AppConfig.dashApiKey
},
//成功执行的函数
success: (res) => {
console.log(res)
},
//失败执行的函数
fail: (res) => {
console.log(res)
},
//接口调用完成返回函数,不管成功还是失败都会返回
// complete: (res) => {
// console.log(res)
// }
} as LevenOptions)- 参数说明
参数名 参数类型 是否必填 默认值 参数描述 params Object 是 无 接口请求参数 params.audioSource String 否 DEFAULT 音频资源,可选值: DEFAULTMICVOICE_UPLINKVOICE_DOWNLINKVOICE_CALLCAMCORDERVOICE_RECOGNITIONVOICE_COMMUNICATIONREMOTE_SUBMIXUNPROCESSEDVOICE_PERFORMANCEparams.sampleRate Integer 否 16000 音频采样率,默认值:16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型 params.channel String 否 CHANNEL_IN_MONO 音频输入通道,可选值: CHANNEL_IN_MONOCHANNEL_IN_BACKCHANNEL_IN_BACK_PROCESSEDCHANNEL_IN_DEFAULTCHANNEL_IN_FRONTCHANNEL_IN_FRONT_PROCESSEDCHANNEL_IN_LEFTCHANNEL_IN_LEFT_PROCESSEDCHANNEL_IN_PRESSURECHANNEL_IN_RIGHTCHANNEL_IN_RIGHT_PROCESSEDCHANNEL_IN_STEREOCHANNEL_IN_VOICE_DNLINKCHANNEL_IN_VOICE_UPLINKCHANNEL_IN_X_AXISCHANNEL_IN_Y_AXISCHANNEL_IN_Z_AXISparams.encoding String 否 ENCODING_PCM_16BIT 编码,可选值: ENCODING_PCM_16BITENCODING_DEFAULTENCODING_PCM_8BITENCODING_PCM_FLOATENCODING_AC3ENCODING_E_AC3ENCODING_DTSENCODING_DTS_HDENCODING_MP3ENCODING_AAC_LCENCODING_AAC_HE_V1ENCODING_AAC_HE_V2ENCODING_IEC61937ENCODING_DOLBY_TRUEHDENCODING_AAC_ELDENCODING_AAC_XHEENCODING_AC4ENCODING_E_AC3_JOCENCODING_DOLBY_MATENCODING_OPUSENCODING_PCM_24BIT_PACKEDENCODING_PCM_32BITENCODING_MPEGH_BL_L3ENCODING_MPEGH_BL_L4ENCODING_MPEGH_LC_L3ENCODING_MPEGH_LC_L4ENCODING_DRAparams.waveFrameSize Integer 否 无 帧大小 params.saveAudio Boolean 否 false 是否保存录音文件 params.srFormat String 否 无 音频编码格式,支持OPUS编码和PCM原始音频。默认值:OPUS。如果使用8000Hz采样率,则只支持PCM格式 params.model String 否 无 模型选择, 注意模型对应的采样率要求。 params.vocabularyId String 否 无 定制泛热词ID params.transcriptionEnabled Boolean 否 无 设置是否启用识别功能 params.translationEnabled Boolean 否 无 设置是否启用翻译功能。要正常输出翻译结果,需配置translationTargetLanguage参数 params.sourceLanguage String 否 无 设置源(待识别/翻译语言)语言代码。如果无法提前确定语种,可不设置,默认为auto。 params.translationTargetLanguage String 否 无 设置翻译目标语言代码。目标语言的代码与source_language参数一致,目前暂不支持同时翻译为多种语言,请仅设置一个目标语言以完成翻译 params.maxEndSilence Integer 否 800 设置最大结束静音时长,单位为毫秒(ms),取值范围为200ms至6000ms,若语音结束后静音时长超过该预设值,系统将判定当前语句已结束 params.dnsTimeout Integer 否 5000 DNS解析的超时时间设置(单位ms),默认5000 params.extendConfig Object 否 无 若需要设置交互协议支持但是接口说明中未说明的参数,可通过此万能设置接口进行配置。具体设置方法请见代码示例 params.apikey String 是 无 临时Token success Function 否 无 执行成功的函数 fail Function 否 无 执行失败的函数 complete Function 否 无 执行完成的函数,不管成功还是失败都会执行
回调
- 示例
json
{
"data": {},
"message": "",
"code": 0
}- 回调说明:
参数名 参数类型 参数描述 message String 消息提示 data Object 数据对象 code Integer 返回类型,0.成功,其他:失败
