开启实时识别、翻译

方法名

startGummySpeechTranscriber

注意

识别结果在初始化回调中返回

用法

用法如下：

uniappuniappx

let params = {
  //音频资源，可选值：请参考插件文档
  audioSource: "DEFAULT",
  //音频采样率，默认值：16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
  sampleRate: this.form.sampleRate,
  //音频输入通道，可选值请参考插件文档
  channel: "CHANNEL_IN_MONO",
  //编码，可选值请参考插件文档
  encoding: "ENCODING_PCM_16BIT",
  //帧大小
  waveFrameSize: 20 * 2 * 16000 / 1000,
  //是否保存录音文件
  saveAudio: this.form.saveAudio,
  //音频编码格式，注意！例如opus，表示将用户送入的pcm数据压缩成opus数据进行传输,而不是让用户送入opus数据。
  srFormat: this.form.format,
  //模型选择, 注意模型对应的采样率要求。
  model: this.form.model,
  //在本次语音识别中，将应用与该热词ID对应的热词信息。
  // vocabularyId:"1234567890",
  // 设置是否启用识别功能。
  // 模型支持单独开启识别或翻译功能，也可同时启用两种功能，但至少需要开启其中一种能力。
  transcriptionEnabled: true,
  // 设置是否启用翻译功能。要正常输出翻译结果，需配置translation_target_languages参数。
  // 模型支持单独开启识别或翻译功能，也可同时启用两种功能，但至少需要开启其中一种能力。
  translationEnabled: this.form.translationEnabled,
  // 设置源（待识别/翻译语言）语言代码。如果无法提前确定语种，可不设置，默认为auto。
  sourceLanguage: this.form.sourceLanguage,
  // 设置翻译目标语言代码。目标语言的代码与source_language参数一致。
  // 目前暂不支持同时翻译为多种语言，请仅设置一个目标语言以完成翻译。
  translationTargetLanguage: this.form.translationTargetLanguage,
  // 设置最大结束静音时长，单位为毫秒（ms），取值范围为200ms至6000ms。
  // 若语音结束后静音时长超过该预设值，系统将判定当前语句已结束。
  // maxEndSilence:800,
  // DNS解析的超时时间设置(单位ms)，默认5000
  // dnsTimeout: 500,
  //若文档中不包含某些参数，但是此功能支持这个参数，可以用如下万能接口设置参数
  // extendConfig: {
  //   vocabulary: {
  //     "热词1": 2,
  //     "热词2": 2
  //   }
  // },
  // 注意！！！不要在端侧使用长效API Key！！！
  // 注意！！！不要在端侧使用长效API Key！！！
  // 注意！！！不要在端侧使用长效API Key！！！
  // 将长效API Key硬编码在端侧代码中，会导致安全风险！！！
  // 请在自建服务端获得临时鉴权Token（有效期60s，最长可设置1800s），再下发到端侧进行使用。
  // 临时鉴权Token: https://help.aliyun.com/zh/model-studio/obtain-temporary-authentication-token
  //
  // 服务只需要在临时Token(API Key)快过期前刷新一次。各端侧在Token(API Key)快过期前从服务获得新的
  // 临时Token(API Key)。
  apikey: AppConfig.dashApiKey
};
module.startGummySpeechTranscriber({
  params: params,
  //成功执行的函数
  success: (res) => {
    console.log(res)
  },
  //失败执行的函数
  fail: (res) => {
    console.log(res)
  },
  //接口调用完成返回函数，不管成功还是失败都会返回
  complete: (res) => {
    console.log(res)
  }
})

module.startGummySpeechTranscriber({
  params: {
    //音频资源，可选值：请参考插件文档
    audioSource: "DEFAULT",
    //音频采样率，默认值：16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
    sampleRate: sampleRate.value,
    //音频输入通道，可选值请参考插件文档
    channel: "CHANNEL_IN_MONO",
    //编码，可选值请参考插件文档
    encoding: "ENCODING_PCM_16BIT",
    //帧大小
    waveFrameSize: 20 * 2 * 16000 / 1000,
    //是否保存录音文件
    saveAudio: saveAudio.value,
    //音频编码格式，注意！例如opus，表示将用户送入的pcm数据压缩成opus数据进行传输,而不是让用户送入opus数据。
    srFormat: format.value,
    //模型选择, 注意模型对应的采样率要求。
    model: model.value,
    //在本次语音识别中，将应用与该热词ID对应的热词信息。
    // vocabularyId:"1234567890",
    // 设置是否启用识别功能。
    // 模型支持单独开启识别或翻译功能，也可同时启用两种功能，但至少需要开启其中一种能力。
    transcriptionEnabled: true,
    // 设置是否启用翻译功能。要正常输出翻译结果，需配置translation_target_languages参数。
    // 模型支持单独开启识别或翻译功能，也可同时启用两种功能，但至少需要开启其中一种能力。
    translationEnabled: translationEnabled.value,
    // 设置源（待识别/翻译语言）语言代码。如果无法提前确定语种，可不设置，默认为auto。
    sourceLanguage: sourceLanguage.value,
    // 设置翻译目标语言代码。目标语言的代码与source_language参数一致。
    // 目前暂不支持同时翻译为多种语言，请仅设置一个目标语言以完成翻译。
    translationTargetLanguage: translationTargetLanguage.value,
    // 设置最大结束静音时长，单位为毫秒（ms），取值范围为200ms至6000ms。
    // 若语音结束后静音时长超过该预设值，系统将判定当前语句已结束。
    // maxEndSilence:800,
    // DNS解析的超时时间设置(单位ms)，默认5000
    // dnsTimeout: 500,
    //若文档中不包含某些参数，但是此功能支持这个参数，可以用如下万能接口设置参数
    // extendConfig: {
    //   vocabulary: {
    //     "热词1": 2,
    //     "热词2": 2
    //   }
    // },
    // 注意！！！不要在端侧使用长效API Key！！！
    // 注意！！！不要在端侧使用长效API Key！！！
    // 注意！！！不要在端侧使用长效API Key！！！
    // 将长效API Key硬编码在端侧代码中，会导致安全风险！！！
    // 请在自建服务端获得临时鉴权Token（有效期60s，最长可设置1800s），再下发到端侧进行使用。
    // 临时鉴权Token: https://help.aliyun.com/zh/model-studio/obtain-temporary-authentication-token
    //
    // 服务只需要在临时Token(API Key)快过期前刷新一次。各端侧在Token(API Key)快过期前从服务获得新的
    // 临时Token(API Key)。
    apikey: AppConfig.dashApiKey
  },
  //成功执行的函数
  success: (res) => {
    console.log(res)
  },
  //失败执行的函数
  fail: (res) => {
    console.log(res)
  },
  //接口调用完成返回函数，不管成功还是失败都会返回
  // complete: (res) => {
  //   console.log(res)
  // }
} as LevenOptions)

参数说明

参数名	参数类型	是否必填	默认值	参数描述
params	Object	是	无	接口请求参数
params.audioSource	String	否	DEFAULT	音频资源，可选值： `DEFAULT` `MIC` `VOICE_UPLINK` `VOICE_DOWNLINK` `VOICE_CALL` `CAMCORDER` `VOICE_RECOGNITION` `VOICE_COMMUNICATION` `REMOTE_SUBMIX` `UNPROCESSED` `VOICE_PERFORMANCE`
params.sampleRate	Integer	否	16000	音频采样率，默认值：16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型
params.channel	String	否	CHANNEL_IN_MONO	音频输入通道，可选值： `CHANNEL_IN_MONO` `CHANNEL_IN_BACK` `CHANNEL_IN_BACK_PROCESSED` `CHANNEL_IN_DEFAULT` `CHANNEL_IN_FRONT` `CHANNEL_IN_FRONT_PROCESSED` `CHANNEL_IN_LEFT` `CHANNEL_IN_LEFT_PROCESSED` `CHANNEL_IN_PRESSURE` `CHANNEL_IN_RIGHT` `CHANNEL_IN_RIGHT_PROCESSED` `CHANNEL_IN_STEREO` `CHANNEL_IN_VOICE_DNLINK` `CHANNEL_IN_VOICE_UPLINK` `CHANNEL_IN_X_AXIS` `CHANNEL_IN_Y_AXIS` `CHANNEL_IN_Z_AXIS`
params.encoding	String	否	ENCODING_PCM_16BIT	编码，可选值： `ENCODING_PCM_16BIT` `ENCODING_DEFAULT` `ENCODING_PCM_8BIT` `ENCODING_PCM_FLOAT` `ENCODING_AC3` `ENCODING_E_AC3` `ENCODING_DTS` `ENCODING_DTS_HD` `ENCODING_MP3` `ENCODING_AAC_LC` `ENCODING_AAC_HE_V1` `ENCODING_AAC_HE_V2` `ENCODING_IEC61937` `ENCODING_DOLBY_TRUEHD` `ENCODING_AAC_ELD` `ENCODING_AAC_XHE` `ENCODING_AC4` `ENCODING_E_AC3_JOC` `ENCODING_DOLBY_MAT` `ENCODING_OPUS` `ENCODING_PCM_24BIT_PACKED` `ENCODING_PCM_32BIT` `ENCODING_MPEGH_BL_L3` `ENCODING_MPEGH_BL_L4` `ENCODING_MPEGH_LC_L3` `ENCODING_MPEGH_LC_L4` `ENCODING_DRA`
params.waveFrameSize	Integer	否	无	帧大小
params.saveAudio	Boolean	否	false	是否保存录音文件
params.srFormat	String	否	无	音频编码格式，支持OPUS编码和PCM原始音频。默认值：OPUS。如果使用8000Hz采样率，则只支持PCM格式
params.model	String	否	无	模型选择, 注意模型对应的采样率要求。
params.vocabularyId	String	否	无	定制泛热词ID
params.transcriptionEnabled	Boolean	否	无	设置是否启用识别功能
params.translationEnabled	Boolean	否	无	设置是否启用翻译功能。要正常输出翻译结果，需配置translationTargetLanguage参数
params.sourceLanguage	String	否	无	设置源（待识别/翻译语言）语言代码。如果无法提前确定语种，可不设置，默认为auto。
params.translationTargetLanguage	String	否	无	设置翻译目标语言代码。目标语言的代码与source_language参数一致,目前暂不支持同时翻译为多种语言，请仅设置一个目标语言以完成翻译
params.maxEndSilence	Integer	否	800	设置最大结束静音时长，单位为毫秒（ms），取值范围为200ms至6000ms，若语音结束后静音时长超过该预设值，系统将判定当前语句已结束
params.dnsTimeout	Integer	否	5000	DNS解析的超时时间设置(单位ms)，默认5000
params.extendConfig	Object	否	无	若需要设置交互协议支持但是接口说明中未说明的参数，可通过此万能设置接口进行配置。具体设置方法请见代码示例
params.apikey	String	是	无	临时Token
success	Function	否	无	执行成功的函数
fail	Function	否	无	执行失败的函数
complete	Function	否	无	执行完成的函数，不管成功还是失败都会执行

回调

示例

json

{
    "data": {},
    "message": "",
    "code": 0
}

回调说明：
参数名参数类型参数描述
message String 消息提示
data Object 数据对象
code Integer 返回类型，0.成功，其他：失败

语音识别

实时转写/实时识别

一句话识别

文件极速识别

语音合成

流式语音合成

语音合成

Gummy

Paraformer

FunAsr

Sambert

CosyVoice

开启实时识别、翻译

方法名

用法

回调

参数名	参数类型	参数描述
message	String	消息提示
data	Object	数据对象
code	Integer	返回类型，0.成功，其他：失败

实时转写/实时识别

一句话识别

文件极速识别

流式语音合成

语音合成

开启实时识别、翻译 ​

方法名 ​

用法 ​

回调 ​

开启实时识别、翻译

方法名

用法

回调