开始实时转写/实时识别

方法名

startSpeechTranscriber

注意

识别结果在初始化回调中返回

用法

用法如下：

uniappuniappx

module.startSpeechTranscriber({
  params: {
    //音频资源，可选值：请参考插件文档
    audioSource: "DEFAULT",
    //音频采样率，默认值：16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
    sampleRate: this.form.sampleRate,
    //音频输入通道，可选值请参考插件文档
    channel: "CHANNEL_IN_MONO",
    //编码，可选值请参考插件文档
    encoding: "ENCODING_PCM_16BIT",
    //帧大小
    waveFrameSize: 20 * 2 * 16000 / 1000,
    //是否保存录音文件
    saveAudio: this.form.saveAudio,
    //音频编码格式，支持OPUS编码和PCM原始音频。默认值：OPUS。如果使用8000Hz采样率，则只支持PCM格式。
    srFormat: this.form.format,
    //是否返回中间识别结果，默认值：false。
    enableIntermediateResult: true,
    //是否在后处理中添加标点，默认值：false。
    enablePunctuationPrediction: true,
    //TN（逆文本inverse text normalization）中文数字转换阿拉伯数字。设置为True时，中文数字将转为阿拉伯数字输出，默认值：False。
    // enableInverseTextNormalization:true,
    //自学习模型ID
    // customizationId:"",
    //定制泛热词ID
    // vocabularyId: "",
    //语音断句检测阈值，静音时长超过该阈值被认为断句。取值范围：200ms～2000ms，默认值：800ms。
    // maxSentenceSilence: 800,
    //是否开启返回词信息。默认值：false。
    // enableWords: false,
    //过滤语气词，即声音顺滑，默认值false（关闭）。
    // disfluency: false,
    //设置服务端的vad模型id，默认无需设置。
    // vadModel: "",
    //噪音参数阈值，取值范围：-1～+1。该参数属高级参数，调整需谨慎并进行重点测试。
    // speechNoiseThreshold: 0,
    //若需要设置交互协议支持但是接口说明中未说明的参数，可通过此万能设置接口进行配置。具体设置方法请见代码示例。
    // extendConfig:{
    //   "custom_test":true
    // },
  },
  //成功执行的函数
  success: (res) => {
    console.log(res)
  },
  //失败执行的函数
  fail: (res) => {
    console.log(res)
  },
  //接口调用完成返回函数，不管成功还是失败都会返回
  complete: (res) => {
    console.log(res)
  }
})

module.startSpeechTranscriber({
  params: {
    //音频资源，可选值：请参考插件文档
    audioSource: "DEFAULT",
    //音频采样率，默认值：16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
    sampleRate: sampleRate.value,
    //音频输入通道，可选值请参考插件文档
    channel: "CHANNEL_IN_MONO",
    //编码，可选值请参考插件文档
    encoding: "ENCODING_PCM_16BIT",
    //帧大小
    waveFrameSize: 20 * 2 * 16000 / 1000,
    //是否保存录音文件
    saveAudio: saveAudio.value,
    //音频编码格式，支持OPUS编码和PCM原始音频。默认值：OPUS。如果使用8000Hz采样率，则只支持PCM格式。
    srFormat: format.value,
    //是否返回中间识别结果，默认值：false。
    enableIntermediateResult: true,
    //是否在后处理中添加标点，默认值：false。
    enablePunctuationPrediction: true,
    //TN（逆文本inverse text normalization）中文数字转换阿拉伯数字。设置为True时，中文数字将转为阿拉伯数字输出，默认值：False。
    // enableInverseTextNormalization:true,
    //自学习模型ID
    // customizationId:"",
    //定制泛热词ID
    // vocabularyId: "",
    //语音断句检测阈值，静音时长超过该阈值被认为断句。取值范围：200ms～2000ms，默认值：800ms。
    // maxSentenceSilence: 800,
    //是否开启返回词信息。默认值：false。
    // enableWords: false,
    //过滤语气词，即声音顺滑，默认值false（关闭）。
    // disfluency: false,
    //设置服务端的vad模型id，默认无需设置。
    // vadModel: "",
    //噪音参数阈值，取值范围：-1～+1。该参数属高级参数，调整需谨慎并进行重点测试。
    // speechNoiseThreshold: 0,
    //若需要设置交互协议支持但是接口说明中未说明的参数，可通过此万能设置接口进行配置。具体设置方法请见代码示例。
    // extendConfig:{
    //   "custom_test":true
    // },
  },
  //成功执行的函数
  success: (res) => {
    console.log(res)
  },
  //失败执行的函数
  fail: (res) => {
    console.log(res)
  },
  //接口调用完成返回函数，不管成功还是失败都会返回
  // complete: (res) => {
  //   console.log(res)
  // }
} as LevenOptions)

参数说明

参数名	参数类型	是否必填	默认值	参数描述
params	Object	是	无	接口请求参数
params.audioSource	String	否	DEFAULT	音频资源，可选值： `DEFAULT` `MIC` `VOICE_UPLINK` `VOICE_DOWNLINK` `VOICE_CALL` `CAMCORDER` `VOICE_RECOGNITION` `VOICE_COMMUNICATION` `REMOTE_SUBMIX` `UNPROCESSED` `VOICE_PERFORMANCE`
params.sampleRate	Integer	否	16000	音频采样率，默认值：16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型
params.channel	String	否	CHANNEL_IN_MONO	音频输入通道，可选值： `CHANNEL_IN_MONO` `CHANNEL_IN_BACK` `CHANNEL_IN_BACK_PROCESSED` `CHANNEL_IN_DEFAULT` `CHANNEL_IN_FRONT` `CHANNEL_IN_FRONT_PROCESSED` `CHANNEL_IN_LEFT` `CHANNEL_IN_LEFT_PROCESSED` `CHANNEL_IN_PRESSURE` `CHANNEL_IN_RIGHT` `CHANNEL_IN_RIGHT_PROCESSED` `CHANNEL_IN_STEREO` `CHANNEL_IN_VOICE_DNLINK` `CHANNEL_IN_VOICE_UPLINK` `CHANNEL_IN_X_AXIS` `CHANNEL_IN_Y_AXIS` `CHANNEL_IN_Z_AXIS`
params.encoding	String	否	ENCODING_PCM_16BIT	编码，可选值： `ENCODING_PCM_16BIT` `ENCODING_DEFAULT` `ENCODING_PCM_8BIT` `ENCODING_PCM_FLOAT` `ENCODING_AC3` `ENCODING_E_AC3` `ENCODING_DTS` `ENCODING_DTS_HD` `ENCODING_MP3` `ENCODING_AAC_LC` `ENCODING_AAC_HE_V1` `ENCODING_AAC_HE_V2` `ENCODING_IEC61937` `ENCODING_DOLBY_TRUEHD` `ENCODING_AAC_ELD` `ENCODING_AAC_XHE` `ENCODING_AC4` `ENCODING_E_AC3_JOC` `ENCODING_DOLBY_MAT` `ENCODING_OPUS` `ENCODING_PCM_24BIT_PACKED` `ENCODING_PCM_32BIT` `ENCODING_MPEGH_BL_L3` `ENCODING_MPEGH_BL_L4` `ENCODING_MPEGH_LC_L3` `ENCODING_MPEGH_LC_L4` `ENCODING_DRA`
params.waveFrameSize	Integer	否	无	帧大小
params.saveAudio	Boolean	否	false	是否保存录音文件
params.srFormat	String	否	无	音频编码格式，支持OPUS编码和PCM原始音频。默认值：OPUS。如果使用8000Hz采样率，则只支持PCM格式
params.format	String	否	无	音频文件编码格式
params.enableIntermediateResult	Boolean	否	false	是否返回中间识别结果
params.enablePunctuationPrediction	Boolean	否	false	是否在后处理中添加标点
params.enableInverseTextNormalization	Boolean	否	false	TN（逆文本inverse text normalization）中文数字转换阿拉伯数字。设置为True时，中文数字将转为阿拉伯数字输出
params.customizationId	String	否	无	自学习模型ID
params.vocabularyId	String	否	无	定制泛热词ID
params.maxSentenceSilence	Integer	否	800	语音断句检测阈值，静音时长超过该阈值被认为断句。取值范围：200ms～2000ms
params.enableWords	Boolean	否	false	是否开启返回词信息
params.disfluency	Boolean	否	false	过滤语气词，即声音顺滑
params.vadModel	String	否	无	设置服务端的vad模型id
params.speechNoiseThreshold	String	否	无	噪音参数阈值，取值范围：-1～+1 `取值越接近-1，判定为语音的概率越大，亦即有可能更多噪声被当作语音被误识别` `取值越接近+1，判定为噪音的越多，亦即有可能更多语音被当作噪音被拒绝掉。` `该参数属高级参数，调整需谨慎并进行重点测试`
params.enableVoiceDetection	Boolean	否	false	若要使用VAD模式，则需要设置true
params.maxStartSilence	Integer	否	无	若要使用VAD模式，则需要设置，具体可参考示例文件
params.maxEndSilence	Integer	否	无	若要使用VAD模式，则需要设置，具体可参考示例文件
params.enableWordLevelResult	Boolean	否	false	是否返回词级别信息
params.enableTimestampAlignment	Boolean	否	false	是否启用时间戳校准功能
params.firstChannelOnly	Boolean	否	false	是否只识别首个声道 `如果录音识别结果重复，您可以开启此参数`
params.filterWithEmpty	String[]	否	无	替换成空的敏感词，字符串数组集合
params.filterWithSigned	String[]	否	无	替换成*的敏感词，字符串数组集合
params.sentenceMaxLength	Integer	否	无	每句最多展示字数，取值范围：[4，50]。默认不启用该功能。启用后如不填写字数，则按照长句断句
params.extendConfig	Object	否	无	若需要设置交互协议支持但是接口说明中未说明的参数，可通过此万能设置接口进行配置。具体设置方法请见代码示例
success	Function	否	无	执行成功的函数
fail	Function	否	无	执行失败的函数
complete	Function	否	无	执行完成的函数，不管成功还是失败都会执行

回调

示例

json

{
    "data": {},
    "message": "",
    "code": 0
}

回调说明：
参数名参数类型参数描述
message String 消息提示
data Object 数据对象
code Integer 返回类型，0.成功，其他：失败

语音识别

实时转写/实时识别

一句话识别

文件极速识别

语音合成

流式语音合成

语音合成

Gummy

Paraformer

FunAsr

Sambert

CosyVoice

开始实时转写/实时识别

方法名

用法

回调

参数名	参数类型	参数描述
message	String	消息提示
data	Object	数据对象
code	Integer	返回类型，0.成功，其他：失败

实时转写/实时识别

一句话识别

文件极速识别

流式语音合成

语音合成

开始实时转写/实时识别 ​

方法名 ​

用法 ​

回调 ​

开始实时转写/实时识别

方法名

用法

回调