Skip to content

开始实时转写/实时识别

方法名

startSpeechTranscriber

注意

识别结果在初始化回调中返回

用法

  • 用法如下:
js
module.startSpeechTranscriber({
  params: {
    //音频资源,可选值:请参考插件文档
    audioSource: "DEFAULT",
    //音频采样率,默认值:16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
    sampleRate: this.form.sampleRate,
    //音频输入通道,可选值请参考插件文档
    channel: "CHANNEL_IN_MONO",
    //编码,可选值请参考插件文档
    encoding: "ENCODING_PCM_16BIT",
    //帧大小
    waveFrameSize: 20 * 2 * 16000 / 1000,
    //是否保存录音文件
    saveAudio: this.form.saveAudio,
    //音频编码格式,支持OPUS编码和PCM原始音频。默认值:OPUS。如果使用8000Hz采样率,则只支持PCM格式。
    srFormat: this.form.format,
    //是否返回中间识别结果,默认值:false。
    enableIntermediateResult: true,
    //是否在后处理中添加标点,默认值:false。
    enablePunctuationPrediction: true,
    //TN(逆文本inverse text normalization)中文数字转换阿拉伯数字。设置为True时,中文数字将转为阿拉伯数字输出,默认值:False。
    // enableInverseTextNormalization:true,
    //自学习模型ID
    // customizationId:"",
    //定制泛热词ID
    // vocabularyId: "",
    //语音断句检测阈值,静音时长超过该阈值被认为断句。取值范围:200ms~2000ms,默认值:800ms。
    // maxSentenceSilence: 800,
    //是否开启返回词信息。默认值:false。
    // enableWords: false,
    //过滤语气词,即声音顺滑,默认值false(关闭)。
    // disfluency: false,
    //设置服务端的vad模型id,默认无需设置。
    // vadModel: "",
    //噪音参数阈值,取值范围:-1~+1。该参数属高级参数,调整需谨慎并进行重点测试。
    // speechNoiseThreshold: 0,
    //若需要设置交互协议支持但是接口说明中未说明的参数,可通过此万能设置接口进行配置。具体设置方法请见代码示例。
    // extendConfig:{
    //   "custom_test":true
    // },
  },
  //成功执行的函数
  success: (res) => {
    console.log(res)
  },
  //失败执行的函数
  fail: (res) => {
    console.log(res)
  },
  //接口调用完成返回函数,不管成功还是失败都会返回
  complete: (res) => {
    console.log(res)
  }
})
js
module.startSpeechTranscriber({
  params: {
    //音频资源,可选值:请参考插件文档
    audioSource: "DEFAULT",
    //音频采样率,默认值:16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。
    sampleRate: sampleRate.value,
    //音频输入通道,可选值请参考插件文档
    channel: "CHANNEL_IN_MONO",
    //编码,可选值请参考插件文档
    encoding: "ENCODING_PCM_16BIT",
    //帧大小
    waveFrameSize: 20 * 2 * 16000 / 1000,
    //是否保存录音文件
    saveAudio: saveAudio.value,
    //音频编码格式,支持OPUS编码和PCM原始音频。默认值:OPUS。如果使用8000Hz采样率,则只支持PCM格式。
    srFormat: format.value,
    //是否返回中间识别结果,默认值:false。
    enableIntermediateResult: true,
    //是否在后处理中添加标点,默认值:false。
    enablePunctuationPrediction: true,
    //TN(逆文本inverse text normalization)中文数字转换阿拉伯数字。设置为True时,中文数字将转为阿拉伯数字输出,默认值:False。
    // enableInverseTextNormalization:true,
    //自学习模型ID
    // customizationId:"",
    //定制泛热词ID
    // vocabularyId: "",
    //语音断句检测阈值,静音时长超过该阈值被认为断句。取值范围:200ms~2000ms,默认值:800ms。
    // maxSentenceSilence: 800,
    //是否开启返回词信息。默认值:false。
    // enableWords: false,
    //过滤语气词,即声音顺滑,默认值false(关闭)。
    // disfluency: false,
    //设置服务端的vad模型id,默认无需设置。
    // vadModel: "",
    //噪音参数阈值,取值范围:-1~+1。该参数属高级参数,调整需谨慎并进行重点测试。
    // speechNoiseThreshold: 0,
    //若需要设置交互协议支持但是接口说明中未说明的参数,可通过此万能设置接口进行配置。具体设置方法请见代码示例。
    // extendConfig:{
    //   "custom_test":true
    // },
  },
  //成功执行的函数
  success: (res) => {
    console.log(res)
  },
  //失败执行的函数
  fail: (res) => {
    console.log(res)
  },
  //接口调用完成返回函数,不管成功还是失败都会返回
  // complete: (res) => {
  //   console.log(res)
  // }
} as LevenOptions)
  • 参数说明
    参数名参数类型是否必填默认值参数描述
    paramsObject接口请求参数
    params.audioSourceStringDEFAULT音频资源,可选值:
    DEFAULT MIC VOICE_UPLINK VOICE_DOWNLINK VOICE_CALL CAMCORDER VOICE_RECOGNITION VOICE_COMMUNICATION REMOTE_SUBMIX UNPROCESSED VOICE_PERFORMANCE
    params.sampleRateInteger16000音频采样率,默认值:16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型
    params.channelStringCHANNEL_IN_MONO音频输入通道,可选值:
    CHANNEL_IN_MONO CHANNEL_IN_BACK CHANNEL_IN_BACK_PROCESSED CHANNEL_IN_DEFAULT CHANNEL_IN_FRONT CHANNEL_IN_FRONT_PROCESSED CHANNEL_IN_LEFT CHANNEL_IN_LEFT_PROCESSED CHANNEL_IN_PRESSURE CHANNEL_IN_RIGHT CHANNEL_IN_RIGHT_PROCESSED CHANNEL_IN_STEREO CHANNEL_IN_VOICE_DNLINK CHANNEL_IN_VOICE_UPLINK CHANNEL_IN_X_AXIS CHANNEL_IN_Y_AXIS CHANNEL_IN_Z_AXIS
    params.encodingStringENCODING_PCM_16BIT编码,可选值:
    ENCODING_PCM_16BIT ENCODING_DEFAULT ENCODING_PCM_8BIT ENCODING_PCM_FLOAT ENCODING_AC3 ENCODING_E_AC3 ENCODING_DTS ENCODING_DTS_HD ENCODING_MP3 ENCODING_AAC_LC ENCODING_AAC_HE_V1 ENCODING_AAC_HE_V2 ENCODING_IEC61937 ENCODING_DOLBY_TRUEHD ENCODING_AAC_ELD ENCODING_AAC_XHE ENCODING_AC4 ENCODING_E_AC3_JOC ENCODING_DOLBY_MAT ENCODING_OPUS ENCODING_PCM_24BIT_PACKED ENCODING_PCM_32BIT ENCODING_MPEGH_BL_L3 ENCODING_MPEGH_BL_L4 ENCODING_MPEGH_LC_L3 ENCODING_MPEGH_LC_L4 ENCODING_DRA
    params.waveFrameSizeInteger帧大小
    params.saveAudioBooleanfalse是否保存录音文件
    params.srFormatString音频编码格式,支持OPUS编码和PCM原始音频。默认值:OPUS。如果使用8000Hz采样率,则只支持PCM格式
    params.formatString音频文件编码格式
    params.enableIntermediateResultBooleanfalse是否返回中间识别结果
    params.enablePunctuationPredictionBooleanfalse是否在后处理中添加标点
    params.enableInverseTextNormalizationBooleanfalseTN(逆文本inverse text normalization)中文数字转换阿拉伯数字。设置为True时,中文数字将转为阿拉伯数字输出
    params.customizationIdString自学习模型ID
    params.vocabularyIdString定制泛热词ID
    params.maxSentenceSilenceInteger800语音断句检测阈值,静音时长超过该阈值被认为断句。取值范围:200ms~2000ms
    params.enableWordsBooleanfalse是否开启返回词信息
    params.disfluencyBooleanfalse过滤语气词,即声音顺滑
    params.vadModelString设置服务端的vad模型id
    params.speechNoiseThresholdString噪音参数阈值,取值范围:-1~+1
    取值越接近-1,判定为语音的概率越大,亦即有可能更多噪声被当作语音被误识别
    取值越接近+1,判定为噪音的越多,亦即有可能更多语音被当作噪音被拒绝掉。
    该参数属高级参数,调整需谨慎并进行重点测试
    params.enableVoiceDetectionBooleanfalse若要使用VAD模式,则需要设置true
    params.maxStartSilenceInteger若要使用VAD模式,则需要设置,具体可参考示例文件
    params.maxEndSilenceInteger若要使用VAD模式,则需要设置,具体可参考示例文件
    params.enableWordLevelResultBooleanfalse是否返回词级别信息
    params.enableTimestampAlignmentBooleanfalse是否启用时间戳校准功能
    params.firstChannelOnlyBooleanfalse是否只识别首个声道 如果录音识别结果重复,您可以开启此参数
    params.filterWithEmptyString[]替换成空的敏感词,字符串数组集合
    params.filterWithSignedString[]替换成*的敏感词,字符串数组集合
    params.sentenceMaxLengthInteger每句最多展示字数,取值范围:[4,50]。默认不启用该功能。启用后如不填写字数,则按照长句断句
    params.extendConfigObject若需要设置交互协议支持但是接口说明中未说明的参数,可通过此万能设置接口进行配置。具体设置方法请见代码示例
    successFunction执行成功的函数
    failFunction执行失败的函数
    completeFunction执行完成的函数,不管成功还是失败都会执行

回调

  • 示例
json
{
    "data": {},
    "message": "",
    "code": 0
}
  • 回调说明:
    参数名参数类型参数描述
    messageString消息提示
    dataObject数据对象
    codeInteger返回类型,0.成功,其他:失败