顶顶通语音识别使用说明 | 顶顶通 - 呼叫中心二次开发接口,smartivr,mod_vad,FreeSWITCH,语音识别,呼叫中心中间件,电话机器人,空号检测,智能外呼。

介绍

顶顶通语音识别软件(asrproxy)是一个对接了多种语音识别(ASR)和文字转语音(TTS)接口的语音识别和文字转语音系统。可私有化部署(支持中文英文和方言等，支持一句话识别、实时流识别、多声道录音文件识别。

原理

asrproxy内嵌了阿里达摩院的开源语音识别工具包FunASR,后续我们也会使用自有的语料来增强模型，以后也会添加openai的开源模型whisper 。asrproxy也对接了主流的ASR云服务商，比如阿里云，科大讯飞，腾讯云，mrcp等。使用同一套接口就可以无缝切换各种ASR和TTS。

私有化部署TTS支持

asrproxy内嵌了PaddleSpeech 开源TTS模型库。

测试方法 http://demo.ddrj.com:9989/tts?text=端午节，是中国四大传统节日之一，节日时间为农历五月初五，是集拜神祭祖、祈福辟邪、欢庆娱乐和饮食为一体的民俗大节。 把这个链接直接复制到浏览器地址栏，就可以下载到tts后的声音文件。测试其他文字可以自行修改链接中的文字内容。

ASR用法和说明文档

一句话识别接口和录音文件识别接口

识别参数放在http请求头里面，声音文件内容通过post发送，不需要编码发送原始文件就可以。

POST /asr HTTP/1.1
Host: 116.62.146.93:9990
User-Agent: Mozilla/5.0
Accept: */*
Cache-Control: max-age=0
Connection: close
id:test
samplerate: 8000
signature:605bef92414621abfca073ebc6ad7d3b
timestamp:1697505856
engine:shortsentence
Content-Length: 30240
声音数据

识别结果通过JSON返回。

HTTP/1.1 200 OK
Date: Tue, 17 Oct 2023 01:25:36 GMT
Server: www.ddrj.com
Content-Length: 35
Connection: Keep-Alive
Content-Type: text/plain
Pragma: no-cache
Cache-Control: private, max-age=0, no-cache

{"code":"0","desc":"识别结果"}

请求参数说明

timestamp 时间戳和服务器误差只允许5分钟内
id asrproxy.json配置的用户id(asrproxy.json->short_sentence_asr->users)
signature 签名 md5(key+timestamp) 本例中key是test,md5(test1697505856)=605bef92414621abfca073ebc6ad7d3b。
key配置位置：asrproxy.json->short_sentence_asr->users->id->key
engine 引擎类型 asrproxy.json->groups配置ASR引擎，默认配置是 shortsentence
hostwords 热词，多个热词用空格分开
datatype 数据类型，不设置默认是pcm类型
1. pcm 原始的PCM数据，
2. wav wav格式的数据
3. mp3 mp3格式的数据
4. url 通过URL获取文件, 提交到任务队列，后台识别。
5. raw asr服务器本地文件
samplerate datatype是pcm时有效，声音采样频率，不设置默认是8000
sentence_time 是否需要输出句子时间，设置为true输出。
post内容
- datatype是pcm、wav、mp3时是原始的声音数据
- datatype是raw时是asr本地文件路径
- datatype是url时是josn格式的要识别的文件信息
  {
  "uuid": "",
  "callback_url": "",
  "file_url": "",
  "ext": "wav|mp3|pcm",
  "valid_times": [{
  "begin_time": 10,
  "end_time": 17
  }],
  "ignore_channel": ""
  }
  字段说明
  - uuid 唯一的ID，回调通知用
  - ext http 返回的数据类型,如果file_url是本地文件会根据文件后缀来识别文件类型
  - file_url 要识别文件的URL，支持本地文件的绝对路径和http文件
  - callback_url 识别结果回掉URL
  - valid_times 控制指定声道识别的开始和结束时间，不设置这个参数就是全部识别，单位秒。第一个声道使用第一维的参数，第二个声道使用第二维的参数。
  - ignore_channel 不识别哪个声道的声音，字符串类型。第一个声道是0，第二个声道是1。

响应参数说明

code 0 没错误其他错误代码，如果有错误desc内容是错误信息
queue_size 队列中录音个数，通过url提交文件才有这个参数。

desc

识别单声道文件时desc是字符串类型的识别结果。
识别多声道文件时,desc字符串数组类型[“第一声道的识别结果”,”第二声道的识别结果”]
sentence_time 设置为true,desc 是json对象
rec_duration 录音时常，单位秒

sentences 句子列表

silence_duration 句子前面的静音时间，单位秒
begin_time 句子开始时间，单位秒
end_time 句子结束时间，单位秒
speech_rate 语速，单位为每分钟字数
channel_id 声道，第一个声道是0，第二个声道是1。

{
    "uuid": "",
    "code": "0",
    "desc": {
        "rec_duration": 10.9,
        "sentences": [{
                "silence_duration": 1.36,
                "begin_time": 1.36,
                "end_time": 3.19,
                "speech_rate": 131.148,
                "channel_id": 0,
                "text": "喂你好。"
            },
            {
                "silence_duration": 0.74,
                "begin_time": 3.93,
                "end_time": 17.76,
                "speech_rate": 303.688,
                "channel_id": 0,
                "text": "这边是百万医疗项目的客服哈。"
            },
            {
                "silence_duration": 1.36,
                "begin_time": 1.36,
                "end_time": 3.19,
                "speech_rate": 131.148,
                "channel_id": 1,
                "text": "喂你好。"
            }, {
                "silence_duration": 0.74,
                "begin_time": 3.93,
                "end_time": 17.76,
                "speech_rate": 303.688,
                "channel_id": 1,
                "text": "这边是百万医疗项目的客服哈。"
            }
        ]
    }
}

测试方法

接口测试地址 http://demo.ddrj.com:9990/asr

浏览器直接上传文件测试地址 http://demo.ddrj.com:9990/test

可用curl命令测试,为了调过验证签名步骤，需要把asrproxy.json->short_sentence_asr->users->id(test)里面添加”not_validate_signature”:true这个配置。

一句话识别测试

pos提交数据测试，wav改成要识别的文件，如果识别的文件是mp3的，datatype:wav也要改成datatype:mp3

curl -H "id:test" -H "engine:shortsentence" -H "datatype:wav" -X POST --data-binary @1.wav  http://demo.ddrj.com:9990/asr

asr服务器本地文件识别测试

curl -H "id:test" -H "engine:shortsentence" -H "datatype:raw" -X POST -d "/var/record/1.mp3" http://demo.ddrj.com:9990/asr

http接口下载录音文件识别测试

curl -H "id:test" -H "engine:shortsentence" -H "datatype:url" -H "sentence_time:true" -X POST -d "{\"ext\":\"mp3\",\"uuid\":\"name\",\"file_url\":\"http://demo.ddrj.com/t1.mp3\",\"callback_url\":\"http://demo.ddrj.com/ttsresult\"}" http://demo.ddrj.com:9990/asr

录音文件识别测试输出每句话时间

curl -H "id:test" -H "engine:shortsentence" -H "datatype:wav" -H "sentence_time:true" -X POST --data-binary @1.wav  http://demo.ddrj.com:9990/asr

设置过滤识别指定通道和识别特定的时间范围

curl -H "id:test" -H "engine:shortsentence" -H "datatype:url"  -H "sentence_time:true" -X POST -d "{\"valid_times\": [{ \"begin_time\": 10, \"end_time\": 17 }],\"ignore_channel\":\"1\",\"ext\":\"mp3\",\"uuid\":\"name\",\"file_url\":\"http://demo.ddrj.com/t1.mp3\",\"callback_url\":\"http://demo.ddrj.com/ttsresult\"}" http://demo.ddrj.com:9990/asr

实时流识别接口

通过websocket连接上 ws://127.0.0.1:9988 ,发送一个请求头，然后发送二进制的声音流，结束识别发送字符串END结束识别。

引导头格式为时间戳json的参数\0,注意\0是一个二禁制的0。

1699344741507{"callid":"07ca13d3-55cc-47ef-a591-ffaee83d0e0b","asr_mode":1,"hot_word":"","asr_params":{"group":"default"},"vad_min_active_time_ms":100,"vad_max_end_silence_time_ms":1000,"wait_speech_timeout_ms":5000,"max_speech_time_ms":60000,"samples_per_second":8000}\0

asr_mode: asr模式 0只第一句话 1 持续识别
hot_word: 热词，需要asr引擎支持
asr_params: asr参数，可用来选择asr引擎 {\”group\”:\”default\”}
vad_min_active_time_ms: 最小说话时间，需要ASR引擎支持
vad_max_end_silence_time_ms:　最大静音时间，需要ASR引擎支持
wait_speech_timeout_ms:　等待说话时间，需要ASR引擎支持
max_speech_time_ms:　最大识别时间，需要ASR引擎支持
samples_per_second: 声音频率 8000或者 16000

返回识别结果

【标记1个字节-识别结果】
标记字符含义
0:中间结果
1:句子结束，对于支持长时间识别的ASR才支持，用于断句。
F:识别结束，客户端已经发送了END
f:识别结束，客户端没有发送END，ASR检测到静音太长认为停止说话了。
E:ASR错误
标志是f/F/E的时候客户端要主动断开连接

测试页面

http://demo.ddrj.com/wsasr.html

配置例子

{
    "key":"asrproxy.license",  //授权文件路径

    "log":{
        "console_level":0, //输出控制台日志等级0-5(0:DEBUG, 1:INFO, 2:NOTICE, 3:WARNING, 4:CRIT, 5:CONSOLE)
        "file_level":0,    //输出到文件日志等级0-5(0:DEBUG, 1:INFO, 2:NOTICE, 3:WARNING, 4:CRIT, 5:CONSOLE)
        "file_maxsize":100, //文件大于多少M就自动创建新的日志文件。
        "file_number":10 //最大保留日志文件个数
    },

    "short_sentence_asr":{
        "listen_ip":"0.0.0.0", //一句话识别监听的IP
        "listen_port":9990,
        "bgasr_thread_count":null, //录音文件识别的ASR线程个数，如果不设置就是根据CPU个数自动设置。
        "users":{
            //用户ID，可以配置多个用户
            "test":{          
                 "not_validate_signature":false,//是否禁用验证签名，改成true,就是不验证签名
                "key":"test",//用户KEY
                "ip":"*"  //*任意IP都可以访问，也可以限制可以访问的ip
            }
        }
    },

    "asr":{
    
        "listen_ip": "127.0.0.1", //实时识别监听的IP
        "listen_port": 9988,
        "storage": "record", //asr录音目录，调用asr时，设置了asr_params.recordfilename才会录音。
        "acl":"*", //哪些IP可以访问，配置*任意IP都可以访问，多个IP用逗号隔开，如果不配置acl，通过127.0.0.1不需要配置在ACL里面也可以访问。
        "interface": {

           //一句话识别16K大模型
            "paraformer_16K": { 
                    "type": "funasr", 
                    "engine": "sentence", 
                    "quantize": true, 
                    "enable_itn": true, 
                    "itn-dir": "/ddt/asrproxy/funasr/fst_itn_zh", 
                    "vad-dir": "/ddt/asrproxy/funasr/speech_fsmn_vad_zh-cn-16k-common-onnx", 
                    "vad-quant": true, 
                    "punc-dir": "/ddt/asrproxy/funasr/punc_ct-transformer_zh-cn-common-vocab272727-onnx", 
                    "model-dir": "/ddt/asrproxy/funasr/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx", 
                    "online-model-dir": "", 
                    "lm-dir": "", 
                    "hotword": ""
            },


            //实时识别16K大模型
            /*
            "paraformer_16K": { 
                    "type": "funasr", 
                    "engine": "sentence", 
                    "quantize": true, 
                    "enable_itn": true, 
                    "itn-dir": "/ddt/asrproxy/funasr/fst_itn_zh", 
                    "vad-dir": "/ddt/asrproxy/funasr/speech_fsmn_vad_zh-cn-16k-common-onnx", 
                    "vad-quant": true, 
                    "punc-dir": "/ddt/asrproxy/funasr/punc_ct-transformer_zh-cn-common-vocab272727-onnx", 
                    "model-dir": "/ddt/asrproxy/funasr/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx", 
                    "online-model-dir": "", 
                    "lm-dir": "", 
                    "hotword": ""
            },
            */

            
            //一句话识别16K热词模型
            /*
            "paraformer_16K": { 
                    "type": "funasr", 
                    "engine": "sentence", 
                    "quantize": true, 
                    "enable_itn": true, 
                    "itn-dir": "/ddt/asrproxy/funasr/fst_itn_zh", 
                    "vad-dir": "/ddt/asrproxy/funasr/speech_fsmn_vad_zh-cn-16k-common-onnx", 
                    "vad-quant": true, 
                    "punc-dir": "/ddt/asrproxy/funasr/punc_ct-transformer_zh-cn-common-vocab272727-onnx", 
                    "model-dir": "/ddt/asrproxy/funasr/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx", 
                    "online-model-dir": "", 
                    "lm-dir": "/ddt/asrproxy/funasr/speech_ngram_lm_zh-cn-ai-wesp-fst", 
                    "hotword": ""
            },
            */
            
           //实时识别16K大模型加热词修正
           /*
            "paraformer_realtime_16K": { 
                    "type": "funasr", 
                    "engine": "2pass", 
                    "quantize": true, 
                    "enable_itn": true, 
                    "itn-dir": "/ddt/asrproxy/funasr/fst_itn_zh", 
                    "vad-dir": "/ddt/asrproxy/funasr/speech_fsmn_vad_zh-cn-16k-common-onnx", 
                    "vad-quant": true, 
                    "punc-dir": "/ddt/asrproxy/funasr/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx", 
                    "model-dir": "/ddt/asrproxy/funasr/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx", 
                    "online-model-dir": "/ddt/asrproxy/funasr/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx", 
                    "lm-dir": "/ddt/asrproxy/funasr/speech_ngram_lm_zh-cn-ai-wesp-fst", 
                    "hotword": "", 
                    "chunk-size": 800
            }
            */
          
        },
        "groups":{
             //实时识别使用的ASR
            "default":{ 
                "mode":0,  //0:顺序使用，当使用数量等于count的时候切换下一个  1:循环使用
                "enable": //启用的那些ASR配置
                [
                    "paraformer_realtime_16K"
                ]
            },
            //一句话识别和文件识别使用的ASR
            "shortsentence":{
                "mode":0,
                "enable":[
                    "paraformer_16K"
                ]
            }
        }
    }
}

type asr类型必须是funasr
engine 引擎类型
- 一句话识别设置为 sentence
- 实时识别
  - offline:关闭实时识别
  - online:开启实时识别
  - 2pass:混合2种模式，需要更多CPU。
enable_itn 是否启用数字转换成阿拉伯数字
itn-dir 数字模型目录
model-dir 模型目录
online-model-dir 实时识别模型目录
punc-dir 标点模型目录
vad-dir vad模型目录
lm-dir 语言模型目录（用于热词识别）
chunk-size 实时识别多少数据提交一次
hotword 热词文件

SenseVoice-Small 特有参数
remove_label 是否移除情绪识别，语音事件检测结果。布尔类型，默认true
svs_lang 设置语种，默认”auto”,其他参数 “zn”, “en”, “yue”, “ja”, “ko”, “nospeech”

介绍

原理