常用的语音芯片有哪些??

2024-05-16

1. 常用的语音芯片有哪些??

语音芯片分的种类也很多,有分一次性语音的,这类型的便宜些,如WTN3,WT5S,WTH系列语音芯片等;有可重复擦写的语音芯片,这个可以多次写入语音,类似WT588D,WT2000,WT2003等,语音芯片里面又分有录音ic,语音放音ic,一个是有录音功能的,一个是没有录音功能,两者肯定均有放音功能,而且如果自己要用语音芯片,要看自己的语音内容是多长的,需要装入多长的语音,价格要求怎样,这些都要看各人的选型了,市场上目前没有说哪个是通用万能的语音芯片,毕竟,你要跟实际情况挂钩的

常用的语音芯片有哪些??

2. 语音芯片如何选型?

带有语音功能的电子血压计,带有语音播放功能,测量前、使用时、测量后都能够很清晰地听到血压计的测量情况,非常方便老人及视力不好的人使用.
在设计语音血压计的时候,应该如何选择语音芯片及其方案?以下我推荐几个方案供你选择,具体看你这边的需求是怎样的了!
1.低成本的电子血压计语音方案.
 
低成本的电子血压计语音方案对价格敏感,要性能和质量上要求中规中矩.此时可以选择WTH040语音芯片作为电子血压计语音核心.
WTH040单芯片工作电压范围为DC2.4~5.0V之间,能够在臂式、腕式电子血压仪设计的电压范围内使用.芯片可选PWM和DAC音频输出方式,在音量要求不是非常高时,可直接使用PWM驱动8欧姆0.5瓦的喇叭,音量有一定要求时可使用DAC输出,使用三极管驱动喇叭的方式进行放音.
2.低成本、音质要求高的语音芯片方案WTH080
WTH080和WTH040同属于WTH系列语音芯片.WTH080比WTH040多拥有40秒的语音资源,这意味着在WTH040资源不够使用或者很资源紧张,但又想提高音质时,可以使用WTH080,在制作语音工程时将语音文件的采样率提高,以达到更佳的音质.
 
WTH080和WTH040的工作模式、控制方式、段数等完全一致,仅是语音长度不一样.
但是请注意:WTH080的封装管脚定义和WTH040不同,客户在设计和使用时不能直接替换,因此在做样品时要确定好语音芯片型号,不确定的情况下可以考虑做两种样品进行比较.
 
3.通用通讯协议或私有通讯协议方案,可直接发语音帧,不需要客户组合
在语音血压计通讯协议当中,很多厂家都有约定俗成的通讯方式,该种方式的优点是设备的协议接口统一,对接简单,器件可替换性强,已经形成一种默认的行业标准(公开的或未公开的).当然也有部分厂家为了技术保密或其它方面考虑,使用的是私有通讯协议.
 
播放语音时,一般有两种可行性方案:
(1)使用二线控制、三线控制、串口控制语音芯片进行语音组合.例如:测量结果为高压110KPa,低压75Kpa,血压范围正常.那么单片机播放结果时,必须发送“测量结果为”-等候Busy-“高压”-等候Busy-“一百”-等候Busy-“一”-等候Busy“十”-等候Busy-“千帕”-等候Busy-“低压”-等候Busy—“七”-等候Busy-“十”-等候Busy-“五”-等候Busy-“千帕”-等候Busy-“血压范围”-等候Busy-“正常”.
可见,单片机在组合语音时,必须时刻检测Busy以控制语音组合的播放,这时候单片机几乎不能再去做其它工作了,这对一些控制资源非常紧张的产品来说,无疑是雪上加霜.
 
(2)让语音芯片独立承担语音部分的工作.WTV语音芯片具有可编程的功能,能够按照特定的通讯协议由语音芯片自己进行语音的组合播放,客户的MCU单片机只需要发送需要播放的语音帧过来即可,完全不需要再额外干预,语音芯片会根据接收到组合帧,进行语音组合并播放出来.换言之,使用WTV语音芯片的特点是对客户的MCU而言只需要发一个语音帧,过程简单,而且语音组合出来的结果不会漏报的情况,极大提高了语音播放过程当中出现的卡顿、播放不完全、播放漏字等重大缺陷.
4.播放语音超过80秒,如何选用性价比高的语音芯片方案?
从市面上的产品方案以及芯片选型列表中可以明确看出,超过80秒的语音芯片,尤其是几分钟或几十分钟的带有音乐功能的语音播放时,单芯片的血压计语音芯片方案在价格上已经没有优势,而且因用量不大,容易出现缺货无货的情况,有什么方案可以缓解这个问题呢.
 
答案是使用WTV020-S方案.WTV020-S继承了WTV系列芯片可编程的特点,具有WTV芯片的所有特性,区别仅在于存储的语音内容放置在外挂的SPI-flash存储器当中.WTV020-S支持的SPI-Flash存储器最大为64Mbit,折合语音长度约3000秒(6K采样率,50分钟),客户可根据具体的使用环境和音质要求更换存储器的内容,电路设计、程序设计等完全不需要变动,适用在语音长度较长的血压计产品上.
 
综述:
1.WTH040芯片方案,使用二线串口控制,需要检测Busy,语音需要组合,需要有研发能力,音质不是非常高.
2.WTH080芯片方案,使用二级串口控制,需要检测Busy,语音需要组合,需要有研发能力,同等语音长度下音质比WTH040好.
3.WTV芯片方案,使用二级或三线串口,可编程,可以选择单片机进行语音组合,也可以设计成直接接收语音帧,由语音芯片完成组合并播放.
    4.WTV-S方案,使用二级或三线串口,可编程,可以选择单片机进行语音组合,也可以设计成直接接收语音帧,由语音ic完成组合并播放.外挂SPI-Flash,语音长度较长.

3. 语音识别芯片的介绍

语音识别芯片也叫语音识别IC,与传统的语音芯片相比,语音识别芯片最大的特点就是能够语音识别,它能让机器听懂人类的语音,并且可以根据命令执行各种动作,如眨眼睛、动嘴巴(智能娃娃)。除此之外,语音识别芯片还具有高品质、高压缩率录音放音功能,可实现人机对话。

语音识别芯片的介绍

4. 语音识别芯片的基本原理

嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理,包括语音信号的采样、反混叠滤波、语音增强,接下来是特征提取,用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后的数据一般分为两个步骤,第一步是系统“学习”或“训练”阶段,这一阶段的任务是构建参考模式库,词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。第二是“识别”或“测试”阶段,按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。

5. 语音芯片资料

JQ2660是一款具有单片机内核的语音芯片,因此,可以冠名为JQ2660系列语音单片机。功能多音质好应用范围广性能稳定是JQ2660系列语音单片机的特长,弥补了以往各类语音芯片应用领域狭小的缺陷,MP3控制模式、按键控制模式、按键组合控制模式、并口控制模式、一线串口控制模式、等多种控制方式,配套专用上位机,指令自动生成,可以让开发工程师省去很多调试时间,能快速上手,可以让应用人员能将产品投放在几乎可以想象得到的场所。作为一款以语音为基础的芯片,对音质的追求当然也是精益求精的,完全支持6K~22KHz采样率的音频加载,芯片的独到之处便是将加载的音频音质几乎完整无损的展现出来。JQ2660系列语音单片机支持SPI-FLASH内容在线下载,SPIFLASH直接枚举成U盘,连接PC像U盘一样操作即可,无需要其它上位机来更新,这是一个应用人员不可或缺的优势!JQ2660语音单片机的推出,非常的具有语音市场的前瞻性和革命性,势必会在语音芯片的应用方面卷起一股旋风。如何将JQ2660语音单片机在实际应用中发挥得淋漓尽致,还需请您详读JQ2660系列语音单片机使用说明书。
最后,感谢您选择JQ2660系列语音单片机作为语音电路的核心。

1、JQ2660语音芯片特征
u  支持MP3  WAV 硬件解码
u  支持FAT文件系统
u  支持采样率(KHz):8/11.025/12/16/22.05/24/32/44.1/48
u  24位DAC输出内部采用DSP硬件解码,非PWM输出,动态范围支持 90dB,信比 85dB
u  多种控制模式、两线串口模式、一线串口控制、ADKEY等
u  支持U盘 、TF卡 、SPIFLASH
u  支持USB声卡,读卡器,HID控制
u  支持SPIFLASH枚举成U盘,直接像操作U盘一样更新SPIFLASH里的语音
u  支持上一曲,下一曲,播放、暂停、停止、选曲、等常用功能控制
u  支持播放曲目序号获取,总曲目及目录总曲目等信息获取
u  支持各种信息查询,轻松获取语音芯片的当前状态
u  支持指定曲目插播,即可以暂停当前播放的音乐,播放插播的曲目,播放完后返回原来曲目断点处播放
u  支持中英文路径插播,除了指定曲目插播,同时也支持指定路径插播,只需要发送插播的路径即可以轻松实现
u  支持跨盘符插播,如插播内容存储在SPIFLASH
u  支持指定中英文路径播放,无需知道要播放的内容的序号,直接发送所在的路径即可。
u  支持智能组合播放,特定的文件夹里的歌曲组合,发送曲目名即可组合。
u  支持30级音量调节
u  支持5种EQ调节
u  支持7种播放模式控制,可以适应不同的应用
u  支持循次数设置,更多应用,更人性化
u  支持系统深度睡眠,睡眠后电流低至600微安,可以通过一线串和指令IO唤醒
u  支持指定时间快进,快退
u  支持指定时间段复读
u  支持指定从指定的时候点开始播放
u  支持外输入音频和MP3音频混合,外输入、MP3输出、外输入和MP3混合三种输出切换
u  专用的BUSY信号输出指示
u  支持各种状态变化信息返回,如设备插拨等
u  成熟的指令和指令解析,让应用更稳定
u  专用配套上位机,快速上手,方便调试,指令自动生成

 
2、电流电压参数
工作电压:DC2.8V~5.5V,IO电平为3.3V
工作电流:10MA
睡眠电流:500uA
3、引脚说明
引脚
标示
说明
1
DACL
DAC音频左声道输出
2
DACR
DAC音频右声道输出
3
V3V3
内部LDO输出3.3V,输出电流100mA
4
VMCU
芯片供电脚,2.8-5.5V
5
VSSIO
芯片数字地
6
TX
芯片的串口发送脚,接MCU的RX脚
7
RX
芯片串口接收脚,接MCU的TX脚
8
P26
外部音频输入左声道
9
P27
外部音频输入右声道
10
VPP
一线串口脚,唤醒IO
11
BUSY
忙信号脚,播放时为高,其它为低
12
SPI_CS
SPIFLASH片选
13
SPI_DIO
SPIFLASH数据脚
14
SPI_SCK
SPIFLASH时钟脚
15
P02
脉冲触发,高脉冲有效,可断触发下一曲,唤醒IO
16
P05
脉冲触发,高脉冲有效,不可打断,只有停止时触发有效,唤醒IO
17
SD_CLK
SD卡时钟
18
SD_CMD
SD卡命令
19
SD_DAT
SD卡数据
20
USB_DM
USB的DM脚
21
USB_DP
USB的DP脚
22
RTCVDD
RTC供电脚,48脚封装才有时钟功能,W6094接电容就可以了
23
VCOM
音频退耦电容
24
DACVSS
模拟地,即音频地

 
 
JQ2660芯片支持中英文路径指定播放和插播功能,路径使用需要按以下格式
通配符是一种特殊语句,主要有星号(*)和问号(?),用来模糊搜索文件。当查找文件夹时,可以使用它来代替一个或多个真正字符;当不知道真正字符或者懒得输入完整名字时,常常使用通配符代替一个或多个真正的字符。
 
1、路径以”/”开头
2、文件夹名不超过8个字节,也就是不能超过4个汉字,如果超过4个汉字则取前面三个汉字加一个*组合。如果不够8个汉字用用空格补充,一个空格一个字节,注意输入法要在英文状态下,或用代表性的汉字+*组合。
3、不管盘符里面的文件夹或文件名是否是大写字母,在使用路径时,文件夹和文件的名字必须用大写字母或数字。
 
例如 ABC????? 表示开头的三个字符为 abc 的文件, abc* 也表示开头的 3 个字符为 abc 的文件。
 
例如:
音乐/01.mp3
则路径表示为: /音乐*/01*MP3
注意MP3要大写,没有点。所有的字母都要大写
代码则可以用上位机自动生成相关代码
本文件系统只支持FAT32和FAT16,支持SD卡和U盘和SPIFLASH三种存储设备播放,
文件路径深度最大支持9级,
 
曲目编号规则:
总体按目录编号,设备根目录为第0级目录,根目录下的文件夹为第1级目录,文件夹里的子文件夹按对应的目录增加,在曲目编号时先按目录编号,所以会从根目录开始编号,不管根目录的歌曲是什么时候拷贝进去,文件夹及子文件夹也是按同一个目录编号,当前目录下所有子目录全部编号完成后才继续另外的目录编号,目录刚按建立的先后顺序排列,录音文件夹里的文件会放在最后来编号,不管里面的文件是什么时候建立的。
 
各级目录之间编号关系:
所有编号是按目录编号的,同级目录编号按目录建立的先后顺序编号,比如有A文件夹和B文件夹,A文件夹先建立,则A文件夹及其子文件夹的编号都会先于B文件夹内的编号,不管其子文件夹是什么时候建立的。子目录的编号会接着父目录继续编号,比如第二级目录会接着第一级目录编号,比如A文件夹里有C和D两文件夹,C先D建立,系统在A目录下的歌曲编号完成后去处理C文件夹里的歌曲编号,C文件夹编号完成后才会去编号D文件夹里的编号,如果在后期C文件夹里的歌曲增加了,增加的文件编号还是会先于D文件夹里的歌曲编号。
 
JQ2660一线串口通信协议
单线串口播放
sda为数据发送端口,发送语音地址。先发送低位。下图范例发送的是89H。 

 
 
 
 
 
 
 
 
 

 
指令(HEX)
功能
说明
00
数字0
数字0-9可以用需要数字的功能,比如选曲、设置音量、设置EQ、设置循环模式、设置通道、设置插播曲目,先发数字后发功能指令
01
数字1
02
数字2
03
数字3
04
数字4
05
数字5
06
数字6
07
数字7
08
数字8
09
数字9
0A
清零数字
清除发送的数字
0B
选曲确认
配
合
数
字
实
现
0C
设置音量
0D
设置EQ
0E
设置循环模式
0F
设置通道
10
设置插播曲目
11
播放
 
12
暂停
 
13
停止
 
14
上一曲
 
15
下一曲
 
16
上一目录
 
17
下一目录
 
18
选择SD卡
 
19
选择U盘
 
1A
选择FLASH
 
1B
系统睡眠
 
1C
结束播放
 

 
模块通信协议
模块通信采用全双工串口串口通信,
波特率为9600,数据位:8 ,停止位1位,检验位 N
通信格式:
起始码-指令类型-数据长度(n)-数据1-数据n-和检验(SM)
指令码      :固定为AA
指令类型    : 用来区分指令类型  
数据长度    :指令中的数据的字节数
数据        :指令中的相关数据,当数据长度为1时,表示只有CMD,没有数据位
和检验      :为之前所有字节之和的低8位,即起始码到数据相加后取低8位
数据格式    :发送的数据或命令,高8位数据在前,低8位在后
通信机制:
1、我方做为从机处理,上电默认等待状态,所有播放操作全由主机控制。
2、从机不会主动发起通信,所有通信都是由主机发起
3、串口是3.3V的TTL电平,如果主机系统是5V电平请在中间串1K电阻。
4、如未特别说明,协议中所有数据都是表示十六进制数据
 
 
 
 
 
 
 
 
协议约定:
以下是本芯片返回和能识别的数据定义
 
播放状态定义 :系统上电处于停止状态
00(停止)  01(播放)  02(暂停)
 
盘符定义: 切换盘符后处于停止状态
USB:00   SD:01   FLASH:02   NO_DEVICE:FF
 
音量:音量总共为31级,0-30级,上电默认为20级
 
播放模式定义:上电默认为单曲停止
全盘循环(00):按顺序播放全盘曲目,播放完后循环播放  
单曲循环(01):一直循环播放当前曲目  
单曲停止(02):播放完当前曲目一次停止
全盘随机(03):随机播放盘符内曲目  
目录循环(04):按顺序播放当前文件夹内曲目,播放完后循环播放,目录不包含子目录 
目录随机(05): 在当前目录内随机播放,目录不包含子目录
目录顺序播放(06):按顺序播放当前文件夹内曲目,播放完后停止,目录不包含子目录
顺序播放(07):按顺序播放全盘曲目,播放完后停止 
 
 
EQ定义: NORMAL(00)  POP(01)  ROCK(02)  JAZZ(03)   CLASSIC(04)
上电默认EQ为NORMAL(00)
 
DAC输出通道定义:上电默认为MP3播放通道(00)
MP3播放通道(00): 播放MP3通道,DAC输出的声音为音乐播放的声音
AUX通道(01):DAC输出的声音为P26和P27输入的声音
MP3+AUX(02):AUX通道MP3同时打开,DAC输出的声音是音乐播放的声音和P26、P27输入的声音混合输出
 
组合播放定义:组合播放是按文件名来组合,文件要求存储在“ZH”文件夹下,可以把要组合的文件名称更改为两个字节的名称,一般建议用数字表示。如: 01.mp3,02.mp3,也可以用两个字母或一个汉字命名 
 
 

 
查询播放状态(01)
指令:AA 01 00 AB
返回:AA 01 01 播放状态 SM
说明:在任何时候都可以查询当前的播放状态
播放(02)
指令:AA 02 00 AC
返回:无
说明:在任何时候发此命令都会从头开始播放当前曲目
暂停(03)
指令:AA 03 00 AD
返回:无
 
停止(04)
指令:AA 04 00 AE
返回:无
上一曲(05)
指令:AA 05 00 AF
返回:无
下一曲(06)
指令:AA 06 00 B0
返回:无
指定曲目(07)
指令:AA 07 02曲目高 曲目低 SM
返回:无
例如:  AA 07 02 00 08 BB指定播放当前盘符第8首,曲目数从1-65535
 
指定盘符指定路径播放(08)
指令:AA 08 长度 盘符 路径 SM
返回 :无
说明:长度=盘符长度+路径长度=1+路径长度
例如:/广告/小米手机.mp3,可以按如下格式
/广告*/小米*???,  “广告*”代表前两个字为 “广告的文件夹”,*为通配符,
“小米*???”代表文件前两个字为”小米”的文件,后面三个?号表示格式不限制,本芯片支持MP3和WAV两种格式。用上位机取模数据如下:
取模数据为:02FD1108012FB9E3B8E62A2FD0A1C3D72A3F3F3FCD
具体格式和方法参考附件“W6094路径格式说明.PDF”
查询当前在线盘符(09)
指令:AA 09 00 B3
返回:  AA 09 01盘符 SM
说明:在线盘符是按位来区分的:USB:BIT(0)   SD:BIT(1)  FLASH:BIT(2)
此功能可以知道当前在线盘符,在切换盘符前建议先查询一下在线盘符
查询当前播放盘符(0A)
指令: AA 0A 00 B4
返回:AA 0A 01盘符 SM
切换到指定盘符(0B)
指令:AA 0B 01盘符 SM
返回:  无
说明:盘符切换指令,如果当前盘符在线,可以切换到相对应的盘符等待播放,切换后曲目为第1首,建议切 换前先查询一下盘符是否在线。
例如:
AA 0B 01 00 B6  切换到U盘,切换后处于停止状态
AA 0B 01 01 B7  切换到TF卡,切换后处于停止状态
AA 0B 01 02 B8  切换到FLASH卡,切换后处于停止状态
 
查询总曲目(0C)
指令:AA 0C 00 B6
返回:AA 0C 02总曲目高 总曲目低 SM
 
查询当前曲目(0D)
指令:AA 0D 00 B7
返回:AA 0D 02 曲目高 曲目低 SM
 
上一文件夹目录(0E)
指令:AA 0E 00 B8
返回:
说明:切换后会播放文件夹里的第一首
 
下一文件夹目录(0F)
指令:AA 0F 00 B9
返回:
说明:切换后会播放文件夹里的第一首
 
结束播放(10)
指令:AA 10 00 BA
说明:此指令可以提前结束当前操作,会结束当前播放,如果是在插播等则会提前结束插播返回原来状态
 
查询文件夹目录首曲目(11)
指令:AA 11 00 BB
返回:AA 11 02 曲目高 曲目低SM
说明:为当前目录的第一首歌曲的序号
 
查询文件夹目录总曲目(12)
指令:AA 12 00 BB
返回:AA 12 02 曲目高 曲目低SM
说明:此曲目不包含子目录里的文件数
 
 
音量设置(13):
指令:AA 13 01 VOL SM
返回:无
例如:AA 13 01 14 D2 设置音量为20级
 
音量加(14):
指令:AA 14 00 BE
返回:无
 
音量减(15):
指令:AA 15 00 BF
返回:无
 
指定曲目插播(16) :
指令:AA 16 03 盘符 曲目高 曲目低 SM
返回:无
例如:AA 16 03 00 00 09 CC  插播U盘里的第9首
说明:插播结束后返回插播点继续播放
 
 
 
 
指定路径插播(17) :
指令:AA 17 长度 盘符 路径 SM
返回 :无
说明:长度=盘符长度+路径长度=1+路径长度
 
结束插播:
指令:用结束播放指令
返回 :无
说明:在插播过程中可以提前结束插播
 
 
设置循环模式(18):
指令:AA 18 01 循环模式 SM
返回:无
举例:设置为单曲停止 :  AA 18 01 03 C6
说明:
 
 
设置循环次数(19):
指令:AA 19 02 次数高 次数低 SM
返回:无
说明:此指令只在播放模式为 全盘循环、单曲循环、目录循环时有效、顺序播放。
例如:AA 19 02 00 06 CB 循环6次
 
 
EQ设置(1A)
指令:AA 1A 01 EQ SM
返回:无
例如:AA 1A 01 02 C7       设置EQ为ROCK
 
组合播放(1B)
指令:AA 1B 长度 曲目1名称高字节,曲目名称1低字节..... 曲目n名称高字节,曲目n名称低字节 SM
返回 :无
例如:AA1B04303130328C,文件名为“01”、“02”歌曲组合播放
说明:文件名组合会方便很多,比文件序号组更准确,不受拷贝顺序限制。
 
结束组合播放(1C)
指令:AA 1C 00 C6
返回:无
说明:结速组合播放,返回组合前的播放状态
 
设置通道(1D)
指令:AA 1D 01 通道 SM
返回:无
 
 
查询歌曲短文件名(1E)
指令:AA 1E 00 C8
返回:AA 1E 短文件名长度 短文件名 SM
 
选曲不播放(1F)
指令:AA 1F 02 曲目高 曲目低 SM
返回:无
 
复读控制(20)
指令:AA 20 04 起始分  起始秒   结束分  结束秒  SM
返回:无
结束复读(21)
指令:AA 21 00 CB
返回:无
 
指定时间快退(22)
指令:AA 22  02 时间高8位  时间低8位 SM
返回:无
说明:单位为秒
 
指定时间快进(23)
指令:AA 23  02 时间高8位  时间低8位 SM
返回:无
说明:单位为秒
获取当前曲目总时间(24)
指令:AA 24 00 CE 
返回:AA 24 03 时 分 秒  SM
开启播放时间发送(25)
指令:AA 25 00 CF
返回:AA 25 03 时  分 秒  SM
说明:开启播放时间发送,时间更新时会自动返回
关闭播放时间发送(26)
指令:AA 26 00 D0
返回:无
说明:关闭播放时间发送

语音芯片资料

6. 什么是语音芯片

语音芯片
   1.语音芯片定义:将语音信号通过采样转化为数字,存储在IC的ROM中,再通过电路将ROM中的数字还原成语音信号。
普通语音芯片放音功能实质上是一个DAC过程,而ADC过程资料是由电脑完成,其中包括对语音信号的采样、压缩、EQ等处理。
录音芯片包括ADC和DAC两个过程,都是由芯片本身完成的,包括语音数据的采集、分析、压缩、存储、播放等步骤。
ADC=Analog Digital Change 模数转换 ,DAC= Digital Analog Change 数模转换,
音质的优劣取决于ADC和DAC位数的多少。例如,唯创公司的WTV系列,ADC和DAC均为16bit,接近CD音质。唯创公司的WTB系列DAC为8bit,为普通音质。
2、语音信号的量化表述
(1)语音信号的量化
采样率(f)、位数(n)、波特率(T)
采样:将语音模拟信号转化成数字信号。
采样率:每秒采样的个数(byte)。
波特率:每秒钟采样的位数(bit)。波特率直接决定音质。Bps: bit per second,
采样位数指在二进制条件下的位数。一般在没有特别说明的情况下,声音的采样位数指8位,由00H--FFH,静音定为80H。
(2)采样率

 奈奎斯特抽样定理(Nyquist Law):要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率。抽样频率小于2倍频谱最高频率时,信号的频谱有混叠。抽样频率大于2倍频谱最高频率时,信号的频谱无混叠。

 嗓音的频带宽度为20~20K HZ左右,普通的声音大概在3KHZ以下。所以,一般CD取的音质为44.1K和16bit,如果碰到某些特别的声音,如乐器,音质也有用48K和24bit的情况,但不是主流。

 一般在我们处理针对普通语音IC的时候,采样率最高达到16K就够了、说话声一般取8K(如电话音质)、6K左右。低于6K效果比较差。

 在应用单片机的过程中,采样越高,定时器中断速度越快,会影响到其他信号的监控和检测,所以要综合考虑。

(3)语音压缩技术。

 由于语音数据量庞大,对语音数据进行有效压缩是很必要的,能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式:

 语音分段:将语音中可以重复的部分截取出来,通过排列组合将内容完整地回放出来。

 语音采样:一般我们使用的喇叭频响曲线在中频部分,较少用到高频,所以,在喇叭音质可以接受的情况下,适当降低采样频率,达到压缩效果,这种过程是不可逆的,无法恢复原貌,叫有损压缩。

 数学压缩:主要是针对采样位数进行压缩,这种方式也是有损压缩。例如,我们经常采用的ADPCM压缩格式,是将语音数据从16bit压缩到4bit,压缩率是4倍。MP3是对数据流进行压缩,涉及到数据预测问题,它的波特率压缩倍率为10倍左右。

 通常,以上几种压缩方式都是综合起来使用的。

(4)常用语音格式

  PCM格式: Pulse Code Modulation 脉冲编码调制,它将声音模拟信号采样后得到量化后的语音数据,是最基本最原始的一种语音格式。同它极为类似的还有RAW格式和SND格式。它们都是纯语音格式。

  WAV格式:Wave Audio Files 是微软公司开发的一种声音文件格式,也叫波形声音文件,被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法,支持多种音频位数、采样频率和声道,但WAV格式对存储空间需求太大不便于交流和传播。WAV文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据,这些数据包括采样频率和位数,单声道(mono)还是立体声(stero)等。

  ADPCM格式:是利用对过去的几个抽样值来预测当前输入的样值,并使其具有自适应的预测功能与实际检测值进行比较,随时对测得的差值自动进行量化级差的处理,使之始终保持与信号同步变化。它适用于语音变化率适中的情况,而且声音回放过程简短。它的优点是对于人声的处理比较逼真,一般达到90%以上,已广泛地应用于电话通信领域。

  MP3格式: Moving Picture Experts Group Audio Layer III,简称为MP3。它是利用 MPEG Audio Layer 3 的技术,采取了名为“感官编码技术”的编码算法:编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的mp3文件,并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是vbr(Variant Bitrate 可变波特率)可以根据编码的内容动态地选择合适的波特率,因此编码的结果是在保证了音质的同时又照顾了文件的大小。

  mp3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。

  Linear Scale格式:根据声音的变化率大小,把声音分成若干段,对每段用线性比例进行压缩,但是它的比例是可变的。SUNLINK公司和ALPHA公司的Linear Scale格式为5bit。

  Logpcm格式:基本上对整个声音进行线性压缩,将最后若干位去掉。这种压缩方式在硬件上很容易实现,但音质比Linear Scale差一些,特别是音量较小声音比较细腻的情况下效果较差。主要用于pure speech方面

  3、语音ROM空间的表述
  语音芯片为表述的形象化,由语音长度来表示
  a)普通语音芯片以6K采样率为语音长度计算标准。
  b)录音IC以4K采样率为语音长度计算标准。
  4、语音芯片的要素
  相同品种的芯片成本与芯片的大小成正比。
  a)I/O口的分配和ROM的大小(语音秒数)决定芯片成本。低秒数语音芯片其I/O口较少。
  b)音质提高,采样提高,语音秒数缩短。
  音质降低,采样降低,语音秒数变长
  c) 语音秒数的计算方法:M/(n*f) 
  M---ROM大小(bit) n*f---波特率
  5、声音处理软件介绍
  1)SoundForge
  2)Cooledit
  3)goldwave
  语音芯片分类:
  现在市场上常见芯片分类:
  短时间芯片有10秒,20秒,40秒,80秒,170秒的芯片,针对型号:WTV系列和ISD1700系列芯片
  常用的模块有:6分钟,8分钟,16分钟,1小时的等。。针对型号:WT588D系列语音模块
  长时间的芯片有:340秒,500秒,1000秒,2000秒更长。。针对型号:WTV340和ISD4000系列语音芯片
  通用的芯片有:3秒到340秒。针对型号:WTV系列,WTB系列,APLUS系列.
  语音芯片根据集成电路类型来分,凡是与声音有关系的集成电路被统称为语音芯片(又称语音IC,这里应该叫成Voice IC),但是在语音芯片的大类型中,又被分为语音IC(这里应该叫成Speech IC),音乐IC(这里应该叫成Music IC)两种.

7. 语音识别芯片的语音识别芯片分类

按照使用者的限制而言,语音识别芯片可以分为特定人语音识别芯片和非特定人语音识别芯片。 非特定人语音识别是不用针对指定的人的识别技术,不分年龄、性别,只要说相同语言就可以,应用模式是在产品定型前按照确定的十几个语音交互词条,采集200人左右的声音样本,经过PC算法处理得到交互词条的语音模型和特征数据库,然后烧录到芯片上。应用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功能了。非特定人语音识别应用有的是基于音素的算法,这种模式下不需要采集很多人的声音样本就可以做交互识别,但是缺点是识别率不高,识别性能不稳定。按照说话方式的连续性,语音识别芯片又可分为非连续语音识别和连续语音识别。 连续语音识别可以一般自然流利的说话方式来进行人性化的语音识别,但由于关系到相连音的问题,很难达到好的辨认效果。

语音识别芯片的语音识别芯片分类

8. 语音识别芯片的简介

语音识别芯片所涉及的技术包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。