声码器

声码器(英语:Vocoder发音: /ˈvkdər/),源自人声编码器(英语:voice encoder)的缩写,又称语音信号分析合成系统,对声音进行分析与合成的系统,主要应用于合成人类语音。此编码器主要的概念是将声音编码之后再进行传输,允许更多的语音频道共享同一个的无线电电路或海底电缆。声码器可以用硬件软件的方式来实现,目前被广泛应用于电子乐器上。

电子乐团发电厂乐团于1970年代前期所订造的的声码器。

理论

人讲话时,人声是由喉头的声带开关声门所产生,其中包括了许多周期性的波形与许多谐波,这些周期波可视为基本的声源信号。这些声源信号接着经由鼻子和喉咙(可视为复杂的共振系统),借由改变嘴型来改变此系统,而产生不同的谐波含量,创造了各式各样的语音;另外浊音塞音则是气流经由不同嘴型产生。 声码器发信端的分析器对话音信号进行分析,将该信号被分裂成多个频带(这个数字越大,会得到更准确的分析)。输入信号通过一个多频带滤波器,并将每个频带分别通过一个包络检测器,将包络检测器得到的控制信号输出给解码器。由于控制信号与原来的语音波形相比变化速度缓慢许多,因此声码器大幅降低了语音传输所需的频带。若将控制信号进行加密,则可以保证语音传输安全性,以防拦截。比起原始的语音资料,大约可将传输资料压缩到原先的十几分之一。 语音信号的重建则将步骤反转;接收端接到每个频带的包络线参数以后,分别得到每个频带的包络线,可视为多个随时变的滤波器。接着由一个新的“丰富频率成分”的声源信号(可视为噪音频号),通过每个频带的滤波器得到每个频带的包络线信号,最后将这些信号得加,得到还原语音频号。 值得注意的是,通过以上的编码方法,丢弃了许多原本信号的信息,主要丢弃了信息频谱的瞬时频率,也就是频谱的相位。这样的信息流失虽然保留了语音的可识别度,但相位的丢失意味着音高的丢失,如中文的“平、上、去、入”等五声的信息将丢失,而听起来的声音会像机器人讲话一般,没有“抑扬顿挫”。这种“机器人式”的特殊音色,在流行音乐和音效娱乐受到欢迎,在电子音乐中广泛的被应用。

历史

 
信道声码器的概要图

声码器最早出现在美国贝尔实验室。贝尔实验室工程师荷马·达德利在1928年提出合成话音的设想[1],并于1939年在纽约世界博览会上首次表演了他取名为声码器的话音合成器[2]。此后,话音合成的原理被用来研究压缩话音频带,在售价、结构、耗电等诸方面符合商用的声码器已经出现。

声码器的种类

如上述采用频谱包络和基带作为参数的声码器称为信道声码器。除信道声码器外​​,还有多种其他类型的声码器。它们在合成话音质量、数字率和复杂程度等方面不同,主要的差别在于话音参数和提取这些参数的方式不同。例如,用共振峰的位置、幅度和宽度表示频谱包络的,称为共振峰声码器;利用同态滤波技术,如对话音信号进行积分变换、取对数和反变换以获得各参数的,称为同态声码器;直接编码和传输话音的基带(如取200~600赫的频带)展现声源特性的,称为声激励声码器。此外,还有相位声码器、线性预测声码器(线性预测编码)等。

参考资料

  1. ^ Homer Dudley. Signal Transmission US Patent No.2151091, May 21, 1939. (Filed Oct. 30, 1935)
  2. ^ "Homer Dudley's Speech Synthesisers, "The Vocoder" (1940) & "Voder"(1939)". Electronic Musical Instrument 1870–1990. 120 Years of Electronic Music (120years.net).