离散的世界

语言学二三事2018-11-27 11:04:03


每一个初接触语音学研究的人,不可避免地会从实验录音开始做起,在老师的带领下一步步进行语音参数的分析。回想实验录音的步骤,第一步绝对是选择好适合的采样频率。相对于录音过程中采样精度、声道等的选择,采样率出现的次数恐怕是最多的。如果做默契大考验,询问两个语音学学生想到的第一个数字,那么基本上也就逃不脱11025和22050这两个数字了。


或许很多刚刚接触语音学的小伙伴和我当初一样,采样率究竟是什么?我们在录音的过程中为什么要设定11025 Hz或22025 Hz,为什么不用其他的采样率?这就是一个很长很长的故事了,让我们从信号开始慢慢谈起。


电脑上的语音信号从哪里来?

我们先从语音信号说起。语音信号是什么?通俗地说,语音信号就是我们看到的一个个声学波。在香农信息论的指导下,我们可以把消息的信息量以比特进行量化,我们交际过程中的消息的基本模拟形式,就是语音信号的声学波。

每个人小时候肯定用过录音机或复读机,喜欢用磁带录自己唱的歌或讲的故事。用磁带记录的语音信号是不间断的,这种语音信号我们叫做模拟信号。简单地说,没有断点,连续不断,不论你把时间分得多细,哪怕是3.00000001秒,也会有对应的信息参数。而我们的电脑存储空间是有限的,也不能存储无限数据的信号,那怎么办呢?好办,我们只要选择某些具有特征的点,再通过计算机拟合,还原语音信号,不就相当于存储了嘛?通过这种做法得出来的信号,就是你在任何一本信号处理书中常见的离散信号

上图中,你所看到的一条线连续不断的,是我们所说的连续信号,它在任意区间内,或者说,在你给定的任意一个时间点,都会有对应的信号参数“跳”出来。而离散信号不同,因为我们是按照一定的方法取得一个个离散的特征点,所以它在特定的点上才会有相应的信号参数。有了离散信号的大体印象,采样频率就会容易理解了。


模拟向数字的转变

上面我们提到,电脑不能存储无限的数据,你需要告诉它要存储什么,不能说诸如“帮我存储从2到正无穷的数”,因此就有了模拟信号向数字信号的转变一说。这个转变过程一般称为模-数转换(analog-to-digital conversion,A/D),这一转换包含着三个主要步骤:采样(sampling),量化(quantization),编码(coding)。我们姑且把后两个步骤放一放,这一次我们集中讲讲采样,毕竟这一次的主题是采样率。

上面我们提到,从连续信号(模拟信号)转变为离散信号(数字信号),重要的一点是要确定我们应当选取多少个点让计算机去模拟并还原信号。那么,每秒对模拟信号的采样的次数,是我们所说的采样率。例如上图A/D转换器中,对模拟信号进行每隔T秒取样本值的均匀采样,可以获得采样出的离散信号x(n)。这个时间间隔T叫做采样周期或者采样间隔,倒数1/T就是我们所说的采样率。


采样率我们知道是什么了,那么问题来了:至少需要多少个点才能将信号较好地模拟出来呢?我们知道了采样率,那么信号又是如何被模拟出来的?量化是什么?这个问题我们留到下次再谈。下一次的关键词:Nyquist frequency, quantization




参考文献    

Johnson, Keith 2011. Acoustic and Auditory Phonetics, Wiley-Blackwell, New Jersey


Proakis, J.G., and Manolakis, D.G. 2014. Digital Singal Processing: Principles, Algorithms, and Application, Prentice-Hall, New Jersey


Lyons, R.F. 2010. Understanding Digital Signal Processing, Prentice-Hall, New Jersey


Rabiner, L.R., and Schafer, R.W. 2010. Theory and Applications of Digital Speech Processing, Pearson, New York


这是奈提柯斯先生公众号开始后第一篇科普,也尝试着做一次硬科普,有不足之处欢迎指出,我们共同学习,共同进步。你希望奈提柯斯先生介绍哪些语音学的内容?或者有哪些不理解的语音学的小知识?欢迎后台留言或评论告知,我们一起在语音学的领域中进步。




编辑 | 阿黎

制作 | 阿黎



Copyright © 温县电话机虚拟社区@2017