奈奎斯特的记忆

语言学二三事2018-12-12 15:52:31


我们曾经说过,电脑无法处理无限的数据,因此我们需要对模拟信号(连续信号)进行采样(sampling),得到有限的采样点,这样的采样点能够将模拟信号较为完整地还原出来,每秒对模拟信号进行采样的次数是采样率(sampling rate)。于是我们熟悉的数字:11025和22025,甚至是44100,就浮出了水面。


如果说对模拟信号进行还原,那么越多的采样点肯定还原度越高,这是事实不假。然而我们费尽心力地将模拟信号离散采样,不就是因为电脑无法存储无限的数据嘛?所以,这个“越多”肯定有个边界,换句话说,我们只要至少采集多少个点,就可以将信号较为准确地还原,且足够我们进行语音分析了,那这个“至少”是在哪里呢?在思考之前,请牢记“采样率”的概念,这样我们才能清楚地知道这个“至少”是多少。


至少几个点才能还原?

我们可以先从一个简单波说起,简单波我们用一个正弦函数来表示。放心,这里不会有高大上的微积分,有的只是高中毕业时你熟悉的正弦函数y=sin(x)。我们先算出这个简单波的频率是多少。频率时间是倒数关系,注意这里的时间单位是秒(s),所以这个简单波的频率是100 Hz。

如果我们的采样率和这个简单波的周期频率是一致的话(黑点的位置),那么我们将会得到一条直线,很明显并没有将信号准确地还原出来。自然,这里的采样点只是举例,也有可能第一个采样点在0.003,第二个在0.013,这个采样间隔也是0.01s,采样频率依旧是100 Hz。

既然一个周期内只用一个点是不能将信号准确还原的话,那如果是两个点会是什么情况?我们先假设,一个周期内采了峰值和谷值这两个点,那么这个信号会是下面这种情况。

我们可以惊喜地发现,一个周期内如果用两个点去采样,某种意义上它能够将信号还原个大致轮廓出来。虽然看起来还是差别有些大,但至少要比周期内一个点的要好多了。这样我们可以知道,至少需要两个点,才能够将信号(至少轮廓)还原成一个大概齐。对于这种“至少需要两倍于信号的频率来采样,才能较为准确地还原信号”的频率,它有一个名称,叫做奈奎斯特频率(Nyquist frequency),这样的采样规则,我们称作采样定理(Nyquist–Shannon sampling theorem)。


你我真的难舍难分?

刚刚说如果是一个周期内采一个点,它没有办法准确还原信号,所以上面的图示用了两个点,可以发现准确地还原了信号。这时候可能会有人尝试着在一个周期内任意取两个点,满心欢喜地想还原信号,结果却发现,怎么出现了完全不一样的结果?为什么会有这种情况?

这里需要注意,我们所采的点,不是单纯地随意选点,而是要时刻和频率“攀亲戚”。如上面图中,如果第一个点是在0.0002s,第二个点是在0.007s,那么这个采样频率其实是147 Hz。你会发现,它并没有遵从上面我们提到的采样定理,采样频率并没有到达底限200 Hz。所以,这个信号不能准确地还原。假如我们的采样频率低于奈奎斯特频率,那么就会出现混叠(aliasing)的现象。

我们可以以上图简单说明。红线表示模拟信号,它的频率我们可以估算为1/(△t+a),蓝色是我们的采样点,可以看出它的采样频率为1/△t。如果我们将采样点连接起来,就会发现它和原来的信号(红色)完全不一样,这就是混叠的表现形式。


可能会有人提到,那我们录音时会不会出现这样的情况?我们应该如何避免?实际上,我们语言的语音在5k Hz以上所承载的语言学信息是很有限的,人类对10k Hz以上频率感知的敏感性也不高,因此我们才会在入门语音学,学习录音的时候,老师反复强调,使用11025 Hz,最高使用22025 Hz就足够了。如果你不幸使用了较低的采样频率,出现了混叠,有补救办法吗?有!如果尚在录音,那么赶紧提高采样频率,让它足够达到奈奎斯特频率,可以说从根源上解决问题。如果你已经录完音了,还有一种办法,那就是将你采样频率一半以上的频率使用滤波器过滤掉,这样也算某种程度上遵从了采样定理。


总而言之,要注意采样频率,这样才不会出现种种奇怪的问题。



参考文献    

Johnson, Keith 2011. Acoustic and Auditory Phonetics, Wiley-Blackwell, New Jersey


Proakis, J.G., and Manolakis, D.G. 2014. Digital Singal Processing: Principles, Algorithms, and Application, Prentice-Hall, New Jersey


Lyons, R.F. 2010. Understanding Digital Signal Processing, Prentice-Hall, New Jersey


Rabiner, L.R., and Schafer, R.W. 2010. Theory and Applications of Digital Speech Processing, Pearson, New York


你希望奈提柯斯先生介绍哪些语音学的内容?或者有哪些不理解的语音学的小知识?欢迎后台留言或评论告知,我们会安排相关语音学背景的人科普,一起在语音学的领域中进步。




编辑 | 阿黎

制作 | 阿黎



Copyright © 温县电话机虚拟社区@2017