Mp3、CD、24/192、DSD声音为何大不同

亮测评2018-11-28 15:37:00

大家是否和我一,在一段日子里,把零花都用作CD了?


我最后一次买CD,是在鼓楼西的这家唱片店,那是2017年的4月,买了三张,三个月后唱片店拆了。说实话在那之前,我就好久没CD了!


这期亮测评不聊情怀,只做横评,一首莫扎特D大调小提琴协奏曲的DSD文件,下转成高格式WAV(24bit/192kHz)、WAV(24bit/96kHz)、标准CD制式WAV(16bit/44.1kHz)及Mp3(192kbps)


此视频看为主、听为辅,网络视频音质无法代表源音质


我们先从最常用的说起吧

 

Mp3 

 

Mp3大多是从CD制式WAV压缩来的,CD为16bit/44.1kHz,比特率为1411.2kbps,那么192kbps的Mp3就相当于CD的1/7,128kbps的Mp3相当于CD的1/11。

Mp3是如何压缩的呢,首先让我们看下图

 

这是人耳的等响曲线图,体现了人耳对频率的敏感程度,我们一般听音乐,会在80dBSPL——100dBSPL之间,所以我们只看最下面这两条线。


人耳对低频和高频敏感程度下降,尤其是16kHz以上的高频,所以这部分就是Mp3首先要抽取的部分,高比特率的Mp3先拿掉了这个区域(如256kbps Mp3)

左为16bit/44.1kHzWAV,右为Mp3


科学家认为这个Mp3文件还是太大,无法跟上拨号上网的大环境。为了加大抽取力度,他们开始研究音乐。

 

来看频率与音高对照表


由于音乐上运用了十二平均律,就可以计算出音乐中每一个音的频率,中央A为440Hz,那么向上的降B就等于440×12√2=466.164


表中最低的A(27.5Hz)和降B(29.1Hz)之间只有1.6Hz的空隙,而表中最高的B(3951Hz)和C(4186Hz)之间有235Hz的空隙。显然高频留给科学家的可抽取空间更多,于是就有了我们最常听到的128k、192kMP3。


他们认为抽取掉其中的部分内容不会影响听觉,就这样比特率越低就有越多的中高频声音被抽取,且随着比特率越低抽取越向频率下方延伸,直至中频。美其名曰:心理声学模型


下图中的Mp3波形显然已经失真,动态也严重不足。


这大大影响了音乐的完整性,拿人声来说,音高、谐频只是一方面,喉音、胸腔共鸣、鼻音、齿音、呼吸声都是音乐表达的一部分,且含有大量的感情成份,这些都会因Mp3的压缩而变的不成样子。

 

这里补充一个题外话

AutoTune

工作原因,我经常给一些主持人录音(你懂的),我在混音时经常发现,原本工程里(24bit/48kHz或96kHz)修的音高已经很准了,但一旦压成Mp3还是显得不准,不得不再修狠一点。这与Mp3的抽取方式是否有关联呢?


Mp3 的发明者和专利持有方“德国夫琅和费集成电路研究所”( Fraunhofer IIS”)声明,Mp3 的全部专利已于 2017 年 4 月 16日全数过期,他们终止了对 Mp3相关软件的专利授权,并直接建议大众使用效率更高、音质更好的格式。

 

当然压缩格式还有AAC等等,大同小异吧。


这些压缩格式让我们听到音乐的信息量大大降低,细节不复存在,而细节即情感的真实和连续表达,压缩格式让音乐在很大程度上失去了感动人的能力。

 


CD 

让我们先从一道数学题说起。


25(视频帧数)×2(视频场数)×294(视频行数)×3 =44100。


没错,这就是44.1kHz的由来。为了声画对位,必须把声音记录在录像带上,要在每个视频场上记录3个音频采样点。

若设计为2个采样点采样频率为29400,这样的话根据乃奎斯特取样定理频率只能满足到14.7kHz,显然不能满足人耳要求,而乘以4被认为记录在磁带上有些浪费,乘以3,则刚好满足人耳对20kHz的要求。


这没有问题,毕竟视频磁带用于新闻、纪录、足球转播,即使是综艺晚会也是完全可以的,但是拿它做音乐的载体,与模拟时代的音频指标相比,这个标准就有点低了。


下面是我用声卡32bit/192kHz转录的黑胶唱片和CD抓轨,左图黑胶30kHz-50kHz清晰可见,谐波甚至可以达到65kHz。

要知道自然界的声音随随便便就可达到50kHz,20kHz以上对于模拟设备来讲是一个缓慢的下降过程,而对于CD则是硬生生的阉割,即截止频率(右图),22kHz以上,一丁点儿都不剩。


 

再说说bit,早期的8bit声音,80后再熟悉不过了,8bit的采样为256阶,小霸王音质,信噪比48dB,这可是远远不够的,要知道80年代卡带的信噪比大概60dB。

量化精度决定了信噪比,于是飞利浦提出了14bit可以让CD的信噪比达到前所未有的84dB(1bit≈6dB),而索尼则高瞻远瞩的坚持16bit即信噪比96dB,65536阶,最后索尼的标准获得了通过,保住了多出来的这珍贵的12dB动态范围。

 


16bit到24bit 

那么24bit是否有意义呢,当然有,信噪比提升至144dB。我用同一文件24bit/48kHz对比16bit/48kHz。 变化在声底,乐段连接处,空气感、混响残响这些地方,这是实实在在的动态提升,用耳机更容易听出来。可理解为在0到-96dB间两者表现接近,差别存在于-96到-144dB的这些微小信号上。说实话,我并不确定我听到了-96dB以下的声音,但一定是向下的这些微小信号对声音整体起了作用。听交响乐这种动态较大的音乐时,24bit优势明显。


延伸一下,32bit理论上拥有信噪比192dB,是否会更好呢,对于浮点运算的混音工程它肯定是有意义的,比如一个动态很大的信号经过压缩器,原来-145dB的信号压缩到了-110dB,音色当然会更饱满,而到了用户这里我个人觉得并没有什么卵用。要知道信噪比144dB已经是一个很大的数字了。


比较下,24bit声底的内容确实更丰富,因为这里有16bit不存在的声音内容,是可辨识的。


位数越高,拾取信号能力越强,抗干扰能力反而越差,设备的制作成本更高。

因此对于用户而言16bit是基础,24bit需要有设备支撑,32bit则只适用于制作环节。设备上DAC一定要有24bit的解码能力,喇叭和耳机要有比较好的动态表现,而且音量要开的大一些。 


24bit的阶数巨大,已超千万,但所谓的精度提高对声音音质起到的作用却有限,24bit的意义更多在于信噪比,在于动态范围。

 

 

44.1kHz-192kHz 

再来看另一个指标——采样频率,从视频中频谱可以看出,16bit/44.1kHz的频谱真的是很惨了,高品质音乐录制,24bit/96kHz真的应该是低标准。96kHz和192kHz采样率很大程度上缓和了截止频率产生的听感问题,高频趋向自然。


192kHz采样率高频确实更加丰富,在60kHz以上有超高频量化噪声出现(与DSD源文件有关),我认为这可视为声音录制可参考的频率上限,96kHz采样率的频率上限未达到这个频率,192kHz采样率则突破了这个频率。可以看到声音在40kHz后信号逐渐变弱,而60kHz则是声音信号和超高频噪声的分水岭。


这种超高频量化噪声,无论是PCM还是DSD都会有,DSD更明显一点,解码器生产者会设计一个低通滤波器,具体是50kHz、60kHz,更高还是更低,要看厂家对指标、音质的考量。

 

不往高了说,把20kHz-40kHz放在整个频率响应上,其实就是一个倍频程,一个八度而已,20Hz-20kHz为10个倍频程,20Hz-40kHz就为11个倍频程,一个八度就能让声音有一个良好的高频延展,此段声音非常丰富,含有大量的泛音信息及空间信息。

 

人耳不是用来听音乐的,而是用来感受自然的,不敏感不代表没有,人耳并不是听不到20kHz以上的声音,17kHz以上的声音已经没有了尖得刺耳的感觉,无音高概念,更多的是空间信息,难以记忆,也难以形容。

可以明显感受到,44.1kHz到96kHz、再到192kHz,是能量在增多,是高频越来越顺滑,是瞬态爆发力越来越充沛,是空间感更真实。

 

96kHz采样频率是保留声音信息的基本保障,放大波形可以看出96kHz锯齿仍然明显,而192kHz更趋于平滑。

同一段落,192kHz、96kHz、44.1kHz的波形比较


我们主观去比较两个不同指标的同一片段,一定是先评价频率,再评价动态,因为频率在高处,而动态变化存在于底层,听起来采样频率的提升显得比bit数的增加要明显一点。但随着采样频率的逐步提高,我们实际感受到的音质变化,却非常微小。

除了DAC,喇叭和扬声器是24bit/192kHz能否完整还原的关键,索尼刚刚推出了可以回放100kHz的耳机,喇叭可以还原到50kHz以上的也不少了。

 

从16bit/44.1kHz到24bit/192kHz,从频率到动态再到细节表现,音质确实在提升;从图形上来看,采样频率越高越接近平滑,但却始终不是模拟的味道。在采样规格上做文章对音质的改善是有益的,但也是有限的,问题出在哪呢?

高品质声音录制24bit/96kHz是个基本标准,那192kHz就是高标准了么?

说到底还是PCM采样频率决定了声音的频率上限,16bit相当于定好了65536个小格子,每个采样点为了在格子里找到相应的位置而四舍五入,造成量化失真,这让量化噪声平均分布在全部频段上,这不是几个采样的问题,而是全局,说到底是个保真度的问题。

 

著名的调音台之父Neve大师1995年在中国接受采访时曾说:以我之见,未来的数字标准应是1bit、上兆赫兹或更高的采样频率,这样才可能同现在的模拟技术相比。

此文章亮测评曾转载,地址如下:Neve大师1995年在北京-永恒的主题A POINTOF REFERENCE(参考点)


DSD(1bit 2.8224MHz)

如Neve大师所料想,一年后的1996年索尼和飞利浦共同提出把1bit的DSD作为SACD的编码模式。


PCM为脉冲编码调制,DSD则为脉冲密度调制。DSD64的采样率为2.8224MHz,这并不是为了得到超高频率的声音,而是为了更真实的记录波形。由于只采用1bit即0和1,省去了位转化程序,大大降低了量化失真和噪声。


DSD的采样频率最低为CD的64倍,密度极大。而动态的描述方式不像PCM直接在格子里定位,而是定一个极小的固定值(得儿塔)Δ-∑,当下一个采样和上一个采样相减大于Δ,则为1,若小于Δ或为负数则为0(具体规则要复杂的多,我只是简述)。


PCM每个采样都是独立存在的,而DSD每个采样都是和上一个采样相减得出,因此采样点之间密不可分,无法断开和离散使用,这使DSD的声音听起来有了模拟的味道。

PCM为非线性,DSD为线性;

PCM 为绝对值,DSD为相对值;

PCM像爬楼梯,DSD更像卷链条。

 


DSD64,64倍于CD采样率但只记录1bit数据量大概是CD的4倍,DSD64与24bit/96kH数据量接近,并不夸张。

DSD64为DSD的最低标准格式,向上还有DSD128,DSD256,DSD512,后缀数字顾名思义,就是CD采样频率的倍数。


DSD的指标上,频率响应自不必说,轻松超越100kHz。动态范围也足够大,但并没有类似96dB、144dB这样的理论指标,动态范围直接取决于真实电平值,回到我说过的那个问题,120dB即达到人耳的痛域,从最前端的麦克风到最后端的喇叭,并没有哪个模拟音频设备的动态范围真正达到130dB, 因为那不现实。


我说了半天频率、动态,但决定DSD特性的其实并不是这些硬指标(日后细聊)。


当然DSD也有硬伤,那就是无法直接编辑,画音量线、剪切一概别想,VST、Autotune更是没门。


办法也有,就是把录制好的DSD音轨,每一轨线路输出到模拟调音台上,完全在模拟调音台上做音量调整、EQ、压缩,并轨、缩混,母线输出信号再录制成DSD,流程和三十年前的模拟录音极为类似,国家大剧院就有一套这样的DSD录制系统。

 

瑞士的Merging公司还有一套折中的方案。那就是依托24bit/352.8kHz,用超高采样率以PCM的方式打开并编辑DSD文件,称之为DXD,编辑后再生成为DSD文件。实际上DXD也是现行可编辑的最高质量PCM制式文件了,现有很多高品质数字唱片直接采用DXD的方式录制及发行。

这是Sony 2018年推出的Hi-res精选音乐APP,可提供DXD音源及DSD音源的付费下载。


为了还原声音的本来面貌,不知多少人花费了多少精力。

本期先到这里,本文涉及内容如果有错误一定帮我指出,大家一起学习,别让我将错就错,下一期亮测评,我将和大家交流DSD的声音特点、优缺点及应用心得,敬请关注!


此文敬请分享!




Copyright © 温县电话机虚拟社区@2017