0

    编解码对通话品质的影响

    2023.06.04 | admin | 131次围观

    不知道大家发现没有,随着时代的进步,技术的发展,我们对包含语音的产品品质要求越来越高,从单声道到立体声,从低品质到高保真,但是,我们在打电话时,却一直没有感受到语音品质的进步,这是为什么呢?

    这里就不得不提到语音的处理技术的发展历程了。语音处理技术,经历了模拟信号技术到数字信号技术的转变,而声音本身作为模拟信号,要转化为数字信号,必定有模数转换的过程,同样视频带宽自适应源代码,数字信号要能为人服务,最终又要通过数模转换为模拟信号让人感知到。数字信号的处理,包含采样、量化、编码、传输、解码等过程,而这些过程,都可以影响通话的语音品质。

    随着通信技术的发展,语音编解码技术也日新月异,但不论怎样发展,语音通信的编解码都是在带宽/压缩率、品质、算法复杂度等几个有限的维度上进行权衡&演进:在一定品质下追求尽可能节省空间占用,在相同的空间占用下追求更优秀的声音品质,在品质及空间占用相对确定的情况下追求更精简的算法开销。根据不完全统计,历史上出现的音频编解码技术不下百种,依然在今天的市场上活跃的技术也有40种左右,不同的编解码技术,在不同的行业不同的应用场景中各领风骚,并没有出现一个一统天下的编解码技术。

    人的声音频率介于20Hz至20000Hz之间,对声音进行采样的频率越高越宽,能够还原出来的声音细节就越丰富,品质就越优秀。而在传统通信系统中,为节省带宽占用,一般只采样人声中4000Hz以下(窄带)的频率(采样频率8000Hz),这也就是为什么打电话人们的听到声音与实际面对面交流时声音存在很大差别的原因所在;与此同时,我们也能发现,基于互联网的一些音视频应用,其声音质量比打电话的声音品质要好得多视频带宽自适应源代码,其最核心的原因非常简单,其采用的编解码技术在对人声进行采样时远远超过4000Hz。

    这里,例举一些常见的采样频率(技术上,采样频率至少要达到被采样声音频率的2倍才能有效还原声音):8000 Hz(电话音质)、11KHz(AM调幅广播)、16KHz(磁带)、22KHz/24KHz(FM调频广播)、44.1KHz(CD音质)。

    因为存储空间/带宽占用的限制,采样频率并不是越高越好。在传统通信系统的发展历程中,科学家们选择了8000Hz的采样率(对应人声4000Hz以下的部分),并在全世界的通信网络中得到广泛应用,是实际的行业规范。所以,在语音通信领域,窄带语音处理技术是绕不开的基础技术。

    随着移动通信4G、5G网络应用的发展,传输的带宽越来越不成为瓶颈,在互联网行业的快速发展及与通信相互融合的背景下,语音处理技术的发展方向也逐步朝着更高品质的方向演进,在未来,必然是宽带语音处理技术的天下;但由于全世界范围内的公众电话通信网络(PSTN)都是基于窄带语音处理技术建立起来的,其升级换代将是一个非常漫长的过程,所以,可以预见的是,在相当长的历史时期内,窄带语音处理技术依然会是最重要的语音处理技术。

    也正因为如此,不论是何种语音通信系统,当我们的使用的语音业务需要与传统公众电话网络(PSTN)互通时,我们能享受到的语音品质从理论上就被技术限定了;而与PSTN公众电话网络互通是绝大部分语音通信系统的必备功能,所以,在生产实践中,基于窄带的语音编解码技术应用最为广泛。

    以VoIP(网络电话)技术为例,常见的编解码格式为g.711、g.729、g.723这3大类,每一类又分几个不同的制式版本。在网络可靠性相对有保障的情况下,g.711是品质最高的选择,当然,其占用的带宽也最大; g.729主要应用于复杂的互联网环境,其优势是带宽占用比较小,即使网络没那么可靠,其语音品质还能有基础的保障; g.723是带宽占用更少的一种编解码,但因为其算力开销较大,在实际互联网环境中应用没有像g.729那么广泛。这3种编码技术,都是基于窄带语音编码技术来实现,在通信的两方协商完成后,通信时实际占用的带宽是固定不变的(固定码率)。

    除上面这几种主流编解码技术外,还有一些常见的编解码技术,例如GSM,AMR-NB,AMR-WB,iLBC,GIPS等等。这些编解码技术各有特点,例如AMR相关编码在移动通信网络中有着广泛应用,iLBC在IP网络30%丢包率的情况下还可以维持一定的通话品质;一些编解码技术既能处理窄带语音,还能处理宽带语音,部分编解码还支持动态码率调整(VBR),根据传输带宽情况自适应调整码率以提高语音品质。

    编解码技术是语音通信的基础技术,而这种基础研究需要长期的积累及投入,这其中,既有商业机构的参与,也有一些产业机构参与(例如电信联盟),还有开源市场的参与。不同编解码的制定机构,其在市场的影响力各不相同,商业利益也各不相同,发展也各不相同。很多优秀的编解码技术,在商用时需要购买授权,一定程度上也限制这些优秀的编解码技术在市场上的推广使用。

    通信的编解码如此之多,而且一些编解码技术还处于演进发展之中,即使是同一种编解码技术也不可避免的会衍生出一些变种,因此,要建立通信的两方,其编解码的兼容性问题是一大考验。在生产实践中,通信系统建设&运维,这种兼容性问题也是一大普遍性的难题。

    另外,不管是哪种编解码技术,只要涉及到采样及压缩,语音品质都会有所下降;当通信的双方支持的编解码技术不同时(这种情况在通信领域中颇为常见),通信要么无法建立,要么就必须引入转码机制,而一旦引入转码,通信的品质必然会降低一截。

    实际上,影响通话品质的,除了编解码之外,还有传输中的一些因素,例如,时延、丢包、抖动,当然,这个就是另外一个话题了。

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论