2021年音频产业的技术展望主要关注那些具有革命性和推动型的行业标准和转型技术。同以往的数字化相比,新的变革也被称为“无所不在的数字转型”,这种趋势并没有受到COVID-19的阻断,而是超速前行,通过文化、网络和商业实现更大的全球互联性,对于组织领导者而言,“战略远景已经大幅压缩,预计在五到十年内发生的重大变化已经压缩到数月或数周范围内”。传媒业需要重视将来具有竞争优势的技术与可能性,包括来自传媒业知识体系之外的优势与资源。在经过大量文献分析的过程后,本研究认为2021年音频产业的变革与趋势将着重体现在以下五个方面:
(一)高分辨率流式音乐
判断数字音乐音质的一种方法是观察它的比特率或者文件传输的数据量,通过播放器进入耳朵的数据越多,声音越好。音乐的混合和掌握方式也非常重要。诸如Apple Music或Spotify之类的音乐流媒体服务允许传输比特率为320kb的高品质MP3。CD音乐文件受到存储格式的限制,比特率为1.411kbps,高分辨率(High-Resolution)音乐的比特率可达9.216kbps,近乎CD的七倍。采样率越高,用户听到的低音和高音部分越多。CD和MP3的最大采样率均为44.1KHz,高分辨率音乐采样率可以在96KHz和352.8KHz之间。绝大多数高分辨率音乐文件的采样率为96KHz或192KHz,高于其他数字文件44.1KHz上限,超出目前大多数智能手机播放音频的上限。
高分辨率流媒体音频领域存在广泛的竞争,大部分功能相似,譬如在数百万首曲库中按需播放,无损品质的专辑音乐,以及下载本地离线收听。由于高分辨率音乐具有更多数据,因此文件比相同歌曲的CD或MP3版本大很多,这意味着下载时间更长并且消耗更多数据流。目前亚马逊、苹果、Spotify均提供320kbps的压缩流,质量的提高带来订阅成本的增加。对于古典音乐迷,Primephonic提供超过350万首古典音乐曲目。亚马逊的Music HD曲库则拥有超过5000万首曲目。
(二)语音界面
语音控制仍处于应用初期,尽管市场对于该技术潜力的反应非常积极。人们几乎会在所有地方用到语音技术,尤其是在家庭中。随着语音助理越来越智能,其体验也将具有更多真实感。语音作为人机接口的下一个前沿,将把信息传播带入物联网世界,例如,由于疫情影响,电梯控制和信息显示将限制触摸。随着用户逐渐习惯于语音用户界面(Voice UseInterface,简称VUI),这些硬件系统可能很快将增加语音控制的升级和修改。精心设计的语音界面可以让用户轻松使用新技术和新设备,而不会出现明显的学习曲线。为了充分利用这些新设备,越来越多的音频处理技术从云端移向边缘计算,这不仅可以改善用户界面,降低延迟,还可以节约成本。用户在这些应用中也将获得更可靠的性能。
2020年初部分企业和个人已经开始了远程工作,这为工作场所远程互动创造了新的模式。根据Gartner Research最近一项调查显示,超过80%的企业负责人计划允许员工部分时间进行远程工作,另外47%的受访者将允许员工进行全职的远程工作,这也将带动企业语音技术与服务的发展。
(三)人工智能、机器学习和数字神经网络
人工智能已经成为当今音频产业的主要驱动力,被称为媒体及附加产业的颠覆式创新技术(Disruptive Technology),传统的音频系统组件,如麦克风、音频放大器等也在使用人工智能技术。
在许多方面,音频可能是AI的最早采用者。音频工程师喜欢完全控制他们工作时的声音,不论是电平和EQ微调,还是通过频谱可视化控制峰值音量和动态范围,这产生了一些后来被定义为人工智能的早期应用。这种操作由数据驱动,消除了对于个人的经验需求,有助于实现制作中的自动化处理,尽管不能将这个行业中任何自动化的工作都称为人工智能,但是自动化确实是媒体工作流程即将面对的深度变革。
机器学习、数字神经网络与人工智能容易混淆。人工智能包罗万象,作为术语已经存在数十年。工程师更偏爱机器学习这个术语,其含义是一种数据分析方法。机器学习不同于数字神经网络(DNA),DNA基于大量来自特定情况的训练数据,如识别特定的声线(Vocal Lines)、口音或声音,如交通或环境噪音。一些音频和声音后期工作室在十余年前已经开始使用机器学习,2012年,DNS 8 Live多通道对话噪声抑制器推出。这种录音机能够智能化去除语言录音的背景噪声。今天,音频软件的高级降噪处理几乎都使用机器学习的数据分析方法。
(四)音频链
人工智能将推动音频链(Audio Chain)应用曲线大幅增长,这是一种由语音识别和智能语音引擎驱动,将云端、边缘计算和智能硬件集成的综合应用。一方面,音频链带动麦克风传统电子音频产业的复兴,通过在麦克风中加入智能芯片,产生高品质声音,增强麦克风在嘈杂环境中对于周围环境的理解,提高识别准确性。另一方面,基于语音的个人助理(Voice Personal Assistant,简称VPA)在智能手机、智能扬声器、智能手表、无线耳机、汽车、智能电视及其遥控器中越来越受欢迎,甚至有的垃圾桶也集成了语音识别功能。在2018年和2019年,智能手机市场放缓,用户的升级时间更长,可听性和智能扬声器的爆炸式增长弥补了这一差异。目前,VPA正在推动所有这些设备中麦克风和微型扬声器的集成。全球麦克风和音频芯片消费市场的复合年增长率有望达到6.6%,从2018年的141亿美元增长到2024年208亿美元。麦克风市场目前价值17亿美元,预计2024年复合年增长率为3%,达到20亿美元。
(五)动态聚焦空间音频
从历史上看,收听音频的方式只有两种:通过扬声器大声地、公开地倾听,或者是静悄悄地戴着耳机。新的动态聚焦音频技术将创造出不带耳机、移动收听沉浸式3D音频的新产品与新体验,是新一代音频通信和娱乐服务的基石。
“聚焦音频”不是“定向音频”,“定向音频”扬声器自2000年开始发展,使用超声波技术将声音直射前方,产生“声音气泡”,只有站在设备正前方的人才能听到。定向音频扬声器在贸易展会和博物馆等地方很受欢迎。聚焦音频技术要比定向音频更加智能和先进,能够通过高频超声波和3D跟踪技术识别和追踪听众耳朵位置,在对象移动时主动移动声音束。例如,这种音频技术能够对相隔1米之外的区域进行-20分贝的音量衰减,这意味着周围的人只能听到目标用户所听声音的10%。这是个人音频空间体验上的关键性突破,从而建立一种全新的聆听方式。动态聚焦的声音传送技术可应用于智能家居、视频会议,包括在流媒体音频平台上收听播客,在健身环境中使用这种技术也会更加身临其境。
(六)音频数据隐私保护
便利性和效率带来个人语音助理应用的快速渗透,除了语音技术自身发展的重大突破,大型互联网科技平台公司发展语音的另一个动机是透过VPA获取用户数据,像谷歌、苹果、脸书、亚马逊和微软都在推动VPA的进一步渗透,通过语音技术提取的数据具有真正的价值,可以帮助平台理解用户场景和真实需求。
对于用户而言,音频比图像更容易接受,原因是音频对于个人数字空间较少具有“侵入性”,因此对于主营数据业务的平台而言,这是从人们那里收集数据的好方法。一些公司正在利用数据开展业务,而另一些公司则在利用可确保用户隐私的集成技术展开营销。例如,苹果宣扬隐私保护,并使这种策略成为强大的营销资产。VPA离不开智能式传感器的普及,这意味着VPA不仅能听到用户的声音,还能听到他们的环境并理解其环境,这便是对话式人工智能的应用模式——像人类一样交流。麦克风厂商应同时开发保护用户隐私的技术,例如如何让麦克风从声音中移除用户的情绪数据,只保留和呈现语义数据。
来源:中国广播影视