本篇文章2144字,读完约5分钟
虚拟现实(vr)技术的目的是提供身临其境的体验,比如身临其境,但是到目前为止,在vr中可以体验到的音频还没有视觉那么完美,更不用说还没有被模拟的嗅觉和触觉了。我相信体验过一些虚拟现实设备的用户会发现虚拟现实中的音频失真更高。这些问题是在2000年认识到的。然而,为什么现实的虚拟现实音频模拟仍然如此困难,当有一个解决方案?以下是美国北卡罗来纳大学教授、美国电气与电子工程师学会会员林明中的一段摘录。为了便于理解,有些内容适当增加或减少:
虚拟现实视频有所改善,音频仍处于80年代的水平。刚才,玉娟博士也提到了跟踪和延迟的问题,但另一个问题是如何创造一种体验和捕捉,这是许多人都没有解决的。此外,它是人和虚拟现实环境之间的互动。目前,在虚拟现实/增强现实领域已经开展了许多关于如何显示的研究&视觉显示。然而,触摸是一个非常具有挑战性的话题。我们的皮肤可以传达我们的感觉,但是如果我们知道如何采集样本,我们可能需要运行它们数千次。那么这个标准是什么?许多计算机可以编入预算。我们尝试了不同的设备。如果你是这个领域的开发者或研究者,你会被鼓励去研究这个领域,但是如果你是物理学家,你会知道这是一个非常困难的问题。
今天,我们想详细谈谈我们在虚拟现实中的音频实时渲染做得不好。虚拟现实视频有所改善,音频仍处于80年代的水平。在虚拟现实中,当位置不同,障碍物不同时,声音也不同。目前,我们还没有与声音互动。当在虚拟现实系统中体验一些内容时,有声音和没有声音的体验是非常不同的,这意味着沉浸感是否深刻。想象一下,当我们在一个交互式虚拟现实环境中,我们如何使用录音来产生效果?声音控制在哪里?如果你没有听到声音,你就不知道发生了什么。虚拟现实是一样的。如果你听不到声音,你就不知道发生了什么。为了保证ar环境下的视觉逼真度,动态图像应以每秒20-30帧的频率刷新,单位时间内的刷新率使图像具有一维时间信息。为了更好地实现声音和图像之间的信息融合,需要将声音的三维方位信息与图像显示的三维信息相融合,将图像的刷新时间与声音的时间信息相融合。
重要的是,如果我们人类想要感知这种声音,即在生理水平上感受空的声音,如何获得实时的感觉。如果声音不能实时渲染,而是依赖于外部配音,那么实际的音轨只能是固定的2d效果,而不是可以让我们区分声音和声源的素材,也就是说,当视频画面可以移动,但是配音中的声源是固定的,这大大降低了vr系统的真实感。另一方面,如果使用配音,每个场景能产生的声音不能100%模拟。例如,当木材、金属和流体等一系列复杂元素相互碰撞时,模拟配音只能大致完成;此外,当声音传输通过虚拟空房间中的墙壁等障碍物时,配音无法模拟,所有这些问题都会导致高失真。最后,如果每一帧的声音都需要外部模拟和重新匹配,那么在千千一万帧的内容将需要一个庞大的配音项目。
更大的问题是,事实上,耳朵的形状决定了每个人都能听到不同的声音。因此,我们需要做的是依靠算法根据人体生理条件在场景中实时自动渲染和生成音频。需要建模、音频数据库和算法。
声音模拟的目的是使计算机产生的声音与现实世界中的声音非常接近。从频域来看,两者的频谱成分应该相当接近。现实世界中的任何声音都可以看作是许多具有独特振幅和相位的正弦波分量的混合。声音的建模可以理解为声音的频谱分析。
让我们首先理解声音传播的数学函数和几何方面是如何表达的:当模拟声音时,我们需要用方程来计算声音传播的压力波,它是欧姆的四次方——这是一个非常高的频率,需要一台超级计算机来完成计算,并且需要100倍的cpu升级。
例如,在教堂里,不同的材料被用来模仿分散的声音,它们有不同的吸收率。因为材料的质量本质上是不同的,不同的材料会有不同的效果。我们应该如何做模拟?以流体声音为例,目前的方案是使用许多材料与一个圆柱体的水碰撞,然后捕捉这些单个液滴的声音材料,并将其转换成代码。然后,在未来的新环境中,计算机可以使用算法将不同的材料合成符合场景活动的声音。这可以理解为声音的克隆。有了这样的模拟能力,虚拟现实可以让用户在水中感受到互动,否则,用户在虚拟现实中游泳时就不会有任何感觉。然后,通过延伸,不同的材料可以做不同的声音模拟,所有事物的模拟也需要大量的材料。
例如,当一颗珠子落在一块木板上时,它的声音因其音量、形状、速度和质量的不同而不同。然后根据过去收集的声源材料自动合成声音,如各种木材之间的碰撞、铁与木材之间的碰撞等。
因此,这个问题有两个层次:第一是基本建模的难度,我们有大量的声源对象要建模;其次,根据模型生成声音的算法难度大,逻辑复杂,计算量大。目前,我们能做的是流动,球和其他模型。
此外,在仿真环境中,为了始终观察运动实体,当焦平面保持变焦时,对应于计算机生成的图像的视点必须能够实时切换。为了实现声音和图像的良好融合,听音点应该跟随视点的变化。在头部跟踪中,有必要实时切换监听点。当头部姿态改变时,为了保证产生的虚拟声源的位置固定,相应的头部脉冲响应函数必须反向切换。
然而,可以说物理学中所有的声音都可以通过模拟一个一个地产生。我们可以用这种技术来获得多渠道的互动,所以这是一个多模态的互动。这项技术已经被研究过,它将是未来突破的重点和难点。
标题:IEEE院士Ming C. Lin:VR中音频渲染模拟为何这么难?
地址:http://www.j4f2.com/ydbxw/13396.html