Basic of Spatial Music

Spatial Audio

传统双声道设计为使用音箱进行回放，而当今消费者通常使用入耳式耳机，并不能获得由音箱和房间共同带来的同等感受。这里讨论的空间音频指以数字处理方式提供类似传统双声道音箱回放，甚至更强的空间感。其与心理声学息息相关，传统认为人类主要通过以下几种效应感知空间：

时间差：声源与双耳距离的不同导致声音到达左右耳的时间（相位）不同。

声级差：由于头部的遮挡，到达左耳与右耳声音的声压级不同。在 800Hz 以下，声音可以绕过头部，头部的遮挡对声压级的影响较小，时间差起到主要的定位作用；而1500Hz以上，高频的声音会被头部遮挡，主要由声级差来判断方位。
空间混响：在非自由场中，声音会经过多次被物体反射而产生混响，通过混响时间可感知空间大小和氛围。

更新的头相关传递系数（HRTF）通过考虑整个人体（包括时间差、声级差）对入射声音的相位、频率影响，更准确的描述了人感知到的不同方向的声音。即使 HRTF 的个体差异较大，但使用泛用模型同样能获得更好的结果。当前多数空间音频即使用了 HRTF 进行音频处理。

Apple Music

Apple Music 所提供的 Dolby Atmos 应为编码 EC3，最高支持 7.1 通道，多数专辑使用 5.1 配置。Mac 系统下由 Music 进行Rendering 并以双声道 48kHz 32bits 格式提供给受支持的蓝牙耳机（本文使用 AirPods Pro 2 进行测试）。而当音频输出为 6 声道以上时，系统会以 L R C LFE Ls Rs 的顺序直接输出给多声道。

My Renderer

使用 loopback 模拟多声道设备获取 Apple Music 的多声道音频，通入 Carla VST Host，用 SPARTA 的 AmbiRoomSim 模拟 Dolby 推荐的 7.1 家庭影院配置，输出 3rd order SN3D 格式给 AmbiBIN 使用 HRTF 渲染为双声道音频。

Comparative Test

Spectrum - Zedd

以下三个音频分别为：5.1 AC3 from Apple Music, 2ch from Apple Renderer, 2ch from SPARTA Renderer。在受支持的浏览器以及硬件上，AC3 应被系统识别为空间音频，APP2 应可开启头部跟踪。

通过测试我认为苹果的渲染为自由场几何圆形声道配置，即 7 声道距离头部相同距离环形排列，并且只进行 HRTF 渲染而没有空间混响效果。而我使用家庭影院式排列，并且引入了房间模拟，目的在于兼容常见的电影 5.1 音轨。两者对比，Apple 提供了更好的细节，而空间感稍弱。

在响度控制方面，Apple 的目标响度约为 -18 LUFS，提供的动态范围远优于普通音源。但对于少数情况或者电影音轨，多个声道同时具有大响度时仍会存在裁切现象（比如 Tenet 的枪声，电影通常目标响度为 -23 LUFS）。此时高度可自定义的 Renderer 作用不言而喻，但缺点在于计算开销不小。

April 26, 2023 Project

Spatial Audio

Apple Music

My Renderer

Comparative Test