CN114731483B 用于虛擬現(xiàn)實(shí)音頻的聲場適配（高通股份有限公司）

上傳人：x*** IP屬地：重慶上傳時(shí)間：2025-09-24 格式：DOCX 頁數(shù)：44 大?。?.16MB 積分：10.8 舉報(bào) 版權(quán)申訴

CN114731483B 用于虛擬現(xiàn)實(shí)音頻的聲場適配（高通股份有限公司）_第2頁

CN114731483B 用于虛擬現(xiàn)實(shí)音頻的聲場適配（高通股份有限公司）_第3頁

CN114731483B 用于虛擬現(xiàn)實(shí)音頻的聲場適配（高通股份有限公司）_第4頁

CN114731483B 用于虛擬現(xiàn)實(shí)音頻的聲場適配（高通股份有限公司）_第5頁

已閱讀5頁，還剩39頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(12)發(fā)明專利PCT/US2020/0612742020地址美國加利福尼亞州T.夏巴茲米爾扎哈桑羅審查員李莎莎惰空間向量旋轉(zhuǎn)器空間向量旋轉(zhuǎn)器器21.一種配置為播放多個(gè)音頻流中的一個(gè)或多個(gè)音頻流的裝置，所述音頻流包括環(huán)境立體聲系數(shù)的至少一個(gè)分解版本，所述環(huán)境立體聲系數(shù)的至少一個(gè)分解版本包括至少一個(gè)空間分量和至少一個(gè)音頻源，其中，所述至少一個(gè)空間分量描述球諧函數(shù)域表示中的與所述至少一個(gè)音頻源相關(guān)聯(lián)的空間特性，所述裝置包括：存儲(chǔ)器，配置為存儲(chǔ)所述多個(gè)音頻流內(nèi)的所述至少一個(gè)空間分量和所述至少一個(gè)音頻從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息；基于所述旋轉(zhuǎn)信息旋轉(zhuǎn)所述至少一個(gè)空間分量，以形成至少一個(gè)旋轉(zhuǎn)的空間分量；和從所述至少一個(gè)旋轉(zhuǎn)的空間分量和所述至少一個(gè)音頻源重建環(huán)境立體聲信號。2.如權(quán)利要求1所述的裝置，其中，所述至少一個(gè)空間分量包括識別相應(yīng)的音頻對象的空間特性的V-向量，并且所述至少一個(gè)音頻源包括表示所述音頻源的U-向量。3.如權(quán)利要求2所述的裝置，其中，所述一個(gè)或多個(gè)處理器被進(jìn)一步配置為通過將投影矩陣應(yīng)用于參考?xì)埐钕蛄亢腿チ炕哪芰啃盘杹碇亟ㄋ鯱-向量。4.如權(quán)利要求3所述的裝置，其中，所述投影矩陣包括時(shí)間和空間旋轉(zhuǎn)數(shù)據(jù)。5.如權(quán)利要求1所述的裝置，其中，所述一個(gè)或多個(gè)處理器被進(jìn)一步配置為將所述至少一個(gè)音頻源的表示輸出到一個(gè)或多個(gè)揚(yáng)聲器。6.如權(quán)利要求1所述的裝置，其中，所述一個(gè)或多個(gè)處理器被進(jìn)一步配置為通過混合或者插值中的至少一個(gè)來組合所述至少一個(gè)音頻源的至少兩個(gè)表示。7.如權(quán)利要求1所述的裝置，進(jìn)一步包括顯示裝置。8.如權(quán)利要求7所述的裝置，進(jìn)一步包括麥克風(fēng)，其中，所述一個(gè)或多個(gè)處理器被進(jìn)一步配置為從所述麥克風(fēng)接收語音命令并基于所述語音命令控制所述顯示裝置。9.如權(quán)利要求1所述的裝置，進(jìn)一步包括一個(gè)或多個(gè)揚(yáng)聲器。10.如權(quán)利要求1所述的裝置，其中，所述裝置11.如權(quán)利要求1所述的裝置，其中，聲學(xué)空間包括由相機(jī)捕獲的視頻數(shù)據(jù)所表示的場景。12.如權(quán)利要求1所述的裝置，13.如權(quán)利要求1所述的裝置，進(jìn)一步包括被配置為呈現(xiàn)聲學(xué)空間的頭部安裝裝置。14.如權(quán)利要求1所述的裝置，進(jìn)一步包括無線收發(fā)器，所述無線收發(fā)器耦合到所述一個(gè)或多個(gè)處理器并且被配置為接收無線信號，所述無線信號包括符合第五代蜂窩標(biāo)準(zhǔn)、藍(lán)牙標(biāo)準(zhǔn)或者Wi-Fi標(biāo)準(zhǔn)的一個(gè)或多個(gè)信號。15.一種播放多個(gè)音頻流中的一個(gè)或多個(gè)音頻流的方法，所述音頻流包括環(huán)境立體聲系數(shù)的至少一個(gè)分解版本，所述環(huán)境立體聲系數(shù)的至少一個(gè)分解版本包括至少一個(gè)空間分量和至少一個(gè)音頻源，其中，所述至少一個(gè)空間分量描述球諧函數(shù)域表示中的與所述至少一個(gè)音頻源相關(guān)聯(lián)的空間特性，所述方法包括：由存儲(chǔ)器存儲(chǔ)所述多個(gè)音頻流內(nèi)的所述至少一個(gè)空間分量和所述至少一個(gè)音頻源；3由一個(gè)或多個(gè)處理器從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息；由一個(gè)或多個(gè)處理器基于所述旋轉(zhuǎn)信息旋轉(zhuǎn)所述至少一個(gè)空間分量，以形成至少一個(gè)由所述一個(gè)或多個(gè)處理器從所述至少一個(gè)旋轉(zhuǎn)的空間分量和所述至少一個(gè)音頻源重建環(huán)境立體聲信號。16.如權(quán)利要求15所述的方法，其中，所述至少一個(gè)空間分量包括識別相應(yīng)的音頻對象的空間特性的V-向量，并且所述至少一個(gè)音頻源包括表示所述音頻源的U-向量。17.如權(quán)利要求16所述的方法，進(jìn)一步包括通過將投影矩陣應(yīng)用于參考?xì)埐钕蛄亢腿チ炕哪芰啃盘杹碇亟ㄋ鯱-向量。18.如權(quán)利要求17所述的方法，其中，所述投影矩陣包括時(shí)間和空間旋轉(zhuǎn)數(shù)據(jù)。19.如權(quán)利要求15所述的方法，進(jìn)一步包括由所述一個(gè)或多個(gè)處理器將所述至少一個(gè)音頻源的表示輸出到一個(gè)或多個(gè)揚(yáng)聲器。20.如權(quán)利要求15所述的方法，進(jìn)一步包括由所述一個(gè)或多個(gè)處理器通過混合或者插值中的至少一個(gè)來組合所述至少一個(gè)音頻源的至少兩個(gè)表示。21.如權(quán)利要求15所述的方法，進(jìn)一步包括從麥克風(fēng)接收語音命令并基于所述語音命令控制顯示裝置。22.如權(quán)利要求15所述的方法，其中，所述方法在移動(dòng)手機(jī)上執(zhí)行。23.如權(quán)利要求15所述的方法，其中，所述方法在擴(kuò)展現(xiàn)實(shí)頭戴式裝置上執(zhí)行，并且其中，聲學(xué)空間包括由相機(jī)捕獲的視頻數(shù)據(jù)所表示的場景。24.如權(quán)利要求15所述的方法，其中，所述方法在擴(kuò)展現(xiàn)實(shí)頭戴式裝置上執(zhí)行，并且其25.如權(quán)利要求15所述的方法，其中，所述方法在配置為呈現(xiàn)聲學(xué)空間的頭部安裝裝置上被執(zhí)行。26.如權(quán)利要求15所述的方法，進(jìn)一步包括接收無線信號，所述無線信號包括符合第五代蜂窩標(biāo)準(zhǔn)、藍(lán)牙標(biāo)準(zhǔn)或者Wi-Fi標(biāo)準(zhǔn)的一個(gè)或多個(gè)信號。27.一種被配置為播放多個(gè)音頻流中的一個(gè)或多個(gè)音頻流的裝置，所述音頻流包括環(huán)境立體聲系數(shù)的至少一個(gè)分解版本，所述環(huán)境立體聲系數(shù)的至少一個(gè)分解版本包括至少一個(gè)空間分量和至少一個(gè)音頻源，其中，所述至少一個(gè)空間分量描述球諧函數(shù)域表示中的與所述至少一個(gè)音頻源相關(guān)聯(lián)的空間特性，所述裝置包括：用于存儲(chǔ)多個(gè)音頻流內(nèi)的至少一個(gè)空間分量和至少一個(gè)音頻源的部件；用于從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息的部件；用于旋轉(zhuǎn)所述至少一個(gè)空間分量以形成至少一個(gè)旋轉(zhuǎn)的空間分量的部件；和用于從所述至少一個(gè)旋轉(zhuǎn)的空間分量和所述至少一個(gè)音頻源重建環(huán)境立體聲信號的部件。28.一種具有在其上存儲(chǔ)的指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述指令當(dāng)被執(zhí)行時(shí)使得一個(gè)或多個(gè)處理器：存儲(chǔ)多個(gè)音頻流內(nèi)的至少一個(gè)空間分量和至少一個(gè)音頻源，所述音頻流包括環(huán)境立體聲系數(shù)的至少一個(gè)分解版本，所述環(huán)境立體聲系數(shù)的至少一個(gè)分解版本包括所述至少一個(gè)空間分量和所述至少一個(gè)音頻源，其中，所述至少一個(gè)空間分量描述球諧函數(shù)域表示中的4與所述至少一個(gè)音頻源相關(guān)聯(lián)的空間特性；從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息；基于所述旋轉(zhuǎn)信息旋轉(zhuǎn)所述至少一個(gè)空間分量以形成至少一個(gè)旋轉(zhuǎn)的空間分量；和從所述至少一個(gè)旋轉(zhuǎn)的空間分量和所述至少一個(gè)音頻源重建環(huán)境立體聲信號。29.如權(quán)利要求28所述的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述至少一個(gè)空間分量包括識別相應(yīng)的音頻對象的空間特性的V-向量并且所述至少一個(gè)音頻源包括表示所述音頻源的U-向量。30.如權(quán)利要求29所述的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，進(jìn)一步具有在其上存儲(chǔ)的指令，所述指令當(dāng)被執(zhí)行時(shí)使得所述一個(gè)或多個(gè)處理器重建所述U-向量，包括通過將投影矩陣應(yīng)用于參考?xì)埐钕蛄亢腿チ炕哪芰啃盘枴?用于虛擬現(xiàn)實(shí)音頻的聲場適配[0001]本申請要求于2020年11月18日提交的美國申請No.16/951,662的優(yōu)先權(quán)，該美國申請要求于2019年11月22日提交的美國臨時(shí)申請No.62/939,477的權(quán)益，它們中的每一個(gè)的全部內(nèi)容通過引用并入于此。技術(shù)領(lǐng)域背景技術(shù)[0003]正在開發(fā)計(jì)算機(jī)中介的現(xiàn)實(shí)系統(tǒng)，以允許計(jì)算裝置添加或者增加、去除或者減去、或者一般地修改由用戶體驗(yàn)的現(xiàn)有現(xiàn)實(shí)。計(jì)算機(jī)中介的現(xiàn)實(shí)系統(tǒng)(其也可以被稱為“增強(qiáng)現(xiàn)現(xiàn)實(shí)(MR)系統(tǒng)。計(jì)算機(jī)中介的現(xiàn)實(shí)系統(tǒng)的感知成功一般與這種計(jì)算機(jī)中介的現(xiàn)實(shí)系統(tǒng)就視頻和音頻體驗(yàn)兩者而言提供現(xiàn)實(shí)地浸入式體驗(yàn)的能力有關(guān)，其中視頻和音頻體驗(yàn)以用戶期望的方式對準(zhǔn)。雖然人的視覺系統(tǒng)比人的聽覺系統(tǒng)更敏感(例如，就場景內(nèi)的各種對象的感知定位而言),但是保證足夠的聽覺體驗(yàn)在保證現(xiàn)實(shí)地浸入式體驗(yàn)時(shí)是越來越重要的因素，特別是隨著視頻體驗(yàn)改進(jìn)以允許視頻對象的更好的定位，其使用戶能夠更好地識別音頻內(nèi)容的源。發(fā)明內(nèi)容[0004]本公開總的來說涉及計(jì)算機(jī)中介的現(xiàn)實(shí)系統(tǒng)的用戶體驗(yàn)的聽覺方面，包括虛擬現(xiàn)實(shí)(VR)、混合現(xiàn)實(shí)(MR)、增強(qiáng)現(xiàn)實(shí)(AR)、計(jì)算機(jī)視覺和圖形系統(tǒng)。該技術(shù)的各個(gè)方面可以提供用于自適應(yīng)音頻捕獲和用于擴(kuò)展的現(xiàn)實(shí)系統(tǒng)的聲學(xué)空間的渲染。[0005]在一個(gè)示例中，該技術(shù)的各個(gè)方面涉及配置為播放多個(gè)音頻流中的一個(gè)或多個(gè)音頻流的裝置，該裝置包括：存儲(chǔ)器，配置為存儲(chǔ)多個(gè)音頻流內(nèi)的至少一個(gè)空間分量和至少一個(gè)音頻源；和耦合到存儲(chǔ)器的一個(gè)或多個(gè)處理器，并且配置為：從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息；基于旋轉(zhuǎn)信息旋轉(zhuǎn)至少一個(gè)空間分量以形成至少一個(gè)旋轉(zhuǎn)的空間分量；和從至少一個(gè)旋轉(zhuǎn)的空間分量和至少一個(gè)音頻源重建三維聲信號，其中，該至少一個(gè)空間分量描述球諧函數(shù)域表示中的與至少一個(gè)音頻源相關(guān)聯(lián)的空間特性。[0006]在另一示例中，該技術(shù)的各個(gè)方面涉及播放多個(gè)音頻流中的一個(gè)或多個(gè)音頻流的方法，該方法包括，由存儲(chǔ)器存儲(chǔ)多個(gè)音頻流內(nèi)的至少一個(gè)空間分量和至少一個(gè)音頻源；由一個(gè)或多個(gè)處理器從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息；由一個(gè)或多個(gè)處理器基于旋轉(zhuǎn)信息旋轉(zhuǎn)至少一個(gè)空間分量以形成至少一個(gè)旋轉(zhuǎn)的空間分量；和由一個(gè)或多個(gè)處理器從至少一個(gè)旋轉(zhuǎn)的空間分量和至少一個(gè)音頻源重建三維聲信號，其中，該至少一個(gè)空間分量描述球諧函數(shù)域表示中的與至少一個(gè)音頻源相關(guān)聯(lián)的空間特性。[0007]在另一示例中，該技術(shù)的各個(gè)方面涉及配置為播放多個(gè)音頻流中的一個(gè)或多個(gè)音頻流的裝置，該裝置包括：用于存儲(chǔ)多個(gè)音頻流內(nèi)的至少一個(gè)空間分量和至少一個(gè)音頻源6的部件；用于從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息的部件；用于旋轉(zhuǎn)至少一個(gè)空間分量以形成至少一個(gè)旋轉(zhuǎn)的空間分量的部件；和用于從至少一個(gè)旋轉(zhuǎn)的空間分量和至少一個(gè)音頻源重建三維聲信號的部件，其中，該至少一個(gè)空間分量描述球諧函數(shù)域表示中的與至少一個(gè)音頻源相關(guān)聯(lián)的空間特性。[0008]在另一示例中，該技術(shù)的各個(gè)方面導(dǎo)向具有在其上存儲(chǔ)的指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，該指令當(dāng)執(zhí)行時(shí)使得一個(gè)或多個(gè)處理器：存儲(chǔ)多個(gè)音頻流內(nèi)的至少一個(gè)空間分量和至少一個(gè)音頻源；從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息；基于旋轉(zhuǎn)信息旋轉(zhuǎn)至少一個(gè)空間分量以形成至少一個(gè)旋轉(zhuǎn)的空間分量；和從至少一個(gè)旋轉(zhuǎn)的空間分量和至少一個(gè)音頻源重建三維聲信號，其中，該至少一個(gè)空間分量描述球諧函數(shù)域表示中的與至少一個(gè)音頻源相關(guān)聯(lián)的空間特性。[0009]在以下的附圖和描述中提到本公開的一個(gè)或多個(gè)示例的細(xì)節(jié)。該技術(shù)的各個(gè)方面的其他特征、目的和優(yōu)點(diǎn)將是從描述和附圖和從權(quán)利要求明顯的。附圖說明[0010]圖1A-圖1C是圖示可以執(zhí)行本公開中描述的技術(shù)的各個(gè)方面的系統(tǒng)的圖。[0011]圖2是圖示由用戶佩戴的VR裝置的示例的圖。[0012]圖3圖示支持根據(jù)本公開的各方面的裝置和方法的無線通信系統(tǒng)100的示例。[0013]圖4是圖示根據(jù)本公開中描述的技術(shù)的示例音頻回放系統(tǒng)的框圖。[0014]圖5是進(jìn)一步圖示本公開的技術(shù)的各個(gè)方面的示例音頻回放系統(tǒng)的框圖。[0015]圖6是進(jìn)一步圖示本公開的技術(shù)的各個(gè)方面的示例音頻回放系統(tǒng)的框圖。[0016]圖7是進(jìn)一步圖示本公開的技術(shù)的各個(gè)方面的示例音頻回放系統(tǒng)的框圖。[0017]圖8是圖示具有三個(gè)或更多音頻接收器的示例音樂會(huì)的概念圖。[0018]圖9是圖示根據(jù)本公開的技術(shù)的使用旋轉(zhuǎn)信息的示例的流程圖。[0019]圖10是圖示可以根據(jù)本公開中描述的技術(shù)的各個(gè)方面而操作的可穿戴裝置的示例的圖。[0020]圖11A和圖11B是圖示可以執(zhí)行本公開中描述的技術(shù)的各個(gè)方面的其他示例系統(tǒng)的圖。[0021]圖12是圖示圖1A-圖1C的示例中示出的源裝置和內(nèi)容消費(fèi)者裝置中的一個(gè)或多個(gè)的示例組件的框圖。具體實(shí)施方式[0022]當(dāng)前的心理聲學(xué)解碼器可能不能在環(huán)境立體聲域中分別旋轉(zhuǎn)空間分量和音頻對象。因而，當(dāng)前的心理聲學(xué)解碼器可能必須執(zhí)行到脈沖編碼調(diào)制(PCM)域的域轉(zhuǎn)換及其他處理以旋轉(zhuǎn)這種分量。這些操作可能是計(jì)算上昂貴的和功率密集的。[0023]根據(jù)本公開的技術(shù)，心理聲學(xué)解碼器可以基于來自運(yùn)動(dòng)傳感器的旋轉(zhuǎn)信息旋轉(zhuǎn)至少一個(gè)空間分量，以形成至少一個(gè)旋轉(zhuǎn)的空間分量。心理聲學(xué)解碼器也可以從至少一個(gè)旋轉(zhuǎn)的空間分量和至少一個(gè)音頻源構(gòu)造環(huán)境立體聲信號。至少一個(gè)空間分量以球諧域表示描述與至少一個(gè)音頻源相關(guān)聯(lián)的空間特性。以該方式，在VR平臺(tái)中，運(yùn)動(dòng)旋轉(zhuǎn)之前的先前空間向量可以用于多通道環(huán)境。根據(jù)本公開的技術(shù)，音頻回放系統(tǒng)可以從旋轉(zhuǎn)傳感器接收旋轉(zhuǎn)7脈沖編碼調(diào)制/修正離散余弦變換(PCM/MDCT)域耳間相位差(IPD)可以與旋轉(zhuǎn)傳感器數(shù)據(jù)量化位以通過依賴于用于殘差耦合的旋轉(zhuǎn)傳感器數(shù)據(jù)來改進(jìn)編碼質(zhì)量。根據(jù)本公開的技的音頻格式和基于場景的音頻格式?；谕ǖ缆暩袷?、22.2環(huán)繞聲格式或者將音頻通道定位到收聽[0027]基于對象的音頻格式可以指其中指定通常使用脈沖編碼調(diào)制(PCM)編碼且被稱為是階數(shù)n的球面貝塞爾函數(shù)，并且是階數(shù)n和子階數(shù)m的球諧基函數(shù)(其也可以8風(fēng)陣列物理地獲取的各種示例在Poletti,M.,"Three-DimensionalSurroundSound[0033]以下等式可以說明可以怎樣從基于對象的描述推導(dǎo)出SHC。用于與單獨(dú)的音頻對示從單獨(dú)的對象到在觀察點(diǎn){rr,θr,φr}附近的總體聲在地使能聲場的動(dòng)態(tài)適配以適應(yīng)XR裝置的[0038]對于XR的環(huán)境立體聲系數(shù)的使用可以使能于依賴于由環(huán)境立體聲系數(shù)提供的更9的示例所示，系統(tǒng)10包括源裝置12和內(nèi)容消費(fèi)者裝置14.雖然以源裝置12和內(nèi)容消費(fèi)者裝置14的上下文描述，但是該技術(shù)可以以其中編碼聲場的任何表示以形成音頻數(shù)據(jù)的位流表示的任何上下文實(shí)現(xiàn)。此外，源裝置12可以表示能夠生成聲場的表示的任何形式的計(jì)算裝置，并且在這里一般以作為VR內(nèi)容創(chuàng)建者裝置的上下文描述。同樣地，內(nèi)容消費(fèi)者裝置14可以表示能夠?qū)崿F(xiàn)本公開中描述的渲染技術(shù)以及音頻回放的任何形式的計(jì)算裝置，并且在這里一般以作為VR客戶端裝置的上下文描述。[0041]源裝置12可以由可以生成用于由內(nèi)容消費(fèi)者裝置，比如內(nèi)容消費(fèi)者裝置14的操作者消費(fèi)的多通道音頻內(nèi)容的娛樂公司或者其他實(shí)體操作。在某些VR方案中，源裝置12結(jié)合視頻內(nèi)容生成音頻內(nèi)容。源裝置12包括內(nèi)容捕獲裝置20、內(nèi)容編輯裝置22和聲場表示發(fā)生器24。內(nèi)容捕獲裝置20可以配置為與麥克風(fēng)18接口連接或者以其他方式通信。[0042]麥克風(fēng)18可以表示能夠捕獲和表示聲場作為音頻數(shù)據(jù)19的EigenmikeR或者其他類型的3D音頻麥克風(fēng)，音頻數(shù)據(jù)19可以指以上提到的基于場景的音頻數(shù)據(jù)(比如環(huán)境立體聲系數(shù))、基于對象的音頻數(shù)據(jù)和基于通道的音頻數(shù)據(jù)中的一個(gè)或多個(gè)。雖然描述為是3D音頻麥克風(fēng)，但是麥克風(fēng)18也可以表示配置為捕獲音頻數(shù)據(jù)19的其他類型的麥克風(fēng)(比如[0043]內(nèi)容捕獲裝置20在某些示例中可以包括集成到內(nèi)容捕獲裝置20的殼體中的集成麥克風(fēng)18.內(nèi)容捕獲裝置20可以無線地或者經(jīng)由有線連接與麥克風(fēng)18接口連接。代替經(jīng)由麥克風(fēng)18捕獲音頻數(shù)據(jù)，或者與經(jīng)由麥克風(fēng)18捕獲音頻數(shù)據(jù)結(jié)合地，在經(jīng)由某些類型的可拆卸存儲(chǔ)設(shè)備無線地和/或經(jīng)由有線的輸入處理來輸入音頻數(shù)據(jù)19之后，內(nèi)容捕獲裝置20可以處理音頻數(shù)據(jù)19.因而，根據(jù)本公開，內(nèi)容捕獲裝置20和麥克風(fēng)18的不同組合是可能[0044]內(nèi)容捕獲裝置20也可以配置為與內(nèi)容編輯裝置22接口連接或者以其他方式通信。在有些情況下，內(nèi)容捕獲裝置20可以包括內(nèi)容編輯裝置22(在有些情況下，這可以表示軟件或者軟件和硬件的組合，包括由內(nèi)容捕獲裝置20執(zhí)行以配置內(nèi)容捕獲裝置20執(zhí)行特定形式的內(nèi)容編輯的軟件)。內(nèi)容編輯裝置22可以表示配置為編輯或者以其他方式更改包括音頻數(shù)據(jù)19的從內(nèi)容捕獲裝置20接收到的內(nèi)容21的單元。內(nèi)容編輯裝置22可以將編輯內(nèi)容23和關(guān)聯(lián)的音頻信息25(比如元數(shù)據(jù))輸出到聲場表示發(fā)生器24。[0045]聲場表示發(fā)生器24可以包括能夠與內(nèi)容編輯裝置22(或者內(nèi)容捕獲裝置20)接口連接的任何類型的硬件裝置。雖然在圖1A的示例中未示出，但是聲場表示發(fā)生器24可以使用由內(nèi)容編輯裝置22提供的包括音頻數(shù)據(jù)19和音頻信息25的編輯的內(nèi)容23,以生成一個(gè)或多個(gè)位流27。在聚焦于音頻數(shù)據(jù)19的圖1A的示例中，聲場表示發(fā)生器24可以生成由音頻數(shù)據(jù)19表示的同一聲場的一個(gè)或多個(gè)表示，以獲得包括編輯的內(nèi)容23和音頻信息25的表示的位流27。[0046]例如，為使用環(huán)境立體聲系數(shù)(其再次是音頻數(shù)據(jù)19的一個(gè)示例)生成聲場的不同表示，聲場表示發(fā)生器24可以使用用于聲場的環(huán)境立體聲表示的編碼方案，稱為混合次序環(huán)境立體聲(MOA),如在于2017年8月8日提交的、標(biāo)題為“MIXED-ORDERAMBISONICS(MOA)2019年1月3日公開為美國專利公開No.20190007781中詳細(xì)討論的。[0047]為生成聲場的特定MOA表示，聲場表示發(fā)生器24可以生成環(huán)境立體聲系數(shù)的全集的部分子集。例如，由聲場表示發(fā)生器24生成的每個(gè)MOA表示可以提供相對于聲場的一些區(qū)域的精度，但是在其它區(qū)域中更小精度。在一個(gè)示例中，聲場的MOA表示可以包括八(8)個(gè)未壓縮的環(huán)境立體聲系數(shù)，而同一聲場的三階環(huán)境立體聲表示可以包括十六(16)個(gè)未壓縮的環(huán)境立體聲系數(shù)。因而，生成為環(huán)境立體聲系數(shù)的部分子集的聲場的每個(gè)MOA表示可以比從環(huán)境立體聲系數(shù)生成的同一聲場的相應(yīng)的三階環(huán)境立體聲表示較少存儲(chǔ)-密集和較少帶寬密集(如果和當(dāng)作為位流27的一部分經(jīng)圖示的傳輸通道發(fā)送時(shí))。[0048]雖然關(guān)于MOA表示來描述，但是本公開的技術(shù)也可以關(guān)于一階環(huán)境立體聲(FOA)表示來執(zhí)行，其中與一階球面基函數(shù)和零階球面基函數(shù)相關(guān)聯(lián)的全部環(huán)境立體聲系數(shù)用于表示聲場。換句話說，代替使用環(huán)境立體聲系數(shù)的部分的非零子集來表示聲場，聲場表示發(fā)生器24可以使用給定階N的全部環(huán)境立體聲系數(shù)來表示聲場，導(dǎo)致總共等于(N+1)2的環(huán)境立體聲系數(shù)。[0049]在這方面，環(huán)境立體聲音頻數(shù)據(jù)(其是涉及以MOA表示或者全階表示，比如以上提到的一階表示的環(huán)境立體聲系數(shù)的另一方式)可以包括與具有一階或者更小階數(shù)的球面基函數(shù)相關(guān)聯(lián)的環(huán)境立體聲系數(shù)(其可以被稱為“第一階環(huán)境立體聲音頻數(shù)據(jù)”),與具有混合的階和子階的球面基函數(shù)相關(guān)聯(lián)的環(huán)境立體聲系數(shù)(其可以被稱為上面討論的“MOA表示”)、或者與具有大于一的階數(shù)的球面基函數(shù)相關(guān)聯(lián)的環(huán)境立體聲系數(shù)(其以上被稱為“全[0050]在某些示例中，聲場表示發(fā)生器24可以表示配置為壓縮或者以其他方式減小用于表示位流27中的內(nèi)容21的位數(shù)的音頻編碼器。雖然未示出，但是在某些示例中，聲場表示發(fā)生器可以包括符合在這里討論的各種標(biāo)準(zhǔn)中的任意一種的心理聲學(xué)音頻編碼裝置。[0051]在該示例中，聲場表示發(fā)生器24可以將SVD應(yīng)用于環(huán)境立體聲系數(shù)以確定環(huán)境立體聲系數(shù)的分解版本。環(huán)境立體聲系數(shù)的分解版本可以包括一個(gè)或多個(gè)主要音頻信號和描述關(guān)聯(lián)的主要音頻信號的空間特性，例如，方向、形狀和寬度的一個(gè)或多個(gè)相應(yīng)空間分量。因而，聲場表示發(fā)生器24可以將分解應(yīng)用于環(huán)境立體聲系數(shù)，以從空間特性(如由空間分量表示的)去耦能量(如由主要音頻信號表示的)。[0052]聲場表示發(fā)生器24可以分析環(huán)境立體聲系數(shù)的分解的版本，以識別各種參數(shù)，這可以促進(jìn)環(huán)境立體聲系數(shù)的分解的版本的重新排序。聲場表示發(fā)生器24可以基于識別的參數(shù)重新排序環(huán)境立體聲系數(shù)的分解的版本，其中假定變換可以跨環(huán)境立體聲系數(shù)的幀地重新排序環(huán)境立體聲系數(shù)(其中幀通常包括環(huán)境立體聲系數(shù)的分解的版本的M個(gè)樣本，并且在[0053]在重新排序環(huán)境立體聲系數(shù)的分解的版本之后，聲場表示發(fā)生器24可以選擇環(huán)境立體聲系數(shù)的一個(gè)或多個(gè)分解的版本作為聲場的前景(或者，換言之，不同的、主要的或者顯著的)分量的表示。聲場表示發(fā)生器24可以指定表示前景分量(其也可以被稱為“主要聲分量”,或者在有些情況下，稱為識別相應(yīng)的音頻對象的空間特性的所謂的“V-向量”)的環(huán)境立體聲系數(shù)的分解的版本?？臻g分量可以表示具有多個(gè)不同元素的向量(其就向量而言[0054]聲場表示發(fā)生器24接下來可以關(guān)于環(huán)境立體聲系數(shù)執(zhí)行聲場分析，以便至少部分地識別表示聲場的一個(gè)或多個(gè)背景(或者，換言之，環(huán)境)分量的環(huán)境立體聲系數(shù)。背景分量11能僅包括環(huán)境立體聲系數(shù)的任何給定樣本的子集(例如，比如與零階和第一階球面基函數(shù)對應(yīng)的那些而沒有與第二階或者高階球面基函數(shù)對應(yīng)的那些),聲場表示發(fā)生器24可以關(guān)[0055]聲場表示發(fā)生器24接下來可以關(guān)于前景方向信息(其是涉及空間分量的另一方式)執(zhí)行一個(gè)形式的插值，然后關(guān)于插值的前景方向信息執(zhí)行降階以生成降階的前景方向基函數(shù)對應(yīng)的環(huán)境立體聲系數(shù)之一的M個(gè)樣本)的環(huán)境立體聲系數(shù)的每個(gè)幀和前景音頻信[0057]集合地，傳輸通道和邊信息在圖1A的示例中可以表示為環(huán)境立體聲傳輸格式器24然后可以發(fā)送或者以其他方式輸出ATF音頻數(shù)據(jù)到心理聲學(xué)音頻編碼裝置(未示出)。[0060]內(nèi)容捕獲裝置20或者內(nèi)容編輯裝置22在某些示例中可以配置為與聲場表示發(fā)生生器24之間的連接，內(nèi)容捕獲裝置20可以提供以各種形式的內(nèi)容的內(nèi)容，為了討論，在這里描述為音頻數(shù)據(jù)19的部分。[0061]在某些示例中，內(nèi)容捕獲裝置20可以利用聲場表示發(fā)生器24的各個(gè)方面(就聲場表示發(fā)生器24的硬件或者軟件性能而言)。例如，聲場表示發(fā)生器24可以包括配置為執(zhí)行心理聲學(xué)音頻編碼的專用硬件(或者當(dāng)執(zhí)行時(shí)使得一個(gè)或多個(gè)處理器執(zhí)行心理聲學(xué)音頻編碼的專用軟件)。[0062]在某些示例中，內(nèi)容捕獲裝置20可以不包括心理聲學(xué)音頻編碼器專用硬件或者專用軟件，并且代替地可以以非心理聲學(xué)音頻編碼形式提供內(nèi)容21的音頻方面。聲場表示發(fā)生器24可以通過至少部分地關(guān)于內(nèi)容21的音頻方面執(zhí)行心理聲學(xué)音頻編碼來幫助內(nèi)容21的捕獲。[0063]聲場表示發(fā)生器24也可以通過至少部分地基于從音頻數(shù)據(jù)19(在音頻數(shù)據(jù)19包括基于場景的音頻數(shù)據(jù)的情況下)生成的音頻內(nèi)容(例如，MOA表示和/或三階環(huán)境立體聲表示)生成一個(gè)或多個(gè)位流27,來幫助內(nèi)容捕獲和傳輸。位流27可以表示音頻數(shù)據(jù)19的壓縮的版本和任何其他不同類型的內(nèi)容21(比如，球面視頻數(shù)據(jù)、圖像數(shù)據(jù)或者文本數(shù)據(jù)的壓縮版本)。[0064]作為一個(gè)示例，聲場表示發(fā)生器24可以跨傳輸通道、數(shù)據(jù)存儲(chǔ)裝置等生成用于傳輸?shù)奈涣?7,傳輸通道可以是有線或者無線通道。位流27可以表示音頻數(shù)據(jù)19的編碼版本，并且可以包括初級位流和另一側(cè)位流，其可以被稱為側(cè)通道信息或者元數(shù)據(jù)。在有些情況下，表示音頻數(shù)據(jù)19的壓縮版本的位流27(其再次可以表示基于場景的音頻數(shù)據(jù)、基于對象的音頻數(shù)據(jù)、基于通道的音頻數(shù)據(jù)或者其組合)可以符合根據(jù)MPEG-H3D音頻編碼標(biāo)準(zhǔn)和/或MPEG-I浸入式音頻標(biāo)準(zhǔn)而產(chǎn)生的位流。[0065]內(nèi)容消費(fèi)者裝置14可以由個(gè)體操作，并且可以表示VR客戶端裝置。雖然關(guān)于VR客戶端裝置描述，但是內(nèi)容消費(fèi)者裝置14可以表示其他類型的裝置，比如增強(qiáng)現(xiàn)實(shí)(AR)客戶機(jī)、移動(dòng)裝置(包括所謂的智能電話)或者能夠跟蹤頭部移動(dòng)和/或操作內(nèi)容消費(fèi)者裝置14的個(gè)體的一般平移運(yùn)動(dòng)的任何其他裝置。如圖1A的示例所示，內(nèi)容消費(fèi)者裝置14包括音頻回放系統(tǒng)16A,其可以指能夠?qū)⒂糜诨胤诺囊纛l數(shù)據(jù)渲染為多聲道音頻內(nèi)容的任何形式的音頻回放系統(tǒng)。[0066]雖然圖1A示為直接發(fā)送到內(nèi)容消費(fèi)者裝置14,但是源裝置12可以將位流27輸出到位于源裝置12和內(nèi)容消費(fèi)者裝置14之間的中間裝置。中間裝置可以存儲(chǔ)位流27以用于之后傳送到可以請求位流27的內(nèi)容消費(fèi)者裝置14。中間裝置可以包括文件服務(wù)器、網(wǎng)絡(luò)服務(wù)器、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、移動(dòng)電話、智能電話或者能夠存儲(chǔ)位流27以用于之后由音頻解碼器檢索的任何其他裝置。中間裝置可以位于內(nèi)容傳送網(wǎng)絡(luò)中，所述內(nèi)容傳送網(wǎng)絡(luò)能夠?qū)⑽涣?7(和可能與發(fā)送對應(yīng)的視頻數(shù)據(jù)位流結(jié)合)流到請求位流27的用戶，比如內(nèi)容消費(fèi)者裝置14。[0067]替代地，源裝置12可以將位流27存儲(chǔ)到存儲(chǔ)介質(zhì)，比如致密盤、數(shù)字視頻盤、高清視頻盤或者其他存儲(chǔ)介質(zhì)，其大部分能夠由計(jì)算機(jī)讀取且因此可以被稱為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或者非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。在此上下文中，傳輸通道可以指通過其發(fā)送存儲(chǔ)到介質(zhì)的內(nèi)容(例如，以一個(gè)或多個(gè)位流27的形式)的通道(且可以包括零售商店及其他基于存儲(chǔ)的傳送機(jī)制)。因此，在任何情況下，本公開的技術(shù)在該方面不應(yīng)該限于圖1A的示例。[0068]如上所述，內(nèi)容消費(fèi)者裝置14包括音頻回放系統(tǒng)16A。音頻回放系統(tǒng)16A可以表示能夠回放多聲道音頻數(shù)據(jù)的任何系統(tǒng)。音頻回放系統(tǒng)16A可以包括多個(gè)不同的渲染器32.渲染器32每個(gè)可以提供用于不同形式的渲染，其中不同形式的渲染可以包括執(zhí)行基于向量的幅度搖攝(VBAP)的各種方式中的一個(gè)或多個(gè)和/或執(zhí)行聲場合成的各種方式中的一個(gè)或多[0069]音頻回放系統(tǒng)16A可以進(jìn)一步包括音頻解碼裝置34。音頻解碼裝置34可以表示配置為解碼位流27以輸出音頻數(shù)據(jù)19'的裝置(其中撇號標(biāo)志可以表示音頻數(shù)據(jù)19'由于有損壓縮(比如量化)而不同于音頻數(shù)據(jù)19)。再次，音頻數(shù)據(jù)19可以包括基于場景的音頻數(shù)據(jù)，其在某些示例中，可以形成全一(或者更高)階環(huán)境立體聲表示或者形成同一聲場的MOA表示的其子集，比如主要音頻信號、周圍環(huán)境立體聲系數(shù)的其分解，和在MPEG-H3D音頻編碼標(biāo)準(zhǔn)中描述的基于向量的信號，或者其他形式的基于場景的音頻數(shù)據(jù)。[0070]其他形式的基于場景的音頻數(shù)據(jù)包括根據(jù)HOA(高階環(huán)境立體聲)傳輸格式(HTF)定義的音頻數(shù)據(jù)。關(guān)于HTF的更多信息可以在日期2018年6月(2018-06)的題為“higherOrderAmbisonics(HOA)TransportFormat”,ETSITS103589V1.1.1的歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)(ETSI)的技術(shù)規(guī)范(TS),以及在于2018年12月20日提交的題為“PRIORITYINFORMATION任何情況下，音頻數(shù)據(jù)19’可以類似于音頻數(shù)據(jù)19’的全集或者部分子集，但是可能由于有損操作(例如，量化)和/或經(jīng)由傳輸通道的傳輸而不同。[0071]作為基于場景的音頻數(shù)據(jù)的替代或者與基于場景的音頻數(shù)據(jù)結(jié)合地，音頻數(shù)據(jù)19'可以包括基于通道的音頻數(shù)據(jù)。作為基于場景的音頻數(shù)據(jù)的替代或者與基于場景的音頻數(shù)據(jù)結(jié)合地，音頻數(shù)據(jù)19可以包括基于對象的音頻數(shù)據(jù)。因而，音頻數(shù)據(jù)19’可以包括基于場景的音頻數(shù)據(jù)、基于對象的音頻數(shù)據(jù)和基于通道的音頻數(shù)據(jù)的任何組合。[0072]音頻回放系統(tǒng)16A的音頻渲染器32可以在音頻解碼裝置34已經(jīng)解碼位流27以獲得音頻數(shù)據(jù)19’之后，渲染音頻數(shù)據(jù)19'以輸出揚(yáng)聲器饋送35。揚(yáng)聲器饋送35可以驅(qū)動(dòng)一個(gè)或多個(gè)揚(yáng)聲器(為了便于說明目的在圖1A的示例中未示出)。聲場的包括基于場景的音頻數(shù)據(jù)(和可能的基于通道的音頻數(shù)據(jù)和/或基于對象的音頻數(shù)據(jù))的各種音頻表示可以以許多方[0073]為選擇適當(dāng)?shù)匿秩酒鳎蛘咴谟行┣闆r下，生成適當(dāng)?shù)匿秩酒鳎纛l回放系統(tǒng)16A可以獲得指示揚(yáng)聲器(例如，擴(kuò)音器或者耳機(jī)揚(yáng)聲器)的數(shù)目和/或揚(yáng)聲器的空間幾何形狀的揚(yáng)聲器信息37。在有些情況下，音頻回放系統(tǒng)16A可以使用參考麥克風(fēng)獲得揚(yáng)聲器信息37,并且可以以動(dòng)態(tài)地確定揚(yáng)聲器信息37的方式驅(qū)動(dòng)揚(yáng)聲器(其可以指電信號的輸出以使得換能器振動(dòng))。在其他實(shí)例中，或者與揚(yáng)聲器信息37的動(dòng)態(tài)確定結(jié)合地，音頻回放系統(tǒng)16A可以提示用戶與音頻回放系統(tǒng)16A接口連接并輸入揚(yáng)聲器信息37。[0074]音頻回放系統(tǒng)16A可以基于揚(yáng)聲器信息37選擇音頻渲染器32之一。在有些情況下，當(dāng)沒有音頻渲染器32在揚(yáng)聲器信息37中指定的揚(yáng)聲器幾何形狀的某些閾值相似性度量(就揚(yáng)聲器幾何形狀而言)內(nèi)時(shí)，音頻回放系統(tǒng)16A可以基于揚(yáng)聲器信息37生成音頻渲染器32之一。在有些情況下，音頻回放系統(tǒng)16A可以基于揚(yáng)聲器信息37生成音頻渲染器32之一，而不首先嘗試選擇音頻渲染器32的現(xiàn)有的一個(gè)。[0075]當(dāng)將揚(yáng)聲器饋送35輸出到耳機(jī)時(shí)，音頻回放系統(tǒng)16A可以利用渲染器32之一，其使用與頭有關(guān)的傳遞函數(shù)(HRTF)或者能夠向左和右揚(yáng)聲器饋送35渲染的其他功能來提供雙揚(yáng)聲器等。一個(gè)或多個(gè)揚(yáng)聲器然后可以回放渲染的揚(yáng)聲器饋送35以再現(xiàn)聲場。[0076]雖然描述為從音頻數(shù)據(jù)19'渲染揚(yáng)聲器饋送35,但是參考揚(yáng)聲器饋送35的渲染可以指其他類型的渲染，比如直接包括到從位流27的音頻數(shù)據(jù)19的解碼的渲染。替代的渲染的示例可以在MPEG-H3D音頻標(biāo)準(zhǔn)的附錄G中找到，其中在聲場的合成之前的主要信號格式化和背景信號形成期間發(fā)生渲染。因而，參考音頻數(shù)據(jù)19'的渲染應(yīng)該理解為涉及實(shí)際音頻數(shù)據(jù)19’的渲染或者音頻數(shù)據(jù)19'的其分解或者表示兩者(比如以上提到的主要音頻信號、周圍環(huán)境立體聲系數(shù)和/或基于向量的信號-其也可以被稱為V-向量或者多維環(huán)境立體聲空間向量)。[0077]音頻回放系統(tǒng)16A也可以基于跟蹤信息41適配音頻渲染器32。也就是，音頻回放系統(tǒng)16A可以與配置為跟蹤VR裝置的用戶的頭部運(yùn)動(dòng)和可能的平移運(yùn)動(dòng)的跟蹤裝置40接口連接。跟蹤裝置40可以表示配置為跟蹤VR裝置的用戶的頭部運(yùn)動(dòng)和可能的平移運(yùn)動(dòng)的一個(gè)或音頻回放系統(tǒng)16A可以基于跟蹤信息41適配音頻渲染器32,以使得揚(yáng)聲器饋送35反映用戶的頭部和可能的平移運(yùn)動(dòng)的變化，以響應(yīng)于這種移動(dòng)而正確地再現(xiàn)聲場。[0078]圖1C是圖示另一示例系統(tǒng)60的框圖。示例系統(tǒng)60類似于圖1A的示例系統(tǒng)10,但是，系統(tǒng)60的源裝置12B不包括內(nèi)容捕獲裝置。源裝置12B包括合成裝置29.合成裝置29可以由內(nèi)容開發(fā)者使用以生成合成的音頻源。合成的音頻源可以具有與其關(guān)聯(lián)的位置信息，其可以識別音頻源相對于收聽者或者聲場中的其他參考點(diǎn)的位置，以使得在努力重新創(chuàng)建聲場時(shí)音頻源可以被渲染給一個(gè)或多個(gè)揚(yáng)聲器通道以用于回放。在某些示例中，合成裝置29也可以合成視覺或者視頻數(shù)據(jù)。[0079]例如，內(nèi)容開發(fā)者可以生成用于視頻游戲的合成的音頻流。雖然以圖1A的示例的內(nèi)容消費(fèi)者裝置14A示出了圖1C的示例，但是圖1C的示例的源裝置12B可以與圖1B的內(nèi)容消費(fèi)者裝置14B一起使用。在某些示例中，圖1C的源裝置12B也可以包括內(nèi)容位流27可以包括捕獲的音頻流和合成的音頻流兩者。[0080]如上所述，內(nèi)容消費(fèi)者裝置14A或者14B(為了簡單的目的，兩者以下都可以稱為內(nèi)容消費(fèi)者裝置14)可以表示其中人可穿戴的顯示器(其也可以被稱為“頭部安裝顯示器”)安裝在操作VR裝置的用戶眼前的VR裝置。圖2是圖示由用戶402佩戴的VR裝置400的示例的圖。VR裝置400耦合到，或者以其他方式包括耳機(jī)404,其可以通過揚(yáng)聲器饋送35的回放來再現(xiàn)由音頻數(shù)據(jù)19’表示的聲場。揚(yáng)聲器饋送35可以表示能夠使得耳機(jī)404的換能器內(nèi)的薄膜以各種頻率振動(dòng)的模擬或者數(shù)字信號，其中這種處理通常被稱為驅(qū)動(dòng)耳機(jī)404。402可以佩戴VR裝置400(其也可以被稱為VR頭戴式裝置400)或者其他可穿戴的電子裝置。VR客戶端裝置(比如VR頭戴式裝置400)可以包括跟蹤裝置(例如，跟蹤裝置40),該跟蹤裝置配置為跟蹤用戶402的頭部運(yùn)動(dòng)，和適配經(jīng)由VR頭戴式裝置400示出的視頻數(shù)據(jù)以解釋頭部運(yùn)動(dòng)，提供其中用戶402可以在視覺三維空間中體驗(yàn)以視頻數(shù)據(jù)示出的顯示的世界的浸入式體驗(yàn)。顯示的世界可以指虛擬世界(其中模擬全部世界),增強(qiáng)世界(其中由虛擬對象增強(qiáng)世界的部分),或者物理世界(其中虛擬地導(dǎo)航現(xiàn)實(shí)世界圖像)。[0082]雖然VR(及其他形式的AR和/或MR)可以允許用戶402視覺上位于虛擬世界中，通常VR頭戴式裝置400可能缺乏將用戶聽覺地置于顯示的世界中的性能。換句話說，VR系統(tǒng)(其可以包括負(fù)責(zé)渲染視頻數(shù)據(jù)和音頻數(shù)據(jù)的計(jì)算機(jī)-為了便于說明目的在圖2的示例中未示出，和VR頭戴式裝置400)可能不能支持聽覺地全三維浸入(且在有些情況下實(shí)際上以經(jīng)由VR頭戴式裝置400反映呈現(xiàn)給用戶的顯示的場景的方式)。[0083]雖然在本公開中關(guān)于VR裝置描述，但是該技術(shù)的各個(gè)方面可以在其他裝置，比如移動(dòng)裝置的上下文中執(zhí)行。在這種情況下，移動(dòng)裝置(比如所謂的智能電話)可以經(jīng)由屏幕呈現(xiàn)顯示的世界，屏幕可以安裝到用戶402的頭部或者可以像在通常使用移動(dòng)裝置時(shí)那樣觀看。因而，屏幕上的任何信息是移動(dòng)裝置的一部分。移動(dòng)裝置能夠提供跟蹤信息41,由此允許VR體驗(yàn)(當(dāng)頭部安裝時(shí))和普通體驗(yàn)兩者以觀看顯示的世界，其中普通體驗(yàn)仍然可以允許用戶觀看顯示的世界，證明VR-精簡-類型體驗(yàn)(例如，舉起裝置并旋轉(zhuǎn)或者平移裝置以觀看顯示的世界的不同部分)。[0084]在任何情況下，返回到VR裝置上下文，VR的音頻方面已經(jīng)被分類為三個(gè)單獨(dú)的浸入的類別。第一類別提供最低水平的浸入，并且被稱為三自由度(3D0F)。3DOF指的是解釋三個(gè)自由度(偏轉(zhuǎn)、俯仰和滾轉(zhuǎn))上頭部的運(yùn)動(dòng)的音頻渲染，由此允許用戶在任何方向上自由地環(huán)顧。但是，3DOF不能解釋其中頭部不以聲場的光學(xué)和聲學(xué)中心為中心的平移的頭部運(yùn)[0085]第二類別被稱為3D0F加(3D0F+),除由于遠(yuǎn)離聲場內(nèi)的光學(xué)中心和聲學(xué)中心的頭部運(yùn)動(dòng)的有限的空間平移運(yùn)動(dòng)之外還提供三個(gè)自由度(偏轉(zhuǎn)、俯仰和滾轉(zhuǎn))。3D0F+可以提供比如運(yùn)動(dòng)視差的知覺效果的支持，可以增強(qiáng)浸入的感覺。[0086]第三類別被稱為六自由度(6D0F),以解釋按照頭部運(yùn)動(dòng)的三自由度(偏轉(zhuǎn)、俯仰和滾轉(zhuǎn))且還解釋用戶在空間中的平移(x,y和z平移)的方式渲染音頻數(shù)據(jù)?？臻g平移可以由跟蹤用戶在物理世界中的位置的傳感器或者通過輸入控制器的方式導(dǎo)出。[0087]3D0F渲染是VR的音頻方面的現(xiàn)有技術(shù)的當(dāng)前狀態(tài)。因而，VR的音頻方面比視頻方面較少浸入式，由此潛在地減少用戶體驗(yàn)的總體浸入。但是，VR正在快速地轉(zhuǎn)變且可以[0088]例如，交互游戲應(yīng)用可以利用6D0F來促進(jìn)全浸入式游戲，其中用戶自己在VR世界內(nèi)移動(dòng)且可以通過向虛擬對象走過去來與虛擬對象交互。此外，交互實(shí)況流應(yīng)用可以利用6D0F以允許VR客戶端裝置體驗(yàn)音樂會(huì)或者體育事件的實(shí)況流，就好像自己出席音樂會(huì)那樣，允許用戶在音樂會(huì)或者體育事件內(nèi)移動(dòng)。[0089]存在與這些使用情況相關(guān)聯(lián)的多個(gè)困難。在全浸入式游戲的實(shí)例中，延遲可能需要保持得低，以使游戲進(jìn)程能夠不導(dǎo)致眩暈或者暈動(dòng)病。此外，從音頻角度，導(dǎo)致失去與視頻數(shù)據(jù)的同步的音頻回放中的延遲可能減少浸入。此外，對于某些類型的游戲應(yīng)用，為允許精確響應(yīng)，空間精度可能是重要的，包括關(guān)于怎樣由用戶感知聲音，因?yàn)槠湓试S用戶預(yù)期當(dāng)前沒有看到的動(dòng)作。[0090]在實(shí)況流應(yīng)用的上下文中，大量源裝置12A或者12B(為簡單的目的，兩者以下都稱為源裝置12)可以流化內(nèi)容21,其中源裝置12可以具有非常不同的性能。例如，一個(gè)源裝置可能是具有數(shù)字的固定鏡頭相機(jī)和一個(gè)或多個(gè)麥克風(fēng)的智能電話，而另一源裝置可能是能夠獲得比智能電話高得多的分辨率和質(zhì)量的視頻的生產(chǎn)級電視設(shè)備。但是，在實(shí)況流應(yīng)用的上下文中，所有源裝置可以提供變化質(zhì)量的流，VR裝置可以從該變化質(zhì)量的流嘗試選擇適當(dāng)?shù)囊粋€(gè)以提供想要的體驗(yàn)。[0091]圖3圖示支持根據(jù)本公開的各方面的裝置和方法的無線通信系統(tǒng)100的示例。無線通信系統(tǒng)100包括基站105、UE115和核心網(wǎng)絡(luò)130。在某些示例中，無線通信系統(tǒng)100可以是線電(NR)網(wǎng)絡(luò)。在有些情況下，無線通信系統(tǒng)100可以支持增強(qiáng)寬帶通信、超可靠(例如，任務(wù)關(guān)鍵)通信、低延遲通信或者與低成本和低復(fù)雜度裝置的通信。[0092]基站105可以經(jīng)由一個(gè)或多個(gè)基站天線與UE115無線地通信。在這里描述的基站105可以包括或者可以由本領(lǐng)域技術(shù)人員稱為基本收發(fā)器站、無線電基站、接入點(diǎn)、無線電B、家庭eNodeB或者某些其它適當(dāng)?shù)男g(shù)語。無線通信系統(tǒng)100可以包括不同類型的基站105(例如，宏或者小小區(qū)基站)。在這里描述的UE115能夠與各種類型的基站1[0093]每個(gè)基站105可以與其中支持與各種UE115的通信的特定地理覆蓋區(qū)域110相關(guān)聯(lián)。每個(gè)基站105可以經(jīng)由通信鏈路125提供用于各個(gè)地理覆蓋區(qū)域110的通信覆蓋，并且基站105和UE115之間的通信鏈路125可以利用一個(gè)或多個(gè)載波。無線通信系統(tǒng)100中示出的通信鏈路125可以包括從UE115到基站105的上行鏈路傳輸，或者從基站105到UE115的下行鏈路傳輸。下行鏈路傳輸也可以被稱為前向鏈路傳輸，同時(shí)上行鏈路傳輸也可以被稱為反向鏈路傳輸。[0094]用于基站105的地理覆蓋區(qū)域110可以被劃分為組成地理覆蓋區(qū)域110的一部分的扇區(qū)，并且每個(gè)扇區(qū)可以與小區(qū)相關(guān)聯(lián)。例如，每個(gè)基站105可以提供或者其他類型的小區(qū)或者其各種組合的通信覆蓋。在某些示例中，基站105可以是可移動(dòng)的，因此提供用于移動(dòng)地理覆蓋區(qū)域110的通信覆蓋。在某些示例中，與不同技術(shù)相關(guān)聯(lián)的不同地理覆蓋區(qū)域110可以重疊，并且與不同技術(shù)相關(guān)聯(lián)的重疊的地理覆蓋區(qū)域110可以由相同基站105或者由不同基站105支持。無線通信系統(tǒng)100例如可以包括其中不同類型的基站105提供各種地理覆蓋區(qū)域110的覆蓋的不同種類的LTE/LTE-A/LTE-APro,5G蜂窩或者[0095]UE115可以遍及無線通信系統(tǒng)100地分散，并且每個(gè)UE115可以是靜止或者移動(dòng)的。UE115也可以被稱為移動(dòng)裝置、無線裝置、遠(yuǎn)程裝電子裝置，比如蜂窩電話、個(gè)人數(shù)字助理(PDA)、平板計(jì)算機(jī)、膝上型計(jì)算機(jī)或者個(gè)人計(jì)算其他裝置，或者能夠發(fā)送捕獲的和/或合成的音頻流。在某些示例中，合成的音頻流可以是存儲(chǔ)在存儲(chǔ)器中或者先前創(chuàng)建或者合成的音頻流。在某些示例中，UE115也可以被稱為無[0096]某些UE115,比如MTC或者IoT裝置可以是低成本或者低復(fù)雜性的裝置，并且可以提供用于機(jī)器之間的自動(dòng)化通信(例如，經(jīng)由機(jī)器到機(jī)器(M2M)通信)。M2M通信或者M(jìn)TC可以指允許裝置在沒有人干預(yù)的情況下彼此通信或者與基站105通信的數(shù)據(jù)通信技術(shù)。在某些據(jù)，對切換、掩碼和/或空的各種音頻流和/或音頻源指示隱私限制和/或基于密碼的隱私數(shù)[0097]在有些情況下，UE115還可以直接與其他UE115通信(例如，使用點(diǎn)對點(diǎn)(P2P)或裝置到裝置(D2D)協(xié)議)。利用D2D通信的一組UE115中的一個(gè)或多個(gè)可以在基站105的地理覆蓋區(qū)域110內(nèi)。這種組中的其他UE115可以在基站105的地理覆蓋區(qū)域110的外部，或者否則不能從基站105接收傳輸。在有些情況下，經(jīng)由D2D通信而通信的UE115的組可以利用其中每個(gè)UE115發(fā)送到組中的每個(gè)其它UE115的一對多(1:M)系統(tǒng)。在有些情況下，基站105促進(jìn)用于D2D通信的資源的調(diào)度。在其它情況下，在UE115之間進(jìn)行D2D通信而不涉及基站[0098]基站105可以與核心網(wǎng)絡(luò)130通信和彼此通信。例如，基站105可以通過回程鏈路經(jīng)由核心網(wǎng)絡(luò)130)彼此通信。[0099]在有些情況下，無線通信系統(tǒng)100可以利用許可和未許可的射頻頻段。例如，在比如5GHzISM頻帶的未許可頻帶中，無線通信系統(tǒng)100可以采用許可輔助訪問(LAA)、LTE-未許可(LTE-U)無線電訪問技術(shù)、5G蜂窩技術(shù)或者NR技術(shù)。當(dāng)在未許可射頻頻譜帶中操作時(shí)，比如基站105和UE115的無線裝置可以采用先聽后講(LBT)過程以保證在發(fā)射數(shù)據(jù)之前頻率通道是干凈的。在有些情況下，未許可頻帶中的操作可以基于與許可頻帶中操作的分量載波結(jié)合的載波聚合配置(例如，LAA)。未許可頻譜中的操作可以包括下行鏈路傳輸、上行鏈路傳輸、點(diǎn)對點(diǎn)傳輸或者這些的組合。未許可頻譜中的雙工可以基于頻分雙工(FDD)、時(shí)分雙工(TDD)或者兩者的組合。[0100]當(dāng)比如圖2中的VR頭戴式裝置400的頭戴式裝置的用戶402以聲音的方向移動(dòng)他們的頭部時(shí)，他們可能期待體驗(yàn)聲音的運(yùn)動(dòng)。例如，如果用戶402聽到汽車從他們的左邊離開，則當(dāng)用戶402轉(zhuǎn)向他們的左邊時(shí)，他們可能期待在已經(jīng)轉(zhuǎn)到面向聲音之后聽到汽車好像在他們的前面。為移動(dòng)聲場，內(nèi)容消費(fèi)者裝置14可以在PCM域中平移聲場。但是，PCM域中的聲場的平移可能消耗計(jì)算資源(比如處理循環(huán)、存儲(chǔ)器帶寬、存儲(chǔ)器和/或存儲(chǔ)空間等),因?yàn)閇0101]根據(jù)本公開中描述的技術(shù)的各個(gè)方面，例如可以是VR頭戴式裝置400的內(nèi)容消費(fèi)者裝置14可以在空間向量域中平移聲場。通過在空間向量域而不是在PCM域中平移聲場，可以節(jié)省計(jì)算資源。[0102]在操作中，內(nèi)容消費(fèi)者裝置14可以從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息。運(yùn)動(dòng)傳感器例如可以位于頭戴式顯示器內(nèi)。該旋轉(zhuǎn)信息可以包括用戶402的頭部的滾轉(zhuǎn)、俯仰和/或偏轉(zhuǎn)。內(nèi)容消費(fèi)者裝置14的音頻回放系統(tǒng)16可以將旋轉(zhuǎn)信息乘以空間向量，比如V-向量。以這種方式，內(nèi)容消費(fèi)者裝置14可以實(shí)現(xiàn)聲場的平移而沒有在PCM域中平移聲場的高成本處理。[0103]在內(nèi)容消費(fèi)者裝置14的音頻回放系統(tǒng)16相對于空間向量旋轉(zhuǎn)或者執(zhí)行某種形式的平移之后，內(nèi)容消費(fèi)者裝置14可以基于旋轉(zhuǎn)的空間向量和音頻數(shù)據(jù)(其可以包括從環(huán)境立體聲頻數(shù)據(jù)19分解的U-向量)來環(huán)境立體聲解碼聲場。關(guān)于平移技術(shù)的各個(gè)方面的更多信息在以下關(guān)于圖4討論。[0104]圖4是更詳細(xì)地分別圖示示例音頻回放系統(tǒng)，比如圖1A-1C的音頻回放系統(tǒng)16A或者音頻回放系統(tǒng)16B的框圖。如圖4的示例所示，音頻回放系統(tǒng)16包括空間向量旋轉(zhuǎn)器205和HOA重建器230.為了便于說明目的，從音頻回放系統(tǒng)16[0105]空間向量旋轉(zhuǎn)器205可以表示一個(gè)單元，該單元被配置為接收關(guān)于用戶402的頭部的運(yùn)動(dòng)的旋轉(zhuǎn)信息，比如滾轉(zhuǎn)、俯仰和/或偏轉(zhuǎn)信息，并利用旋轉(zhuǎn)信息產(chǎn)生旋轉(zhuǎn)的空間向量信號。例如，空間向量旋轉(zhuǎn)器205可以在空間向量域中旋轉(zhuǎn)空間向量信號，以使得音頻回放系統(tǒng)16可以避免PCM域中的聲場的高成本平移(就處理循環(huán)、存儲(chǔ)器空間和/或包括存儲(chǔ)器帶寬的帶寬而言)。[0106]HOA重建器230可以表示圖1A-圖1C的示例中示出的音頻解碼裝置34的全部或者一部分的示例。在某些示例中，HOA重建器230可以操作為根據(jù)在本公開中的其它地方討論的HTF音頻標(biāo)準(zhǔn)的高階環(huán)境立體聲(HOA)傳輸格式(HTF)解碼器的全部或者一部分。[0107]如在圖4的示例中進(jìn)一步所示的，音頻回放系統(tǒng)16可以與旋轉(zhuǎn)傳感器200接口連接，旋轉(zhuǎn)傳感器200可以包括在比如圖2的VR頭戴式裝置400的頭戴式裝置內(nèi)和/或圖1A-圖1C的跟蹤裝置40內(nèi)。當(dāng)安裝在用戶的頭部上時(shí)，旋轉(zhuǎn)傳感器200可以監(jiān)控用戶的頭部的旋轉(zhuǎn)運(yùn)動(dòng)。例如，旋轉(zhuǎn)傳感器200可以當(dāng)用戶402移動(dòng)他們的頭部時(shí)測量頭部的俯仰、滾轉(zhuǎn)和偏轉(zhuǎn)(theta,phi和psi)。頭部的旋轉(zhuǎn)運(yùn)動(dòng)的測量(旋轉(zhuǎn)信息)可以被發(fā)送到空間向量旋轉(zhuǎn)器205?？臻g向量旋轉(zhuǎn)器205可以是音頻回放系統(tǒng)16的一部分，其可以被分別表示為如圖1A-1C所示的內(nèi)容消費(fèi)者裝置14中的16A或者16B。[0108]空間向量旋轉(zhuǎn)器205可以接收用戶的頭部的旋轉(zhuǎn)信息。空間向量旋轉(zhuǎn)器205也可以從圖1A-圖1C的源裝置12以位流，例如位流27接收空間向量220.空間向量旋轉(zhuǎn)器205可以使用旋轉(zhuǎn)信息來旋轉(zhuǎn)空間向量220。例如，空間向量旋轉(zhuǎn)器205可以通過經(jīng)由一系列左移位，經(jīng)由查詢表，經(jīng)由矩陣乘法，逐行的乘法或者通過訪問陣列和乘以單獨(dú)的數(shù)字將空間向量乘以旋轉(zhuǎn)信息來旋轉(zhuǎn)空間向量220。以該方式，空間向量旋轉(zhuǎn)器205可以將聲場移動(dòng)到用戶402期望它在的地方。關(guān)于如何創(chuàng)建旋轉(zhuǎn)補(bǔ)償矩陣的信息可以在馬蒂亞斯·克朗拉赫納(MatthiasKronlachner)和弗朗茨·佐特(FranzZotter)的用于環(huán)境立體聲記錄的增強(qiáng)的空間變換中找到，當(dāng)實(shí)現(xiàn)時(shí)可以由空間向量旋轉(zhuǎn)器205使用所述旋轉(zhuǎn)補(bǔ)償矩陣以經(jīng)由矩陣乘法來旋轉(zhuǎn)空間向量220。雖然音頻回放系統(tǒng)16在這里描述為移動(dòng)聲場到用戶402將期望它在的地方，但是不需要這樣做。例如，內(nèi)容創(chuàng)建者可能希望對渲染具有更多控制，從而創(chuàng)建特定音頻效果或者減少由于用戶402的微運(yùn)動(dòng)導(dǎo)致的聲場的運(yùn)動(dòng)。在這些情況下，渲染元數(shù)據(jù)可以添加到位流27以限制或者修改空間向量旋轉(zhuǎn)器旋轉(zhuǎn)聲場的能力。[0109]空間向量旋轉(zhuǎn)器205然后可以將旋轉(zhuǎn)的空間向量提供到HOA重建器230.HOA重建器230可以從位流27或者從音頻解碼裝置34的其他部分，從圖1A-1C的源裝置12接收音頻源225的表示，比如U-向量，并重建旋轉(zhuǎn)的HOA信號。HOA重建器230然后可以輸出要渲染的重建[0110]圖5是進(jìn)一步圖示本公開的技術(shù)的各個(gè)方面的示例音頻回放系統(tǒng)的框圖。圖5可以表示圖4的更詳細(xì)的圖，其中例如在音頻回放系統(tǒng)16的音頻解碼裝置34中重建比如U-向量[0111]多通道向量去量化器232可以接收量化的參考?xì)埐钕蛄啃盘?REFV232也可以向多個(gè)殘差去耦器233B(為了簡單的目的未示出)-233M中的每一個(gè)提供用于其SYNTH)238A-238M可以接收偶數(shù)/奇數(shù)子帶合成器的輸出，并改變增益/形狀合成器238A-一個(gè)的參考的多個(gè)側(cè)信息信號。殘差耦合/去耦合旋轉(zhuǎn)器240也可以從旋轉(zhuǎn)傳感器200接收于參考?xì)埐钕蛄縿?chuàng)建通道的2-M側(cè)信息中的每一個(gè)的投影矩陣，并將每個(gè)通道的投影矩陣陣可以是能量保持旋轉(zhuǎn)矩陣，其可以用于從參考?xì)埐钕蛄咳ヱ钪亟ǖ耐ǖ?。可以使用量化該量化的參考?xì)埐钕蛄?。參考向量去量化?42可以將去量化的參考?xì)埐钕蛄刻峁┑胶铣善?E/0SUB)236A-236M接收由基于投影的殘差去耦器234A-234M輸出的殘差耦合分以接收參考?xì)埐钚盘柕娜チ炕哪芰俊Ｔ鲆?形狀合成器238R可以合成參考?xì)埐钕蛄亢蛥⒖細(xì)埐钚盘柕娜チ炕哪芰?，以重建和輸出重建的參考音頻源。增益/形狀合成器238A-放系統(tǒng)16可以從旋轉(zhuǎn)傳感器200接收旋轉(zhuǎn)信息。HTF解碼器248可以解碼位流27中的信息以獲得空間向量。HTF解碼器248可以將空間向量提供到空間向量旋轉(zhuǎn)器(SPATVECTOR[0117]殘差耦合/去耦合旋轉(zhuǎn)器(RESIDC/DROT)240也可以從旋轉(zhuǎn)傳感器200接收旋轉(zhuǎn)考?xì)埐钕蛄康挠糜谕ǖ?-M的側(cè)信息。殘差側(cè)時(shí)間解碼器246可以例如經(jīng)由立體耦合分析，殘差耦合/去耦合旋轉(zhuǎn)器240。殘差耦合/去耦合旋轉(zhuǎn)器240可以基于來自旋轉(zhuǎn)傳感器200的可以解碼多通道能量位流，并將能量參考信號提供到增益/形狀合成器(GAIN/SHAPEDECOUPLER)234A-M中的每一個(gè)和增益/形狀合成器(GAIN/SHAPESYNTH)238A-238M中的每[0119]圖8是圖示具有三個(gè)或更多音頻接收器的示例音樂會(huì)的概念圖。在圖8的示例中，而麥克風(fēng)310B可以捕獲主要與弦樂部分314相關(guān)聯(lián)的音頻流，但是包括由其他樂隊(duì)成員產(chǎn)[0120]還示出多個(gè)裝置。這些裝置表示位于多個(gè)不同的期望收聽位置的用戶裝置。耳機(jī)內(nèi)容消費(fèi)者裝置可以選擇至少一個(gè)音頻流以產(chǎn)生類似于用戶位于耳機(jī)320在圖8中的地方的、用于耳機(jī)320的用戶的音頻體驗(yàn)。類似地，示出VR護(hù)目鏡322位于麥克風(fēng)310C后，并且在鼓手316和其他音樂家318之間。內(nèi)容消費(fèi)者裝置可以選擇至少一個(gè)音頻流以產(chǎn)生類似于用戶位于VR護(hù)目鏡322在圖8中的地方的、用于VR護(hù)目鏡3[0121]示出智能眼鏡324相當(dāng)中心地位于麥克風(fēng)310A、310C和310D之間。內(nèi)容消費(fèi)者裝置可以選擇至少一個(gè)音頻流以產(chǎn)生類似于用戶位于智能眼鏡324在圖8中的地方的、用于智能眼鏡324的用戶的音頻體驗(yàn)。另外，示出裝置326(其可以表示能夠?qū)崿F(xiàn)本公開的技術(shù)的任何費(fèi)者裝置可以選擇至少一個(gè)音頻流以產(chǎn)生類似于用戶位于裝置326在圖8中的地方的、用于裝置326的用戶的音頻體驗(yàn)。雖然關(guān)于特定位置討論特定裝置，但是示出的任意裝置的使用可以提供不同于圖8中示出的期望的收聽位置的指示。圖8的任意裝置可以用于實(shí)現(xiàn)本公開的技術(shù)。[0122]圖9是圖示根據(jù)本公開的技術(shù)的使用旋轉(zhuǎn)信息的示例的流程圖。音頻回放系統(tǒng)16可以存儲(chǔ)至少一個(gè)空間分量和至少一個(gè)音頻源(250)。例如，音頻回放系統(tǒng)可以以位流27接收多個(gè)音頻流。多個(gè)音頻流可以包括至少一個(gè)空間分量和至少一個(gè)音頻分量。音頻回放系統(tǒng)16可以在存儲(chǔ)器中存儲(chǔ)至少一個(gè)空間分量和至少一個(gè)音頻源。[0123]音頻回放系統(tǒng)16可以從比如旋轉(zhuǎn)傳感器200的運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息(252)。例如，旋轉(zhuǎn)傳感器200可以當(dāng)用戶402移動(dòng)他們的頭部時(shí)測量頭部的俯仰、滾轉(zhuǎn)和偏轉(zhuǎn)(theta,phi和psi)。頭部的旋轉(zhuǎn)運(yùn)動(dòng)(旋轉(zhuǎn)信息)的測量可以由音頻回放系統(tǒng)16接收。音頻回放系統(tǒng)15可以基于旋轉(zhuǎn)信息旋轉(zhuǎn)至少一個(gè)空間分量(254)。例如，空間向量旋轉(zhuǎn)器205可以通過經(jīng)由一系列左移位、經(jīng)由查詢表、經(jīng)由矩陣乘法、逐行的乘法或者通過訪問陣列和乘以單獨(dú)的數(shù)字將至少一個(gè)空間分量乘以旋轉(zhuǎn)信息來旋轉(zhuǎn)至少一個(gè)空間分量。[0124]音頻回放系統(tǒng)15可以從旋轉(zhuǎn)的至少一個(gè)空間分量和至少一個(gè)音頻源重建環(huán)境立體聲信號(256)。例如，HOA重建器230可以從位流27或者從音頻解碼裝置34的其他部分，從例中，至少一個(gè)空間分量包括V-向量，并且至少一個(gè)音頻源包括U-向量。在某些示例中，音頻回放系統(tǒng)15可以將投影矩陣應(yīng)用于參考?xì)埐钕蛄亢腿チ炕哪芰啃盘栆灾亟║-向量。在某些示例中，投影矩陣包括時(shí)間和空間旋轉(zhuǎn)數(shù)據(jù)。例如，圖7的殘差耦合/去耦合旋轉(zhuǎn)器240可以基于來自旋轉(zhuǎn)傳感器200的旋轉(zhuǎn)信息和來自殘差側(cè)時(shí)間解碼器246的時(shí)間相位信息，創(chuàng)建用于通道2-M中的每一個(gè)的投影矩陣。在某些示例中，音頻回放系統(tǒng)15可以將至少一個(gè)音頻源的表示，比如基于環(huán)境立體聲信號的表示輸出到一個(gè)或多個(gè)揚(yáng)聲器(258)。在某些示例中，音頻回放系統(tǒng)可以在輸出環(huán)境立體聲信號之前通過混合或者插值的至少一個(gè)組合至少一個(gè)音頻源的至少兩個(gè)表示。在某些示例中，內(nèi)容消費(fèi)者裝置14可以從麥克風(fēng)接收語音命令，并基于語音命令控制顯示裝置。在某些示例中，內(nèi)容消費(fèi)者裝置14可以接收無線信號，比如類似位流27的無線位流。[0125]圖10是圖示可以根據(jù)本公開中描述的技術(shù)的各個(gè)方面操作的可穿戴裝置500的示例的圖。在各種示例中，可穿戴裝置500可以表示VR頭戴式裝置(比如如上所述的VR頭戴式裝置400)、AR頭戴式裝置、MR頭戴式裝置或者任何其他類型的擴(kuò)展現(xiàn)實(shí)((XR)頭戴式裝置。增強(qiáng)現(xiàn)實(shí)“AR”可以指在其中用戶實(shí)際上位于的現(xiàn)實(shí)世界上重疊計(jì)算機(jī)渲染的圖像或者數(shù)據(jù)。混合現(xiàn)實(shí)“MR”可以指世界被鎖定到實(shí)際世界中的特定位置的計(jì)算機(jī)渲染的圖像或者數(shù)據(jù)，或者可以指其中部分計(jì)算機(jī)渲染的3D元素和部分拍攝的真實(shí)元素組合為模擬用戶在環(huán)包羅萬象的術(shù)語。關(guān)于用于XR的術(shù)語的更多信息可以在2017年7月7日的杰森·彼得森(JasonPeterson)的題為“VirtualReality,AugmentedReality,andMixedReality者無線連接與支持可穿戴裝置500的計(jì)算裝置通信。[0127]在有些情況下，支持可穿戴裝置500的計(jì)算裝置可以集成在可穿戴裝置500內(nèi)，因而，可穿戴裝置500可以被認(rèn)為是與支持可穿戴裝置500的計(jì)算裝置相同的裝置。在其他實(shí)例中，可穿戴裝置500可以與可以支持可穿戴裝置500的單獨(dú)的計(jì)算裝置通信。在這方面，術(shù)語“支持”不應(yīng)該被理解為需要單獨(dú)的專用設(shè)備，而是應(yīng)該被理解為配置為執(zhí)行本公開中描述的技術(shù)的各個(gè)方面的一個(gè)或多個(gè)處理器可以集成在可穿戴裝置500內(nèi)或者集成在與可穿戴裝置500分開的計(jì)算裝置內(nèi)。[0128]例如，當(dāng)可穿戴裝置500表示VR裝置1100時(shí)，單獨(dú)的專用計(jì)算裝置(比如包括一個(gè)或多個(gè)處理器的個(gè)人計(jì)算機(jī))可以渲染音頻和視覺內(nèi)容，而可穿戴裝置500可以確定平移頭部運(yùn)動(dòng)，專用計(jì)算裝置可以基于平移頭部運(yùn)動(dòng)渲染根據(jù)本公開中描述的技術(shù)的各個(gè)方面的音頻內(nèi)容(如揚(yáng)聲器饋送)。作為另一示例，當(dāng)可穿戴裝置500表示智能眼鏡時(shí)，可穿戴裝置500可以包括一個(gè)或多個(gè)處理器，其確定平移頭部運(yùn)動(dòng)(通過在可穿戴裝置500的一個(gè)或多個(gè)傳感器內(nèi)接口連接),并基于所確定的平移頭部運(yùn)動(dòng)渲染揚(yáng)聲器饋送。[0129]如圖所示，可穿戴裝置500包括一個(gè)或多個(gè)定向揚(yáng)聲器和一個(gè)或多個(gè)跟蹤和/或記錄相機(jī)。另外，可穿戴裝置500包括一個(gè)或多個(gè)慣性、觸覺和/或健康傳感器、一個(gè)或多個(gè)眼跟蹤相機(jī)、一個(gè)或多個(gè)高靈敏度音頻麥克風(fēng)和光學(xué)/投影硬件?？纱┐餮b置500的光學(xué)/投影硬件可以包括耐用的半透明顯示技術(shù)和硬件。[0130]可穿戴裝置500也包括連接性硬件，其可以表示支持多模式連接性的一個(gè)或多個(gè)感器和骨傳導(dǎo)傳感器。在有些情況下，可穿戴裝置500也可以包括具有魚眼鏡頭和/或遠(yuǎn)攝鏡頭的一個(gè)或多個(gè)無源和/或有源相機(jī)。雖然圖10中未示出，但是可穿戴裝置500還可以包實(shí)現(xiàn)中，可穿戴裝置500還可以包括一個(gè)或多個(gè)后相機(jī)。將認(rèn)可，可穿戴裝置500可以顯示出各種不同的形狀因數(shù)。[0131]此外，跟蹤和記錄相機(jī)及其他傳感器可以促進(jìn)平移距離的確定。雖然在圖10的示例中未示出，但是可穿戴裝置500可以包括用于檢測平移距離的其他類型的傳感器。[0132]雖然相對于可穿戴裝置的特定示例，比如上面相對于圖10的示例討論的VR裝置1100及在圖1A-1C的示例中提到的其他裝置進(jìn)行描述，但是本領(lǐng)域技術(shù)人員將認(rèn)可，與圖1A-1C和圖2有關(guān)的描述可以應(yīng)用于可穿戴裝置的其他示例。例如，比如智能眼鏡的其他可穿戴裝置可以包括通過其獲得平移頭部運(yùn)動(dòng)的傳感器。作為另一示例，比如智能手表的其他可穿戴裝置可以包括通過其獲得平移運(yùn)動(dòng)的傳感器。因而，本公開中描述的技術(shù)不應(yīng)該限于特定類型的可穿戴裝置，而是任何可穿戴裝置可以配置為執(zhí)行本公開中描述的技術(shù)。[0133]圖11A和圖11B是圖示可以執(zhí)行本公開中描述的技術(shù)的各個(gè)方面的示例系統(tǒng)的圖。圖11A圖示其中源裝置12進(jìn)一步包括相機(jī)600的示例。相機(jī)600可以配置為捕獲視頻數(shù)據(jù)，并將捕獲的原始視頻數(shù)據(jù)提供到內(nèi)容捕獲裝置20.內(nèi)容捕獲裝置20可以將視頻數(shù)據(jù)提供到源裝置12的另一組件，以用于進(jìn)一步處理為視點(diǎn)劃分的部分。[0134]在圖11A的示例中，內(nèi)容消費(fèi)者裝置14還包括可穿戴裝置300。將理解在各種實(shí)現(xiàn)中，可穿戴裝置300可以包括在內(nèi)容消費(fèi)者裝置14中或者外部地耦合到內(nèi)容消費(fèi)者裝置14。可穿戴裝置300包括用于輸出視頻數(shù)據(jù)(例如，如與各種視點(diǎn)相關(guān)聯(lián)的)和用于渲染音頻數(shù)據(jù)的顯示器硬件和揚(yáng)聲器硬件。[0135]圖11B圖示其中圖11A所示的音頻渲染器32被替換為雙耳渲染器42的示例，該雙耳渲染器42能夠使用一個(gè)或多個(gè)HRTF執(zhí)行雙耳渲染或者能夠?qū)ψ蠛陀覔P(yáng)聲器饋送43渲染的其他功能。音頻回放系統(tǒng)16C可以將左和右揚(yáng)聲器饋送43輸出到耳機(jī)44。[0136]耳機(jī)44可以經(jīng)由有線連接(比如標(biāo)準(zhǔn)3.5毫米音頻插孔、通用系統(tǒng)總線(USB)連接、光學(xué)音頻插孔或者其他形式的有線連接)或者無線地(比如通過藍(lán)牙連接、無線網(wǎng)絡(luò)連接等方式)耦合到音頻回放系統(tǒng)16C。耳機(jī)44可以基于左和右揚(yáng)聲器饋送43重新創(chuàng)建由音頻數(shù)據(jù)19'表示的聲場。耳機(jī)44可以包括由相應(yīng)的左和右揚(yáng)聲器饋送43供能(或者，換言之，驅(qū)動(dòng))的左耳機(jī)揚(yáng)聲器和右耳機(jī)揚(yáng)聲器。[0137]圖12是圖示圖1A-圖1C的示例中示出的源裝置和內(nèi)容消費(fèi)者裝置中的一個(gè)或多個(gè)的示例組件的框圖。在圖12的示例中，裝置710包括處理器712(其可以被稱為“一個(gè)或多個(gè)多個(gè)集成的揚(yáng)聲器740、顯示器703、用戶接口720、天線721和收發(fā)器模塊722。在其中裝置710是移動(dòng)裝置的示例中，顯示處理器718是移動(dòng)顯示處理器(MDP)。在某些示例中，比如其中裝置710是移動(dòng)裝置的示例中，處理器712、GPU714和顯示處理器718可以形成為集成電例中，處理器712、GPU714和顯示處理器718中的兩個(gè)可以一起裝在同一IC中，并且另一個(gè)在不同集成電路(即，不同芯片封裝)中，或者全部三個(gè)可以裝在不同IC或者在同一IC上。但是，在其中裝置710是移動(dòng)裝置的示例中，可能處理器712、GPU714和顯示處理器718全部裝在不同集成電路中。[0139]處理器712、GPU714和顯示處理器718的示例包括，但不限于一個(gè)或多個(gè)數(shù)字信號處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或者其他等效集成或者離散邏輯電路系統(tǒng)。處理器712可以是裝置710的中央處理單元(CPU)。在某些示例中，GPU714可以是包括向GPU714提供適于圖形處理的大的并行處理能力的集成和/或離散邏輯電路系統(tǒng)的專用硬件。在有些情況下，GPU714也可以包括通用處理性能，并且當(dāng)實(shí)現(xiàn)通用處理任務(wù)(即，非圖形相關(guān)任務(wù))時(shí)可以被稱為通用GPU(GPGPU)。顯示處理器718也可以是設(shè)計(jì)用于從系統(tǒng)存儲(chǔ)器716檢索圖像內(nèi)容，將圖像內(nèi)容組成為圖像幀和輸出圖像幀到顯示器703的專用集成電路硬件。[0140]處理器712可以執(zhí)行各種類型的應(yīng)用。應(yīng)用的示例包括網(wǎng)絡(luò)瀏覽器、電子郵件應(yīng)用、電子表格、視頻游戲、生成用于顯示的可觀看對象的其他應(yīng)用或者以上更詳細(xì)地列出的任意應(yīng)用類型。系統(tǒng)存儲(chǔ)器716可以存儲(chǔ)用于應(yīng)用的執(zhí)行的指令。處理器712上應(yīng)用之一的執(zhí)行使得處理器712產(chǎn)生用于要顯示的圖像內(nèi)容的圖形數(shù)據(jù)和要播放(可能經(jīng)由集成的揚(yáng)聲器740)的音頻數(shù)據(jù)19.處理器712可以將圖像內(nèi)容的圖形數(shù)據(jù)發(fā)送到GPU714以用于基于處理器712發(fā)送到GPU714的指令或者命令的進(jìn)一步處理。[0141]處理器712可以根據(jù)特定應(yīng)用處理接口(API)與GPU714通信。這種API的示例包括是，本公開的方面不限于DirectX、OpenGL或者OpenCLAPI,并且可以擴(kuò)展至其他類型的API。此外，本公開中描述的技術(shù)不需要根據(jù)API而運(yùn)作，并且處理器712和GPU714可以利用用于通信的任何處理。[0142]系統(tǒng)存儲(chǔ)器716可以是用于裝置710的存儲(chǔ)器。系統(tǒng)存儲(chǔ)器716可以包括一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。系統(tǒng)存儲(chǔ)器716的示例包括，但不限于隨機(jī)存取存儲(chǔ)器(RAM)、電可擦可編程只讀存儲(chǔ)器(EEPROM)、閃存或者可以用于以指令和/或數(shù)據(jù)結(jié)構(gòu)的形式攜帶或者存儲(chǔ)期望的程序代碼且可以由計(jì)算機(jī)或者處理器訪問的其他介質(zhì)。[0143]在某些示例中，系統(tǒng)存儲(chǔ)器716可以包括使得處理器712、GPU714和/或顯示處理器718執(zhí)行本公開中歸于處理器712、GPU714和/或顯示處理器718的功能的指令。因此，系統(tǒng)存儲(chǔ)器716可以是具有在其上存儲(chǔ)的指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，該指令當(dāng)執(zhí)行時(shí)使得一個(gè)或多個(gè)處理器(例如，處理器712、GPU714和/或顯示處理器718)執(zhí)行各種功能。[0144]系統(tǒng)存儲(chǔ)器716可以包括非瞬時(shí)存儲(chǔ)介質(zhì)。術(shù)語“非瞬時(shí)”指示存儲(chǔ)介質(zhì)不具體表現(xiàn)為載波或者傳播的信號。但是，術(shù)語“非瞬時(shí)”不應(yīng)該解釋為意味移動(dòng)或者其內(nèi)容是靜態(tài)的。作為一個(gè)示例，系統(tǒng)存儲(chǔ)器716可以從裝置710去除和移動(dòng)到另一裝置。作為另一示例，實(shí)質(zhì)上類似于系統(tǒng)存儲(chǔ)器716的存儲(chǔ)器可以插入到裝置710中。在某[0145]用戶接口720可以表示通過其用戶可以與裝置710接口連接的一個(gè)或多個(gè)硬件或者虛擬(意味著硬件和軟件的組合)用戶接口。用戶接口720可以包括物理按鈕、開關(guān)、觸發(fā)器、燈或者它們的虛擬版本。用戶接口720還可以包括物理或者虛擬鍵盤、觸摸界面-比如觸[0146]處理器712可以包括配置為執(zhí)行上面相對于內(nèi)容創(chuàng)建者裝置和/或內(nèi)容消費(fèi)者裝置的任意模塊、單元或者其他功能組件中的一個(gè)或多個(gè)討論的操作的全部或者某些部分的一個(gè)或多個(gè)硬件單元(包括所謂的“處理核心”)。天線721和收發(fā)器模塊722可以表示配置為建立和維持源裝置12和內(nèi)容消費(fèi)者裝置14之間的連接的單元。天線721和收發(fā)器模塊722可以表示能夠根據(jù)一個(gè)或多個(gè)無線通信協(xié)議無線通信的一個(gè)或多個(gè)接收器和/或一個(gè)或多個(gè)或者其他開源、私有或者其他通信標(biāo)準(zhǔn)。例如，收發(fā)器模塊722可以接收和/或發(fā)送無線信號。收發(fā)器模塊722可以表示單獨(dú)的發(fā)射器、單獨(dú)的接收器、單獨(dú)的發(fā)射器和單獨(dú)的接收器兩者或者組合的發(fā)射器和接收器。天線721和收發(fā)器模塊722可以配置為接收編碼的音頻數(shù)據(jù)。同樣地，天線721和收發(fā)器模塊722可以配置為發(fā)送編碼的音頻數(shù)據(jù)。[0147]要認(rèn)識到取決于示例，在這里描述的任意技術(shù)的某些動(dòng)作或者事件可以以不同序列執(zhí)行，可以添加，合并，或者一起省去(例如，對于該技線程處理、中斷處理或者多個(gè)處理器。[0148]在某些示例中，VR裝置(或者流式傳輸裝置)可以使用耦合到VR/流式傳輸裝置的存儲(chǔ)器的網(wǎng)絡(luò)接口與外部裝置通信交換消息，其中交換消息與聲場的多個(gè)可用表示相關(guān)聯(lián)。在某些示例中，VR裝置可以使用耦合到網(wǎng)絡(luò)接口的天線接收與聲場的多個(gè)可用表示相個(gè)或多個(gè)麥克風(fēng)陣列可以捕獲聲場。[0149]在某些示例中，存儲(chǔ)到存儲(chǔ)器裝置的聲場的多個(gè)可用表示可以包括聲場的多個(gè)基于對象的表示、聲場的高階環(huán)境立體聲表示、聲場的混合階環(huán)境立體聲表示、聲場的基于對象的表示與聲場的高階環(huán)境立體聲表示的組合、聲場的基于對象的表示與聲場的混合階環(huán)境立體聲表示的組合或者聲場的混合階表示與聲場的高階環(huán)境立體聲表示的組合。[0150]在某些示例中，聲場的多個(gè)可用表示的一個(gè)或多個(gè)聲場表示可以包括至少一個(gè)高分辨率區(qū)域和至少一個(gè)低分辨率區(qū)域，并且其中，基于轉(zhuǎn)向角選擇的呈現(xiàn)提供相對于至少一個(gè)高分辨率區(qū)域更大的空間精度和相對于低分辨率區(qū)域更小的空間精度。[0151]本公開包括以下示例。[0152]條款1.一種配置為播放多個(gè)音頻流中的一個(gè)或多個(gè)音頻流的裝置，該裝置包括：配置為存儲(chǔ)多個(gè)音頻流內(nèi)的至少一個(gè)空間分量和至少一個(gè)音頻源的存儲(chǔ)器；和耦合到存儲(chǔ)器的一個(gè)或多個(gè)處理器，并且被配置為：從運(yùn)動(dòng)傳感器接收旋轉(zhuǎn)信息；基于旋轉(zhuǎn)信息旋轉(zhuǎn)至少一個(gè)空間分量，以形成至少一個(gè)旋轉(zhuǎn)的空間分量；和從至少一個(gè)旋轉(zhuǎn)的空間分量和至少一個(gè)音頻源構(gòu)造環(huán)境立體聲信號。[0153]其中，該至少一個(gè)空間分量描述球諧函數(shù)域表示中的與至少一個(gè)音頻源相關(guān)聯(lián)的空間特性。[0154]條款1.5.條款1的裝置，其中，至少一個(gè)空間分量包括V-向量且至少一個(gè)音頻源包括U-向量。[0155]條款1.6.條款1.5的裝置，其中，一個(gè)

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

CN114731483B 用于虛擬現(xiàn)實(shí)音頻的聲場適配（高通股份有限公司）

文檔簡介

溫馨提示

最新文檔

評論

CN114731483B 用于虛擬現(xiàn)實(shí)音頻的聲場適配（高通股份有限公司）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔