版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
PAGE34360度全景視頻傳輸技術基礎綜述目錄TOC\o"1-3"\h\u929360度全景視頻傳輸技術基礎綜述 1285901.1360度全景視頻傳輸理論與方法 1219091.1.1360度全景視頻概述 169231.1.2可伸縮視頻編碼 394301.1.3可伸縮多視口分類機制 5312011.2強化學習理論和方法 6SEQseq\h360度全景視頻傳輸理論與方法360度全景視頻傳輸涉及多個理論與方法,為更好地理解后續(xù)內容,本節(jié)將分別敘述傳輸過程涉及的理論與概念。首先,本節(jié)描述了360度全景視頻的概念,涉及360度視頻的制作、存儲格式、應用場景以及傳輸方法。其次,本節(jié)針對360度視頻廣泛使用的SVC編碼方式進行原理簡述,以便充分理解SVC分層編碼的靈活性。最后,受先前學者提出的邊緣視口思想的啟發(fā),本節(jié)細化描述了具有邊緣區(qū)域的可伸縮多視口分類機制,該機制貫穿全文,是所提算法的前提和基礎。360度全景視頻概述360度全景視頻是一種能夠呈現全角度視圖的新興技術,然而其概念能追溯到許久以前。就字面意思上來說,“全景”體現在超寬場景上。例如,在羅馬帝國時期,畫家會在建筑物的內部繪制自然景觀、宮廷生活或神話故事等戲劇化場景;我國宋代同樣也產出了超寬場景的《韓熙載夜宴圖》,該畫作在不同場景間利用屏風、床榻、長案等物件進行軟分割,讓作品更具有立體感。在18世紀后期,視覺藝術家們不再局限于超寬場景的制作,而是更趨向于創(chuàng)造新的展示方式來提供一種沉浸感體驗。正如“全景”概念的創(chuàng)造者,英國畫家羅伯特·貝克,他在倫敦萊斯特廣場建造了一座圓柱型專用建筑來展示他的作品,令游客漫步其中以全角度觀賞畫作。至此,360度全景視頻產業(yè)的藍圖初成。圖21360度全景視頻的兩種觀看方式數字時代的到來讓全景畫作化身為數字媒介——現有的360度全景視頻通常使用由多個攝像機組成的特殊設備進行錄制,這種設備能夠實現多角度拍攝并通過視頻拼接的方法將多個單一視野的鏡頭合并成球形視頻。然而,球體的視頻格式不利于視頻的壓縮與存儲。考慮到360度視頻內容的發(fā)展和當前傳統視頻編碼標準的效率,將原始球面圖像投影到二維平面上進行編碼已成為一種常見的選擇。其中,等距柱狀投影格式(Equi-RectangularProjection,ERP)應用最為廣泛,例如,在標準顯示器上,觀看者通常使用ERP格式實現超寬廣角的觀看體驗,這種觀看方法類似于觀看傳統視頻,如圖21(a)所示,主要應用在編輯過程中為電影制作人提供更多角度選擇的選項。為更好地體現360度視頻特性和增加更多的互動性,頭戴式顯示器(Head-MountedDisplay,HMD)應運而生。HMD外形類似于一副護目鏡或一個完整的頭盔,能夠占據用戶的整個視野;該硬件設備配置有頭部跟蹤器,以便系統響應頭部運動,在觀看者轉頭時動態(tài)更新顯示場景的不同部分;因此,HMD顯示的區(qū)域始終在用戶的視口內,如圖21(b)所示。在視頻傳輸環(huán)節(jié),基于瓦片的的傳輸方案作為視口依賴傳輸策略的拓展,能夠有效減少360度視頻傳輸的帶寬需求并提升視頻傳輸質量。至此,360度全景視頻經由錄制、拼接、投影、壓縮解壓縮和傳輸步驟,能夠通過互聯網傳遞至各HMD用戶眼前,實現輕交互式的、個性化的沉浸式視頻體驗??缮炜s視頻編碼圖22SVC編解碼器流程的簡化描述在無線環(huán)境中實現高質量的視頻傳輸是一項極具挑戰(zhàn)性的任務,有限的網絡資源往往要求盡可能小的存儲空間和帶寬消耗,因此大多數數字視頻內容通常會以某種壓縮格式表示。在過去的幾十年中,從H.261到H.264/AVC標準的出現彰顯了視頻編碼領域的高質量發(fā)展,但研究內容大多是針對不可伸縮的視頻編碼方案[42,43]。然而,互聯網的異構、動態(tài)和盡力而為的結構特性無法保證持續(xù)的、帶寬充足的有效連接。因此,現有的視頻編碼標準試圖引入可伸縮模式以適應帶寬波動,這里說的“可伸縮”指移除部分碼流后仍能重建較低分辨率或較低質量的信號,以適應不同需求或網絡條件??缮炜s視頻編碼是傳統H.264/AVC編碼的拓展,是對可伸縮編碼規(guī)范的最新修訂[44]。如圖22所示,SVC編碼器僅對信號進行一次編碼,編碼后的碼流通常包含一個基礎層(BaseLayer,BL)和若干個增強層(EnhancementLayer,EL)[45];基礎層編碼器對最低幀率/分辨率/質量進行編碼,增強層編碼器則以基礎層作為根基,并對附加的信息進行編碼;借助這種特殊的多層級編碼方式,系統可以根據應用程序所需的特定速率和分辨率進行部分流解碼,從而在傳輸過程中提供更大的可適性和靈活性。為進一步說明SVC分層編碼的強大優(yōu)勢,本節(jié)將進一步細化SVC分層編碼的三大特性,即時間、空間以及質量可伸縮性。圖23SVC編碼中時間可伸縮性的分層預測結構時間可伸縮性是指允許單一碼流支持多種幀率的技術,該技術使用分層預測結構生成時間可擴展的比特流,從而規(guī)避對H.264/AVC進行修改。圖23(a)描述了一種典型的分層預測結構,通過在基礎層之間插入增強層(例如,分層B幀或分層P幀)來實現時間可伸縮編碼。從圖中可以看出,這類分層預測結構提供了從基礎層到增強層逐一遞增排列的四種時間等級,每一時間等級可以獨立于進行解碼。盡管典型的分層預測結構具有較為良好的編碼效率,但分層B幀會導致一定的編碼延遲。為進一步滿足低時延視頻編碼要求,SVC還提供了一種特殊的分層預測結構,如圖23(b)所示,這種結構沒有使用未來圖片的運動補償預測,因此其結構延遲為零??臻g可伸縮性的核心思想是通過不同分辨率之間的線性縮放操作來達成可伸縮特性。如圖24所示,具有空間可伸縮性的SVC碼流中各層級對應的分辨率不一,從低層級至高層級分辨率逐步提高,因此選取不同的層級數量進行解碼即可重建出不同分辨率的視頻圖像。此外,為提升空間可伸縮性的編碼效率,SVC引入了可切換的層間預測機制實現層內和層間預測的自由選擇。應注意到該機制包含運動預測和殘差預測技術,因而層間預測只發(fā)生在時間層對齊的訪問單元內[46],在圖中使用黑色箭頭表示。圖24SVC編碼中空間可伸縮性的分層預測結構質量可伸縮性,又稱信噪比可伸縮性、保真度可伸縮性,指代具有相同空間分辨率但量化水平不同的多層級圖像序列,在SVC中被細化分為三大類。第一類粗粒度質量分級(Coarse-GrainQualityScalableCoding,CGS),其粗粒度特性體現在CGS僅支持少數選定的比特率。第二類中等粒度質量分級(Medium-GrainQualityScalableCoding,MGS),可將一個CGS層的變換系數劃分為多個MGS子層,并允許在網絡適配層單元上進行比特流適配。針對質量可分級面臨漂移效應的問題——增強層碼流丟失導致以增強層數據為參考的運動補償預測在編碼端和解碼端不同步,MGS引入了關鍵幀(時間基礎層)作為重同步點,進而將漂移限制在一個圖像組(GroupofPictures,GoP)范圍內。同樣,第三類細粒度質量分級(Fine-GrainQualityScalableCoding,FGS)為克服漂移問題,僅使用基礎層圖像作為參考圖像,但該方案實現方式復雜未納入標準。還需注意到的一點是,以上三大特性都圍繞著一個統一的原則——SVC的基本層遵循傳統H.264/AVC的設計,即BL層級能由AVC解碼器單獨解碼,這使得SVC信號在多樣的視頻應用場景中更具兼容性和友好性??缮炜s多視口分類機制在先前的調研工作中,多篇文獻都引入了具有邊緣區(qū)域的可伸縮多視口分類機制[12,18,19]。這種分類機制充分運用了邊緣視口/區(qū)域的潛在可用性,意在細化瓦片選擇決策并能更好地對抗不完美的視口預測方法。本文將繼承該機制的思想,在多視口的基礎上創(chuàng)新數據分發(fā)算法。為實現可伸縮多視口分類機制,首先需執(zhí)行分割瓦片的操作,在、、、、和多種劃分方案中,將360度視頻幀均勻分割為塊瓦片具有較好的性能以及較低的代價[13,19]。為方便后續(xù)描述,本文將以“Z”字形狀依次標記每個瓦片,記為,其中集合表示包含當前幀所有瓦片的集合。其次,應根據視口可見性概率區(qū)分不同視口區(qū)域,可見性模型及其區(qū)域大小的界定引自文獻[19]。圖25簡明地展示了可伸縮多視口分類機制的示意圖,可以看出一幀圖像被分割為具有個不可重疊區(qū)域的視口集,表示為,集合中的視口按可見性概率的降序排序列出。具體而言,表示具有最高可見性概率的預測瓦片覆蓋的預測區(qū)域,表示具有中等可見性概率的邊緣區(qū)域,表示用戶可見性概率最小的不可見區(qū)域。圖25可伸縮多視口分類機制示意圖強化學習理論和方法強化學習算法已被廣泛應用于一系列具有挑戰(zhàn)性的領域,如決策、機器人控制和資源分配[47-53]。RL算法擁有這般廣闊的應用場景歸功于其在不確定的、復雜的環(huán)境中的表現,即該技術允許AI驅動的系統(代理)使用操作(動作)的反饋(獎勵)通過反復試驗進行學習,每個時間步長的獎勵用于調整代理在給定狀態(tài)下執(zhí)行操作的可能性,便于代理能夠在未來獲得比過去更多的獎勵,如圖26所示。這種學習過程類似于試錯搜索,RL算法從失敗的操作中吸取教訓,找到一個合適的動作模型來最大化代理的總累積獎勵,從而實現盡可能接近自然智能的人工智能。圖26強化學習工作流程基礎架構強化學習算法具有兩大類方法,一是基于價值,該方法嘗試查找或近似最優(yōu)值函數,形成操作和值之間的映射;二是基于策略,該方法是每個狀態(tài)到該狀態(tài)下最佳操作的直接映射。上述兩種方法各有長處,基于價值的樣本效率和穩(wěn)定性更高,而基于策略在連續(xù)和隨機環(huán)境具有更為優(yōu)秀的表現。正因如此,相關領域的研究學者努力嘗試合并兩種算法——AC算法就這樣誕生了。AC算法具有兩個網絡,包含生成動作的actor網絡和評價執(zhí)行動作利弊程度的critic網絡。具體而言,actor網絡為給定狀態(tài)生成操作空間中每個動作的概
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年達州中醫(yī)藥職業(yè)學院單招(計算機)考試備考題庫必考題
- 2026年重慶安全技術職業(yè)學院單招職業(yè)適應性測試題庫附答案
- 2026年銅川職業(yè)技術學院單招(計算機)考試參考題庫附答案
- 2026年閩西職業(yè)技術學院單招(計算機)測試模擬題庫附答案
- 廣東省廣州市天河區(qū)2025-2026學年高一第一學期學業(yè)水平調研數學試卷(含答案)
- 小學習慣養(yǎng)成教育方案
- 病房醫(yī)護培訓室設置方案
- 中醫(yī)院病房護理質量提升方案
- 鋼結構施工現場電氣安全方案
- 儲備糧倉庫糧食裝卸作業(yè)流程方案
- 亞馬遜運營全知識培訓
- 夫妻財產分割協議書范文范本下載
- JJG 692-2010無創(chuàng)自動測量血壓計
- 中國的大好河山
- 甘肅省安全員A證考試題庫及答案
- 離婚登記申請受理回執(zhí)單模板
- 特技演員聘用合同
- 第25課《活板》同步練習(含答案)
- 數學中考復習資料四邊形
- 壓力容器磁粉檢測通用工藝規(guī)程
- 國家開放大學《基礎教育課程改革專題》形考任務(13)試題及答案解析
評論
0/150
提交評論