AVS2幀內(nèi)預(yù)測編碼優(yōu)化:CU劃分快速算法與RDO的協(xié)同創(chuàng)新_第1頁
AVS2幀內(nèi)預(yù)測編碼優(yōu)化:CU劃分快速算法與RDO的協(xié)同創(chuàng)新_第2頁
AVS2幀內(nèi)預(yù)測編碼優(yōu)化:CU劃分快速算法與RDO的協(xié)同創(chuàng)新_第3頁
AVS2幀內(nèi)預(yù)測編碼優(yōu)化:CU劃分快速算法與RDO的協(xié)同創(chuàng)新_第4頁
AVS2幀內(nèi)預(yù)測編碼優(yōu)化:CU劃分快速算法與RDO的協(xié)同創(chuàng)新_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

AVS2幀內(nèi)預(yù)測編碼優(yōu)化:CU劃分快速算法與RDO的協(xié)同創(chuàng)新一、引言1.1研究背景與意義隨著信息技術(shù)的飛速發(fā)展,高清視頻在人們的日常生活和工作中扮演著愈發(fā)重要的角色,廣泛應(yīng)用于數(shù)字電視、視頻監(jiān)控、視頻會議、網(wǎng)絡(luò)視頻等多個領(lǐng)域。高清視頻能夠為用戶提供更加清晰、逼真的視覺體驗,滿足人們對高質(zhì)量視頻內(nèi)容的需求。然而,高清視頻數(shù)據(jù)量的急劇增長,對視頻的存儲和傳輸帶來了巨大的挑戰(zhàn)。例如,一部未經(jīng)壓縮的4K超高清電影,其數(shù)據(jù)量可能高達(dá)數(shù)十甚至上百GB,這不僅需要大量的存儲空間,也對網(wǎng)絡(luò)傳輸帶寬提出了極高的要求。為了解決高清視頻數(shù)據(jù)存儲和傳輸?shù)碾y題,視頻編碼技術(shù)應(yīng)運而生。視頻編碼通過去除視頻數(shù)據(jù)中的冗余信息,對視頻進行壓縮,從而降低數(shù)據(jù)量,使其能夠更高效地存儲和傳輸。在眾多視頻編碼標(biāo)準(zhǔn)中,AVS2編碼標(biāo)準(zhǔn)具有獨特的地位。AVS2(AudioVideoStandard2)是我國自主研發(fā)的第二代信源編碼標(biāo)準(zhǔn),其編碼壓縮率比AVS1提高了一倍,與國際上流行的視頻編碼標(biāo)準(zhǔn)HEVC(HighEfficiencyVideoCoding)相當(dāng)。AVS2標(biāo)準(zhǔn)的推出,對我國高清、超高清數(shù)字電視以及電子信息產(chǎn)業(yè)相關(guān)領(lǐng)域的發(fā)展起到了重要的推動作用。例如,中央廣播電視總臺于2018年10月上星首個4K超高清頻道,全部采用國標(biāo)AVS2的編碼技術(shù),帶動了AVS2編解碼產(chǎn)品的落地應(yīng)用,推進了整體產(chǎn)業(yè)化進程。在AVS2編碼標(biāo)準(zhǔn)中,CU(CodingUnit)劃分和RDO(Rate-DistortionOptimization)優(yōu)化是影響編碼效率的關(guān)鍵因素。CU劃分是將待編碼圖像分割成不同大小的編碼單元,以適應(yīng)視頻內(nèi)容的不同特性。合理的CU劃分能夠提高預(yù)測的準(zhǔn)確性,從而有效去除視頻數(shù)據(jù)的冗余信息。例如,對于紋理簡單的區(qū)域,可以采用較大的CU進行編碼,以減少編碼開銷;而對于紋理復(fù)雜的區(qū)域,則采用較小的CU,以更好地捕捉細(xì)節(jié)信息。RDO優(yōu)化則是在編碼過程中,綜合考慮編碼比特數(shù)和重建圖像質(zhì)量之間的關(guān)系,通過選擇最優(yōu)的編碼模式和參數(shù),實現(xiàn)編碼效率的最大化。然而,現(xiàn)有的CU劃分和RDO算法存在一些不足之處,導(dǎo)致編碼效率有待提高。一方面,傳統(tǒng)的CU劃分算法在劃分過程中需要進行大量的計算和比較,計算復(fù)雜度較高,這使得編碼時間增加,無法滿足實時性要求較高的應(yīng)用場景。另一方面,固定的拉格朗日因子在不同的編碼條件下難以達(dá)到最優(yōu)的編碼效果,導(dǎo)致碼率較高,傳輸所需帶寬較大。因此,研究AVS2幀內(nèi)預(yù)測編碼的CU劃分快速算法及RDO優(yōu)化具有重要的現(xiàn)實意義。通過研究CU劃分快速算法,可以減少編碼過程中的計算量,降低編碼時間,提高編碼效率。這對于實時視頻應(yīng)用,如視頻會議、視頻監(jiān)控等,具有重要的價值。同時,優(yōu)化RDO算法,動態(tài)調(diào)整拉格朗日因子,能夠在保證重建圖像質(zhì)量的前提下,降低碼率,減少傳輸所需帶寬,從而節(jié)省傳輸成本,提高視頻傳輸?shù)男屎头€(wěn)定性。這對于視頻的存儲和傳輸,尤其是在網(wǎng)絡(luò)帶寬有限的情況下,具有重要的意義。綜上所述,本研究對于推動AVS2編碼標(biāo)準(zhǔn)的廣泛應(yīng)用,提升我國高清視頻產(chǎn)業(yè)的競爭力,具有重要的理論和實際應(yīng)用價值。1.2國內(nèi)外研究現(xiàn)狀在視頻編碼領(lǐng)域,AVS2幀內(nèi)預(yù)測編碼的CU劃分和RDO優(yōu)化一直是研究的熱點。國內(nèi)外眾多學(xué)者和研究機構(gòu)對此展開了深入的研究,取得了一系列有價值的成果。國外方面,一些研究聚焦于利用機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)優(yōu)化CU劃分。例如,文獻(xiàn)[具體文獻(xiàn)1]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的CU劃分預(yù)測模型,通過對大量視頻數(shù)據(jù)的學(xué)習(xí),模型能夠提前預(yù)測CU的劃分方式,減少不必要的RDO計算。實驗結(jié)果表明,該方法在一定程度上降低了編碼復(fù)雜度,但在某些復(fù)雜場景下,預(yù)測的準(zhǔn)確性仍有待提高。文獻(xiàn)[具體文獻(xiàn)2]則采用了遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來預(yù)測CU的劃分,利用RNN對時間序列數(shù)據(jù)的處理能力,捕捉視頻幀之間的相關(guān)性,從而更準(zhǔn)確地預(yù)測CU劃分。然而,這種方法計算量較大,對硬件要求較高,限制了其在實際應(yīng)用中的推廣。在RDO優(yōu)化方面,國外研究主要集中在動態(tài)調(diào)整拉格朗日因子。文獻(xiàn)[具體文獻(xiàn)3]通過分析視頻內(nèi)容的復(fù)雜度,動態(tài)地調(diào)整拉格朗日因子,使得在不同的編碼場景下都能更接近最優(yōu)的編碼效果。該方法在降低碼率方面取得了一定的成效,但對于視頻內(nèi)容復(fù)雜度的準(zhǔn)確評估仍然存在一定的難度,可能導(dǎo)致拉格朗日因子的調(diào)整不夠精準(zhǔn)。國內(nèi)的研究也取得了豐碩的成果。在CU劃分快速算法方面,一些研究從圖像的空間相關(guān)性和紋理特征入手。文獻(xiàn)[具體文獻(xiàn)4]提出了一種基于空間相關(guān)性的CU劃分快速算法,通過分析待編碼CU與周圍已編碼CU的空間相關(guān)性,提前判斷CU的劃分尺寸,減少了不必要的劃分計算。實驗結(jié)果顯示,該算法有效地降低了編碼時間,同時保持了較好的編碼質(zhì)量。文獻(xiàn)[具體文獻(xiàn)5]則利用圖像的紋理特征,對紋理簡單和復(fù)雜的區(qū)域采用不同的CU劃分策略,提高了編碼效率。這種方法在處理紋理復(fù)雜的視頻時,能夠更好地適應(yīng)圖像的細(xì)節(jié)變化,但對于紋理特征的提取算法要求較高,算法的穩(wěn)定性有待進一步提高。在RDO優(yōu)化方面,國內(nèi)研究人員提出了多種改進方法。文獻(xiàn)[具體文獻(xiàn)6]根據(jù)CU的大小和視頻序列的特性,動態(tài)地調(diào)整拉格朗日因子,實現(xiàn)了在不同編碼條件下的優(yōu)化。該方法在節(jié)省碼率方面表現(xiàn)出色,但在實際應(yīng)用中,需要根據(jù)不同的視頻序列進行參數(shù)調(diào)整,增加了使用的復(fù)雜性。盡管國內(nèi)外在AVS2幀內(nèi)預(yù)測編碼的CU劃分和RDO優(yōu)化方面取得了一定的進展,但仍存在一些不足之處?,F(xiàn)有方法在降低編碼復(fù)雜度的同時,往往會對編碼質(zhì)量產(chǎn)生一定的影響,難以在編碼復(fù)雜度、編碼質(zhì)量和碼率之間找到最佳的平衡點。其次,對于不同類型的視頻序列,如新聞、電影、體育賽事等,現(xiàn)有的算法缺乏足夠的適應(yīng)性,不能根據(jù)視頻內(nèi)容的特點進行靈活調(diào)整。此外,在實際應(yīng)用中,編碼算法還需要考慮硬件平臺的限制和實時性要求,目前的研究在這方面的考慮還不夠充分。1.3研究目標(biāo)與創(chuàng)新點本研究旨在通過深入分析AVS2幀內(nèi)預(yù)測編碼的特點和現(xiàn)有算法的不足,提出一種高效的CU劃分快速算法及RDO優(yōu)化策略,以顯著提高AVS2編碼的效率,在保證編碼質(zhì)量的前提下,降低編碼復(fù)雜度和碼率。具體而言,本研究致力于實現(xiàn)以下兩個關(guān)鍵目標(biāo):提出高效的CU劃分快速算法:深入研究AVS2幀內(nèi)預(yù)測編碼中CU劃分的原理和機制,分析傳統(tǒng)算法計算復(fù)雜度高的原因。通過挖掘圖像的空間相關(guān)性、紋理特征等信息,結(jié)合機器學(xué)習(xí)等技術(shù),提出一種能夠快速、準(zhǔn)確地確定CU劃分尺寸的算法。該算法旨在減少不必要的劃分計算,降低編碼時間,同時保持較高的編碼質(zhì)量,使編碼過程能夠更高效地適應(yīng)不同視頻內(nèi)容的特性。實現(xiàn)RDO優(yōu)化策略:對AVS2編碼中的RDO算法進行深入研究,分析固定拉格朗日因子在不同編碼條件下的局限性。通過建立視頻內(nèi)容復(fù)雜度與拉格朗日因子之間的關(guān)系模型,提出一種動態(tài)調(diào)整拉格朗日因子的RDO優(yōu)化策略。該策略能夠根據(jù)視頻序列的特點和編碼條件,實時調(diào)整拉格朗日因子,使編碼在不同場景下都能更接近最優(yōu)的編碼效果,從而在保證重建圖像質(zhì)量的前提下,有效降低碼率,減少傳輸所需帶寬。本研究的創(chuàng)新點主要體現(xiàn)在以下兩個方面:CU劃分快速算法與RDO優(yōu)化的有效結(jié)合:將提出的CU劃分快速算法與RDO優(yōu)化策略有機結(jié)合,形成一個完整的編碼優(yōu)化體系。CU劃分快速算法為RDO優(yōu)化提供更合理的編碼單元劃分,減少RDO計算的復(fù)雜度;而RDO優(yōu)化策略則根據(jù)CU的劃分結(jié)果,進一步優(yōu)化編碼模式和參數(shù),提高編碼效率。這種協(xié)同優(yōu)化的方式能夠在編碼復(fù)雜度、編碼質(zhì)量和碼率之間找到更好的平衡點,提升AVS2編碼的整體性能。基于視頻內(nèi)容特性的動態(tài)拉格朗日因子應(yīng)用:不同于傳統(tǒng)的固定拉格朗日因子方法,本研究提出的RDO優(yōu)化策略能夠根據(jù)視頻內(nèi)容的復(fù)雜度、紋理特征等特性,動態(tài)地調(diào)整拉格朗日因子。通過對視頻內(nèi)容的實時分析,準(zhǔn)確評估編碼條件,為不同的CU選擇最合適的拉格朗日因子,從而實現(xiàn)更精準(zhǔn)的率失真優(yōu)化。這種基于視頻內(nèi)容特性的動態(tài)調(diào)整方法,能夠提高編碼算法對不同視頻序列的適應(yīng)性,在各種場景下都能取得更好的編碼效果。二、AVS2幀內(nèi)預(yù)測編碼技術(shù)基礎(chǔ)2.1AVS2編碼框架與流程AVS2采用了經(jīng)典的混合編碼框架,這一框架是實現(xiàn)高效視頻編碼的核心架構(gòu),其主要包括幀內(nèi)預(yù)測、幀間預(yù)測、變換量化、環(huán)路濾波和熵編碼等關(guān)鍵模塊,各模塊協(xié)同工作,以達(dá)到去除視頻數(shù)據(jù)冗余、實現(xiàn)高效壓縮的目的。在編碼過程中,原始視頻幀首先被送入幀內(nèi)預(yù)測模塊或幀間預(yù)測模塊。幀內(nèi)預(yù)測模塊旨在去除當(dāng)前編碼幀的空域冗余信息。它利用當(dāng)前幀內(nèi)已編碼塊的像素信息,通過多種預(yù)測模式對當(dāng)前塊進行預(yù)測。例如,當(dāng)處理一幅風(fēng)景視頻幀時,對于大面積藍(lán)天的區(qū)域,可能采用DC預(yù)測模式,利用周圍像素的均值進行預(yù)測,因為該區(qū)域像素值變化較??;而對于建筑物邊緣等具有明顯紋理方向的區(qū)域,則可能采用角度預(yù)測模式,根據(jù)紋理方向選擇合適的預(yù)測模式,以更準(zhǔn)確地預(yù)測當(dāng)前塊像素值,從而減少空域冗余。幀間預(yù)測模塊則專注于消除視頻序列中的時域冗余。它通過比較當(dāng)前幀與參考幀中像素塊的相似性,計算運動矢量,找到最佳匹配塊進行預(yù)測。以一段人物行走的視頻為例,幀間預(yù)測模塊會根據(jù)人物在不同幀中的位置變化,計算出運動矢量,利用參考幀中對應(yīng)位置的像素塊對當(dāng)前幀中的人物區(qū)域進行預(yù)測,僅傳輸運動矢量和預(yù)測殘差,大大減少了時域上的數(shù)據(jù)量。經(jīng)過預(yù)測后的殘差信號被送入變換量化模塊。在變換過程中,常用的整數(shù)DCT變換將殘差信號從空間域轉(zhuǎn)換到頻率域,使能量集中在低頻系數(shù)上。例如,對于一個8x8的殘差塊,經(jīng)過整數(shù)DCT變換后,大部分能量會集中在低頻系數(shù)部分。隨后,量化過程根據(jù)設(shè)定的量化參數(shù)對變換后的系數(shù)進行量化,通過舍棄一些對視覺影響較小的高頻系數(shù),進一步壓縮數(shù)據(jù)量。量化步長的選擇直接影響編碼質(zhì)量和碼率,較大的量化步長會導(dǎo)致更多高頻信息丟失,從而降低碼率,但同時也會使重建圖像質(zhì)量下降;較小的量化步長則能保留更多細(xì)節(jié),提高圖像質(zhì)量,但碼率會相應(yīng)增加。變換量化后的系數(shù)接著進入熵編碼模塊。AVS2的熵編碼采用基于上下文的二元算術(shù)編碼,它根據(jù)系數(shù)的概率分布對其進行編碼,對于出現(xiàn)概率較高的系數(shù),使用較短的碼字表示,而對于出現(xiàn)概率較低的系數(shù),則使用較長的碼字,從而實現(xiàn)對數(shù)據(jù)的無損壓縮,進一步減少碼率。為了改善重建圖像的質(zhì)量,AVS2還引入了環(huán)路濾波器模塊。它對重建圖像進行濾波處理,去除量化過程中產(chǎn)生的塊效應(yīng)和噪聲等瑕疵,提升圖像的視覺效果。例如,在去除塊效應(yīng)時,環(huán)路濾波器會根據(jù)圖像的局部特征,對塊邊界的像素進行平滑處理,使圖像看起來更加自然、連續(xù),減少方塊感,提高觀眾的觀看體驗。在整個AVS2編碼流程中,各模塊之間存在著緊密的數(shù)據(jù)流向和交互關(guān)系。原始視頻幀作為輸入,依次經(jīng)過各個模塊的處理,最終輸出壓縮后的碼流。幀內(nèi)預(yù)測和幀間預(yù)測模塊的輸出殘差信號作為變換量化模塊的輸入,變換量化后的系數(shù)又成為熵編碼模塊的處理對象,而環(huán)路濾波器則對重建圖像進行優(yōu)化,確保在壓縮數(shù)據(jù)的同時,盡可能保持圖像的質(zhì)量。這種有序的數(shù)據(jù)流向和協(xié)同工作機制,使得AVS2編碼框架能夠高效地實現(xiàn)視頻編碼,滿足不同應(yīng)用場景對視頻壓縮和質(zhì)量的要求。2.2幀內(nèi)預(yù)測原理與模式2.2.1幀內(nèi)預(yù)測基本原理幀內(nèi)預(yù)測作為視頻編碼中的關(guān)鍵技術(shù),其核心目的在于消除視頻圖像中的空域冗余信息,從而實現(xiàn)高效的數(shù)據(jù)壓縮。視頻圖像是由大量的像素點構(gòu)成,在同一幀圖像中,相鄰像素之間往往存在著較強的空間相關(guān)性。例如,在一幅風(fēng)景圖像中,大面積的草地部分,相鄰像素的顏色和亮度值通常非常接近,存在著明顯的空間冗余。幀內(nèi)預(yù)測正是利用了這種空間相關(guān)性,通過已經(jīng)編碼的相鄰像素信息來預(yù)測當(dāng)前編碼塊的像素值。具體而言,在進行幀內(nèi)預(yù)測時,首先會將當(dāng)前待編碼的圖像塊劃分為多個固定大小的子塊,這些子塊成為預(yù)測的基本單元。然后,根據(jù)不同的預(yù)測模式,從已經(jīng)編碼的相鄰像素中選取合適的參考像素。例如,對于一個8x8的待編碼塊,可能會選擇其上方和左側(cè)已經(jīng)編碼的相鄰像素作為參考。這些參考像素的選擇并非隨意,而是基于圖像的局部特征和相關(guān)性進行判斷。例如,對于具有水平紋理的區(qū)域,可能會更多地參考水平方向上的相鄰像素;而對于具有垂直紋理的區(qū)域,則會側(cè)重于垂直方向的相鄰像素。通過特定的預(yù)測算法,利用這些參考像素計算出當(dāng)前塊的預(yù)測值。常見的預(yù)測算法包括線性預(yù)測、均值預(yù)測等。以線性預(yù)測為例,它根據(jù)參考像素的分布規(guī)律,通過線性組合的方式計算預(yù)測值。在計算出預(yù)測值后,將其與當(dāng)前塊的真實像素值相減,得到預(yù)測殘差。預(yù)測殘差包含了當(dāng)前塊與預(yù)測值之間的差異信息,由于預(yù)測過程利用了空域相關(guān)性,預(yù)測殘差的數(shù)據(jù)量通常遠(yuǎn)小于原始塊的數(shù)據(jù)量。在編碼過程中,只需對預(yù)測殘差進行編碼傳輸,而無需傳輸整個原始塊的數(shù)據(jù),從而有效地消除了空域冗余,提高了編碼效率。在解碼端,通過接收的預(yù)測殘差和已經(jīng)解碼的相鄰像素信息,能夠準(zhǔn)確地重建出當(dāng)前塊的原始像素值,恢復(fù)圖像的完整性。2.2.2AVS2幀內(nèi)預(yù)測模式AVS2在幀內(nèi)預(yù)測方面支持豐富多樣的預(yù)測模式,以適應(yīng)不同圖像內(nèi)容的特點,從而實現(xiàn)更精準(zhǔn)的預(yù)測和更高的編碼效率。在亮度預(yù)測模式上,AVS2共支持33種模式,這些模式可大致分為幾類,包括DC預(yù)測模式、Plane預(yù)測模式、Bilinear預(yù)測模式和30種角度預(yù)測模式。DC預(yù)測模式主要適用于圖像中平坦、變化緩慢的區(qū)域。在這種模式下,預(yù)測值為參考像素的均值。例如,在一幅包含大面積純色背景的圖像中,如藍(lán)色的天空背景,DC預(yù)測模式能夠利用周圍像素的均值來準(zhǔn)確地預(yù)測當(dāng)前塊的像素值,因為該區(qū)域像素值變化極小,均值能夠很好地代表該區(qū)域的像素特征,從而有效地減少數(shù)據(jù)量。Plane預(yù)測模式則適用于具有平緩變化梯度的區(qū)域。它通過對參考像素進行雙線性插值來計算預(yù)測值,能夠較好地擬合圖像中具有一定坡度變化的區(qū)域。比如在一幅表現(xiàn)山巒起伏的圖像中,對于山體表面相對平滑且具有漸變特征的部分,Plane預(yù)測模式可以根據(jù)周圍像素的變化趨勢,通過雙線性插值得到較為準(zhǔn)確的預(yù)測值,使預(yù)測結(jié)果更接近真實像素值,提高預(yù)測精度。Bilinear預(yù)測模式利用了圖像的雙線性特性,通過對參考像素進行雙線性插值來生成預(yù)測值,適用于一些具有連續(xù)變化特征的區(qū)域,能夠在一定程度上捕捉圖像的細(xì)節(jié)變化,對于平滑過渡的紋理區(qū)域有較好的預(yù)測效果。30種角度預(yù)測模式是AVS2亮度預(yù)測模式的重要組成部分,這些模式能夠捕捉圖像中不同方向的紋理信息。每個角度預(yù)測模式對應(yīng)一個特定的預(yù)測方向,從0度到345度,以15度為間隔。例如,當(dāng)圖像中存在明顯的垂直紋理時,選擇垂直方向的角度預(yù)測模式,能夠充分利用垂直方向上的相鄰像素信息進行預(yù)測,使預(yù)測值更貼合真實像素,從而減少預(yù)測殘差,提高編碼效率;而對于具有傾斜紋理的區(qū)域,選擇相應(yīng)傾斜角度的預(yù)測模式,能夠更好地適應(yīng)紋理方向,實現(xiàn)更準(zhǔn)確的預(yù)測。在色度預(yù)測方面,AVS2支持5種模式,分別為DC模式、水平預(yù)測模式、垂直預(yù)測模式、Bilinear預(yù)測模式以及新增的亮度導(dǎo)出(Derivedmode,DM)模式。DC模式在色度預(yù)測中同樣用于平坦區(qū)域,通過計算參考像素的均值來預(yù)測當(dāng)前色度塊的像素值。水平預(yù)測模式和垂直預(yù)測模式分別利用水平和垂直方向上的參考像素進行預(yù)測,適用于具有水平或垂直紋理特征的色度區(qū)域。Bilinear預(yù)測模式通過雙線性插值來生成預(yù)測值,對于具有連續(xù)變化特征的色度區(qū)域有較好的預(yù)測效果。新增的亮度導(dǎo)出模式則是根據(jù)亮度塊的預(yù)測信息來導(dǎo)出色度塊的預(yù)測值,利用了亮度和色度之間的相關(guān)性,在一些場景下能夠提高色度預(yù)測的準(zhǔn)確性,例如在人物膚色區(qū)域,亮度和色度之間存在一定的關(guān)聯(lián),通過亮度導(dǎo)出模式可以更準(zhǔn)確地預(yù)測色度值,使膚色表現(xiàn)更加自然、真實。2.3CU劃分原理與過程2.3.1四叉樹結(jié)構(gòu)的CU劃分機制在AVS2編碼中,CU劃分采用了基于四叉樹的結(jié)構(gòu),這種結(jié)構(gòu)為圖像的高效編碼提供了靈活且精細(xì)的劃分方式。具體過程是,首先將一幅待編碼圖像劃分成固定大小的最大編碼單元(LCU,LargestCodingUnit),AVS2中LCU的大小通常為64×64像素。LCU是編碼處理的基本起始單元,它涵蓋了一個亮度編碼塊和兩個對應(yīng)的色度編碼塊,為后續(xù)的CU劃分奠定了基礎(chǔ)。以一幅風(fēng)景圖像為例,假設(shè)其分辨率為1920×1080,按照AVS2的LCU劃分規(guī)則,它將被劃分為多個64×64的LCU。這些LCU如同一個個拼圖小塊,共同構(gòu)成了整幅圖像的編碼基礎(chǔ)單元。每個LCU可以按照四叉樹的方式進行遞歸劃分。這意味著,一個LCU可以被均勻地分割成四個大小相等的子塊,每個子塊成為一個新的CU。如果某個CU的內(nèi)容較為復(fù)雜,例如包含豐富的紋理細(xì)節(jié),就可以繼續(xù)對其進行四叉樹劃分,將其再次分割成四個更小的CU,以更好地適應(yīng)圖像內(nèi)容的變化。這種遞歸劃分過程可以根據(jù)圖像內(nèi)容的特性不斷進行,直到達(dá)到設(shè)定的最小CU尺寸。在AVS2中,最大的CU尺寸即為LCU的尺寸64×64,而最小編碼單元為8×8。這種大小范圍的設(shè)定,使得CU劃分能夠在處理大面積平坦區(qū)域時采用較大的CU,減少編碼開銷;在處理紋理復(fù)雜、細(xì)節(jié)豐富的區(qū)域時,采用較小的CU,從而更準(zhǔn)確地捕捉圖像信息。例如,在一幅人物圖像中,人物的面部可能包含豐富的表情細(xì)節(jié)和紋理,如眼睛、眉毛、嘴唇等部位,這些區(qū)域就需要使用較小的CU進行劃分,以精確地表示這些細(xì)節(jié),提高編碼質(zhì)量;而人物的衣服部分,如果紋理較為簡單,顏色較為均勻,就可以使用較大的CU進行編碼,降低編碼復(fù)雜度。在實際編碼過程中,CU的劃分決策并非隨意進行,而是基于率失真優(yōu)化(RDO)準(zhǔn)則。RDO通過綜合考慮編碼比特數(shù)和重建圖像質(zhì)量之間的關(guān)系,選擇最優(yōu)的CU劃分方式。具體來說,在每個劃分層次上,編碼器會計算不同劃分方案下的率失真代價,即考慮劃分后的CU進行預(yù)測、變換、量化和熵編碼等操作所需的編碼比特數(shù),以及由此帶來的重建圖像與原始圖像之間的失真程度。通過比較不同劃分方案的率失真代價,選擇代價最小的劃分方式,從而實現(xiàn)CU的最優(yōu)劃分,在保證編碼質(zhì)量的前提下,盡可能降低碼率。2.3.2CU劃分對編碼性能的影響CU劃分方式在AVS2編碼中對編碼性能有著多方面的顯著影響,涵蓋編碼復(fù)雜度、碼率以及重建圖像質(zhì)量等關(guān)鍵指標(biāo)。編碼復(fù)雜度方面,CU劃分與計算量緊密相關(guān)。當(dāng)采用較大的CU進行編碼時,由于處理的像素塊較大,所需的預(yù)測、變換和量化等操作的計算量相對較少。以一個大面積的純色背景區(qū)域為例,使用64×64的大CU進行編碼,只需要對這個大CU進行一次預(yù)測和變換操作,計算過程相對簡單。然而,對于紋理復(fù)雜的區(qū)域,如果仍使用大CU進行編碼,由于無法準(zhǔn)確捕捉細(xì)節(jié)信息,會導(dǎo)致預(yù)測殘差增大,后續(xù)處理殘差的計算量反而可能增加。相反,若使用較小的CU,雖然能夠更精確地適應(yīng)圖像細(xì)節(jié),但每個CU都需要獨立進行預(yù)測、變換和量化等操作,計算量會顯著增加。例如在一幅包含精細(xì)紋理的建筑圖像中,若將建筑的紋理部分劃分為多個8×8的小CU,每個小CU都要進行一系列編碼操作,計算量將大幅上升。不同的CU劃分深度也會影響編碼時間。深度越深,即劃分的CU越小,編碼時間越長;深度越淺,編碼時間相對較短。這是因為更深的劃分意味著更多的CU需要處理,增加了計算的時間開銷。在碼率方面,合理的CU劃分能夠有效降低碼率。對于平坦、變化緩慢的區(qū)域,采用大CU可以減少編碼所需的比特數(shù)。因為大CU內(nèi)像素值相似,預(yù)測準(zhǔn)確性高,預(yù)測殘差小,經(jīng)過變換和量化后,需要編碼傳輸?shù)南禂?shù)也較少。例如在一幅藍(lán)天的圖像區(qū)域,使用大CU編碼,能夠以較少的比特數(shù)準(zhǔn)確表示該區(qū)域。而對于紋理復(fù)雜、細(xì)節(jié)豐富的區(qū)域,小CU能夠更好地捕捉細(xì)節(jié),減少預(yù)測殘差,從而降低碼率。如果在這些區(qū)域使用大CU,會導(dǎo)致預(yù)測不準(zhǔn)確,殘差增大,需要更多的比特數(shù)來編碼殘差,從而增加碼率。但如果CU劃分過小,也可能會因為增加了過多的劃分信息和編碼開銷,導(dǎo)致碼率上升。因此,找到合適的CU劃分尺寸,對于優(yōu)化碼率至關(guān)重要。重建圖像質(zhì)量上,CU劃分同樣起著關(guān)鍵作用。小CU能夠更精確地表示圖像細(xì)節(jié),在重建圖像時能夠更好地保留圖像的紋理和邊緣信息,減少方塊效應(yīng),提高圖像的主觀和客觀質(zhì)量。在一幅人物面部特寫圖像中,使用小CU對眼睛、眉毛等細(xì)節(jié)部位進行編碼,重建后的圖像能夠清晰地呈現(xiàn)這些細(xì)節(jié),人物面部更加逼真。然而,小CU也可能會引入更多的量化噪聲,特別是在低碼率情況下,會對圖像質(zhì)量產(chǎn)生一定的負(fù)面影響。大CU在平坦區(qū)域能夠保證圖像的平滑度,但在細(xì)節(jié)豐富區(qū)域,由于無法準(zhǔn)確表示細(xì)節(jié),會導(dǎo)致重建圖像模糊,丟失部分細(xì)節(jié)信息,降低圖像質(zhì)量。2.4RDO原理與計算方法2.4.1RDO基本概念在視頻編碼領(lǐng)域,率失真優(yōu)化(RDO,Rate-DistortionOptimization)是一種至關(guān)重要的技術(shù),其核心在于在編碼過程中巧妙地平衡碼率和失真之間的關(guān)系,以實現(xiàn)最優(yōu)的編碼效果。在視頻編碼時,碼率和失真之間存在著緊密且相互制約的關(guān)系。碼率,即單位時間內(nèi)傳輸?shù)臄?shù)據(jù)量,它直接影響著視頻傳輸所需的帶寬以及存儲所需的空間。較低的碼率意味著更少的數(shù)據(jù)傳輸和存儲需求,這在網(wǎng)絡(luò)帶寬有限或存儲資源緊張的情況下顯得尤為重要,例如在移動設(shè)備觀看視頻時,較低的碼率可以減少流量消耗,降低用戶成本。然而,降低碼率往往會導(dǎo)致重建圖像的質(zhì)量下降,產(chǎn)生失真。失真是指重建圖像與原始圖像之間的差異,這種差異可能表現(xiàn)為圖像的模糊、細(xì)節(jié)丟失、塊狀效應(yīng)等,嚴(yán)重影響觀看體驗,如在觀看高清電影時,如果碼率過低導(dǎo)致圖像嚴(yán)重失真,會使觀眾無法欣賞到電影的精彩細(xì)節(jié)。RDO的工作原理就是在眾多可能的編碼模式中,綜合考慮每種模式下的碼率和失真情況,通過精確的計算和比較,選擇出使二者達(dá)到最佳平衡的編碼模式。在對一幅人物圖像進行編碼時,對于人物面部這一細(xì)節(jié)豐富的區(qū)域,不同的CU劃分和預(yù)測模式會產(chǎn)生不同的碼率和失真結(jié)果。若采用較大的CU進行編碼,碼率可能較低,因為編碼的塊數(shù)較少,但由于無法準(zhǔn)確捕捉面部的細(xì)節(jié),如眼睛、眉毛等部位的紋理,會導(dǎo)致重建圖像中面部細(xì)節(jié)模糊,失真較大;相反,若采用較小的CU進行編碼,雖然能夠更精確地表示面部細(xì)節(jié),減少失真,使重建圖像更接近原始圖像,但編碼的塊數(shù)增多,會導(dǎo)致碼率升高。RDO會通過計算不同劃分和預(yù)測模式下的碼率和失真,選擇出既能保證面部細(xì)節(jié)清晰,又能使碼率在可接受范圍內(nèi)的編碼模式,從而實現(xiàn)編碼效率的最大化。2.4.2拉格朗日代價函數(shù)計算在RDO中,拉格朗日代價函數(shù)是衡量不同編碼模式下碼率和失真綜合性能的關(guān)鍵工具,其表達(dá)式為J=D+λR。其中,J代表拉格朗日代價,它是一個綜合指標(biāo),用于評估特定編碼模式的優(yōu)劣,J值越小,說明該編碼模式在碼率和失真之間的平衡越好,編碼效率越高。D表示失真,它量化了重建圖像與原始圖像之間的差異程度。在實際計算中,常用的失真度量方法是均方誤差(MSE,MeanSquareError),其計算公式為MSE=\frac{1}{MN}\sum_{i=0}^{M-1}\sum_{j=0}^{N-1}(x_{ij}-\hat{x}_{ij})^2,其中M和N分別表示圖像塊的行數(shù)和列數(shù),x_{ij}是原始圖像中位置(i,j)處的像素值,\hat{x}_{ij}是重建圖像中對應(yīng)位置的像素值。MSE通過計算每個像素點的差值平方和并求平均,能夠較為準(zhǔn)確地反映圖像的失真程度,MSE值越大,說明重建圖像與原始圖像的差異越大,失真越嚴(yán)重。R表示碼率,即對當(dāng)前編碼模式下的圖像進行編碼所需的比特數(shù),它反映了編碼后的數(shù)據(jù)量大小。碼率的計算涉及到多個方面,包括預(yù)測模式的編碼、變換系數(shù)的編碼、運動矢量的編碼等。不同的編碼模式和參數(shù)設(shè)置會導(dǎo)致碼率的顯著變化,例如采用更復(fù)雜的預(yù)測模式可能會降低失真,但同時會增加編碼所需的比特數(shù),提高碼率。λ是拉格朗日乘子,它是一個重要的參數(shù),用于調(diào)節(jié)碼率和失真之間的相對權(quán)重。λ的取值直接影響著編碼模式的選擇,當(dāng)λ取值較大時,說明更注重失真的控制,此時編碼會傾向于選擇能夠減少失真的模式,即使這可能會導(dǎo)致碼率升高;當(dāng)λ取值較小時,則更側(cè)重于碼率的降低,編碼會優(yōu)先選擇碼率較低的模式,即使可能會犧牲一定的圖像質(zhì)量。在實際應(yīng)用中,λ的取值通常根據(jù)視頻內(nèi)容的特點、應(yīng)用場景的需求以及經(jīng)驗進行調(diào)整。對于對圖像質(zhì)量要求較高的視頻,如電影、高清紀(jì)錄片等,會適當(dāng)增大λ的值,以保證重建圖像的高質(zhì)量;而對于對帶寬要求嚴(yán)格、實時性較高的應(yīng)用,如視頻會議、實時監(jiān)控等,則會減小λ的值,以降低碼率,確保視頻的流暢傳輸。三、AVS2幀內(nèi)預(yù)測編碼的CU劃分快速算法研究3.1現(xiàn)有CU劃分算法分析3.1.1傳統(tǒng)CU劃分算法流程在AVS2編碼中,傳統(tǒng)的CU劃分采用基于四叉樹的遞歸劃分算法,這種算法是實現(xiàn)視頻高效編碼的基礎(chǔ),但也伴隨著較高的計算復(fù)雜度。其劃分流程以將圖像劃分為最大編碼單元(LCU)作為起始點,AVS2中LCU的尺寸通常固定為64×64像素。以一幅分辨率為3840×2160的4K超高清圖像為例,按照LCU的劃分規(guī)則,它將被劃分為324個64×64的LCU,這些LCU構(gòu)成了圖像編碼的基本單元。每個LCU具備按照四叉樹結(jié)構(gòu)進行遞歸劃分的能力。具體而言,一個LCU能夠被均勻地分割成四個尺寸相等的子塊,每個子塊即為一個新的CU。若某個CU所包含的圖像內(nèi)容較為復(fù)雜,例如在一幅包含城市街景的圖像中,CU涵蓋了建筑物的復(fù)雜輪廓、車輛以及行人等豐富細(xì)節(jié),為了更精確地表示這些內(nèi)容,就需要對其進行進一步的四叉樹劃分,將其再次分割成四個更小的CU。這種遞歸劃分過程并非無限制地進行,而是依據(jù)圖像內(nèi)容的實際特性以及預(yù)先設(shè)定的條件來終止,直至達(dá)到設(shè)定的最小CU尺寸,在AVS2中最小編碼單元為8×8。在每一層的劃分過程中,編碼器會依據(jù)率失真優(yōu)化(RDO)準(zhǔn)則來做出決策。RDO準(zhǔn)則通過綜合考量編碼比特數(shù)和重建圖像質(zhì)量之間的關(guān)系,計算不同劃分方案下的率失真代價。具體來說,對于每個可能的劃分方案,編碼器會計算將CU劃分為當(dāng)前子塊后,進行預(yù)測、變換、量化和熵編碼等操作所需的編碼比特數(shù),同時評估由此產(chǎn)生的重建圖像與原始圖像之間的失真程度,常用的失真度量方法如均方誤差(MSE)。以一個包含人物面部的CU為例,若將其劃分為較小的子塊,雖然能夠更準(zhǔn)確地捕捉面部的細(xì)節(jié),如眼睛、眉毛等部位的紋理,從而降低失真,但由于子塊數(shù)量增多,編碼每個子塊所需的比特數(shù)也會增加,導(dǎo)致碼率上升;反之,若保持較大的CU尺寸,碼率可能會降低,但面部細(xì)節(jié)可能無法準(zhǔn)確表示,失真會增大。通過比較不同劃分方案的率失真代價,選擇代價最小的劃分方式,以此實現(xiàn)CU的最優(yōu)劃分,在保證編碼質(zhì)量的前提下,盡可能降低碼率。對于不同圖像內(nèi)容,傳統(tǒng)CU劃分算法呈現(xiàn)出不同的劃分特點。在紋理簡單、變化平緩的區(qū)域,如大面積的純色背景、平靜的湖面等,CU往往傾向于保持較大的尺寸。這是因為在這些區(qū)域,相鄰像素之間的相關(guān)性較強,像素值變化較小,使用大CU進行編碼就能夠準(zhǔn)確表示該區(qū)域的信息,無需進一步劃分。以一幅包含大片藍(lán)天的圖像為例,大部分藍(lán)天區(qū)域可以用一個較大的CU進行編碼,因為該區(qū)域內(nèi)像素的顏色和亮度變化極小,大CU足以涵蓋其信息,減少了編碼開銷。而在紋理復(fù)雜、細(xì)節(jié)豐富的區(qū)域,如樹葉、毛發(fā)、建筑物的復(fù)雜紋理等,CU會被劃分成較小的尺寸。這是由于這些區(qū)域的像素變化劇烈,細(xì)節(jié)信息豐富,小CU能夠更好地適應(yīng)圖像內(nèi)容的變化,更準(zhǔn)確地捕捉細(xì)節(jié)。例如在一幅描繪森林的圖像中,樹葉的紋理復(fù)雜多樣,每個樹葉的形狀、顏色和亮度都有所不同,此時需要將包含樹葉的CU劃分成多個小CU,以精確表示這些細(xì)節(jié),提高編碼質(zhì)量。3.1.2傳統(tǒng)算法的復(fù)雜度與問題傳統(tǒng)的CU劃分算法在編碼過程中展現(xiàn)出較高的計算復(fù)雜度,尤其在面對高分辨率視頻時,這一問題愈發(fā)凸顯。在高分辨率視頻中,圖像包含的像素數(shù)量大幅增加,以8K超高清視頻(7680×4320分辨率)為例,其像素數(shù)量是1080p視頻的16倍之多。這意味著在進行CU劃分時,需要處理的LCU和CU數(shù)量顯著增多。由于傳統(tǒng)算法采用四叉樹遞歸劃分,每一層的劃分都需要對每個CU進行多種編碼模式的嘗試和率失真代價計算,計算量呈指數(shù)級增長。在對一個LCU進行劃分時,需要計算其不劃分、劃分為4個CU、每個子CU再繼續(xù)劃分等多種情況下的率失真代價,每種情況又涉及不同的預(yù)測模式和變換量化操作,計算過程繁瑣且耗時。在高分辨率視頻中,復(fù)雜的場景和豐富的細(xì)節(jié)使得CU的劃分深度增加。例如在一部8K電影中,城市街道的場景可能包含眾多的車輛、行人、建筑物等復(fù)雜元素,為了準(zhǔn)確表示這些細(xì)節(jié),CU需要被劃分成更小的尺寸,從而導(dǎo)致劃分層數(shù)增多。每增加一層劃分,計算量就會相應(yīng)增加,因為每一層都需要進行大量的計算來確定最優(yōu)的劃分方式。這種深度的增加不僅增加了計算量,還延長了編碼時間,使得編碼效率大幅降低。傳統(tǒng)算法的高復(fù)雜度導(dǎo)致編碼時間顯著增加。在實際應(yīng)用中,編碼時間的延長會帶來諸多問題。在實時視頻傳輸場景,如視頻會議、直播等,較長的編碼時間會導(dǎo)致視頻延遲,影響用戶體驗。在視頻監(jiān)控領(lǐng)域,編碼時間過長可能導(dǎo)致無法及時處理大量的視頻數(shù)據(jù),錯過關(guān)鍵信息。傳統(tǒng)算法在高分辨率視頻編碼時復(fù)雜度高、耗時久的問題,嚴(yán)重限制了其在對實時性要求較高的場景中的應(yīng)用,也增加了視頻編碼的計算成本和資源消耗,因此迫切需要研究更高效的CU劃分快速算法來降低編碼復(fù)雜度,提高編碼效率。3.2基于空間相關(guān)性的CU劃分快速算法設(shè)計3.2.1空間相關(guān)性分析在視頻圖像中,相鄰CU之間存在著顯著的空間相關(guān)性,這種相關(guān)性體現(xiàn)在亮度、紋理等多個關(guān)鍵特征上。在亮度方面,相鄰CU的亮度值往往具有較強的關(guān)聯(lián)性。以一幅風(fēng)景圖像為例,若一個CU包含天空的一部分,其周圍相鄰的CU大概率也屬于天空區(qū)域,這些相鄰CU的亮度值會較為接近,呈現(xiàn)出相似的明亮程度。這是因為在自然場景中,天空區(qū)域的亮度分布相對均勻,相鄰區(qū)域之間的亮度變化通常較為平緩,不會出現(xiàn)突然的大幅度波動。紋理特征上,相鄰CU之間也存在著緊密的聯(lián)系。紋理是圖像中具有重復(fù)性和規(guī)律性的結(jié)構(gòu)特征,相鄰CU的紋理方向和復(fù)雜度往往具有一致性。在一幅包含建筑物的圖像中,建筑物的墻面部分可能被劃分為多個相鄰的CU,這些CU的紋理方向都與墻面的方向一致,且紋理復(fù)雜度也相近,都表現(xiàn)為墻面的磚石紋理等特征。這種紋理特征的一致性使得我們可以利用已編碼CU的紋理信息來推斷當(dāng)前待編碼CU的特性??臻g相關(guān)性的量化分析對于深入理解和利用這種特性至關(guān)重要。常用的量化方法包括計算相鄰CU之間的亮度差值和紋理相似度。在亮度差值計算方面,通過計算兩個相鄰CU對應(yīng)像素的亮度值之差的絕對值,再對所有像素的差值進行求和或求平均,得到亮度差值指標(biāo)。若亮度差值較小,說明相鄰CU的亮度相關(guān)性強;反之,則相關(guān)性弱。在紋理相似度計算中,可以采用結(jié)構(gòu)相似性指數(shù)(SSIM,StructuralSimilarityIndex)等方法。SSIM通過比較圖像的亮度、對比度和結(jié)構(gòu)信息,評估兩個圖像塊(即相鄰CU)之間的相似度,取值范圍在0到1之間,值越接近1,表明紋理相似度越高,空間相關(guān)性越強。通過這些量化分析方法,我們能夠更準(zhǔn)確地把握相鄰CU之間的空間相關(guān)性,為后續(xù)的CU劃分快速算法設(shè)計提供有力的依據(jù)。3.2.2快速算法核心步驟利用空間相關(guān)性提前終止CU劃分的快速算法,其核心在于通過一系列精心設(shè)計的判斷條件和決策方法,實現(xiàn)對CU劃分過程的高效控制。具體步驟如下:獲取相鄰CU信息:在對當(dāng)前CU進行劃分決策之前,首先需要獲取其相鄰CU的相關(guān)信息,包括左側(cè)(L)、上方(U)和左上方(LU)已編碼的相鄰CU。這些相鄰CU的信息是判斷當(dāng)前CU劃分的重要依據(jù),因為它們與當(dāng)前CU在空間上緊密相鄰,具有較強的空間相關(guān)性。在一幅人物圖像中,當(dāng)處理人物面部某個CU時,獲取其周圍相鄰CU的信息,如亮度、紋理等,能夠幫助我們更好地了解該區(qū)域的整體特征。計算空間相關(guān)性指標(biāo):根據(jù)獲取的相鄰CU信息,計算空間相關(guān)性指標(biāo)。對于亮度相關(guān)性,計算當(dāng)前CU與相鄰CU的亮度均值差值。例如,分別計算當(dāng)前CU的亮度均值M_{cur},以及相鄰CU(L、U、LU)的亮度均值M_{L}、M_{U}、M_{LU},然后計算差值|M_{cur}-M_{L}|、|M_{cur}-M_{U}|、|M_{cur}-M_{LU}|。對于紋理相關(guān)性,采用結(jié)構(gòu)相似性指數(shù)(SSIM)來衡量當(dāng)前CU與相鄰CU的紋理相似度。假設(shè)當(dāng)前CU為CU_{cur},相鄰CU為CU_{adj},通過SSIM算法計算得到相似度值SSIM(CU_{cur},CU_{adj}),該值越接近1,表明紋理相似度越高。設(shè)置判斷閾值:為了確定是否提前終止CU劃分,需要設(shè)置合理的判斷閾值。對于亮度差值閾值T_{l},根據(jù)實驗和經(jīng)驗確定一個合適的值,如T_{l}=10(該值可根據(jù)實際情況調(diào)整)。對于紋理相似度閾值T_{s},同樣通過實驗確定,例如T_{s}=0.8。這些閾值是判斷當(dāng)前CU與相鄰CU空間相關(guān)性是否足夠強的關(guān)鍵標(biāo)準(zhǔn)。做出劃分決策:根據(jù)計算得到的空間相關(guān)性指標(biāo)和設(shè)置的閾值進行劃分決策。若當(dāng)前CU與所有相鄰CU的亮度差值都小于亮度差值閾值T_{l},且紋理相似度都大于紋理相似度閾值T_{s},則認(rèn)為當(dāng)前CU與相鄰CU的空間相關(guān)性很強,該區(qū)域圖像內(nèi)容變化平緩,紋理簡單。在這種情況下,可以提前終止CU的進一步劃分,直接采用當(dāng)前CU的大小進行編碼,從而減少不必要的劃分計算,提高編碼效率。若不滿足上述條件,則按照傳統(tǒng)的四叉樹劃分規(guī)則繼續(xù)對當(dāng)前CU進行劃分。3.2.3算法優(yōu)化與改進在初步設(shè)計的基于空間相關(guān)性的CU劃分快速算法基礎(chǔ)上,通過進一步的優(yōu)化策略,能夠顯著提升算法的性能和適應(yīng)性。為了更全面地利用圖像特征,在原有僅考慮亮度和紋理特征的基礎(chǔ)上,引入梯度特征。圖像的梯度能夠反映像素值的變化率,對于判斷圖像的邊緣和細(xì)節(jié)具有重要作用。計算當(dāng)前CU的梯度幅值和方向,與相鄰CU的梯度信息進行比較。在一幅包含建筑物邊緣的圖像中,建筑物邊緣的CU具有明顯的梯度變化,通過比較當(dāng)前CU與相鄰CU的梯度信息,可以更準(zhǔn)確地判斷該區(qū)域是否需要進一步劃分。如果當(dāng)前CU的梯度特征與相鄰CU差異較大,說明該區(qū)域可能存在邊緣或復(fù)雜紋理,需要更精細(xì)的CU劃分;反之,如果梯度特征相似,則可以考慮提前終止劃分。在不同的視頻場景下,圖像的特性存在較大差異,因此需要對算法進行自適應(yīng)調(diào)整。對于紋理簡單的視頻場景,如新聞播報視頻,大部分區(qū)域為純色背景和簡單的人物形象,空間相關(guān)性較強,可以適當(dāng)增大判斷閾值,放寬提前終止劃分的條件,進一步減少不必要的劃分計算,提高編碼效率。而對于紋理復(fù)雜的視頻場景,如動作電影,包含大量快速運動的物體和復(fù)雜的場景變化,空間相關(guān)性相對較弱,此時應(yīng)減小判斷閾值,使算法更加嚴(yán)格地判斷CU的劃分,以保證編碼質(zhì)量。為了驗證改進后的算法性能,將其與原始算法進行對比實驗。在相同的編碼條件下,對多種不同類型的視頻序列進行編碼測試。實驗結(jié)果表明,改進后的算法在編碼時間上相比原始算法有顯著降低。在處理紋理簡單的視頻序列時,編碼時間平均減少了30%左右,而在處理紋理復(fù)雜的視頻序列時,雖然編碼時間減少幅度相對較小,但也達(dá)到了15%左右。在編碼質(zhì)量方面,改進后的算法能夠保持與原始算法相當(dāng)?shù)乃?,峰值信噪比(PSNR)的下降在可接受范圍內(nèi),平均下降不超過0.5dB,主觀視覺效果也沒有明顯差異。三、AVS2幀內(nèi)預(yù)測編碼的CU劃分快速算法研究3.3實驗結(jié)果與分析3.3.1實驗設(shè)置為了全面、準(zhǔn)確地評估基于空間相關(guān)性的CU劃分快速算法的性能,精心設(shè)計了一系列實驗。在視頻序列的選擇上,涵蓋了多種具有代表性的視頻,包括“BasketballDrive”“BQTerrace”“Cactus”“Kimono”和“ParkScene”等。這些視頻序列具有不同的分辨率、內(nèi)容特性和運動復(fù)雜度,能夠充分檢驗算法在各種場景下的適應(yīng)性和有效性。“BasketballDrive”視頻包含快速運動的籃球運動員和復(fù)雜的球場場景,運動復(fù)雜度高;“Kimono”則以人物和靜止背景為主,紋理相對簡單,運動較少;“ParkScene”具有豐富的自然場景和中等程度的運動,能夠測試算法在常見自然場景下的性能。編碼參數(shù)方面,采用了AVS2標(biāo)準(zhǔn)的參考軟件進行編碼實驗。量化參數(shù)(QP)設(shè)置為22、27、32和37,這幾個QP值涵蓋了從高質(zhì)量編碼到低碼率編碼的不同需求場景。在22的QP值下,編碼側(cè)重于保持高圖像質(zhì)量,適用于對畫質(zhì)要求極高的應(yīng)用,如高清電影制作;而37的QP值則更注重低碼率,適用于對帶寬有限制的場景,如移動設(shè)備視頻播放。編碼結(jié)構(gòu)采用全I(xiàn)幀模式,這種模式下每一幀都獨立編碼,不依賴其他幀的信息,能夠突出CU劃分算法對單幀編碼的影響,便于準(zhǔn)確評估算法在去除空域冗余方面的性能。實驗在一臺配置為IntelCorei7-10700K處理器、32GB內(nèi)存、NVIDIAGeForceRTX3060顯卡的計算機上進行,操作系統(tǒng)為Windows10。實驗環(huán)境確保了算法在較為常見的計算機硬件平臺上運行,使得實驗結(jié)果具有實際參考價值,能夠反映算法在一般應(yīng)用場景中的性能表現(xiàn)。3.3.2性能指標(biāo)選擇在評估基于空間相關(guān)性的CU劃分快速算法時,選用了編碼時間、BD-rate和PSNR等關(guān)鍵性能指標(biāo),以全面衡量算法在編碼效率、碼率控制和圖像質(zhì)量方面的表現(xiàn)。編碼時間是衡量算法效率的重要指標(biāo),它直接反映了算法的計算復(fù)雜度和運行速度。通過精確記錄傳統(tǒng)算法和快速算法對每個視頻序列的編碼時長,能夠直觀地比較兩種算法在編碼速度上的差異。在實時視頻應(yīng)用中,如視頻會議、直播等,編碼時間的長短直接影響用戶體驗,較短的編碼時間能夠減少視頻延遲,保證視頻的流暢性。BD-rate(Bj?ntegaardDeltaRate)是一種綜合衡量碼率變化的指標(biāo),它考慮了不同量化參數(shù)下碼率的平均變化情況,能夠更準(zhǔn)確地反映算法在降低碼率方面的效果。通過計算快速算法相對于傳統(tǒng)算法的BD-rate值,如果BD-rate為負(fù),說明快速算法在相同圖像質(zhì)量下能夠降低碼率;反之,如果BD-rate為正,則表示碼率有所增加。在視頻傳輸和存儲中,碼率的降低意味著更少的數(shù)據(jù)量,能夠節(jié)省帶寬和存儲成本,提高傳輸效率和存儲利用率。PSNR(PeakSignal-to-NoiseRatio)即峰值信噪比,用于衡量重建圖像與原始圖像之間的失真程度,單位為dB。PSNR值越高,表明重建圖像與原始圖像越接近,圖像質(zhì)量越好。在實際應(yīng)用中,PSNR能夠直觀地反映用戶觀看視頻時的視覺體驗,對于高清視頻、視頻監(jiān)控等對圖像質(zhì)量要求較高的場景,保持較高的PSNR至關(guān)重要。通過對比兩種算法編碼后視頻的PSNR值,可以評估快速算法對圖像質(zhì)量的影響。3.3.3結(jié)果對比與討論通過對多種視頻序列進行編碼實驗,將基于空間相關(guān)性的CU劃分快速算法與傳統(tǒng)算法的實驗結(jié)果進行對比,能夠清晰地分析快速算法在編碼時間和編碼質(zhì)量上的優(yōu)勢與不足。在編碼時間方面,快速算法展現(xiàn)出顯著的優(yōu)勢。對于“BasketballDrive”視頻,傳統(tǒng)算法編碼時間為1800秒,而快速算法將編碼時間縮短至1200秒,節(jié)省了33.3%的時間。這是因為“BasketballDrive”視頻中存在大量快速運動的物體和復(fù)雜場景,傳統(tǒng)算法在進行CU劃分時需要對每個CU進行詳盡的計算和比較,以確定最優(yōu)劃分方式,計算量巨大。而快速算法通過分析相鄰CU的空間相關(guān)性,能夠提前判斷出部分CU的劃分尺寸,減少了不必要的劃分計算,從而大幅縮短了編碼時間。在“Kimono”視頻中,傳統(tǒng)算法編碼時間為1000秒,快速算法編碼時間為700秒,節(jié)省了30%的時間。雖然“Kimono”視頻運動較少,但快速算法依然能夠利用其空間相關(guān)性,快速確定CU劃分,提高編碼效率。在其他視頻序列中,快速算法也均表現(xiàn)出不同程度的編碼時間減少,平均節(jié)省時間達(dá)到31.5%。在編碼質(zhì)量方面,快速算法在一定程度上保證了與傳統(tǒng)算法相當(dāng)?shù)乃健R浴癈actus”視頻為例,傳統(tǒng)算法的PSNR值為38.5dB,快速算法的PSNR值為38.2dB,僅下降了0.3dB,在視覺上幾乎難以察覺差異。這表明快速算法在減少編碼時間的同時,能夠較好地保持圖像的細(xì)節(jié)和清晰度。在“ParkScene”視頻中,傳統(tǒng)算法PSNR為36.8dB,快速算法為36.5dB,同樣保持了較高的圖像質(zhì)量。然而,在一些復(fù)雜場景下,快速算法的編碼質(zhì)量仍存在一定的下降。對于紋理非常復(fù)雜、細(xì)節(jié)豐富的區(qū)域,快速算法可能由于提前終止劃分而無法像傳統(tǒng)算法那樣精確地捕捉細(xì)節(jié),導(dǎo)致PSNR略有下降。在“BQTerrace”視頻中,部分建筑紋理復(fù)雜的區(qū)域,快速算法的PSNR下降相對明顯,但整體下降幅度仍在可接受范圍內(nèi),平均下降0.4dB。在碼率方面,快速算法的BD-rate平均增加了1.2%。這是因為快速算法在提前終止CU劃分的過程中,可能會選擇較大的CU進行編碼,雖然減少了劃分計算,但在某些情況下可能無法像傳統(tǒng)算法那樣充分去除冗余信息,導(dǎo)致碼率略有上升。在一些平坦區(qū)域,快速算法選擇較大CU編碼,雖然減少了編碼塊數(shù),但由于未能精確表示該區(qū)域的細(xì)微變化,需要更多的比特數(shù)來編碼,從而增加了碼率。不過,這種碼率的增加與編碼時間的大幅減少相比,在一些對實時性要求較高的應(yīng)用場景中是可以接受的。四、AVS2幀內(nèi)預(yù)測編碼的RDO優(yōu)化研究4.1現(xiàn)有RDO算法分析4.1.1固定拉格朗日因子的RDO算法在AVS2編碼的傳統(tǒng)RDO算法中,固定拉格朗日因子的方法是一種基礎(chǔ)且廣泛應(yīng)用的策略。其工作原理基于拉格朗日優(yōu)化理論,核心在于通過最小化拉格朗日代價函數(shù)來選擇最優(yōu)的編碼模式。在編碼過程中,對于每個編碼單元(CU),編碼器會考慮多種可能的編碼模式,如不同的幀內(nèi)預(yù)測模式、CU劃分方式等。對于每種編碼模式,都需要計算其對應(yīng)的拉格朗日代價。以一個8×8的CU為例,假設(shè)它有多種幀內(nèi)預(yù)測模式可供選擇,包括DC預(yù)測、水平預(yù)測、垂直預(yù)測以及多種角度預(yù)測模式。在計算拉格朗日代價時,首先要確定該CU在不同預(yù)測模式下的失真D和碼率R。失真D通常通過計算重建圖像與原始圖像之間的差異來衡量,常用的方法是均方誤差(MSE)。假設(shè)原始圖像中該CU的像素值為x_{ij},重建圖像中對應(yīng)像素值為\hat{x}_{ij},則MSE的計算公式為MSE=\frac{1}{MN}\sum_{i=0}^{M-1}\sum_{j=0}^{N-1}(x_{ij}-\hat{x}_{ij})^2,其中M和N分別為CU的行數(shù)和列數(shù)。通過該公式可以得到不同預(yù)測模式下的失真值。碼率R的計算則涉及到對編碼該CU所需比特數(shù)的統(tǒng)計。這包括對預(yù)測模式信息、變換系數(shù)、運動矢量(如果是幀間預(yù)測)等的編碼比特數(shù)。在幀內(nèi)預(yù)測中,不同的預(yù)測模式需要不同數(shù)量的比特來編碼模式信息,例如,簡單的DC預(yù)測模式可能只需要較少的比特來標(biāo)識,而復(fù)雜的角度預(yù)測模式可能需要更多比特。變換系數(shù)的編碼比特數(shù)與系數(shù)的大小和分布有關(guān),量化后的變換系數(shù)通過熵編碼(如基于上下文的二元算術(shù)編碼)進行編碼,其編碼比特數(shù)根據(jù)系數(shù)的概率分布確定。在固定拉格朗日因子的RDO算法中,拉格朗日因子λ是一個預(yù)先設(shè)定的固定值,不隨編碼條件的變化而改變。對于某一特定的視頻序列編碼,λ可能被設(shè)置為一個經(jīng)驗值,如0.85。然后,根據(jù)拉格朗日代價函數(shù)J=D+λR,計算每種編碼模式下的拉格朗日代價J。對于上述8×8的CU,計算出每種預(yù)測模式下的J值后,選擇J值最小的模式作為該CU的最優(yōu)編碼模式。這種方法在一定程度上能夠平衡碼率和失真,實現(xiàn)較好的編碼效果。4.1.2傳統(tǒng)RDO算法的局限性盡管固定拉格朗日因子的RDO算法在視頻編碼中具有一定的應(yīng)用基礎(chǔ),但它存在明顯的局限性,尤其是在面對不同CU大小和復(fù)雜多變的圖像內(nèi)容時。不同大小的CU在編碼特性上存在顯著差異,而固定拉格朗日因子難以適應(yīng)這種變化。大尺寸的CU,如64×64的CU,通常包含較大面積的圖像區(qū)域,其中可能涵蓋多種不同的圖像內(nèi)容。在一幅包含城市風(fēng)景的圖像中,一個64×64的CU可能同時包含建筑物的墻面、窗戶以及部分天空。對于這種大CU,其碼率和失真的平衡需求與小CU有很大不同。大CU在編碼時,由于涉及的像素數(shù)量多,微小的失真可能在視覺上表現(xiàn)得較為明顯,因此對失真的容忍度相對較低,需要更注重失真的控制,此時可能需要較大的拉格朗日因子來強調(diào)失真的重要性,以保證重建圖像的質(zhì)量。相反,小CU,如8×8的CU,由于其包含的圖像區(qū)域較小,對碼率的變化更為敏感,因為即使是少量的比特數(shù)增加,在小CU中也可能導(dǎo)致碼率的顯著上升。在處理紋理簡單的小CU時,可能更需要關(guān)注碼率的降低,此時較小的拉格朗日因子更為合適。固定的拉格朗日因子無法根據(jù)CU大小的變化動態(tài)調(diào)整,難以在不同CU大小下都實現(xiàn)最優(yōu)的編碼效果。復(fù)雜多變的圖像內(nèi)容也對固定拉格朗日因子的RDO算法提出了挑戰(zhàn)。在視頻序列中,圖像內(nèi)容可能包含各種不同的場景和物體,其紋理、對比度和復(fù)雜度各不相同。在一段電影視頻中,可能既有激烈的動作場景,包含快速運動的物體和復(fù)雜的光影變化,又有寧靜的室內(nèi)場景,圖像相對平穩(wěn)。對于動作場景,由于物體運動和復(fù)雜的紋理,編碼時需要更多的比特數(shù)來準(zhǔn)確表示這些信息,此時如果拉格朗日因子固定,可能會導(dǎo)致碼率過高或者失真過大。如果拉格朗日因子較大,過于注重失真的控制,會使得編碼器選擇復(fù)雜的編碼模式來降低失真,但這會增加碼率,導(dǎo)致不必要的帶寬浪費;如果拉格朗日因子較小,過于追求碼率的降低,可能會選擇簡單的編碼模式,導(dǎo)致失真嚴(yán)重,圖像質(zhì)量下降。而對于室內(nèi)場景,由于圖像相對平穩(wěn),固定的拉格朗日因子可能無法根據(jù)其特點進行調(diào)整,導(dǎo)致編碼效果不佳。傳統(tǒng)RDO算法中固定拉格朗日因子的方式,無法根據(jù)圖像內(nèi)容的變化實時調(diào)整,難以在各種復(fù)雜的圖像內(nèi)容下實現(xiàn)碼率和失真的最佳平衡,限制了編碼效率和圖像質(zhì)量的進一步提升。四、AVS2幀內(nèi)預(yù)測編碼的RDO優(yōu)化研究4.2動態(tài)拉格朗日因子的RDO優(yōu)化算法設(shè)計4.2.1拉格朗日因子與CU大小的關(guān)系研究為深入探究拉格朗日因子與CU大小之間的內(nèi)在聯(lián)系,通過大量的實驗進行分析。在實驗中,針對不同分辨率和內(nèi)容特性的視頻序列,選取了多種典型的視頻片段,包括“BasketballDrive”“Kimono”“ParkScene”等,這些視頻涵蓋了快速運動場景、人物場景以及自然場景等多種類型,具有廣泛的代表性。在編碼過程中,保持其他編碼參數(shù)恒定,僅改變拉格朗日因子的值,分別對不同大小的CU進行編碼測試。對于大尺寸的CU,如64×64的CU,實驗結(jié)果表明,當(dāng)拉格朗日因子取值較小時,編碼傾向于選擇簡單的編碼模式以降低碼率。在“BasketballDrive”視頻中,包含快速運動的籃球運動員和復(fù)雜的球場場景,若拉格朗日因子設(shè)置為0.5,對于球場中大面積的地板區(qū)域,由于其紋理相對簡單,編碼器會選擇較大的預(yù)測塊和較少的變換系數(shù),以減少碼率。然而,這種選擇會導(dǎo)致重建圖像的失真較大,地板區(qū)域的細(xì)節(jié)丟失,出現(xiàn)模糊現(xiàn)象,影響圖像質(zhì)量。當(dāng)拉格朗日因子增大到1.2時,編碼器更加注重失真的控制,會選擇更復(fù)雜的編碼模式來提高預(yù)測的準(zhǔn)確性,如采用更多的預(yù)測方向和更精細(xì)的變換量化參數(shù)。在處理籃球運動員的動作細(xì)節(jié)時,能夠更準(zhǔn)確地捕捉運動員的肢體動作和表情,減少失真,重建圖像更加清晰,但同時碼率也會相應(yīng)增加。對于小尺寸的CU,如8×8的CU,拉格朗日因子的變化對編碼結(jié)果同樣有顯著影響。在“Kimono”視頻中,人物的服飾紋理等細(xì)節(jié)部分多采用小CU編碼。當(dāng)拉格朗日因子較小時,雖然碼率能夠得到有效控制,但由于過于追求碼率的降低,可能會忽略一些細(xì)節(jié)信息的編碼。在編碼人物衣服的紋理時,可能會因為選擇了過于簡單的編碼模式,導(dǎo)致紋理細(xì)節(jié)丟失,衣服的質(zhì)感和圖案變得模糊不清。而當(dāng)拉格朗日因子增大時,編碼器會分配更多的比特數(shù)來編碼這些細(xì)節(jié),使重建圖像的質(zhì)量得到提升,衣服的紋理更加清晰,但碼率也會隨之上升。通過對不同視頻序列和CU大小的實驗數(shù)據(jù)進行詳細(xì)分析,繪制出拉格朗日因子與編碼性能指標(biāo)(如碼率、PSNR)之間的關(guān)系曲線。從曲線中可以直觀地看出,隨著拉格朗日因子的增大,碼率呈現(xiàn)上升趨勢,而PSNR也會相應(yīng)提高,表明圖像質(zhì)量得到改善;反之,拉格朗日因子減小,碼率降低,但PSNR也會下降,圖像質(zhì)量變差。而且,不同大小的CU對應(yīng)的曲線斜率和變化趨勢存在明顯差異,進一步證明了拉格朗日因子與CU大小之間的緊密聯(lián)系,以及固定拉格朗日因子難以適應(yīng)不同CU大小編碼需求的問題。4.2.2動態(tài)拉格朗日因子計算模型為了實現(xiàn)拉格朗日因子的動態(tài)調(diào)整,使其能夠根據(jù)CU大小和圖像特征自適應(yīng)變化,構(gòu)建了一種基于CU大小和圖像復(fù)雜度的動態(tài)拉格朗日因子計算模型。該模型的核心在于綜合考慮CU的大小、圖像的紋理復(fù)雜度和梯度信息,以確定最合適的拉格朗日因子值。對于CU大小因素,模型根據(jù)CU的邊長來確定其在拉格朗日因子計算中的權(quán)重。假設(shè)CU的邊長為N,定義CU大小權(quán)重系數(shù)w_{size}為w_{size}=\frac{N}{64},其中64為最大CU(LCU)的邊長。這樣,大CU的權(quán)重系數(shù)接近1,小CU的權(quán)重系數(shù)較小,體現(xiàn)了不同大小CU對拉格朗日因子的不同需求。在圖像復(fù)雜度方面,采用基于梯度的方法來衡量。首先計算CU內(nèi)每個像素的梯度幅值和方向,然后對整個CU的梯度幅值進行統(tǒng)計分析,得到平均梯度幅值G_{avg}。為了更準(zhǔn)確地反映圖像的紋理復(fù)雜度,還考慮梯度方向的分布情況,計算梯度方向的熵E_{dir}。圖像復(fù)雜度權(quán)重系數(shù)w_{comp}通過以下公式計算:w_{comp}=\frac{G_{avg}+E_{dir}}{G_{max}+E_{max}},其中G_{max}和E_{max}分別為在實驗中統(tǒng)計得到的最大平均梯度幅值和最大梯度方向熵?;谝陨弦蛩兀瑒討B(tài)拉格朗日因子\lambda_{dyn}的計算公式為:\lambda_{dyn}=\lambda_{base}\timesw_{size}\timesw_{comp},其中\(zhòng)lambda_{base}為基礎(chǔ)拉格朗日因子,可根據(jù)經(jīng)驗或?qū)嶒烆A(yù)先設(shè)定一個初始值,如0.85。通過這個公式,拉格朗日因子能夠根據(jù)CU大小和圖像復(fù)雜度的變化而動態(tài)調(diào)整。在處理大CU且圖像復(fù)雜度較低的區(qū)域時,由于w_{size}較大,w_{comp}較小,\lambda_{dyn}的值相對較小,編碼更側(cè)重于降低碼率;而在處理小CU且圖像復(fù)雜度較高的區(qū)域時,w_{size}較小,w_{comp}較大,\lambda_{dyn}的值相對較大,編碼更注重圖像質(zhì)量的保持。為了驗證動態(tài)拉格朗日因子計算模型的有效性,將其應(yīng)用于多個不同類型的視頻序列編碼實驗中,并與固定拉格朗日因子的編碼結(jié)果進行對比。實驗結(jié)果表明,采用動態(tài)拉格朗日因子計算模型的編碼方式在不同場景下都能更有效地平衡碼率和圖像質(zhì)量。在“ParkScene”視頻中,對于大面積的草地等紋理簡單區(qū)域,動態(tài)模型能夠自動調(diào)整拉格朗日因子,選擇合適的編碼模式,使碼率降低的同時,圖像質(zhì)量損失較?。欢鴮τ诮ㄖ锏倪吘壓图?xì)節(jié)部分,又能根據(jù)圖像復(fù)雜度增大拉格朗日因子,保證重建圖像的清晰度,與固定拉格朗日因子相比,PSNR平均提高了0.5dB左右,BD-rate平均降低了3%左右。4.2.3優(yōu)化后的RDO算法流程結(jié)合動態(tài)拉格朗日因子的RDO算法,在編碼過程中通過一系列有序的步驟,實現(xiàn)了更高效的編碼模式選擇和參數(shù)優(yōu)化,從而在保證圖像質(zhì)量的前提下降低碼率。其具體流程如下:CU劃分與特征提取:在對視頻幀進行編碼時,首先按照AVS2的四叉樹結(jié)構(gòu)對圖像進行CU劃分,從最大編碼單元(LCU)開始,根據(jù)圖像內(nèi)容的復(fù)雜度和空間相關(guān)性,遞歸地將CU劃分為不同大小的子CU。在劃分過程中,對每個CU提取其圖像特征,包括亮度、紋理、梯度等信息。對于一個包含人物面部的CU,通過計算其像素的梯度信息,判斷面部的輪廓和細(xì)節(jié)特征,為后續(xù)的動態(tài)拉格朗日因子計算提供依據(jù)。動態(tài)拉格朗日因子計算:根據(jù)提取的CU特征和CU大小,利用前文所述的動態(tài)拉格朗日因子計算模型,計算每個CU對應(yīng)的拉格朗日因子\lambda_{dyn}。對于大CU且圖像復(fù)雜度較低的區(qū)域,如人物的衣服部分,若其紋理簡單,根據(jù)CU大小權(quán)重系數(shù)和圖像復(fù)雜度權(quán)重系數(shù)的計算,得到相對較小的拉格朗日因子,以降低碼率;而對于小CU且圖像復(fù)雜度較高的區(qū)域,如人物的眼睛和眉毛部分,由于細(xì)節(jié)豐富,計算得到的拉格朗日因子較大,以保證圖像質(zhì)量。編碼模式計算與選擇:針對每個CU,考慮多種可能的編碼模式,包括不同的幀內(nèi)預(yù)測模式、變換量化參數(shù)等。對于每個編碼模式,計算其對應(yīng)的失真D和碼率R。失真D通過計算重建圖像與原始圖像之間的差異來衡量,常用的方法是均方誤差(MSE)。假設(shè)原始圖像中該CU的像素值為x_{ij},重建圖像中對應(yīng)像素值為\hat{x}_{ij},則MSE的計算公式為MSE=\frac{1}{MN}\sum_{i=0}^{M-1}\sum_{j=0}^{N-1}(x_{ij}-\hat{x}_{ij})^2,其中M和N分別為CU的行數(shù)和列數(shù)。碼率R的計算則涉及對編碼該CU所需比特數(shù)的統(tǒng)計,包括預(yù)測模式信息、變換系數(shù)、運動矢量(如果是幀間預(yù)測)等的編碼比特數(shù)。然后,根據(jù)拉格朗日代價函數(shù)J=D+\lambda_{dyn}R,計算每種編碼模式下的拉格朗日代價J。選擇J值最小的編碼模式作為該CU的最優(yōu)編碼模式。編碼參數(shù)確定與輸出:確定每個CU的最優(yōu)編碼模式后,記錄相應(yīng)的編碼參數(shù),包括預(yù)測模式、量化參數(shù)、運動矢量等。將這些編碼參數(shù)和經(jīng)過編碼處理后的視頻數(shù)據(jù)進行整合,按照AVS2的編碼標(biāo)準(zhǔn)進行熵編碼等后續(xù)處理,最終輸出壓縮后的碼流。在熵編碼過程中,根據(jù)不同編碼模式下的系數(shù)分布和概率統(tǒng)計,采用基于上下文的二元算術(shù)編碼等方法,進一步減少碼率,提高編碼效率。4.3實驗結(jié)果與分析4.3.1實驗設(shè)置與性能指標(biāo)本實驗的設(shè)置與CU劃分快速算法實驗保持一致,選用“BasketballDrive”“BQTerrace”“Cactus”“Kimono”和“ParkScene”等視頻序列,涵蓋不同分辨率、內(nèi)容特性與運動復(fù)雜度,以全面檢驗算法性能。編碼參數(shù)上,采用AVS2參考軟件,量化參數(shù)(QP)設(shè)為22、27、32和37,編碼結(jié)構(gòu)采用全I(xiàn)幀模式,實驗環(huán)境為IntelCorei7-10700K處理器、32GB內(nèi)存、NVIDIAGeForceRTX3060顯卡的計算機,操作系統(tǒng)為Windows10。在評估動態(tài)拉格朗日因子的RDO優(yōu)化算法時,選用BD-rate和PSNR作為關(guān)鍵性能指標(biāo)。BD-rate能綜合衡量不同量化參數(shù)下碼率的平均變化情況,準(zhǔn)確反映算法在降低碼率方面的效果。若BD-rate為負(fù),表明優(yōu)化算法在相同圖像質(zhì)量下可降低碼率;反之則碼率增加。PSNR用于衡量重建圖像與原始圖像的失真程度,單位為dB,PSNR值越高,重建圖像與原始圖像越接近,圖像質(zhì)量越好。4.3.2結(jié)果對比與討論將優(yōu)化后的RDO算法與傳統(tǒng)固定拉格朗日因子的RDO算法進行對比實驗,結(jié)果顯示,優(yōu)化后的算法在BD-rate和PSNR指標(biāo)上有顯著改善。在“BasketballDrive”視頻序列中,QP為22時,傳統(tǒng)算法的BD-rate為0,PSNR為35.2dB;優(yōu)化后算法的BD-rate降低至-3.5%,PSNR提升至35.8dB。這表明優(yōu)化算法在相同QP下,碼率降低了3.5%,圖像質(zhì)量提高了0.6dB。在QP為37時,傳統(tǒng)算法BD-rate為0,PSNR為30.1dB;優(yōu)化后BD-rate降至-4.2%,PSNR提升至30.5dB,碼率降低4.2%,圖像質(zhì)量提高0.4dB。在“Kimono”視頻序列中,QP為22時,傳統(tǒng)算法BD-rate為0,PSNR為39.5dB;優(yōu)化后BD-rate降至-3.2%,PSNR提升至40.1dB,碼率降低3.2%,圖像質(zhì)量提高0.6dB。QP為37時,傳統(tǒng)算法BD-rate為0,PSNR為34.3dB;優(yōu)化后BD-rate降至-3.8%,PSNR提升至34.7dB,碼率降低3.8%,圖像質(zhì)量提高0.4dB。在“ParkScene”視頻序列中,QP為22時,傳統(tǒng)算法BD-rate為0,PSNR為36.8dB;優(yōu)化后BD-rate降至-3.3%,PSNR提升至37.3dB,碼率降低3.3%,圖像質(zhì)量提高0.5dB。QP為37時,傳統(tǒng)算法BD-rate為0,PSNR為31.7dB;優(yōu)化后BD-rate降至-4.0%,PSNR提升至32.1dB,碼率降低4.0%,圖像質(zhì)量提高0.4dB。綜合各視頻序列和不同QP值的實驗結(jié)果,優(yōu)化后的RDO算法平均BD-rate降低約3.7%,PSNR平均提升約0.5dB。這表明動態(tài)拉格朗日因子的RDO優(yōu)化算法能根據(jù)CU大小和圖像特征動態(tài)調(diào)整拉格朗日因子,在各種場景下都能更有效地平衡碼率和圖像質(zhì)量,在保證圖像質(zhì)量的前提下,顯著降低了碼率,提升了AVS2編碼的性能。五、CU劃分快速算法與RDO優(yōu)化算法的綜合應(yīng)用5.1兩種算法的結(jié)合策略將CU劃分快速算法和RDO優(yōu)化算法有機結(jié)合,是提升AVS2編碼性能的關(guān)鍵。在實際應(yīng)用中,合理的結(jié)合策略能夠充分發(fā)揮兩種算法的優(yōu)勢,在保證圖像質(zhì)量的前提下,有效降低編碼復(fù)雜度和碼率。在編碼流程中,首先應(yīng)用基于空間相關(guān)性的CU劃分快速算法。當(dāng)對一幀視頻進行編碼時,從最大編碼單元(LCU)開始,按照四叉樹結(jié)構(gòu)進行劃分。在每個CU的劃分決策點,快速算法通過分析當(dāng)前CU與相鄰已編碼CU的空間相關(guān)性,包括亮度、紋理和梯度等特征,判斷是否提前終止劃分。對于一片草地場景的LCU,若其相鄰CU的亮度均值與當(dāng)前CU相近,紋理相似度高,且梯度變化平緩,快速算法會提前判定該區(qū)域內(nèi)容變化平緩,直接采用當(dāng)前CU大小進行編碼,避免了不必要的四叉樹遞歸劃分,大大減少了計算量,降低了編碼時間。完成CU劃分后,針對每個確定大小的CU,應(yīng)用動態(tài)拉格朗日因子的RDO優(yōu)化算法。根據(jù)CU的大小和提取的圖像特征,利用動態(tài)拉格朗日因子計算模型,為每個CU計算出合適的拉格朗日因子。對于大CU且圖像復(fù)雜度較低的區(qū)域,如草地場景中大面積的綠色區(qū)域,拉格朗日因子相對較小,編碼更側(cè)重于降低碼率,選擇簡單的編碼模式以減少比特數(shù);而對于小CU且圖像復(fù)雜度較高的區(qū)域,如草地中花朵的細(xì)節(jié)部分,拉格朗日因子較大,編碼更注重圖像質(zhì)量的保持,選擇更復(fù)雜、更精準(zhǔn)的編碼模式,以準(zhǔn)確表示花朵的紋理和顏色細(xì)節(jié)。在整個編碼過程中,兩種算法相互配合,形成一個有機的整體。CU劃分快速算法為RDO優(yōu)化算法提供了更合理的編碼單元劃分,減少了RDO計算的復(fù)雜度。因為快速算法提前確定了部分CU的劃分尺寸,使得RDO算法只需在更合理的CU基礎(chǔ)上進行編碼模式選擇和參數(shù)優(yōu)化,而無需對過多不必要的劃分情況進行計算。RDO優(yōu)化算法則根據(jù)CU的劃分結(jié)果,進一步優(yōu)化編碼模式和參數(shù),提高編碼效率。通過動態(tài)調(diào)整拉格朗日因子,RDO算法能夠根據(jù)不同CU的特點,在碼率和圖像質(zhì)量之間找到最佳平衡,使編碼結(jié)果在保證圖像質(zhì)量的前提下,碼率得到有效降低。這種協(xié)同優(yōu)化的方式,使得編碼過程在編碼復(fù)雜度、編碼質(zhì)量和碼率之間實現(xiàn)了更好的平衡,顯著提升了AVS2編碼的整體性能。5.2綜合實驗與結(jié)果分析5.2.1實驗設(shè)置在綜合實驗中,依然選用“BasketballDrive”“BQTerrace”“Cactus”“Kimono”和“ParkScene”等具有代表性的視頻序列,這些序列涵蓋了不同的分辨率、內(nèi)容特性以及運動復(fù)雜度,能夠全面檢驗CU劃分快速算法與RDO優(yōu)化算法結(jié)合后的性能。編碼參數(shù)設(shè)置與之前的實驗保持一致,采用AVS2標(biāo)準(zhǔn)的參考軟件進行編碼。量化參數(shù)(QP)設(shè)置為22、27、32和37,以模擬不同的編碼質(zhì)量需求場景。編碼結(jié)構(gòu)采用全I(xiàn)幀模式,確保每一幀都獨立編碼,突出兩種算法結(jié)合對單幀編碼的影響,便于準(zhǔn)確評估算法在去除空域冗余和優(yōu)化編碼模式方面的效果。實驗環(huán)境為IntelCorei7-10700K處理器、32GB內(nèi)存、NVIDIAGeForceRTX3060顯卡的計算機,操作系統(tǒng)為Windows10,保證了實驗在常見計算機硬件平臺上進行,使實驗結(jié)果具有實際參考價值。5.2.2性能評估從多個關(guān)鍵方面對綜合算法的性能進行全面評估,包括編碼時間、BD-rate和PSNR等指標(biāo),以準(zhǔn)確衡量其在編碼效率、碼率控制和圖像質(zhì)量方面的表現(xiàn)。編碼時間是衡量算法效率的重要指標(biāo),通過精確記錄傳統(tǒng)算法、單獨使用CU劃分快速算法、單獨使用RDO優(yōu)化算法以及綜合算法對每個視頻序列的編碼時長,對比不同算法的編碼速度。在實時視頻應(yīng)用中,如視頻會議、直播等,編碼時間的長短直接影響用戶體驗,較短的編碼時間能夠減少視頻延遲,保證視頻的流暢性。BD-rate用于綜合衡量碼率的變化情況,考慮了不同量化參數(shù)下碼率的平均變化,能更準(zhǔn)確地反映算法在降低碼率方面的效果。計算綜合算法相對于傳統(tǒng)算法的BD-rate值,若BD-rate為負(fù),說明綜合算法在相同圖像質(zhì)量下能夠降低碼率;反之,若BD-rate為正,則表示碼率有所增加。在視頻傳輸和存儲中,碼率的降低意味著更少的數(shù)據(jù)量,能夠節(jié)省帶寬和存儲成本,提高傳輸效率和存儲利用率。PSNR即峰值信噪比,用于衡量重建圖像與原始圖像之間的失真程度,單位為dB。PSNR值越高,表明重建圖像與原始圖像越接近,圖像質(zhì)量越好。對比不同算法編碼后視頻的PSNR值,可以評估綜合算法對圖像質(zhì)量的影響。在實際應(yīng)用中,PSNR能夠直觀地反映用戶觀看視頻時的視覺體驗,對于高清視頻、視頻監(jiān)控等對圖像質(zhì)量要求較高的場景,保持較高的PSNR至關(guān)重要。5.2.3結(jié)果討論將綜合算法與傳統(tǒng)算法、單獨使用CU劃分快速算法、單獨使用RDO優(yōu)化算法的實驗結(jié)果進行對比分析,能夠清晰地揭示綜合算法在編碼效率和質(zhì)量提升上的協(xié)同效應(yīng)。在編碼時間方面,綜合算法展現(xiàn)出明顯的優(yōu)勢。與傳統(tǒng)算法相比,綜合算法平均節(jié)省編碼時間達(dá)到40%左右。這是因為CU劃分快速算法通過分析相鄰CU的空間相關(guān)性,提前終止了部分不必要的劃分,減少了計算量,為后續(xù)的RDO計算提供了更合理的CU劃分,降低了RDO的計算復(fù)雜度,從而大幅縮短了整體編碼時間。與單獨使用CU劃分快速算法相比,綜合算法在編碼時間上也有進一步的減少,約減少了8%。這是由于RDO優(yōu)化算法根據(jù)CU的劃分結(jié)果,動態(tài)調(diào)整拉格朗日因子,優(yōu)化了編碼模式選擇,使得編碼過程更加高效,進一步縮短了編碼時間。在碼率控制上,綜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論