數(shù)字視頻信息的索引研究

上傳人：灰*** IP屬地：寧夏上傳時(shí)間：2021-12-18 格式：DOC 頁(yè)數(shù)：18 大小：96.02KB 積分：10.8 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩13頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、論文寫(xiě)作不是一朝一夕，更不能胡編亂造。需要切身研究、調(diào)查.分析與歸納，需要大量的數(shù)據(jù)處理與查閱資料。本論文不求帶給你多大的幫助，只愿做您腳下之石。該文檔為word格式，方便復(fù)制修改打印，寫(xiě)論文就是這么簡(jiǎn)單以下是正文數(shù)字視頻信息的索引研究（作者:單位:郵編:）引言視頻（video ）是源于廣播電視業(yè)的術(shù)語(yǔ)，指內(nèi)容隨著時(shí)間變化的圖像（picture ）序列,也稱(chēng)為活動(dòng)圖像（motion picture 廣義的視頻有電影、電視和計(jì)算機(jī)動(dòng)畫(huà)等不同類(lèi)型，狹義上的視頻主要是指電視類(lèi)視頻。視頻是一種重要的視覺(jué)信息源。隨著各種數(shù)字影像設(shè)備的發(fā) 展與遍及，以及多媒體技術(shù)和internet的發(fā)展，人們面對(duì)

2、的視頻信息種類(lèi)迅速地增長(zhǎng)，如電影、電視、視頻會(huì)議、監(jiān)控錄像等。僅中央電視臺(tái)（cctv ）截至xxxx年就保存有約30萬(wàn)盤(pán)視頻節(jié)目，目前 cctv開(kāi)設(shè)有15套節(jié)目（日播岀量超過(guò)300小時(shí)，其中約有1/3是首播節(jié)目x 6套付費(fèi)電視頻道，以每天保# 80-90h的首播節(jié)目計(jì)算，每年新增節(jié)目將會(huì)達(dá)到3萬(wàn)小時(shí)以上口。面對(duì)如此巨量的視頻信息，人們迫切希望改進(jìn)傳統(tǒng)的對(duì)視頻數(shù)據(jù)的線(xiàn)性查找方式，研發(fā)出能夠快速定位和部分析取的視頻數(shù)據(jù)獲取技術(shù)。要達(dá)到這樣的目標(biāo)，首先需要將視頻數(shù)據(jù)有序化，即對(duì)視頻信息進(jìn)行有效的索引，使之便于檢索2。從目前來(lái)看，數(shù)據(jù)庫(kù)信息、文本信息、圖形圖像信息的檢索已進(jìn)入成熟期

3、，已有許多實(shí)用的檢索工具和產(chǎn)品，而視頻信息的檢索目前還處于研究階段，雖然已有一些實(shí)驗(yàn)原型和個(gè)別針對(duì)特定領(lǐng)域的檢索工具，但目前還無(wú)普遍實(shí)用的工具和產(chǎn)品。其主要原因是，與其他信息(如文本、圖像等)相比，視頻信息主要有如下一些特點(diǎn)：(1 )信息內(nèi)涵豐富；(2 )無(wú)“顯式”的結(jié)構(gòu)；(3)存檔方式、視頻格式和編碼標(biāo)準(zhǔn)較多；(4 )數(shù)據(jù)量大。近年來(lái)，許多研究人員在文本信息、圖形圖像信息檢索技術(shù)的基礎(chǔ)上，對(duì)視頻信息檢索技術(shù)進(jìn)行了大量的研究，研究?jī)?nèi)容涉及視頻信息的存儲(chǔ)組織、內(nèi)容分析、特征抽取、索引方法、匹配算法、檢索算法、檢索結(jié)果的評(píng)估和視頻信息的表現(xiàn)形式等諸多方面。本文在分析視頻信息的隱含結(jié)構(gòu)基礎(chǔ)上

4、，研究視頻信息的索引對(duì)象、索引模型和索引結(jié)構(gòu)。2、視頻信息的隱含結(jié)構(gòu)與索引對(duì)象目前的視頻文檔都是以節(jié)目（或稱(chēng)為作品）為單位表現(xiàn)某個(gè)主題, 其數(shù)據(jù)在組織時(shí)無(wú)“顯式”的結(jié)構(gòu)和索引信息（如同一本無(wú)目錄和章節(jié) 標(biāo)題的書(shū)籍），用戶(hù)只能采用線(xiàn)性方式觀(guān)看和欣賞。傳統(tǒng)的視頻信息的消費(fèi)往往是以節(jié)目為單位進(jìn)行的，即查找某一電視節(jié)目（電視片、廣告片、某場(chǎng) 體育比賽等），但不同類(lèi)型的用戶(hù)（消費(fèi)型、研究型、創(chuàng)作型和應(yīng)用型），在不同的場(chǎng)合下（通過(guò)電視、網(wǎng)絡(luò)、pda、移動(dòng)電話(huà)等）可能有不同的視頻消費(fèi)要求，即可能需要以鏡頭、場(chǎng)景或故事單元為單位進(jìn)行消費(fèi)。例如，籃球教練需要查找“姚明進(jìn)攻”的視頻鏡頭、司機(jī)在“

5、塞車(chē)”時(shí)利用pda收看某場(chǎng)足球比賽的精彩片段或畫(huà)面等等。所以，對(duì)視頻信息進(jìn)行“結(jié)構(gòu)化”，并針對(duì)不同的結(jié)構(gòu)層次對(duì)象進(jìn)行索引，是實(shí)現(xiàn)基于內(nèi)容的視頻信息檢索的基礎(chǔ)。2.1視頻信息的隱含結(jié)構(gòu)從形式上看，視頻信息本身是一種無(wú)“顯式”結(jié)構(gòu)的流媒體，即數(shù)據(jù)流本身無(wú)明顯的“章節(jié)、段落”結(jié)構(gòu)，但從構(gòu)成和語(yǔ)義上看，視頻信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次型結(jié)構(gòu)。其中，幀、鏡頭和節(jié)目是視頻信息的物理組成成分，而場(chǎng)景和故事單元則是語(yǔ)義上的邏輯組成成分。視頻是內(nèi)容隨著時(shí)間變化的圖像序列，其最小組成單位是幀（frame ）,即一幅幅靜止圖像；針對(duì)一個(gè)對(duì)象或事件的、攝像機(jī)一次拍攝產(chǎn)生的幀集合稱(chēng)為一個(gè)

6、鏡頭（shot）;發(fā)生在某一場(chǎng)地的、針對(duì)某一對(duì)象、具有相對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭構(gòu)成一個(gè)場(chǎng)景（scene ）;故事單元（story unit）是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè)或多個(gè)連續(xù)場(chǎng)景的集合，例如電視連續(xù) 劇中的每一節(jié)節(jié)目、nba比賽中的每一節(jié)比賽；節(jié)目（program ）是獨(dú)立的完整的視頻文檔，通常表述一個(gè)完整的故事或事件。視頻信息的這種隱含結(jié)構(gòu)，可用如下的數(shù)學(xué)模型表述：shot = frame , i | i > 1 scene = sho圳 |i>1 story_unit = scene, i問(wèn) program = story_unit

7、 , i | i>1 2.2視頻索引對(duì)象的分割與選取視頻信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次型結(jié)構(gòu)，為了滿(mǎn)足不同的應(yīng)用需求，視頻信息的索引應(yīng)在各個(gè)層次上分別展開(kāi)，即對(duì)視頻信息的索引，不僅要以節(jié)目為對(duì)象，而且需要在視頻分割的基礎(chǔ)上以幀、鏡頭、場(chǎng)景和故事單元為對(duì)象分別進(jìn)行索引。節(jié)目和幀是視頻信息有的自然層次，而鏡頭、場(chǎng)景和故事單元?jiǎng)t要通過(guò)對(duì)視頻內(nèi)容的分析、采用各種算法進(jìn)行分割才能得到。（1）幀對(duì)象的選取雖然幀是視頻信息固有的自然層次，但一個(gè)視頻文檔由太多的幀組成（每秒2530幀），且?guī)g存在大量的信息冗余以及用戶(hù) 不感興趣的幀圖像，這就需要采取一定的策略進(jìn)行幀的

8、9;選取”，找出定數(shù)量的“代表幀”（也稱(chēng)為“關(guān)鍵幀d目前代表幀的選取大多是在鏡頭分割的基礎(chǔ)上，以鏡頭為單元分別進(jìn)行代表幀的選取，選取算法主要是以鏡頭的首幀、尾幀或中間幀為代表幀。筆者認(rèn)為，代表幀的選取還應(yīng)考慮兩個(gè)方面：一是對(duì)于不同體裁（類(lèi)型）的視頻，應(yīng)采用不同的選取方法，且代表幀的數(shù)量也應(yīng)區(qū)別對(duì)待；二是可以通過(guò)幀圖像的相似性比較，對(duì)幀進(jìn)行聚類(lèi), 從幀數(shù)最多的類(lèi)中選取代表幀（因?yàn)槌掷m(xù)時(shí)間長(zhǎng)的畫(huà)面往往更具有代表性l（2）鏡頭分割鏡頭是視頻節(jié)目構(gòu)成的基本單元，也是視頻消費(fèi)時(shí)的最小邏輯單元。一個(gè)完整的視頻節(jié)目通常由若干個(gè)鏡頭組成，例如一部2小時(shí) 的電影通常由數(shù)百個(gè)鏡頭組成。鏡頭之間的切換形式主

9、要有突變和漸變兩大類(lèi)，漸變又可分為隱現(xiàn)（dissolve x淡入/淡出（fade ）和擦除（wipe ）等不同類(lèi)型，文獻(xiàn)4列出了常見(jiàn)的10種鏡頭變換形式，在實(shí)際的應(yīng)用中可能有上百種鏡頭變換效果。采用人工方式進(jìn)行視頻分割是十分費(fèi)時(shí)的。近十多年來(lái)，電子工程和計(jì)算機(jī) 科學(xué) 等領(lǐng)域的學(xué)者從不同的角度研究出了多種自動(dòng)鏡頭檢測(cè)的方法，其基本思想大多為比較相鄰幀之間的相似性。目前鏡頭檢測(cè)技術(shù)的方法分類(lèi)主要有以下三種：根據(jù)所處理的視頻是否為壓縮數(shù)據(jù)進(jìn)行分類(lèi)，如文獻(xiàn)4所述，將鏡頭變換檢測(cè)方法分為基于解壓的全圖像序列的識(shí)別方法、直接基于壓縮視頻的識(shí)別方法和基于確定變換模型的識(shí)別方法；根據(jù)檢測(cè)的鏡頭變換

10、類(lèi)型進(jìn)行分類(lèi)，如文獻(xiàn) 所述，將鏡頭變換檢測(cè)方法分為突變檢測(cè)(hard cut detection '淡入/淡出檢測(cè)(fade detection )和隱現(xiàn)檢測(cè)(dissolve detection )等類(lèi)型; 根據(jù)檢測(cè)時(shí)所采用的視頻特征進(jìn)行分類(lèi)，可以將鏡頭變換檢測(cè)方法分為基于亮度/顏色(intensity/color )的檢測(cè)、基于紋理 (texture )的檢測(cè)、基于邊緣(edges/contours )的檢測(cè)、基于運(yùn) 動(dòng)(motion )信息的檢測(cè)，等等。鏡頭突變檢測(cè)的技術(shù)相對(duì)比較成熟，一般采用基于顏色直方圖比較法即可得到較高的準(zhǔn)確率。但對(duì)于形式多樣的漸變切換檢測(cè)，通常需

11、要采用多種檢測(cè)手段進(jìn)行綜合檢測(cè)，這也是目前鏡頭檢測(cè)研究的難點(diǎn)和熱點(diǎn)之一。(3) 場(chǎng)景分割場(chǎng)景是發(fā)生在某一場(chǎng)地或針對(duì)某一對(duì)象(或動(dòng)作)的、具有相對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭的集合。有時(shí)一個(gè)場(chǎng)景就是一個(gè)鏡頭，有時(shí)一個(gè)場(chǎng)景是從不同角度反映同一場(chǎng)地(或?qū)ο蠡騽?dòng)作) 的多個(gè)鏡頭的組合。目前場(chǎng)景分割(也可稱(chēng)為場(chǎng)景構(gòu)建)一般是在鏡頭分割的基礎(chǔ) 上,采用鏡頭聚集的方式實(shí)現(xiàn)。文獻(xiàn)6提出了一種通過(guò)構(gòu)造層次型 “場(chǎng)景變換圖”的方法實(shí)現(xiàn)場(chǎng)景分割的思路，場(chǎng)景變換圖中的結(jié)點(diǎn)表示鏡頭、邊表示變換，基于場(chǎng)景變換圖，利用顏色的相似性計(jì)算對(duì)鏡頭進(jìn)行層次聚類(lèi)，形成的每一個(gè)子圖即為一個(gè)場(chǎng)景；文獻(xiàn)7提出了一種在鏡頭

12、分割基礎(chǔ)上，利用運(yùn)動(dòng)信息(包括攝像機(jī)運(yùn)動(dòng)和對(duì)象運(yùn)動(dòng) 鏡頭長(zhǎng)度和顏色屬性進(jìn)行場(chǎng)景檢測(cè)的方法。（4）故事單元分割在影視制作過(guò)程中，導(dǎo)演根據(jù)劇本的內(nèi)容，按照敘述的邏輯并根據(jù)創(chuàng)作意圖，合乎邏輯地、富有表現(xiàn)力地、有節(jié)奏地把鏡頭連接起來(lái)，構(gòu)成完整的銀幕形象，形成比鏡頭更高一級(jí)的結(jié)構(gòu)故事單元 8o故事單元是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè) 或多個(gè)連續(xù)場(chǎng)景（鏡頭）的集合。故事單元分割的基本思想也是在鏡頭分割的基礎(chǔ)上，結(jié)合領(lǐng)域知識(shí)對(duì)鏡頭（或場(chǎng)景）進(jìn)行聚類(lèi)分析。故事單元的理解主要是從語(yǔ)義層次上進(jìn)行的，其長(zhǎng)度（大?。?并沒(méi)有確切的定義和界限，需要更多地考慮視頻節(jié)目的類(lèi)型、體裁等領(lǐng)域知識(shí)。對(duì)于不

13、同類(lèi)型的視頻節(jié)目，其故事單元的劃分有不同的形式。例如，對(duì)于電視連續(xù)劇，可以將每一集看作一個(gè)故事單元；對(duì)于體育節(jié)目，可以根據(jù)其本身所固有的時(shí)間間隔進(jìn)行分割，或根據(jù)主要事件（如得分、進(jìn)球等）進(jìn)行分割等。2.3視頻索引對(duì)象的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)模型是直接面向計(jì)算機(jī)系統(tǒng)（數(shù)據(jù)庫(kù)數(shù)據(jù)的邏輯結(jié)構(gòu)。在常見(jiàn)的數(shù)據(jù)庫(kù)系統(tǒng)中，根據(jù)實(shí)體集之間的不同結(jié)構(gòu)，通常把數(shù)據(jù)模型分為層次模型、網(wǎng)狀模型、關(guān)系模型和面向?qū)ο竽Ｐ退姆N。目前成熟的、主流的數(shù)據(jù)庫(kù)管理系統(tǒng)絕大多數(shù)是采用關(guān)系模型，并在此基礎(chǔ) 上擴(kuò)展了面向?qū)ο蟮某绦蛟O(shè)計(jì)功能。鑒于這種情況，可以考慮視頻索引對(duì)象的數(shù)據(jù)結(jié)構(gòu)采用如下的關(guān)系數(shù)據(jù)模式：節(jié)目program （節(jié)目號(hào)

14、pno ,索引信息p ）故事單元story unit（節(jié)目號(hào)pno ,故事單元號(hào)uno ,索引信息u ）場(chǎng)景scene （節(jié)目號(hào)pno ,故事單元號(hào)uno ,場(chǎng)景號(hào)eno , 索引信息e）鏡頭shot （節(jié)目號(hào)pno ,故事單元號(hào)uno ,場(chǎng)景號(hào)eno ,鏡頭號(hào)sno ,索引信息s ）代表幀keyframe （節(jié)目號(hào)pno ,故事單元號(hào)uno ,場(chǎng)景號(hào) eno ,鏡頭號(hào)sno ,幀號(hào)fno ,索引信息f）在實(shí)現(xiàn)時(shí)，節(jié)目號(hào)由分類(lèi)號(hào)和編號(hào)兩部分組成，其中分類(lèi)號(hào)應(yīng) 采用類(lèi)似于中圖分類(lèi)號(hào)的編碼體系，分類(lèi)方法可參考tv - anytime 論壇制定的分類(lèi)策略（sp003v1312）;故事單元號(hào)、場(chǎng)

15、景號(hào)、鏡頭號(hào)和幀號(hào)可采用視頻片段的起止時(shí)間碼（smpte使用的時(shí)間碼格式為：v小時(shí)：分鐘：秒：幀）;各索引對(duì)象的索引信息可根據(jù)后續(xù) 討論的索引模型創(chuàng)建。3、視頻信息的索引模型3.1視頻信息的內(nèi)容模型視頻包含有豐富的信息內(nèi)容，針對(duì)同一段視頻，不同的人、在不同的情形之下觀(guān)看，通常有不同的感受，即使是同一個(gè)人多次觀(guān)看同一段視頻，往往也會(huì)有不同的感受。針對(duì)視頻所包含的信息內(nèi)容, 許多學(xué)者從不同的學(xué)科出發(fā)，對(duì)其進(jìn)行了較為深入的研究。其中，較有代表性的是文獻(xiàn)9提岀的視頻內(nèi)容分類(lèi)模型，如圖2所示。該模型根據(jù)人類(lèi)視覺(jué)感知和認(rèn)識(shí)事物的規(guī)律，將視頻內(nèi)容分為三個(gè)層次：第一層（低層）為用戶(hù)觀(guān)看視頻時(shí)首先感知的

16、視覺(jué)信息，如顏色、紋理、形狀、運(yùn)動(dòng)等；第二層（中間層）為通過(guò)邏輯推理而得的、基于對(duì)象（object）的感知信息，如視頻中包含（描述）的人物、地點(diǎn)、時(shí)間等；第三層（高層）為通過(guò)智能推理而得的、基于知識(shí)（knowledge ）的感知信息，它反映了視頻本身的語(yǔ)義，以及由此而來(lái)的感受，如某視頻片段為暴力鏡頭、歡慶場(chǎng)景、劫機(jī)事件等等。這種視頻內(nèi)容建模方式為基于內(nèi)容的視頻信息索引提供了有益的指導(dǎo)。3.2視頻信息的描述需求與索引模型視頻信息內(nèi)涵的豐富性、用戶(hù)檢索需求的多樣性，決定了在對(duì) 視頻信息進(jìn)行索引時(shí)，應(yīng)盡可能地從各個(gè)層次和側(cè)面進(jìn)行全方位的描述。根據(jù)mpeg-7的目標(biāo)要求10，對(duì)視頻信息的

17、描述至少應(yīng)包括如下的信息：（1）有關(guān)內(nèi)容的產(chǎn)生和發(fā)展進(jìn)程的描述信息（如導(dǎo)演/作者、標(biāo)題、版本等）；（2）與內(nèi)容使用有關(guān)的信息（如版權(quán)、使用歷程、宣傳計(jì)劃等）；（3）有關(guān)內(nèi)容存儲(chǔ)特性的信息（如存儲(chǔ)格式、編碼等）;（4）有關(guān)內(nèi)容的低層特性的信息（如顏色、紋理、音質(zhì)、音調(diào)描述等）;（5）從內(nèi)容捕捉到的實(shí)體的概念化信息（如對(duì)象和事件，對(duì) 象間的交互作用等）；（6）利于瀏覽視頻內(nèi)容的信息（如概要、變更、空間和頻率等）；（7）關(guān)于用戶(hù)和內(nèi)容交互作用的信息（如用戶(hù)選擇、使用歷史等l根據(jù)mpeg - 7提出的描述要求及視頻內(nèi)容分類(lèi)模型，可以考慮采用如圖3所示的視頻索引模型。在該索引模型中，視頻信

18、息的索引分為外部信息索引和基于內(nèi) 容的索引。外部信息索引是指基于視頻文檔外部的、不依賴(lài)于其內(nèi)容的信息索引，用于視頻文檔的標(biāo)識(shí)和檢索，如標(biāo)題、作者、時(shí)間、文檔大小、存儲(chǔ)格式與編碼格式、使用信息（軟硬件要求、使用要求、版權(quán) 等）等等。基于內(nèi)容的索引又可以分為結(jié)構(gòu)索引、低層特征索引、中間層對(duì)象索引和高層語(yǔ)義索引，后三種索引與圖2所示的視頻內(nèi)容模型相對(duì)應(yīng)。結(jié)構(gòu)索引是指節(jié)目、場(chǎng)景、鏡頭、幀之間的層次結(jié)構(gòu)與關(guān)系等; 低層特征索引是基于視頻信息的物理特征信息（如顏色、紋理、運(yùn)動(dòng)、音質(zhì)、音調(diào)等）進(jìn)行索引；中間層的索引是對(duì)視頻中可識(shí)別對(duì)象（如時(shí)間、地點(diǎn)、人物等）的索引；高層語(yǔ)義索引用于描述視頻中包含的

19、事件及相關(guān)的感受。3.3視頻對(duì)象與索引類(lèi)型的關(guān)系不同（層次）的視頻對(duì)象對(duì)應(yīng)著不同的索引，其對(duì)應(yīng)關(guān)系如表 1所示。幀的索引包含低層特征索引、中間層對(duì)象索引和高層語(yǔ)義索引。其中，低層特征可以自動(dòng)地提取，中間層對(duì)象可以采用人工或半自動(dòng)化（基于圖像識(shí)別技術(shù)）的方式進(jìn)行標(biāo)引，高層語(yǔ)義可以采用人工輸入方式進(jìn)行標(biāo)引。表1視頻對(duì)象與索引類(lèi)型索引外部信息對(duì)象結(jié)構(gòu)索引索引低層特征中間層對(duì)象索引高層語(yǔ)義索引索引（代表幀）vv7鏡頭vv場(chǎng)景vv故事單元vv節(jié)目鏡頭的索引主要是中間層對(duì)象索引和高層語(yǔ)義索引。其中，鏡頭的中間層對(duì)象描述是在幀的中間層對(duì)象描述基礎(chǔ)上進(jìn)行擴(kuò)充，高層語(yǔ)義可以采用人工輸入與自動(dòng)提取(主要

20、是指利用語(yǔ)音識(shí)別與文字識(shí) 別等技術(shù)直接從視頻信息中提取)相結(jié)合的方式生成。場(chǎng)景和故事單元的索引主要有結(jié)構(gòu)索引和高層語(yǔ)義索引。其結(jié) 構(gòu)索引用于描述鏡頭之間的關(guān)系，高層語(yǔ)義索引描述的是在鏡頭語(yǔ)義基礎(chǔ)上形成的敘事(故事)情節(jié)。節(jié)目的索引包含外部信息索引、結(jié)構(gòu)索引和高層語(yǔ)義索引。3.4索引類(lèi)型與檢索方式的關(guān)系視頻信息的檢索主要有三種類(lèi)型，即結(jié)合在線(xiàn)相關(guān)反饋機(jī)制的基于示例的檢索(query-by-example )、基于關(guān)鍵詞檢索 (query-by-keyword )和基于導(dǎo)航機(jī)制的視頻瀏覽(video browsing ),它們與索引類(lèi)型的對(duì)應(yīng)關(guān)系如表2所示。表2檢索方式與索引類(lèi)型索引外部信息

21、結(jié)構(gòu)索引低層特征中間層對(duì) 高層語(yǔ)義索引索引象索引索引檢索方式示例的檢索vv關(guān)鍵詞檢索 vvv4、存在的問(wèn)題及探討面對(duì)急劇增長(zhǎng)的視頻信息，如何高效且合理地對(duì)其進(jìn)行索引是視頻信息重用和消費(fèi)的基礎(chǔ)。雖然近年來(lái)的研究已取得不少的進(jìn)展，但仍然存在許多有待解決的問(wèn)題。有些問(wèn)題是屬于“技術(shù)”層面的，如視頻分割、代表幀提取、圖像理解、文字識(shí)別、語(yǔ)音識(shí)別等，有些問(wèn)題是屬于“非技術(shù)”層面的，如視頻元數(shù)據(jù)標(biāo)準(zhǔn)、文本描述的規(guī)范性、視頻作品的規(guī)范化等。下面就一些“非技術(shù)性”問(wèn)題進(jìn)行探討。4.1視頻信息的元數(shù)據(jù)標(biāo)準(zhǔn)信息的索引描述是信息的元數(shù)據(jù)，索引項(xiàng)的確立依賴(lài)于元數(shù)據(jù)標(biāo)準(zhǔn)的制定。針對(duì)不同的資源類(lèi)型、不同的

22、用途、不同的機(jī)構(gòu)建立了多種不同的元數(shù)據(jù)標(biāo)準(zhǔn)。隨著數(shù)字視頻技術(shù)的發(fā)展，針對(duì)數(shù)字視頻信息的元數(shù)據(jù)研究也在不斷地深入，并已出現(xiàn)了一些基于不同目標(biāo)的元數(shù)據(jù)模式或標(biāo)準(zhǔn)，如數(shù)字電視元數(shù)據(jù)標(biāo)準(zhǔn)（dvb-sk tv-anytime和smpte等）、視頻軟硬件廠(chǎng)商推出的元數(shù)據(jù)標(biāo)準(zhǔn)（apple公司的quicktime、microsoft 公司的 windows media 等）以及 mpeg-7 等11o由于視頻信息本身固有的復(fù)雜性，使得視頻信息在創(chuàng)建、存儲(chǔ)、傳輸和使用等過(guò)程中需要不同的管理信息（元數(shù)據(jù)）筆者認(rèn)為，根據(jù)視頻元數(shù)據(jù)的發(fā)展現(xiàn)狀，在研究和制定元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)應(yīng)注意三點(diǎn)：一是這些元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)整合在統(tǒng)

23、一的框架之內(nèi)，在統(tǒng)一的視頻元數(shù)據(jù) 框架基礎(chǔ)上形成面向不同應(yīng)用的子集；二是視頻元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)適應(yīng) mpeg制定的侈媒體描述框架”mpeg-7標(biāo)準(zhǔn)；三是采用通用的 xml語(yǔ)言語(yǔ)法。4.2文本索引信息的規(guī)范性雖然基于示例的視頻檢索是最簡(jiǎn)便的檢索手段，但用戶(hù)往往不會(huì)有現(xiàn)成的示例，且目前現(xiàn)有技術(shù)很難高效地為普通用戶(hù)提供一個(gè) 初始查詢(xún)示例。目前來(lái)看，利用文本信息對(duì)視頻信息進(jìn)行索引（即基于關(guān)鍵字的視頻檢索），既符合一般用戶(hù)的檢索習(xí)慣，又可借助日趨成熟的文本檢索技術(shù)。文獻(xiàn)3較為深入地探討了基于文本信息的視頻索引及其相關(guān)技術(shù)，特別是文本信息獲取的途徑。在采用文本信息對(duì)視頻信息進(jìn)行索引（包含外部信息索引

24、、中間層對(duì)象索引和語(yǔ)義索引）時(shí)，無(wú)論這些文本信息是人工輸入的，還是自動(dòng)提取或生成的，均需要考慮文本描述的規(guī)范性，即如何對(duì)視頻信息的某種特征和屬性（如視頻節(jié)目的類(lèi)型、流派等）進(jìn)行表述。對(duì) 此應(yīng)從兩個(gè)方面進(jìn)行研究并制定相關(guān)的標(biāo)準(zhǔn)：一是對(duì)于一些可面向所有視頻文檔的通用屬性，應(yīng)建立相關(guān)的分類(lèi)標(biāo)準(zhǔn)和詞匯表，目前tv -anytime論壇在這方面已做出了開(kāi)創(chuàng)性工作，在其已制定的元數(shù)據(jù) 規(guī)范（sp003v13 ）中已經(jīng)定義了一個(gè)獨(dú)特的文檔結(jié)構(gòu)來(lái)綜合節(jié)目描述、用戶(hù)描述、分類(lèi)策略12;二是對(duì)于特定類(lèi)型的視頻節(jié)目（如各體育比賽），應(yīng)建立相關(guān)的對(duì)象、事件描述標(biāo)準(zhǔn)和詞匯表。4.3視頻文檔的規(guī)范化目前文本文

25、檔的論文格式規(guī)范和著錄標(biāo)準(zhǔn)（例如章節(jié)、標(biāo)題的格式，每一篇論文均需要給出標(biāo)題、作者、摘要、關(guān)鍵詞，等等），為文本文檔的管理、索引、檢索和瀏覽等帶來(lái)了極大的便利。對(duì)于視頻作品（文檔）來(lái)說(shuō)，也應(yīng)該且急需制定出相應(yīng)的視頻文檔規(guī)范，這包括兩個(gè)方面：一是規(guī)定視頻作品必須有著錄標(biāo)準(zhǔn)，應(yīng) 能提供相應(yīng)的視頻摘要（文本的、圖像的、視頻的）.關(guān)鍵詞（關(guān)鍵幀）等元數(shù)據(jù)，作者和相關(guān)的制作人員對(duì)作品的理解最深、主題把握最準(zhǔn)，由這些人員給出的相關(guān)信息（元數(shù)據(jù)）顯然是最為有效的視頻索引信息；二是應(yīng)制定視頻文檔的格式規(guī)范，也能像文本文檔一樣提供結(jié)構(gòu)化的信息，包括視頻的組織、結(jié)構(gòu)層次等信息。要解決視頻文檔的規(guī)范化問(wèn)題，需要從兩個(gè)方面努力：一是各種規(guī)范和標(biāo)準(zhǔn)；二是開(kāi)發(fā)相應(yīng)的視頻"寫(xiě)作”

人人文庫(kù)> 全部分類(lèi)> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)字視頻信息的索引研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)字視頻信息的索引研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔