數(shù)字視頻信息的索引研究_第1頁(yè)
數(shù)字視頻信息的索引研究_第2頁(yè)
數(shù)字視頻信息的索引研究_第3頁(yè)
數(shù)字視頻信息的索引研究_第4頁(yè)
數(shù)字視頻信息的索引研究_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、論文寫(xiě)作不是一朝一夕,更不能胡編亂造。需要切身研究、調(diào)查.分析與歸納,需要大量的數(shù)據(jù)處理與查閱資料。本論文不求帶給你多大的幫助,只愿做您腳下之石。該文檔為word格式,方便復(fù)制修改打印,寫(xiě)論文就是這么簡(jiǎn)單以下是正文數(shù)字視頻信息的索引研究(作者:單位:郵編:)引言視頻(video )是源于廣播電視業(yè)的術(shù)語(yǔ),指內(nèi)容 隨著時(shí)間 變化的圖像(picture )序列,也稱(chēng)為活動(dòng)圖像(motion picture 廣 義的視頻有電影、電視和計(jì)算機(jī)動(dòng)畫(huà)等不同類(lèi)型,狹義上的視頻主 要是指電視類(lèi)視頻。視頻是一種重要的視覺(jué)信息源。隨著各種數(shù)字影像設(shè)備的發(fā) 展與遍及,以及多媒體技術(shù)和internet的發(fā)展,人們面對(duì)

2、的視頻信 息種類(lèi)迅速地增長(zhǎng),如電影、電視、視頻會(huì)議、監(jiān)控錄像等。僅中央 電視臺(tái)(cctv )截至xxxx年就保存有約30萬(wàn)盤(pán)視頻節(jié)目,目前 cctv開(kāi)設(shè)有15套節(jié)目(日播岀量超過(guò)300小時(shí),其中約有1/3是 首播節(jié)目x 6套付費(fèi)電視頻道,以每天保# 80-90h的首播節(jié)目計(jì)算,每年新增節(jié)目將會(huì)達(dá)到3萬(wàn)小時(shí)以上口。面對(duì)如此巨量的視頻 信息,人們迫切希望改進(jìn)傳統(tǒng)的對(duì)視頻數(shù)據(jù)的線(xiàn)性查找方式,研發(fā)出 能夠快速定位和部 分析 取的視頻數(shù)據(jù)獲取技術(shù)。要達(dá)到這樣的目 標(biāo),首先需要將視頻數(shù)據(jù)有序化,即對(duì)視頻信息進(jìn)行有效的索引,使 之便于檢索2。從目前來(lái)看,數(shù)據(jù)庫(kù)信息、文本信息、圖形圖像信息的檢索已 進(jìn)入成熟期

3、,已有許多實(shí)用的檢索工具和產(chǎn)品,而視頻信息的檢索目 前還處于研究階段,雖然已有一些實(shí)驗(yàn)原型和個(gè)別針對(duì)特定領(lǐng)域的 檢索工具,但目前還無(wú)普遍實(shí)用的工具和產(chǎn)品。其主要原因是,與其 他信息(如文本、圖像等)相比,視頻信息主要有如下一些特點(diǎn):(1 )信息內(nèi)涵豐富;(2 )無(wú)“顯式”的結(jié)構(gòu);(3)存檔方式、視頻格式和編碼標(biāo)準(zhǔn)較多;(4 )數(shù)據(jù)量大。近年來(lái),許多研究人員在文本信息、圖形圖像信息檢索技術(shù)的基礎(chǔ)上,對(duì)視頻信息檢索技術(shù)進(jìn)行了大量的研究,研究?jī)?nèi)容涉及視頻信息的存儲(chǔ)組織、內(nèi)容分析、特征抽取、索引方法、匹配算法、檢索算法、檢索結(jié)果的評(píng)估和視頻信息的表現(xiàn)形式等諸多方面。本文在 分析視頻信息的隱含結(jié)構(gòu)基礎(chǔ)上

4、,研究視頻信息的索引對(duì)象、索引模 型和索引結(jié)構(gòu)。2、視頻信息的隱含結(jié)構(gòu)與索引對(duì)象目前的視頻文檔都是以節(jié)目(或稱(chēng)為作品)為單位表現(xiàn)某個(gè)主題, 其數(shù)據(jù)在組織時(shí)無(wú)“顯式”的結(jié)構(gòu)和索引信息(如同一本無(wú)目錄和章節(jié) 標(biāo)題的書(shū)籍),用戶(hù)只能采用線(xiàn)性方式觀(guān)看和欣賞。傳統(tǒng)的視頻信息 的消費(fèi)往往是以節(jié)目為單位進(jìn)行的,即查找某一電視節(jié)目(電視片、 廣告片、某場(chǎng) 體育比賽等),但不同類(lèi)型的用戶(hù)(消費(fèi)型、研究型、 創(chuàng)作型和 應(yīng)用 型),在不同的場(chǎng)合下(通過(guò)電視、網(wǎng)絡(luò)、pda、 移動(dòng)電話(huà)等)可能有不同的視頻消費(fèi)要求,即可能需要以鏡頭、場(chǎng)景 或故事單元為單位進(jìn)行消費(fèi)。例如,籃球教練需要查找“姚明進(jìn)攻”的 視頻鏡頭、司機(jī)在“

5、塞車(chē)”時(shí)利用pda收看某場(chǎng)足球比賽的精彩片段 或畫(huà)面等等。所以,對(duì)視頻信息進(jìn)行“結(jié)構(gòu)化”,并針對(duì)不同的結(jié)構(gòu)層 次對(duì)象進(jìn)行索引,是實(shí)現(xiàn)基于內(nèi)容的視頻信息檢索的基礎(chǔ)。2.1視頻信息的隱含結(jié)構(gòu)從形式上看,視頻信息本身是一種無(wú)“顯式”結(jié)構(gòu)的流媒體,即數(shù)據(jù)流本身無(wú)明顯的“章節(jié)、段落”結(jié)構(gòu),但從構(gòu)成和語(yǔ)義上看,視頻 信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次型結(jié)構(gòu)。其 中,幀、鏡頭和節(jié)目是視頻信息的物理組成成分,而場(chǎng)景和故事單元 則是語(yǔ)義上的邏輯組成成分。視頻是內(nèi)容隨著時(shí)間變化的圖像序列,其最小組成單位是幀(frame ),即一幅幅靜止圖像;針對(duì)一個(gè)對(duì)象或事件的、攝像機(jī)一次拍攝產(chǎn)生的幀集合稱(chēng)為一個(gè)

6、鏡頭(shot);發(fā)生在某一場(chǎng)地的、針 對(duì)某一對(duì)象、具有相對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭構(gòu)成一 個(gè)場(chǎng)景(scene );故事單元(story unit)是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè)或多個(gè)連續(xù)場(chǎng)景的集合,例如電視連續(xù) 劇中的每一節(jié)節(jié)目、nba比賽中的每一節(jié)比賽;節(jié)目(program )是 獨(dú)立的完整的視頻文檔,通常表述一個(gè)完整的故事或事件。視頻信息 的這種隱含結(jié)構(gòu),可用如下的數(shù)學(xué)模型表述:shot = frame , i | i > 1 scene = sho圳 |i>1 story_unit = scene, i問(wèn) program = story_unit

7、 , i | i>1 2.2視頻索引對(duì)象的分割與選取視頻信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次 型結(jié)構(gòu),為了滿(mǎn)足不同的應(yīng)用需求,視頻信息的索引應(yīng)在各個(gè)層次上 分別展開(kāi),即對(duì)視頻信息的索引,不僅要以節(jié)目為對(duì)象,而且需要在 視頻分割的基礎(chǔ)上以幀、鏡頭、場(chǎng)景和故事單元為對(duì)象分別進(jìn)行索引。節(jié)目和幀是視頻信息有的自然層次,而鏡頭、場(chǎng)景和故事單元?jiǎng)t要通過(guò)對(duì)視頻內(nèi)容的分析、采用各種算法進(jìn)行分割才能得到。(1)幀對(duì)象的選取雖然幀是視頻信息固有的自然層次,但一個(gè)視頻文檔由太多的 幀組成(每秒2530幀),且?guī)g存在大量的信息冗余以及用戶(hù) 不感興趣的幀圖像,這就需要采取一定的策略進(jìn)行幀的

8、9;選取”,找出定數(shù)量的“代表幀”(也稱(chēng)為“關(guān)鍵幀d目前代表幀的選取大多是在鏡頭分割的基礎(chǔ)上,以鏡頭為單元分別進(jìn)行代表幀的選取,選取算法主要是以鏡頭的首幀、尾幀或中間 幀為代表幀。筆者認(rèn)為,代表幀的選取還應(yīng)考慮兩個(gè)方面:一是對(duì)于 不同體裁(類(lèi)型)的視頻,應(yīng)采用不同的選取方法,且代表幀的數(shù)量 也應(yīng)區(qū)別對(duì)待;二是可以通過(guò)幀圖像的相似性比較,對(duì)幀進(jìn)行聚類(lèi), 從幀數(shù)最多的類(lèi)中選取代表幀(因?yàn)槌掷m(xù)時(shí)間長(zhǎng)的畫(huà)面往往更具有代 表性l(2)鏡頭分割鏡頭是視頻節(jié)目構(gòu)成的基本單元,也是視頻消費(fèi)時(shí)的最小邏輯單元。一個(gè)完整的視頻節(jié)目通常由若干個(gè)鏡頭組成,例如一部2小時(shí) 的電影通常由數(shù)百個(gè)鏡頭組成。鏡頭之間的切換形式主

9、要有突變和漸 變兩大類(lèi),漸變又可分為隱現(xiàn)(dissolve x淡入/淡出(fade )和擦除(wipe )等不同類(lèi)型,文獻(xiàn)4列出了常見(jiàn)的10種鏡頭變換形 式,在實(shí)際的應(yīng)用中可能有上百種鏡頭變換效果。采用人工方式進(jìn)行視頻分割是十分費(fèi)時(shí)的。近十多年來(lái),電子工程和計(jì)算機(jī) 科學(xué) 等領(lǐng)域的學(xué)者從不同的角度研究出了多種自 動(dòng)鏡頭檢測(cè)的方法,其基本思想大多為比較相鄰幀之間的相似性。目 前鏡頭檢測(cè)技術(shù)的方法分類(lèi)主要有以下三種: 根據(jù)所處理的視頻是否為壓縮數(shù)據(jù)進(jìn)行分類(lèi),如文獻(xiàn)4所述,將鏡頭變換檢測(cè)方法分為基于解壓的全圖像序列的識(shí)別方法、直接基于壓縮視頻的識(shí)別方法和基于確定變換模型的識(shí)別方法; 根據(jù)檢測(cè)的鏡頭變換

10、類(lèi)型進(jìn)行分類(lèi),如文獻(xiàn) 所述,將鏡 頭變換檢測(cè)方法分為突變檢測(cè)(hard cut detection '淡入/淡出檢 測(cè)(fade detection )和隱現(xiàn)檢測(cè)(dissolve detection )等類(lèi)型; 根據(jù)檢測(cè)時(shí)所采用的視頻特征進(jìn)行分類(lèi),可以將鏡頭變換檢 測(cè)方法分為基于亮度/顏色(intensity/color )的檢測(cè)、基于紋理 (texture )的檢測(cè)、基于邊緣(edges/contours )的檢測(cè)、基于運(yùn) 動(dòng)(motion )信息的檢測(cè),等等。鏡頭突變檢測(cè)的技術(shù)相對(duì)比較成熟,一般采用基于顏色直方圖 比較法即可得到較高的準(zhǔn)確率。但對(duì)于形式多樣的漸變切換檢測(cè),通 常需

11、要采用多種檢測(cè)手段進(jìn)行綜合檢測(cè),這也是目前鏡頭檢測(cè)研究的 難點(diǎn)和熱點(diǎn)之一。(3) 場(chǎng)景分割場(chǎng)景是發(fā)生在某一場(chǎng)地或針對(duì)某一對(duì)象(或動(dòng)作)的、具有相 對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭的集合。有時(shí)一個(gè)場(chǎng)景就是 一個(gè)鏡頭,有時(shí)一個(gè)場(chǎng)景是從不同角度反映同一場(chǎng)地(或?qū)ο蠡騽?dòng)作) 的多個(gè)鏡頭的組合。目前場(chǎng)景分割(也可稱(chēng)為場(chǎng)景構(gòu)建)一般是在鏡頭分割的基礎(chǔ) 上,采用鏡頭聚集的方式實(shí)現(xiàn)。文獻(xiàn)6提出了一種通過(guò)構(gòu)造層次型 “場(chǎng)景變換圖”的方法實(shí)現(xiàn)場(chǎng)景分割的思路,場(chǎng)景變換圖中的結(jié)點(diǎn)表示 鏡頭、邊表示變換,基于場(chǎng)景變換圖,利用顏色的相似性計(jì)算對(duì)鏡頭 進(jìn)行層次聚類(lèi),形成的每一個(gè)子圖即為一個(gè)場(chǎng)景;文獻(xiàn)7提出了一 種在鏡頭

12、分割基礎(chǔ)上,利用運(yùn)動(dòng)信息(包括攝像機(jī)運(yùn)動(dòng)和對(duì)象運(yùn)動(dòng) 鏡頭長(zhǎng)度和顏色屬性進(jìn)行場(chǎng)景檢測(cè)的方法。(4)故事單元分割在影視制作過(guò)程中,導(dǎo)演根據(jù)劇本的內(nèi)容,按照敘述的邏輯并 根據(jù)創(chuàng)作意圖,合乎邏輯地、富有表現(xiàn)力地、有節(jié)奏地把鏡頭連接起 來(lái),構(gòu)成完整的銀幕形象,形成比鏡頭更高一級(jí)的結(jié)構(gòu)故事單元 8o故事單元是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè) 或多個(gè)連續(xù)場(chǎng)景(鏡頭)的集合。故事單元分割的基本思想也是在鏡 頭分割的基礎(chǔ)上,結(jié)合領(lǐng)域知識(shí)對(duì)鏡頭(或場(chǎng)景)進(jìn)行聚類(lèi)分析。故事單元的理解主要是從語(yǔ)義層次上進(jìn)行的,其長(zhǎng)度(大?。?并沒(méi)有確切的定義和界限,需要更多地考慮視頻節(jié)目的類(lèi)型、體裁等 領(lǐng)域知識(shí)。對(duì)于不

13、同類(lèi)型的視頻節(jié)目,其故事單元的劃分有不同的形 式。例如,對(duì)于電視連續(xù)劇,可以將每一集看作一個(gè)故事單元;對(duì)于 體育節(jié)目,可以根據(jù)其本身所固有的時(shí)間間隔進(jìn)行分割,或根據(jù)主要 事件(如得分、進(jìn)球等)進(jìn)行分割等。2.3視頻索引對(duì)象的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)模型是直接面向計(jì)算機(jī)系統(tǒng)(數(shù)據(jù)庫(kù)數(shù)據(jù)的邏輯結(jié)構(gòu)。在常見(jiàn)的數(shù)據(jù)庫(kù)系統(tǒng)中,根據(jù)實(shí)體集之間的不同結(jié)構(gòu),通常把數(shù)據(jù)模 型分為層次模型、網(wǎng)狀模型、關(guān)系模型和面向?qū)ο竽P退姆N。目前成 熟的、主流的數(shù)據(jù)庫(kù)管理系統(tǒng)絕大多數(shù)是采用關(guān)系模型,并在此基礎(chǔ) 上擴(kuò)展了面向?qū)ο蟮某绦蛟O(shè)計(jì)功能。鑒于這種情況,可以考慮視頻索 引對(duì)象的數(shù)據(jù)結(jié)構(gòu)采用如下的關(guān)系數(shù)據(jù)模式:節(jié)目program (節(jié)目號(hào)

14、pno ,索引信息p )故事單元story unit(節(jié)目號(hào)pno ,故事單元號(hào)uno ,索引信 息u )場(chǎng)景scene (節(jié)目號(hào)pno ,故事單元號(hào)uno ,場(chǎng)景號(hào)eno , 索引信息e)鏡頭shot (節(jié)目號(hào)pno ,故事單元號(hào)uno ,場(chǎng)景號(hào)eno ,鏡 頭號(hào)sno ,索引信息s )代表幀keyframe (節(jié)目號(hào)pno ,故事單元號(hào)uno ,場(chǎng)景號(hào) eno ,鏡頭號(hào)sno ,幀號(hào)fno ,索引信息f)在實(shí)現(xiàn)時(shí),節(jié)目號(hào)由分類(lèi)號(hào)和編號(hào)兩部分組成,其中分類(lèi)號(hào)應(yīng) 采用類(lèi)似于中圖分類(lèi)號(hào)的編碼體系,分類(lèi)方法可 參考tv - anytime 論壇制定的分類(lèi)策略(sp003v1312);故事單元號(hào)、場(chǎng)

15、景號(hào)、鏡頭 號(hào)和幀號(hào)可采用視頻片段的起止時(shí)間碼(smpte使用的時(shí)間碼格式 為:v小時(shí):分鐘:秒:幀);各索引對(duì)象的索引信息可根據(jù)后續(xù) 討論的索引模型創(chuàng)建。3、視頻信息的索引模型3.1視頻信息的內(nèi)容模型視頻包含有豐富的信息內(nèi)容,針對(duì)同一段視頻,不同的人、在不同的情形之下觀(guān)看,通常有不同的感受,即使是同一個(gè)人多次觀(guān)看同一段視頻,往往也會(huì)有不同的感受。針對(duì)視頻所包含的信息內(nèi)容, 許多學(xué)者從不同的學(xué)科出發(fā),對(duì)其進(jìn)行了較為深入的研究。其中, 較有代表性的是 文獻(xiàn)9提岀的視頻內(nèi)容分類(lèi)模型,如圖2所示。該模型根據(jù)人類(lèi)視覺(jué)感知和認(rèn)識(shí)事物的規(guī)律,將視頻內(nèi)容分為三個(gè)層次:第一層(低層)為用戶(hù)觀(guān)看視頻時(shí)首先感知的

16、視覺(jué)信息, 如顏色、紋理、形狀、運(yùn)動(dòng)等;第二層(中間層)為通過(guò)邏輯推理而 得的、基于對(duì)象(object)的感知信息,如視頻中包含(描述)的人 物、地點(diǎn)、時(shí)間等;第三層(高層)為通過(guò)智能推理而得的、基于知 識(shí)(knowledge )的感知信息,它反映了視頻本身的語(yǔ)義,以及由此 而來(lái)的感受,如某視頻片段為暴力鏡頭、歡慶場(chǎng)景、劫機(jī)事件等等。這種視頻內(nèi)容建模方式為基于內(nèi)容的視頻信息索引提供了有益的指 導(dǎo)。3.2視頻信息的描述需求與索引模型視頻信息內(nèi)涵的豐富性、用戶(hù)檢索需求的多樣性,決定了在對(duì) 視頻信息進(jìn)行索引時(shí),應(yīng)盡可能地從各個(gè)層次和側(cè)面進(jìn)行全方位的描 述。根據(jù)mpeg-7的目標(biāo)要求10,對(duì)視頻信息的

17、描述至少應(yīng)包括 如下的信息:(1)有關(guān)內(nèi)容的產(chǎn)生和發(fā)展進(jìn)程的描述信息(如導(dǎo)演/作者、 標(biāo)題、版本等);(2)與內(nèi)容使用有關(guān)的信息(如版權(quán)、使用歷程、宣傳計(jì)劃 等);(3)有關(guān)內(nèi)容存儲(chǔ)特性的信息(如存儲(chǔ)格式、編碼等);(4)有關(guān)內(nèi)容的低層特性的信息(如顏色、紋理、音質(zhì)、音 調(diào)描述等);(5)從內(nèi)容捕捉到的實(shí)體的概念化信息(如對(duì)象和事件,對(duì) 象間的交互作用等);(6)利于瀏覽視頻內(nèi)容的信息(如概要、變更、空間和頻率 等);(7)關(guān)于用戶(hù)和內(nèi)容交互作用的信息(如用戶(hù)選擇、使用歷 史等l根據(jù)mpeg - 7提出的描述要求及視頻內(nèi)容分類(lèi)模型,可以考 慮采用如圖3所示的視頻索引模型。在該索引模型中,視頻信

18、息的索引分為外部信息索引和基于內(nèi) 容的索引。外部信息索引是指基于視頻文檔外部的、不依賴(lài)于其內(nèi)容的信 息索引,用于視頻文檔的標(biāo)識(shí)和檢索,如標(biāo)題、作者、時(shí)間、文檔大 小、存儲(chǔ)格式與編碼格式、使用信息(軟硬件要求、使用要求、版權(quán) 等)等等。基于內(nèi)容的索引又可以分為結(jié)構(gòu)索引、低層特征索引、中間層對(duì)象索引和高層語(yǔ)義索引,后三種索引與圖2所示的視頻內(nèi)容模型相 對(duì)應(yīng)。結(jié)構(gòu)索引是指節(jié)目、場(chǎng)景、鏡頭、幀之間的層次結(jié)構(gòu)與關(guān)系等; 低層特征索引是基于視頻信息的物理特征信息(如顏色、紋理、運(yùn)動(dòng)、 音質(zhì)、音調(diào)等)進(jìn)行索引;中間層的索引是對(duì)視頻中可識(shí)別對(duì)象(如 時(shí)間、地點(diǎn)、人物等)的索引;高層語(yǔ)義索引用于描述視頻中包含的

19、事件及相關(guān)的感受。3.3視頻對(duì)象與索引類(lèi)型的關(guān)系不同(層次)的視頻對(duì)象對(duì)應(yīng)著不同的索引,其對(duì)應(yīng)關(guān)系如表 1所示。幀的索引包含低層特征索引、中間層對(duì)象索引和高層語(yǔ)義索 引。其中,低層特征可以自動(dòng)地提取,中間層對(duì)象可以采用人工或半 自動(dòng)化(基于圖像識(shí)別技術(shù))的方式進(jìn)行標(biāo)引,高層語(yǔ)義可以采用人 工輸入方式進(jìn)行標(biāo)引。表1視頻對(duì)象與索引類(lèi)型索引外部信息對(duì)象結(jié)構(gòu)索引索引低層特征中間層對(duì)象索引高層語(yǔ)義索引索引(代表幀)vv7鏡頭vv場(chǎng)景vv故事單元vv節(jié)目鏡頭的索引主要是中間層對(duì)象索引和高層語(yǔ)義索引。其中,鏡 頭的中間層對(duì)象描述是在幀的中間層對(duì)象描述基礎(chǔ)上進(jìn)行擴(kuò)充,高層 語(yǔ)義可以采用人工輸入與自動(dòng)提取(主要

20、是指利用語(yǔ)音識(shí)別與文字識(shí) 別等技術(shù)直接從視頻信息中提取)相結(jié)合的方式生成。場(chǎng)景和故事單元的索引主要有結(jié)構(gòu)索引和高層語(yǔ)義索引。其結(jié) 構(gòu)索引用于描述鏡頭之間的關(guān)系,高層語(yǔ)義索引描述的是在鏡頭語(yǔ)義 基礎(chǔ)上形成的敘事(故事)情節(jié)。節(jié)目的索引包含外部信息索引、結(jié)構(gòu)索引和高層語(yǔ)義索引。3.4索引類(lèi)型與檢索方式的關(guān)系視頻信息的檢索主要有三種類(lèi)型,即結(jié)合在線(xiàn)相關(guān)反饋機(jī)制的 基于示例的檢索(query-by-example )、基于關(guān)鍵詞檢索 (query-by-keyword )和基于導(dǎo)航機(jī)制的視頻瀏覽(video browsing ),它們與索引類(lèi)型的對(duì)應(yīng)關(guān)系如表2所示。表2檢索方式與索引類(lèi)型索引外部信息

21、結(jié)構(gòu)索引 低層特征 中間層對(duì) 高層語(yǔ)義索引索引 象索引索引檢索方式示例的檢索vv關(guān)鍵詞檢索 vvv4、存在的問(wèn)題及探討面對(duì)急劇增長(zhǎng)的視頻信息,如何高效且合理地對(duì)其進(jìn)行索引是視 頻信息重用和消費(fèi)的基礎(chǔ)。雖然近年來(lái)的研究已取得不少的進(jìn)展,但 仍然存在許多有待解決的問(wèn)題。有些問(wèn)題是屬于“技術(shù)”層面的,如視 頻分割、代表幀提取、圖像理解、文字識(shí)別、語(yǔ)音識(shí)別等,有些問(wèn)題 是屬于“非技術(shù)”層面的,如視頻元數(shù)據(jù)標(biāo)準(zhǔn)、文本描述的規(guī)范性、視 頻作品的規(guī)范化等。下面就一些“非技術(shù)性”問(wèn)題進(jìn)行探討。4.1視頻信息的元數(shù)據(jù)標(biāo)準(zhǔn)信息的索引描述是信息的元數(shù)據(jù),索引項(xiàng)的確立依賴(lài)于元數(shù)據(jù)標(biāo)準(zhǔn)的制定。針對(duì)不同的資源類(lèi)型、不同的

22、用途、不同的機(jī)構(gòu)建立了 多種不同的元數(shù)據(jù)標(biāo)準(zhǔn)。隨著數(shù)字視頻技術(shù)的發(fā)展,針對(duì)數(shù)字視頻信 息的元數(shù)據(jù)研究也在不斷地深入,并已出現(xiàn)了一些基于不同目標(biāo)的元 數(shù)據(jù)模式或標(biāo)準(zhǔn),如數(shù)字電視元數(shù)據(jù)標(biāo)準(zhǔn)(dvb-sk tv-anytime和smpte等)、視頻軟硬件廠(chǎng)商推出的元數(shù)據(jù)標(biāo)準(zhǔn)(apple公司的quicktime、microsoft 公司的 windows media 等)以及 mpeg-7 等11o由于視頻信息本身固有的復(fù)雜性,使得視頻信息在創(chuàng)建、存儲(chǔ)、傳輸和使用等過(guò)程中需要不同的管理信息(元數(shù)據(jù))筆者認(rèn)為,根 據(jù)視頻元數(shù)據(jù)的發(fā)展現(xiàn)狀,在研究和制定元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)應(yīng)注意三點(diǎn): 一是這些元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)整合在統(tǒng)

23、一的框架之內(nèi),在統(tǒng)一的視頻元數(shù)據(jù) 框架基礎(chǔ)上形成面向不同 應(yīng)用 的子集;二是視頻元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)適應(yīng) mpeg制定的侈媒體描述框架”mpeg-7標(biāo)準(zhǔn);三是采用通用的 xml語(yǔ)言語(yǔ)法。4.2文本索引信息的規(guī)范性雖然基于示例的視頻檢索是最簡(jiǎn)便的檢索手段,但用戶(hù)往往不 會(huì)有現(xiàn)成的示例,且目前現(xiàn)有技術(shù)很難高效地為普通用戶(hù)提供一個(gè) 初始查詢(xún)示例。目前來(lái)看,利用文本信息對(duì)視頻信息進(jìn)行索引(即基 于關(guān)鍵字的視頻檢索),既符合一般用戶(hù)的檢索習(xí)慣,又可借助日趨 成熟的文本檢索技術(shù)。文獻(xiàn)3較為深入地探討了基于文本信息的視 頻索引及其相關(guān)技術(shù),特別是文本信息獲取的途徑。在采用文本信息對(duì)視頻信息進(jìn)行索引(包含外部信息索引

24、、中 間層對(duì)象索引和語(yǔ)義索引)時(shí),無(wú)論這些文本信息是人工輸入的,還 是自動(dòng)提取或生成的,均需要考慮文本描述的規(guī)范性,即如何對(duì)視頻 信息的某種特征和屬性(如視頻節(jié)目的類(lèi)型、流派等)進(jìn)行表述。對(duì) 此應(yīng)從兩個(gè)方面進(jìn)行研究并制定相關(guān)的標(biāo)準(zhǔn):一是對(duì)于一些可面向所 有視頻文檔的通用屬性,應(yīng)建立相關(guān)的分類(lèi)標(biāo)準(zhǔn)和詞匯表,目前tv -anytime論壇在這方面已做出了開(kāi)創(chuàng)性工作,在其已制定的元數(shù)據(jù) 規(guī)范(sp003v13 )中已經(jīng)定義了一個(gè)獨(dú)特的文檔結(jié)構(gòu)來(lái)綜合節(jié)目描 述、用戶(hù)描述、分類(lèi)策略12;二是對(duì)于特定類(lèi)型的視頻節(jié)目(如各 體育比賽),應(yīng)建立相關(guān)的對(duì)象、事件描述標(biāo)準(zhǔn)和詞匯表。4.3視頻文檔的規(guī)范化目前文本文

25、檔的論文格式規(guī)范和著錄標(biāo)準(zhǔn)(例如章節(jié)、標(biāo)題的 格式,每一篇論文均需要給出標(biāo)題、作者、摘要、關(guān)鍵詞,等等), 為文本文檔的管理、索引、檢索和瀏覽等帶來(lái)了極大的便利。對(duì)于視頻作品(文檔)來(lái)說(shuō),也應(yīng)該且急需制定出相應(yīng)的視頻 文檔規(guī)范,這包括兩個(gè)方面:一是規(guī)定視頻作品必須有著錄標(biāo)準(zhǔn),應(yīng) 能提供相應(yīng)的視頻摘要(文本的、圖像的、視頻的).關(guān)鍵詞(關(guān)鍵 幀)等元數(shù)據(jù),作者和相關(guān)的制作人員對(duì)作品的理解最深、主題把握 最準(zhǔn),由這些人員給出的相關(guān)信息(元數(shù)據(jù))顯然是最為有效的視頻 索引信息;二是應(yīng)制定視頻文檔的格式規(guī)范,也能像文本文檔一樣提 供結(jié)構(gòu)化的信息,包括視頻的組織、結(jié)構(gòu)層次等信息。要解決視頻文 檔的規(guī)范化問(wèn)題,需要從兩個(gè)方面努力:一是各種規(guī)范和標(biāo)準(zhǔn);二是 開(kāi)發(fā)相應(yīng)的視頻"寫(xiě)作”

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論