版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
/畢業(yè)論文論文題目:姓名:學(xué)號(hào):學(xué)習(xí)中心:專業(yè):指導(dǎo)教師:二〇〇年月畢業(yè)論文承諾書提示:根據(jù)北京語言大學(xué)網(wǎng)絡(luò)教育學(xué)院論文寫作的規(guī)定,如發(fā)現(xiàn)論文有抄襲、網(wǎng)上下載、請(qǐng)人代寫等情況,畢業(yè)論文一律不與格。同時(shí)取消學(xué)士學(xué)位申請(qǐng)資格。畢業(yè)論文不與格者,可申請(qǐng)重寫一次,并按重修繳納費(fèi)用。本人承諾:本人已經(jīng)了解北京語言大學(xué)的畢業(yè)論文寫作的有關(guān)規(guī)定;本人的論文是在指導(dǎo)教師指導(dǎo)下獨(dú)立完成的研究成果。整篇論文除了文中已注明出處或引用的內(nèi)容外,絕沒有侵犯他人知識(shí)產(chǎn)權(quán)。對(duì)本論文所涉與的研究工作做出貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式注明。簽名:_____________日期:________________目錄目錄 2摘要 2Abstract 3第一章緒論 11.1前言 11.2研究背景 11.2.1信息抽取概述 11.2.2基于內(nèi)容的文本信息提取 21.3開發(fā)人機(jī)交互的標(biāo)注工具的意義 31.4任務(wù)描述 31.5論文的組織和安排 3第二章標(biāo)注工具的設(shè)計(jì)原則和設(shè)計(jì)思想 52.1研究方法和指導(dǎo)思想 52.2標(biāo)注工具的設(shè)計(jì)原則 52.2.2文本標(biāo)注工具的設(shè)計(jì)原則 52.3人機(jī)交互界面設(shè)計(jì)原則 5第三章標(biāo)注工具的具體開發(fā) 53.1開發(fā)環(huán)境的選擇 53.2標(biāo)注工具的設(shè)計(jì) 53.2.1標(biāo)注工具的界面算法 53.2.2結(jié)構(gòu)設(shè)計(jì) 53.3標(biāo)注工具的詳細(xì)設(shè)計(jì) 63.3.1人機(jī)交互界面詳細(xì)設(shè)計(jì) 63.3.2菜單和工具欄的設(shè)計(jì) 63.4標(biāo)注過程文本的處理 63.4.1實(shí)體標(biāo)注詳細(xì)設(shè)計(jì) 63.4.2關(guān)系標(biāo)注詳細(xì)設(shè)計(jì) 63.4.3事件標(biāo)注詳細(xì)設(shè)計(jì) 63.5標(biāo)注結(jié)果 63.6技術(shù)難點(diǎn)討論 6第四章 標(biāo)注工具的缺陷分析和功能展望 7結(jié)束語 2致謝 2參考文獻(xiàn) 2人機(jī)交互文本標(biāo)注工具開發(fā)作者:***指導(dǎo)教師:*****(指導(dǎo)教師職稱)摘要:基于內(nèi)容的文本信息提取是當(dāng)前的一個(gè)研究熱點(diǎn),無論搜索引擎還是問答系統(tǒng),其根本的基礎(chǔ)是有效的獲取文本中的信息。使用機(jī)器學(xué)習(xí)的方法從語料庫中獲取有效的知識(shí),以支持文本信息的處理已經(jīng)成為計(jì)算語言學(xué)的一個(gè)主流技術(shù),而帶標(biāo)語料庫則是這一技術(shù)的基礎(chǔ)。帶標(biāo)語料庫的建設(shè)的基礎(chǔ)就是對(duì)大量的文本進(jìn)行標(biāo)注,并以一定的結(jié)構(gòu)來存儲(chǔ)。這樣一來就需要開發(fā)一個(gè)具有友好的人機(jī)交互界面的文本標(biāo)注工具來輔助文本標(biāo)注,在一定程序上減輕標(biāo)注工作者的負(fù)擔(dān)。這次文本標(biāo)注工具的設(shè)計(jì),處理的目標(biāo)是純文本文件,以一篇文檔為單位提供用戶進(jìn)行實(shí)體,事件,關(guān)系的標(biāo)注,并在標(biāo)注過程中給出標(biāo)注的中間結(jié)果,最后在保存標(biāo)注文件的時(shí)候進(jìn)行處理,以xml語言格式進(jìn)行輸出存儲(chǔ)。標(biāo)注工具的功能包括對(duì)文本的實(shí)體,事件,關(guān)系三大類的標(biāo)注,對(duì)標(biāo)注過的文本進(jìn)行標(biāo)記,提醒用戶標(biāo)注進(jìn)度,最后對(duì)標(biāo)注中間結(jié)果的處理與保存。本文是對(duì)這次人機(jī)交互文本標(biāo)注工具的設(shè)計(jì)與實(shí)現(xiàn)的詳細(xì)的闡述。首先對(duì)背景與理論知識(shí)作了具體的介紹。然后,分別進(jìn)行文本標(biāo)注工具的系統(tǒng)分析、總體架構(gòu)分析,并對(duì)每個(gè)模塊的具體實(shí)現(xiàn)做詳細(xì)地講解。最后,本文還介紹本次文本標(biāo)注工具設(shè)計(jì)的缺陷以與未來改進(jìn)的方案,并對(duì)本次標(biāo)注工具的開發(fā)作總結(jié)。關(guān)鍵詞:人機(jī)交互,文本標(biāo)注,MFC編程TheInteractiveTexttaggingToolDevelopmentAuthor:*****Tutor:*****Abstract:Thetextinformationextrationbasedoncontentisacurrentstudyhotspot.Regardlessofthesearchengineortheinterrogator-respondersystem,theirbasicfoundationisgaintextinformationineffective.UsethemethodofmachinelearningtogainstheeffectiveknowledgefromCorpus,supportingthetextinformationprocessingisalreadybecomecomputaionallinguisticsamainstreamtechnology.Thetaggedcorpusisthetechnicalfoundation.Thetargetofthistexttaggingtooldesignistheprocessedcorpora(text).Takingthesinglepieceoftextforuserstotagentities,relations,events,andshowintermediateresultsduringtaggingprocess.culminatinginthepreservationoftaggingdocumentsprocessedxmllanguagetotheoutputformatforstorage.Thetool'sfunctionalannotationincludingtaggingtheentities,theevents,therelationslabeledthetaggingofftext,remindusersthetaggingprogress,anddealingtheintermediateresultsprocessingandpreservation.Thepaperwilldescribeanddiscussoverthedesignandrealizationofthisinteractivetexttaggingtool.Firstly,detailedtheoreticalbackgroundswillbegiven;secondly,analysisofthistoolandgeneralstructureforitandthefulldescriptionsabouttherealizationofeachmodelwillbeintroduced;finally,thedefectsofthedesignofthetoolandimprovementtoitsfuturedevelopmentwillbegivenandasummaryofthestructureandtheperformanceofthesystemwillbedeliveredaswell.Keyword:HumancomputerInteractive,Texttagging,MFC第一章緒論1.1前言隨著互聯(lián)網(wǎng)的廣泛普與,語言信息處理的社會(huì)需求越來越大,人們迫切需要用自動(dòng)化的手段處理海量的語言信息。語言資源有計(jì)劃有規(guī)模的開發(fā)對(duì)于語言信息處理領(lǐng)域的研究和開發(fā)具有重要意義。對(duì)文本進(jìn)行標(biāo)注就是語言資源建設(shè)的一個(gè)方面,人機(jī)交互式的標(biāo)注工具是進(jìn)行語料標(biāo)注的有效手段,從一定程度上可以的減輕標(biāo)注工作者的負(fù)擔(dān),同時(shí)還可以輔助檢查標(biāo)注結(jié)果。開發(fā)界面友好的標(biāo)注工具可以進(jìn)一步的提高標(biāo)注工作者的效率,同時(shí)結(jié)構(gòu)化的輸出更方便標(biāo)注數(shù)據(jù)的后續(xù)使用。1.2研究背景1.2.1信息抽取概述信息抽取是指從一段文本中抽取指定的事件,事實(shí)等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并填入一個(gè)數(shù)據(jù)庫中供用戶查詢使用的過程。即它從文本中抽取用戶感興趣的事件,實(shí)體和關(guān)系,被抽取出來的信息以結(jié)構(gòu)化的形式描述,然后存儲(chǔ)在數(shù)據(jù)庫中,為情報(bào)分析和監(jiān)測(cè)、比價(jià)購物、自動(dòng)文摘、文本分類等各種應(yīng)用提供服務(wù)。例如,災(zāi)害預(yù)防部門可以從自然災(zāi)害的新聞報(bào)道中抽取出災(zāi)害的類型、時(shí)間、地點(diǎn)、人員傷亡、經(jīng)濟(jì)損失等情況;醫(yī)生可以從病人的醫(yī)療記錄中抽取出癥狀、診斷記錄和檢驗(yàn)結(jié)果;安全部門分析有線新聞和廣播電視的文本來找到和總結(jié)恐怖分子活動(dòng)記錄等。一般來說,信息抽取系統(tǒng)的處理對(duì)象是自然語言文本尤其是非結(jié)構(gòu)化文本。但廣義上講,除了電子文本以外,信息抽取系統(tǒng)的處理對(duì)象還可以是語音、圖像、視頻等其他媒體類型的數(shù)據(jù)。1.2.2基于內(nèi)容的文本信息提取基于內(nèi)容的文本信息提取是當(dāng)前的一個(gè)研究熱點(diǎn),無論搜索引擎還是問答系統(tǒng),其根本的基礎(chǔ)是有效的獲取文本中的信息。使用機(jī)器學(xué)習(xí)的方法從語料庫中獲取有效的知識(shí),以支持文本信息的處理已經(jīng)成為計(jì)算語言學(xué)的一個(gè)主流技術(shù),而帶標(biāo)語料庫則是這一技術(shù)的基礎(chǔ)。由于語言本身的復(fù)雜性和富含信息的特點(diǎn),使得語料庫標(biāo)注的內(nèi)容、對(duì)象可以在語法、語義、語用等各個(gè)層次上進(jìn)行,語料庫標(biāo)注的內(nèi)容和程度,從根本上決定了從文本中可以提取出的信息內(nèi)容和信息粒度,也決定了進(jìn)行文本內(nèi)容計(jì)算的對(duì)象、方法。比如,對(duì)于文本片斷,據(jù)美國加利福尼亞州羅斯維爾市警方說,一架單引擎飛機(jī)12日在羅斯維爾市郊?jí)嫐В瑱C(jī)上2人全部死亡,被飛機(jī)撞毀的一座房屋中2人失蹤。其中所包含的信息有:飛機(jī)墜毀的時(shí)間(12日)、地點(diǎn)(羅斯維爾市郊)、傷亡情況(2人死亡,2人失蹤)、該消息的來源(警方)、飛機(jī)本身的狀態(tài)屬性(單引擎)、消息來源的屬性(美國加利福尼亞州羅斯維爾市警方)、死亡人員的屬性(機(jī)上2人)、失蹤人員的屬性(被飛機(jī)撞毀的一座房屋中2人)、……。這些信息直接反映了文本片斷的意義,包括了命名實(shí)體、實(shí)體(如“羅斯維爾市”、“飛機(jī)”);實(shí)體的屬性與其間的關(guān)系(如“羅斯維爾市警方”與“警方”,失蹤人員和房屋的關(guān)系);事件(如“墜毀”事件)與其屬性(事件的時(shí)間、地點(diǎn)、傷亡情況等)。表達(dá)這些信息的語言形式是豐富多樣的,我們將其稱為意義單元。因此,有效地標(biāo)注文本中的意義單元,是面向文本內(nèi)容計(jì)算進(jìn)行資源建設(shè)的一個(gè)嘗試。根據(jù)突發(fā)事件的類型,對(duì)真實(shí)文本中意義單元的屬性、特征、相關(guān)連方式進(jìn)行研究,并通過標(biāo)注體系將其表現(xiàn)出來,是前人沒有做過的。從真實(shí)文本的實(shí)際數(shù)據(jù)出發(fā),探索支持文本內(nèi)容計(jì)算、具有意義信息標(biāo)注的語料庫建設(shè)是一個(gè)新的嘗試。目前,面向文本信息提取的帶標(biāo)語料庫的研究,ACE項(xiàng)目進(jìn)行的較為深入。ACE對(duì)語料庫標(biāo)注形式、方法、內(nèi)容、對(duì)象都作了大量的研究,其標(biāo)注內(nèi)容包括文本中的實(shí)體表達(dá)、實(shí)體間的關(guān)系表達(dá)、事件的表達(dá)等。本文受ACE標(biāo)注內(nèi)容的啟發(fā),通過對(duì)ACE已標(biāo)數(shù)據(jù)的分析,確定了以意義單元作為標(biāo)注對(duì)象,期望在標(biāo)注內(nèi)容上更加精煉,標(biāo)注的語言層次上能夠貫通各個(gè)層級(jí),同時(shí)面對(duì)不同的事件信息,能有更精確的表達(dá)形式。此外,從資源建設(shè)的角度來看,我們必須建設(shè)我們自己的語料庫。1.3開發(fā)人機(jī)交互的標(biāo)注工具的意義目前語料加工的方式主要有三種方式,即人工、自動(dòng)、和人機(jī)結(jié)合的半自動(dòng)方式。由于自然語言處理技術(shù)的限制,自動(dòng)加工方式會(huì)給語料庫標(biāo)注帶來一些錯(cuò)誤,而人工加工方式非常昂貴,需要大量的人力資源。相比之下,半自動(dòng)加工方式則兼顧兩者的優(yōu)點(diǎn)。人機(jī)結(jié)合的方式有兩種:一種是計(jì)算機(jī)自動(dòng)選擇語料庫中需要人工干預(yù)的自動(dòng)加工方式不能解決的部分,從而減少人的工作;另一種反是則實(shí)現(xiàn)由計(jì)算機(jī)對(duì)加工的語料進(jìn)行自動(dòng)加工,然后由人工校對(duì)。對(duì)文本進(jìn)行標(biāo)注就是語言資源建設(shè)的一個(gè)方面。人工標(biāo)注的過程是一個(gè)艱苦的、費(fèi)時(shí)費(fèi)力的,然而從語言信息處理發(fā)展的觀點(diǎn)來看,是一個(gè)必須進(jìn)行的過程。因此開發(fā)一個(gè)可以輔助標(biāo)注工作的工具就有它的意義。人機(jī)交互式的標(biāo)注工具是進(jìn)行語料標(biāo)注的有效手段,從一定程度上可以的減輕標(biāo)注工作者的負(fù)擔(dān),同時(shí)還可以輔助檢查標(biāo)注結(jié)果的一致性等問題。開發(fā)界面友好的標(biāo)注工具可以進(jìn)一步的提高標(biāo)注工作者的效率,同時(shí)結(jié)構(gòu)化的輸出更方便標(biāo)注數(shù)據(jù)的后續(xù)使用。1.4任務(wù)描述本次標(biāo)注工具開發(fā)的主要工作是windows風(fēng)格的交互環(huán)境設(shè)計(jì)與實(shí)現(xiàn)和適用于文本成分的標(biāo)注風(fēng)格的設(shè)計(jì)與實(shí)現(xiàn)。具體就是要完成以下的這些任務(wù):人機(jī)交互界面的設(shè)計(jì)人機(jī)交互界面的實(shí)現(xiàn)實(shí)體,關(guān)系,實(shí)現(xiàn)具體標(biāo)注的實(shí)現(xiàn)標(biāo)注中間結(jié)果的顯示標(biāo)注結(jié)果的結(jié)構(gòu)化輸出1.5論文的組織和安排整個(gè)論文分為四個(gè)部分,緒論介紹了這個(gè)標(biāo)注工具出現(xiàn)的背景,解釋了我們構(gòu)造這個(gè)工具的必要性,后面各章節(jié)全部圍繞標(biāo)注工具設(shè)計(jì)開發(fā)的各個(gè)細(xì)節(jié)來描述。分別為第2章 標(biāo)注工具的設(shè)計(jì)原則和設(shè)計(jì)思想,包括用戶的各種需求和工具要具備的功能,預(yù)先估計(jì)工具開發(fā)過程中可能會(huì)遇到的困難,為工具的具體開發(fā)和實(shí)現(xiàn)打好基礎(chǔ)。第3章 標(biāo)注工具的具體開發(fā),包括開發(fā)環(huán)境的選擇,設(shè)計(jì)思想的詳細(xì)實(shí)現(xiàn),技術(shù)難點(diǎn)的分析討論。第4章 對(duì)這次標(biāo)注工具開發(fā)的總結(jié),分析工具的缺陷以與沒有解決的問題,以與對(duì)系統(tǒng)以后改進(jìn)發(fā)展的看法。第二章標(biāo)注工具的設(shè)計(jì)原則和設(shè)計(jì)思想2.1研究方法和指導(dǎo)思想……2.2標(biāo)注工具的設(shè)計(jì)原則……2.2.2文本標(biāo)注工具的設(shè)計(jì)原則……2.3人機(jī)交互界面設(shè)計(jì)原則……第三章標(biāo)注工具的具體開發(fā)3.1開發(fā)環(huán)境的選擇……3.2標(biāo)注工具的設(shè)計(jì)3.2.1標(biāo)注工具的界面算法
……3.2.2結(jié)構(gòu)設(shè)計(jì)……3.3標(biāo)注工具的詳細(xì)設(shè)計(jì)3.3.1人機(jī)交互界面詳細(xì)設(shè)計(jì)……3.3.2菜單和工具欄的設(shè)計(jì)……3.4標(biāo)注過程文本的處理……3.4.1實(shí)體標(biāo)注詳細(xì)設(shè)計(jì)……3.4.2關(guān)系標(biāo)注詳細(xì)設(shè)計(jì)……3.4.3事件標(biāo)注詳細(xì)設(shè)計(jì)……3.5標(biāo)注結(jié)果……3.6技術(shù)難點(diǎn)討論……標(biāo)注工具的缺陷分析和功能展望盡管工具經(jīng)過反復(fù)的設(shè)計(jì)和考慮,性能進(jìn)行盡可能的優(yōu)化,但是本次的標(biāo)注工具的缺陷還是非常多的,由于時(shí)間的緊張和能力的有限,還有許多的功能可以去實(shí)現(xiàn),還有許多的地方需要改進(jìn)。本次標(biāo)注工具實(shí)現(xiàn)了簡(jiǎn)單的人機(jī)交互環(huán)境,但還有許多需要處理的過程。如用戶標(biāo)注之后發(fā)現(xiàn)標(biāo)注出錯(cuò)撤銷標(biāo)注的操作,標(biāo)注過程中的一些用戶提示和交互。標(biāo)注中間結(jié)果的處理,如對(duì)標(biāo)注中間結(jié)果按標(biāo)注內(nèi)容在原始文本中的位置排序的實(shí)現(xiàn)。結(jié)束語本論文工作實(shí)現(xiàn)了三個(gè)功能模塊:1.標(biāo)注模塊:標(biāo)注模塊實(shí)現(xiàn)文本的實(shí)體、關(guān)系、事件三部分的標(biāo)注。這個(gè)模塊要主要是對(duì)文本進(jìn)行處理,文本的選擇,光標(biāo)在文本中的位置,文本的獲得,文本位置
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 手機(jī)掛粉協(xié)議書
- 熱菜供應(yīng)合同范本
- 苗圃苗木協(xié)議書
- 蒙特列爾協(xié)議書
- 融資合同范協(xié)議
- 解除合同免責(zé)協(xié)議
- 認(rèn)購協(xié)議沒合同
- 設(shè)備續(xù)費(fèi)協(xié)議書
- 說媒贍養(yǎng)協(xié)議書
- 2025廣東廣州市勞動(dòng)人事爭(zhēng)議仲裁委員會(huì)招聘兼職仲裁員備考筆試試題及答案解析
- 2026年度安全教育培訓(xùn)計(jì)劃培訓(xùn)記錄(1-12個(gè)月附每月內(nèi)容模板)
- 廣東省深圳市寶安區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期1月期末考試數(shù)學(xué)試題
- 2023電氣裝置安裝工程盤、柜及二次回路接線施工及驗(yàn)收規(guī)范
- 大量不保留灌腸
- 2025年江蘇省安全員C2本考試題庫+解析及答案
- 物業(yè)經(jīng)理競(jìng)聘管理思路
- 臨床營養(yǎng)管理制度匯編
- 購銷合同電子模板下載(3篇)
- 防洪評(píng)價(jià)進(jìn)度安排方案(3篇)
- 胃腸減壓技術(shù)操作并發(fā)癥
- 院感職業(yè)防護(hù)教學(xué)課件
評(píng)論
0/150
提交評(píng)論