版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
信息檢索
第03章文本處理軟件學(xué)院教研室陳鄞信息檢索系統(tǒng)的體系結(jié)構(gòu)文本數(shù)據(jù)庫數(shù)據(jù)庫管理建索引索引查詢處理搜索排序排序后的文檔用戶反饋文本處理用戶界面檢出的文檔用戶需求文本提問邏輯視圖倒排文檔引言文本處理的主要任務(wù):將文檔表示成詞的序列詞條化(Tokenizing):將字符序列拆分成詞條序列漢語:自動分詞英語:根據(jù)空格將字符串進(jìn)行拆分并去掉標(biāo)點符號?撇號Mr.O’Neillthinksthattheboys’storiesaboutChile’scapitalaren’tamusing.引言文本處理的主要任務(wù):將文檔表示成詞的序列詞條化(Tokenizing):將字符序列拆分成詞條序列漢語:自動分詞英語:根據(jù)空格將字符串進(jìn)行拆分并去掉標(biāo)點符號?撇號句點TheexperimentsledbyDr.Alanachievedaprecisionof90.7%.Wash.引言文本處理的主要任務(wù):將文檔表示成詞的序列詞條化(Tokenizing):將字符序列拆分成詞條序列漢語:自動分詞英語:根據(jù)空格將字符串進(jìn)行拆分并去掉標(biāo)點符號?撇號句點連字符e-mail,so-called,co-operate,co-education,non-lawyer,non-linearatext-basedmediuma26-years-oldwomanthe90-cent-an-hourraiseafinal“take-it-or-leave-it”offer引言文本處理的主要任務(wù):將文檔表示成詞的序列詞條化(Tokenizing):將字符序列拆分成詞條序列詞條歸一化(TokenNormalization)將看起來不完全一致的多個詞條歸納成一個等價類,以便在它們之間進(jìn)行匹配的過程連字符。例:anti-discriminatory和antidiscriminatory首字母省略用法。例:U.S.A.和USA大小寫轉(zhuǎn)換.。例:The,the存在的問題:RichardBrown,brownpaint引言文本處理的主要任務(wù):將文檔表示成詞的序列詞條化(Tokenizing):將字符序列拆分成詞條序列詞條歸一化(TokenNormalization)將看起來不完全一致的多個詞條歸納成一個等價類,以便在它們之間進(jìn)行匹配的過程連字符。例:anti-discriminatory和antidiscriminatory首字母省略用法。例:U.S.A.和USA大小寫轉(zhuǎn)換.。例:The,the詞形變化:如organize、organizes、organized、organizing英語形態(tài)還原(Lemmatizing):去除屈折型語言的詞尾形態(tài)變化,將其還原為詞的原形,即詞元(lemma)引言文本處理的主要任務(wù):將文檔表示成詞的序列詞條化(Tokenizing):將字符序列拆分成詞條序列詞條歸一化(TokenNormalization)將看起來不完全一致的多個詞條歸納成一個等價類,以便在它們之間進(jìn)行匹配的過程連字符。例:anti-discriminatory和antidiscriminatory首字母省略用法。例:U.S.A.和USA大小寫轉(zhuǎn)換.。例:The,the詞形變化:如organize、organizes、organized、organizing同源詞:如democracy、democratic和democratization詞干提取(stemming)通常指的是一個很粗略地去除單詞兩端詞綴的啟發(fā)式過程,這個過程也常常包括去除派生詞綴本章內(nèi)容6.1縮寫的識別6.2英文形態(tài)還原6.3英文詞干提取6.1縮寫的識別TheexperimentsledbyDr.Alanachievedaprecisionof90.7%.構(gòu)造分類器手工編寫規(guī)則正則表達(dá)式機器學(xué)習(xí)手工編寫規(guī)則借助詞表(通用詞表、縮寫詞表)縮寫詞表收錄常用的縮寫詞,如:頭銜:Mr.、Mrs.、Dr.、Prof.等月份:Jan.、Feb.、Mar.等地名:U.S.、Calif.、Wash.等其他:etc.、fig.、no.、abbr.等手工編寫規(guī)則借助詞表(通用詞表、縮寫詞表)將待判定的字符串記為S,字符串及后面的句點記為S’S’后是小寫字母、數(shù)字、逗號、分號、嘆號或問號,則S’是縮寫S’后的單詞首字母大寫,則S’不是縮寫S’在縮寫詞表中存在,則S’是縮寫S在通用詞表中存在,則S’不是縮寫當(dāng)S及S’在詞表中均不存在時,或以上幾條規(guī)則有沖突時,利用篇章信息S在篇章中其他地方出現(xiàn)過,而S’未出現(xiàn),則S’不是縮寫S’在篇章中其他地方出現(xiàn)過,而S未出現(xiàn),則S’是縮寫正則表達(dá)式單個字母后接一個句點,如RonaldW.Reagan連續(xù)的“字母-句點”序列,如M.H.ThatcherU.S.i.e.一個大寫字母后接若干輔音小寫字母及句點,如Mr.St.Assn.對Brown語料的句子切分準(zhǔn)確率由93.20%提高到97.66%[A-Za-z]\.[A-Za-z]\.([A-Za-z]\.)+[A-Z][bcdfghj-np-tvxz]+\.機器學(xué)習(xí)DecisionTrees、Logisticregression、SVM、NeuralNets、…屬性的設(shè)置Caseofwordwith“.”:Upper,Lower,Cap,NumberCaseofwordafter“.”:Upper,Lower,Cap,NumberNumericfeaturesLengthofwordwith“.”Probability(wordwith“.”occursatend-of-s)Probability(wordafter“.”occursatbeginning-of-s)本章內(nèi)容6.1縮寫的識別6.2英文形態(tài)還原6.3英文詞干提取6.2英文形態(tài)還原英語具有豐富的詞形變化(如works,worked,working),如果把這些詞形變化的單詞也放在詞典中,會造成詞典規(guī)模過大英語的形態(tài)變化大多數(shù)都是有規(guī)律的,可以通過形態(tài)還原技術(shù)來解決這個問題英語形態(tài)還原(lemmatization):去除屈折型語言的詞尾形態(tài)變化,將其還原為詞的原形,即詞元(lemma)基于規(guī)則的形態(tài)還原方法動詞-ed*ed→* (worked→work)*ed→*e (believed→believe)*ied→*y (studied→study)-ing*ing→* (developing→develop)*ing→*e (saving→save)*ying→*ie
(dying→die)-s*s→* (works→work)*es→* (discusses→discuss)*ies→*y (studies→study)基于規(guī)則的形態(tài)還原方法動詞名詞-s*s→* (pens→pen)*es→* (boxes→box)*ies→*y (bodies→body)*ves→*f (knives→knife)基于規(guī)則的形態(tài)還原方法動詞名詞形容詞-er*er→* (colder→cold)*ier→*y (easier→easy)-est*est→* (coldest→cold)*iest→*y (easiest→easy)-ly*ly→* (hardly→hard)對于不規(guī)則的形態(tài)變化,建立不規(guī)則詞表本章內(nèi)容6.1縮寫的識別6.2英文形態(tài)還原6.3英文詞干提取6.3英文詞干提取(stemming)英語詞匯的組成詞干(stem)是單詞中不可缺少的部分,有些詞干可以獨立成詞詞綴(affix)分為前綴(prefix)和后綴(suffix)CONNECTCONNECTEDCONNECTINGCONNECTIONCONNECTIONS詞干stem詞綴suffixCOMPUTESCOMPUTEDCOMPUTING詞干stem詞綴suffix詞干可能是詞元,也可能不是詞元形態(tài)還原vs.詞干提取形態(tài)還原通常指利用詞表和詞形分析來去除屈折詞綴,從而返回詞的原形(lemma)的過程詞干提取通常指的是一個很粗略地去除單詞兩端詞綴的啟發(fā)式過程,這個過程也常常包括去除派生詞綴后綴原詞派生出的詞-ationcomputerize(V)computerization(N)-eeappoint(V)appointee(N)-erkill(V)killer(N)-nessfuzzy(A)fuzziness(N)-alcomputation(N)computational(A)-lessclue(N)clueless(A)-ableembrace(V)embraceable(A)具有共同詞干的詞條通常具有相近的含義,因此,詞干提取可以用于完成信息檢索(IR)這樣的任務(wù)詞干的精確形式本身并不重要,重要的是能夠得到等價類詞干提取的主要方法基于規(guī)則的方法——Porter算法M.F.Porter.Analgorithmforsuffixstripping.1980基于統(tǒng)計的方法——后繼變化數(shù)法Porter算法——
ThemostcommonEnglishstemmerSomedifinitionsc→輔音字母(consonant
)v→元音字母(vowel)C→alistccc...oflengthgreaterthan0V→alistvvv...oflengthgreaterthan0(VC)m→VCrepeatedmtimesAnywordcanbewrittenform:[C](VC)m[V]examples:m=0TREE,BYm=1TROUBLE,OATS,TREES,IVYm=2TROUBLES,PRIVATE,OATEN,ORRERYRules(condition)S1→S2ifawordendswiththesuffixS1,andthestembeforeS1satisfiesthegivencondition,S1isreplacedbyS2.exampleStep1aSSES→SSIES→ISS→SSS→caressesponiestiescaresscats→caress→poni→ti→caress→catInasetofruleswrittenbeneatheachother,onlyoneisobeyed,andthiswillbetheonewiththelongestmatchingS1forthegivenword.Step1b (m>0)EED->EE
(*v*)ED->
(*v*)ING->agreed->agreefeed->feedplastered->plasterbled->bledmotoring->motorsing->singIfthesecondorthirdoftherulesinStep1bissuccessfulAT->ATEBL->BLEIZ->IZE(*dandnot(*Lor*Sor*Z))->singleletter
(m=1and*o)->Econflat(ed)->conflatetroubl(ed)->troublesiz(ed)->sizehopp(ing)->hoptann(ed)->tanfall(ing)->fallhiss(ing)->hissfizz(ed)->fizz*d→thestemendswithadoubleconsonant(e.g.-TT,-SS).Step1b (m>0)EED->EE
(*v*)ED->
(*v*)ING->agreed->agreefeed->feedplastered->plasterbled->bledmotoring->motorsing->singIfthesecondorthirdoftherulesinStep1bissuccessfulAT->ATEBL->BLEIZ->IZE(*dandnot(*Lor*Sor*Z))->singleletter
(m=1and*o)->Econflat(ed)->conflatetroubl(ed)->troublesiz(ed)->sizehopp(ing)->hoptann(ed)->tanfall(ing)->fallhiss(ing)->hissfizz(ed)->fizzfil(ing)->filefail(ing)->fail*o→thestemendscvc,wherethesecondcisnotW,XorY(e.g.-WIL,-HOP).Step1c(*v*)Y->Ihappy->happisky->skyStep2(m>0)ATIONAL->ATErelational->relate
(m>0)TIONAL->TIONconditional->conditionrational->rational(m>0)ENCI->ENCEvalenci->valence(m>0)ANCI->ANCEhesitanci->hesitance(m>0)IZER->IZEdigitizer->digitize
(m>0)ABLI->ABLEconformabli->conformable(m>0)ALLI->ALradicalli->radical(m>0)ENTLI->ENTdifferentli->different(m>0)ELI->Evileli->vile
(m>0)OUSLI->OUSanalogousli->analogous(m>0)IZATION->IZEvietnamization->vietnamize(m>0)ATION->ATEpredication->predicate(m>0)ATOR->ATEoperator->operate(m>0)ALISM->ALfeudalism->feudal(m>0)IVENESS->IVEdecisiveness->decisive(m>0)FULNESS->FULhopefulness->hopeful(m>0)OUSNESS->OUScallousness->callous(m>0)ALITI->ALformaliti->formal
(m>0)IVITI->IVEsensitiviti->sensitive(m>0)BILITI->BLEsensibiliti->sensibleStep3(m>0)ICATE->ICtriplicate->triplic(m>0)ATIVE->formative->form(m>0)ALIZE->ALformalize->formal(m>0)ICITI->ICelectriciti->electric(m>0)ICAL->ICelectrical->electric(m>0)FUL->hopeful->hope(m>0)NESS->goodness->goodStep4(m>1)AL->revival->reviv(m>1)ANCE->allowance->allow(m>1)ENCE->inference->infer(m>1)ER->airliner->airlin(m>1)IC->gyroscopic->gyroscop(m>1)ABLE->adjustable->adjust(m>1)IBLE->defensible->defens(m>1)ANT->irritant->irrit(m>1)EMENT->replacement->replac(m>1)MENT->adjustment->adjust(m>1)ENT->dependent->depend(m>1and(*Sor*T))ION->adoption->a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理管理中的團隊建設(shè)與領(lǐng)導(dǎo)力
- VTE護理中的患者安全
- 大豐市小海中學(xué)高二生物三同步課程講義第講植物的激素調(diào)節(jié)
- 2025秋人教版初中美術(shù)九年級上冊知識點及期末測試卷及答案
- 2025年保密信息交換協(xié)議
- 基于人工智能的地理信息挖掘與分析
- 復(fù)雜背景手勢追蹤
- 基于同態(tài)加密的圖像敏感信息處理
- 土地權(quán)屬登記信息化
- 2026 年中職康復(fù)治療技術(shù)(康復(fù)管理)試題及答案
- 2025中國融通資產(chǎn)管理集團有限公司招聘(230人)(公共基礎(chǔ)知識)測試題附答案解析
- 2026年哈爾濱傳媒職業(yè)學(xué)院單招職業(yè)傾向性考試題庫附答案
- 2025云南省人民檢察院招聘22人考試筆試備考題庫及答案解析
- 2025國家統(tǒng)計局齊齊哈爾調(diào)查隊招聘公益性崗位5人筆試考試備考題庫及答案解析
- 水廠設(shè)備調(diào)試與試運行方案詳解
- 2025陜西陜煤集團神南產(chǎn)業(yè)發(fā)展有限公司招聘120人參考筆試試題及答案解析
- 2026光大永明人壽校園招聘參考筆試題庫及答案解析
- 2025年江蘇省鎮(zhèn)江市輔警協(xié)警筆試筆試真題(附答案)
- 2025年煤礦安全生產(chǎn)管理人員安全資格培訓(xùn)考試機電運輸知識題庫及答案
- 線性規(guī)劃完整課件
- 食品食材采購入圍供應(yīng)商項目投標(biāo)方案
評論
0/150
提交評論