版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
新聞文件自動分類的研究AutomaticTextCategorizationonNewsAbstractIntextclassification,therearealwaystwoimportantsteps.Thefirststepisfeaturesselection,andthesecondoneisrelevancefunctionselection.Hereweproposetwotechniquestoimprovetheprecisionofclassificationbyusingco-occurrencetermsandbyconsideringthepositionswhichbigramoccurs.Moreover,thisresearchalsoprovidessomeotherdifferentfeaturesselectionmethodsasthecontrastfortheexperiment,includingsingletermsfeature,bigramfeatures,bigramfeatures,segmentationfeaturesandthepositionwhichsegmentationoccurs.Featuresselection在文件選取特征詞方面,
中文的研究有:斷詞,雙連字符串(bigram),三連字符串(trigram)。
Example:「國家的利益」
斷詞處理:國家、的、利益
bigram:「國家的利益」→國家、家的、的利、利益此外,文件中兩個詞占的比例高出其他詞語甚多,且三個詞的重要語意常呈現(xiàn)在兩字詞中。
例如:「研究生」中的「研究」可以表現(xiàn)出「研究生」的特征。Relevancefunction一般來說,相關(guān)函數(shù)有兩種不同的方法:
中心矢量法(Centroid),
k-最鄰近法(K-NearestNeighbor)雙字詞較單字詞具代表性Example:
1.「建設(shè)」類:文山區(qū)合并景美,木柵,向繁榮邁進(jìn)。
2.「金融」類:才短短一個月前,美國股市還彌漫恐懼,擔(dān)驚受怕的投資人不敢再乘坐指數(shù)云霄飛車。
3.「美食」類:日本和食以其敬重自然、遵循時節(jié)、珍視食材特有滋味及強(qiáng)調(diào)營養(yǎng)均衡的料理精神,廣受世界各地美食愛好者的追捧。
上述中的「美」分別代表「地名」,「國名」,「美食」,假若只看單字詞,那么他們都是「美」,如此將會混淆真正的意義,因此若以雙字詞,意義就會被區(qū)分開來。co-occurrenceExample:
「國際政經(jīng)」類:國際景氣回顧與前瞻系列報(bào)導(dǎo):取代舊蘇聯(lián)崩潰邊緣經(jīng)濟(jì),資源配置不當(dāng)矛盾更為凸顯,新國協(xié)正設(shè)若不協(xié)調(diào),經(jīng)濟(jì)更將惡化。
word:「國際」,「景氣」,「蘇聯(lián)」,「配置」,「國協(xié)」……
Co-occurrence:「國際」與「蘇聯(lián)」,「國際」與「國協(xié)」,「蘇聯(lián)」與「國協(xié)」
若我們只看單一語詞,很容易將「景氣」
,
「經(jīng)濟(jì)」,「配置」等語詞,將該文件分到「經(jīng)濟(jì)」類別。若考慮共現(xiàn)語詞的話,可以很容易的發(fā)現(xiàn)該文件與「國際政經(jīng)」有較高的關(guān)聯(lián)度。MethodsMaterials:
中文研究資料來自『財(cái)經(jīng)紀(jì)事』中所含的新聞標(biāo)題,其內(nèi)容取自我省81年
間的中國時報(bào),工商日報(bào),聯(lián)合報(bào),民生報(bào)等各報(bào)社之新聞標(biāo)題,共含有124940則新聞標(biāo)題,每則新聞標(biāo)題階經(jīng)過人工標(biāo)示所屬類別。MethodsFeaturesselection:1.對訓(xùn)練文件拆成雙連字。2.將每篇文件中的詞語兩兩配對一組,這些配對的詞語就是共現(xiàn)語詞。3.使用統(tǒng)計(jì)的分法,計(jì)算每組共現(xiàn)語詞出現(xiàn)在各類別的頻率。例如:
「政黨」與「執(zhí)政」這組共現(xiàn)語詞在「政治」類別有高頻率的出現(xiàn),表示此共現(xiàn)語詞與「政治」類別有相當(dāng)高的關(guān)聯(lián)度。Methods本文采用中心矢量法中的TF*IDF來計(jì)算文件跟類別間的相關(guān)程度,即透過TF*IDF來評估每個語詞的重要程度。假設(shè)給與一個文件d,以及出現(xiàn)在d中的特征語詞a。
→我們決定a在d中的重要性為:a在d中出現(xiàn)的次數(shù)TF乘以特征語詞a本身的重要性IDFTermFrequency(TF):
詞出現(xiàn)在類別中的次數(shù)。InverseDocumentFrequency(IDF):
若關(guān)鍵字出現(xiàn)在越少量的文件中,則IDF值越高,代表此關(guān)鍵字對該文件具有影響力,反之,
IDF值越低,代表此關(guān)鍵字對于該文件不具影響力。相關(guān)函數(shù)的計(jì)算先從待測文件d中擷取代表該文件的特征詞a,再到訓(xùn)練語料中找尋這些特征a與類別c的關(guān)聯(lián)度w(a,c)。接著,加總所有的w(a,c),得到文件d與類別c的關(guān)聯(lián)程度R(c,d),最后取最大關(guān)聯(lián)度的做為該文件的指派類別。不考慮特征出現(xiàn)位置的相關(guān)函數(shù)計(jì)算
考慮特征出現(xiàn)位置的相關(guān)函數(shù)計(jì)算考慮位置時,認(rèn)為較前面的位置的詞較為重要,所以將測試文件中語詞位置的序數(shù)(order)開根號后取導(dǎo)數(shù)當(dāng)做位置的權(quán)重。
Example
:「賴駿豪住高雄」斷詞結(jié)果位置序數(shù)pb賴駿豪11住20.707高雄30.577訓(xùn)練階段算法Step1:將訓(xùn)練文件中的新聞標(biāo)題斷成一個個語詞。Step2:計(jì)算各語詞出現(xiàn)在各個類別的頻率(TF)。Step3:計(jì)算各個詞出現(xiàn)的類別數(shù)(IDF)。Step4:利用權(quán)重公式來計(jì)算各語詞與類別的關(guān)聯(lián)權(quán)重值。Example
:「政治」類:xx與議會xx的迷思:從xx者到政治的新現(xiàn)實(shí)
斷詞:xx、與、議會、xx、的、迷思、從、xx、者、到、政治、的、新、現(xiàn)實(shí)→根據(jù)Step2,Step3計(jì)算這些詞出現(xiàn)在各類別的頻率值,以及計(jì)算這些詞出現(xiàn)的類別數(shù)?!詈?,利用權(quán)重公式來得到這些語詞和每個類別的關(guān)聯(lián)度權(quán)重值。測試階段算法Step1:將文件分解成一個個語詞。Step2:若有位置考量則計(jì)算每個語詞中的位置序數(shù)(order),若不考慮位置,則以”1”當(dāng)做所有語詞的order。之后在利用公式計(jì)算個文件與類別的關(guān)聯(lián)強(qiáng)度。Step3:將擁有最高關(guān)聯(lián)度的類別指派給該文件。Results實(shí)驗(yàn)特征選取是否考量位置實(shí)驗(yàn)一單字詞NO實(shí)驗(yàn)二雙連字符串NO實(shí)驗(yàn)三雙連字符串+共現(xiàn)與詞NO實(shí)驗(yàn)四雙連字符串YES實(shí)驗(yàn)五斷詞NO實(shí)驗(yàn)六斷詞+共現(xiàn)與詞NO實(shí)驗(yàn)結(jié)果以涵蓋率(Coverage),精確率(Precision),來進(jìn)行評估。
Results由圖可看出使用單字詞(實(shí)驗(yàn)一)做特征時,獲得最差的效果,不管是使用雙連字符串(實(shí)驗(yàn)二),或斷詞(實(shí)驗(yàn)五)效果都比實(shí)驗(yàn)一好。Results考慮雙連字符串做特征(實(shí)驗(yàn)二),以及加入位置考量的實(shí)驗(yàn)(實(shí)驗(yàn)四),由圖可看出加入位置的精確率高于沒有加入位置可量的實(shí)驗(yàn)二,因此特征在文件中的位置有助于自動分類。Results由圖可知雙連字符串+共現(xiàn)與詞(實(shí)驗(yàn)三)的精確率明顯比雙連字符串(實(shí)驗(yàn)二)高令詞a在類別c中的權(quán)重值為W(s,c),則W(s,c)=TFs,c*IDFsIDFs=log(N/DFs+1)Example:假如一篇文件的總詞語數(shù)是100個,而詞語「母牛」出現(xiàn)了3次,那么「母?!挂辉~在該文件中的詞頻就是3/100=0.03
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來五年海水養(yǎng)殖鰈魚企業(yè)縣域市場拓展與下沉戰(zhàn)略分析研究報(bào)告
- 未來五年地質(zhì)勘查企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略分析研究報(bào)告
- 未來五年內(nèi)容創(chuàng)作生產(chǎn)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略分析研究報(bào)告
- 未來五年海水養(yǎng)殖貝類種苗企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略分析研究報(bào)告
- 2025-2030制冰行業(yè)市場供需分析投資布局規(guī)劃研究分析報(bào)告
- 2025-2030農(nóng)產(chǎn)品供應(yīng)鏈優(yōu)化技術(shù)市場前景分析競爭態(tài)勢投資環(huán)境研究
- 2025-2030農(nóng)業(yè)行業(yè)市場現(xiàn)狀綜合需求發(fā)展規(guī)劃研究
- 2025-2030農(nóng)業(yè)科技發(fā)展現(xiàn)狀分析評估規(guī)劃
- 2025-2030農(nóng)業(yè)生產(chǎn)機(jī)械化發(fā)展現(xiàn)狀與智能化升級趨勢分析
- 2025-2030農(nóng)業(yè)現(xiàn)代化供需整合分析投資布局規(guī)劃分析研究報(bào)告
- 2024年河北省公務(wù)員考試《行測》真題及答案解析
- DB41T 2495-2023 預(yù)應(yīng)力鋼筒混凝土管道施工質(zhì)量驗(yàn)收評定規(guī)范
- 上海市華東師范大學(xué)附屬天山學(xué)校2024-2025學(xué)年高一上學(xué)期期中評估英語試卷(無答案)
- 松下-GF2-相機(jī)說明書
- 考察提拔干部近三年個人工作總結(jié)材料
- 幼兒園大班語言《蜂蜜失竊謎案》原版有聲課件
- 電鍍在光電器件中的關(guān)鍵作用
- 施工方案與安全保障措施
- 消化系統(tǒng)疾病課件
- 地鐵車輛檢修安全培訓(xùn)
- GB/Z 20833.5-2023旋轉(zhuǎn)電機(jī)繞組絕緣第5部分:重復(fù)沖擊電壓下局部放電起始電壓的離線測量
評論
0/150
提交評論