從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞_第1頁(yè)
從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞_第2頁(yè)
從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞_第3頁(yè)
從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞_第4頁(yè)
從評(píng)論語(yǔ)料庫(kù)中挖掘產(chǎn)品特征詞_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、重慶科技學(xué)學(xué)院畢業(yè)設(shè)計(jì)(論論文)題 目 從評(píng)評(píng)論語(yǔ)料料庫(kù)中挖挖掘產(chǎn)品品特征詞詞 院 (系) 電子信息工程學(xué)院 專業(yè)班級(jí) 計(jì)科應(yīng)應(yīng)20006-001 學(xué)生姓名 程程學(xué)偉 學(xué)號(hào)號(hào) 2000655402220 指導(dǎo)教師 黃黃永文 職稱稱 講講師 評(píng)閱教師_ _ 職稱稱_ 2010年年 6 月 10 日日注 意 事事 項(xiàng)設(shè)計(jì)(論文文)的內(nèi)內(nèi)容包括括:封面(按教教務(wù)處制制定的標(biāo)標(biāo)準(zhǔn)封面面格式制制作)題名頁(yè)中文摘要(3300字字左右)、關(guān)關(guān)鍵詞外文摘要、關(guān)關(guān)鍵詞 目次頁(yè)(附附件不統(tǒng)統(tǒng)一編入入)論文主體部部分:引引言(或或緒論)、正正文、結(jié)結(jié)論、參參考文獻(xiàn)獻(xiàn)附錄(對(duì)論論文支持持必要時(shí)時(shí))論文字?jǐn)?shù)要要求:理理

2、工類設(shè)設(shè)計(jì)(論論文)正正文字?jǐn)?shù)數(shù)不少于于1萬(wàn)字字(不包包括圖紙紙、程序序清單等等),文文科類論論文正文文字?jǐn)?shù)不不少于11.2萬(wàn)萬(wàn)字。附件包括:任務(wù)書(shū)書(shū)、文獻(xiàn)獻(xiàn)綜述、開(kāi)開(kāi)題報(bào)告告、外文文譯文、譯譯文原文文(復(fù)印印件)。文字、圖表表要求:文字通順,語(yǔ)語(yǔ)言流暢暢,書(shū)寫(xiě)寫(xiě)字跡工工整,打打印字體體及大小小符合要要求,無(wú)無(wú)錯(cuò)別字字,不準(zhǔn)準(zhǔn)請(qǐng)他人人代寫(xiě)工程設(shè)計(jì)類類題目的的圖紙,要要求部分分用尺規(guī)規(guī)繪制,部部分用計(jì)計(jì)算機(jī)繪繪制,所所有圖紙紙應(yīng)符合合國(guó)家技技術(shù)標(biāo)準(zhǔn)準(zhǔn)規(guī)范。圖圖表整潔潔,布局局合理,文文字注釋釋必須使使用工程程字書(shū)寫(xiě)寫(xiě),不準(zhǔn)準(zhǔn)用徒手手畫(huà)畢業(yè)論文須須用A44單面打打印,論論文500頁(yè)以上上的雙面面打

3、印圖表應(yīng)繪制制于無(wú)格格子的頁(yè)頁(yè)面上軟件工程類類課題應(yīng)應(yīng)有程序序清單,并并提供電電子文檔檔裝訂順序設(shè)計(jì)(論文文)附件:按照照任務(wù)書(shū)書(shū)、文獻(xiàn)獻(xiàn)綜述、開(kāi)開(kāi)題報(bào)告告、外文文譯文、譯譯文原文文(復(fù)印印件)次次序裝訂訂其它重慶科技學(xué)學(xué)院本科科生畢業(yè)業(yè)設(shè)計(jì)(論論文)從評(píng)論語(yǔ)料料庫(kù)中挖挖掘產(chǎn)品品特征詞詞 院(系) 電子子信息工工程學(xué)院院 專業(yè)班級(jí) 計(jì)計(jì)科應(yīng)220066-01 學(xué)生姓名 程程學(xué)偉 指導(dǎo)教師 黃黃永文 講師 2010年年 6月月 10日學(xué)生畢業(yè)設(shè)設(shè)計(jì)(論論文)原原創(chuàng)性聲聲明本人以信譽(yù)譽(yù)聲明:所呈交交的畢業(yè)業(yè)設(shè)計(jì)(論論文)是是在導(dǎo)師師的指導(dǎo)導(dǎo)下進(jìn)行行的設(shè)計(jì)計(jì)(研究究)工作作及取得得的成果果,設(shè)計(jì)計(jì)(

4、論文文)中引引用他(她她)人的的文獻(xiàn)、數(shù)數(shù)據(jù)、圖圖件、資資料均已已明確標(biāo)標(biāo)注出,論論文中的的結(jié)論和和結(jié)果為為本人獨(dú)獨(dú)立完成成,不包包含他人人成果及及為獲得得重慶科科技學(xué)院院或其它它教育機(jī)機(jī)構(gòu)的學(xué)學(xué)位或證證書(shū)而使使用其材材料。與與我一同同工作的的同志對(duì)對(duì)本設(shè)計(jì)計(jì)(研究究)所做做的任何何貢獻(xiàn)均均已在論論文中作作了明確確的說(shuō)明明并表示示了謝意意。畢業(yè)設(shè)計(jì)(論論文)作作者(簽簽字): 年 月 日重慶科技學(xué)院本科畢業(yè)生論文 中文摘要 ABSTRRACTTWith thee exxtennsivve uuse of webb usserss, aafteer ppurcchassingg annd uus

5、efful prooduccts willl bbe ppubllishhed in thee weeb ccommmentts oon tthe prooducct, whiich conntaiins thee usser commmennts on thee prroduuct perrforrmannce or funnctiionaalitty ssuchh ass hoold possitiive or neggatiive atttituude, maanuffacttureers andd usserss off thhe pprodductt Annalyysiss off

6、thhe ccommmentts gget a llot of useefull innforrmattionn: mmanuufaccturrerss caan nnot onlly uundeersttandd thhe uuserrs oof pprodductts nnow prooviddes thee evvaluuatiion of perrforrmannce andd prroduuct defficiiencciess, bbut alsso tto uundeersttandd thhe nneedds oof uuserrs, to ideentiify thee mo

7、ost inttereestiing andd moost useers wannt tto pprovvidee thhe ffuncctioon tto iimprrovee thhe pprodductt. BBefoore thee usser cann puurchhasee prroduuctss allreaady purrchaasedd thhe pprodductt too unnderrstaand thee usser expperiiencce oon tthe usee off thhe pprodductt, uundeersttandd alll aaspeec

8、tss off prroduuct perrforrmannce, buut aalsoo thhe ssamee tyype of prooducct iin aaccoordaancee wiith thee peerfoormaancee coompaarisson to be reaasonnablle tto ppurcchasse pprodductts. Feaaturre eextrracttionn aiims to commmennts froom mmanyy usserss arre cconccernned aboout thee exxcavvatiion to t

9、hee ussers pprodductt chharaacteerissticcs (succh aas: cammeraa prroduuct feaaturres inccludde wweigght, siize, piictuure quaalitty, battterry llifee, sstorragee caapaccityy, eetc.; pphonne pprodductt feeatuuress inncluude thee sttanddardd , weiightt, vvoluume, sccreeen ssizee, ccameera pixxel, ettc

10、.). BBecaausee usserss tyypiccallly uuse diffferrentt peersppecttivees aand a nnumbber of commmonn-seensee deescrripttionn off thhe pprodductts uusedd byy maanuffacttureers of funnctiionss annd ffeatturees nnot seeen eexprresssed in thee naame of thee usser outt off maany is nott thhe ssamee, tthe m

11、aiin ffeatturees oof tthe mannufaactuurerrs aand useers of thee prroduuct speecifficaatioons desscriibedd inn feeatuure exttracctioon aand rellatiionss weere stuudieed. Prooducct rreviiew minningg iss a natturaal llangguagge ddesccripptioon ffromm thhe uuserr coommeentss inn thhe pproccesss off obbt

12、aiininng tthe infformmatiion, prroduuctss feeatuure exttracctioon iis aa prroduuct revvieww miininng sstagge 11, tthe prooducct ccharractteriistiics of thee deecissionn goood or badd thhe pprodductt reevieew mminiing in thee quualiity of follloww-upp phhasee. WWithh weeak suppervvisiion leaarniing m

13、etthodds, onlly aa smmalll ammounnt oof pprodductt feeatuuress too prroviide a sseedd, tthe staatemmentt apppeaars froom tthesse sseedds tto eextrractt thhe ttextt moode, ussingg thhe ttextt moode to thee diiscooverry oof nnew prooducct ffeatturees. Thee exxperrimeentaal rresuultss shhow thaat tthe

14、Engglissh ttextt auutommatiicallly exttracctedd frrom thee prroduuct chaaraccterristticss off thhe eexpeerimmenttal sysstemm acchieevedd goood ressultts.ffeatturees. Thee exxperrimeentaal rresuultss shhow thaat tthe Engglissh ttextt auutommatiicallly exttracctedd frrom thee prroduuct chaaraccterrist

15、ticss off thhe eexpeerimmenttal sysstemms, achhievved goood rresuultss.Keywoordss: Texxt ppattternn exxtraactiion;Prooducct rreviiewss;Thee feeatuure exttracctioon重慶科技學(xué)院本科畢業(yè)生論文 目錄目錄中文TOC o 1-3 h z u HYPERLINK l _Toc263874565 摘要 PAGEREF _Toc263874565 h I HYPERLINK l _Toc263874566 英文摘要 PAGEREF _Toc263

16、874566 h II HYPERLINK l _Toc263874567 1 緒論 PAGEREF _Toc263874567 h 1 HYPERLINK l _Toc263874568 1.1 研研究背景景 PAGEREF _Toc263874568 h 1 HYPERLINK l _Toc263874569 1.2 選選題意義義 PAGEREF _Toc263874569 h 1 HYPERLINK l _Toc263874570 1.3 從從評(píng)論語(yǔ)語(yǔ)料庫(kù)中中挖掘產(chǎn)產(chǎn)品特征征詞的研研究現(xiàn)狀狀 PAGEREF _Toc263874570 h 2 HYPERLINK l _Toc263874

17、571 1.4 產(chǎn)產(chǎn)品特征征詞挖掘掘的發(fā)展展前景 PAGEREF _Toc263874571 h 3 HYPERLINK l _Toc263874572 1.5 漢漢語(yǔ)分詞詞介紹 PAGEREF _Toc263874572 h 3 HYPERLINK l _Toc263874573 1.5 特特征詞挖挖掘的相相關(guān)算法法 PAGEREF _Toc263874573 h 6 HYPERLINK l _Toc263874574 1.6 開(kāi)開(kāi)發(fā)環(huán)境境介紹 PAGEREF _Toc263874574 h 6 HYPERLINK l _Toc263874575 2 產(chǎn)品特特征詞的的挖掘 PAGEREF _

18、Toc263874575 h 8 HYPERLINK l _Toc263874576 2.1問(wèn)題題的提出出及相關(guān)關(guān)研究 PAGEREF _Toc263874576 h 8 HYPERLINK l _Toc263874577 2.2評(píng)論論語(yǔ)料庫(kù)庫(kù)使用的的現(xiàn)狀 PAGEREF _Toc263874577 h 9 HYPERLINK l _Toc263874578 2.3 弱弱監(jiān)督機(jī)機(jī)器學(xué)習(xí)習(xí)方法介介紹 PAGEREF _Toc263874578 h 9 HYPERLINK l _Toc263874579 2.4 產(chǎn)產(chǎn)品評(píng)論論內(nèi)容的的分析 PAGEREF _Toc263874579 h 13 HYP

19、ERLINK l _Toc263874580 2.5 產(chǎn)產(chǎn)品評(píng)論論統(tǒng)計(jì)特特征的提提取 PAGEREF _Toc263874580 h 13 HYPERLINK l _Toc263874581 2.6 模模式結(jié)構(gòu)構(gòu)與模式式特征集集 PAGEREF _Toc263874581 h 14 HYPERLINK l _Toc263874582 3系統(tǒng)設(shè)計(jì)計(jì) PAGEREF _Toc263874582 h 16 HYPERLINK l _Toc263874583 3.1 系系統(tǒng)總體體設(shè)計(jì) PAGEREF _Toc263874583 h 16 HYPERLINK l _Toc263874584 3.2 系系

20、統(tǒng)界面面設(shè)計(jì) PAGEREF _Toc263874584 h 16 HYPERLINK l _Toc263874585 3.3 特特征詞挖挖掘的系系統(tǒng)設(shè)計(jì)計(jì) PAGEREF _Toc263874585 h 21 HYPERLINK l _Toc263874586 4 系統(tǒng)測(cè)測(cè)試 PAGEREF _Toc263874586 h 23 HYPERLINK l _Toc263874587 4.1 系系統(tǒng)功能能測(cè)試 PAGEREF _Toc263874587 h 23 HYPERLINK l _Toc263874588 4.2 系系統(tǒng)的不不足 PAGEREF _Toc263874588 h 24 HY

21、PERLINK l _Toc263874589 4.3 系系統(tǒng)的后后續(xù)工作作 PAGEREF _Toc263874589 h 24 HYPERLINK l _Toc263874590 總結(jié) PAGEREF _Toc263874590 h 266 HYPERLINK l _Toc263874591 致謝 PAGEREF _Toc263874591 h 277 HYPERLINK l _Toc263874592 參考文獻(xiàn) PAGEREF _Toc263874592 h 28重慶科技學(xué)院本科畢業(yè)生論文 1緒論1 緒論1.1研究究背景隨著Intternnet的的廣泛應(yīng)應(yīng)用,用用戶使用用產(chǎn)品會(huì)會(huì)通過(guò)WW

22、eb 對(duì)產(chǎn)品品進(jìn)行評(píng)評(píng)論,這這些評(píng)論論中包含含用戶對(duì)對(duì)產(chǎn)品的的各個(gè)方方面的性性能持有有肯定還還是否定定的意見(jiàn)見(jiàn)。產(chǎn)品品評(píng)論中中蘊(yùn)涵了了豐富的的信息,生生產(chǎn)廠商商分析產(chǎn)產(chǎn)品評(píng)論論可以了了解產(chǎn)品品的不足足和用戶戶實(shí)際需需求以改改進(jìn)產(chǎn)品品,用戶戶瀏覽產(chǎn)產(chǎn)品評(píng)論論可以在在購(gòu)買(mǎi)產(chǎn)產(chǎn)品之前前更多地地了解產(chǎn)產(chǎn)品,從從而更加加合理地地購(gòu)買(mǎi)產(chǎn)產(chǎn)品。要要從大量量使用自自然語(yǔ)言言進(jìn)行描描述用戶戶評(píng)論獲獲取信息息,只有有通過(guò)人人工逐一一閱讀,這這是一個(gè)個(gè)需要大大量時(shí)間間和精力力的過(guò)程程,因此此,需要要自動(dòng)化化的產(chǎn)品品評(píng)論挖挖掘來(lái)更更快地從從大量的的用戶評(píng)評(píng)論中獲獲取信息息。產(chǎn)品品評(píng)論大大多用自自然語(yǔ)言言進(jìn)行描描述,生

23、生產(chǎn)廠商商和用戶戶只有采采用人工工閱讀的的方式才才能從中中提取信信息,而而這是一一個(gè)費(fèi)時(shí)時(shí)、費(fèi)力力且容易易產(chǎn)生錯(cuò)錯(cuò)誤的過(guò)過(guò)程,因因此,產(chǎn)產(chǎn)生了自自動(dòng)產(chǎn)品品評(píng)論挖挖掘的需需求。產(chǎn)產(chǎn)品評(píng)論論挖掘一一般分為為產(chǎn)品特特征提取取、主觀觀句定位位和用戶戶詞性判判斷和挖挖掘結(jié)果果顯示等等4個(gè)階階段。產(chǎn)產(chǎn)品特征征提取作作為產(chǎn)品品評(píng)論挖挖掘的第第1個(gè)階階段,目目的是從從眾多的的用戶評(píng)評(píng)論中挖挖掘出用用戶所關(guān)關(guān)心的產(chǎn)產(chǎn)品特征征,從而而對(duì)實(shí)際際產(chǎn)品銷銷售和售售后服務(wù)務(wù)做出正正確的評(píng)評(píng)價(jià),幫幫助決策策者和購(gòu)購(gòu)買(mǎi)者能能夠最大大限度的的了解現(xiàn)現(xiàn)有產(chǎn)品品的特點(diǎn)點(diǎn)和特征征。1.2選題題意義找出用戶最最感興趣趣和最希希望提供供

24、的功能能,從而而改進(jìn)產(chǎn)產(chǎn)品。用用戶購(gòu)買(mǎi)買(mǎi)產(chǎn)品之之前可以以了解已已經(jīng)購(gòu)買(mǎi)買(mǎi)了該產(chǎn)產(chǎn)品的用用戶關(guān)于于該產(chǎn)品品的使用用體驗(yàn),了了解產(chǎn)品品各個(gè)方方面的性性能,還還可以對(duì)對(duì)同類型型的產(chǎn)品品按照性性能進(jìn)行行比較,從從而合理理的購(gòu)買(mǎi)買(mǎi)產(chǎn)品。產(chǎn)品特征提提取目的的是從眾眾多的用用戶評(píng)論論中挖掘掘出用戶戶所關(guān)心心的產(chǎn)品品特征(比比如:相相機(jī)的產(chǎn)產(chǎn)品特征征包括重重量、大大小、圖圖片的質(zhì)質(zhì)量、電電池的使使用時(shí)間間、存儲(chǔ)儲(chǔ)容量等等;手機(jī)機(jī)的產(chǎn)品品特征包包括制式式、重量量、體積積、屏幕幕大小、攝攝像頭像像素等)。由由于角度度不同及及用戶通通常使用用一些常常識(shí)性描描述,生生產(chǎn)廠家家所使用用的產(chǎn)品品功能和和不見(jiàn)特特征名稱稱與

25、用戶戶所表達(dá)達(dá)出來(lái)的的有很多多是不一一樣的,主主要對(duì)廠廠家產(chǎn)品品的規(guī)格格特征和和用戶描描述特征征提取及及其關(guān)系系進(jìn)行了了研究。抽取出產(chǎn)品品特征之之后就著著重于研研究用戶戶對(duì)某個(gè)個(gè)產(chǎn)品特特征的看看法,即即在一個(gè)個(gè)表達(dá)了了用戶看看法的主主管句中中提取出出產(chǎn)品特特征、極極性詞匯匯及程度度,在現(xiàn)現(xiàn)有研究究的處理理過(guò)程中中,對(duì)產(chǎn)產(chǎn)品特征征并未進(jìn)進(jìn)行歸類類處理,所所有的特特征地位位都是等等同的,故故本來(lái)處處于上下下位的特特征可能能放在不不同的表表示中,這這樣就造造成用戶戶看到的的是沒(méi)有有主次之之分的特特征,同同時(shí)有些些本是同同一特征征的不同同表示方方法,卻卻歸納到到不同的的特征中中去,這這種情況況下雖然然

26、對(duì)某些些特征進(jìn)進(jìn)行了評(píng)評(píng)價(jià),但但由于使使用哪個(gè)個(gè)不同的的詞語(yǔ)作作為產(chǎn)品品特征,結(jié)結(jié)果對(duì)同同一部件件的評(píng)價(jià)價(jià)放在了了不同的的展示中中,這樣樣展現(xiàn)給給用戶的的是很多多沒(méi)有主主次之分分特征堆堆積。摩托羅拉AA18990(MMOTOO A118900)天翼翼3G雙網(wǎng)網(wǎng)雙待手手機(jī)的評(píng)評(píng)論如圖圖1.11所示:圖 1.11摩托羅羅拉A118900(MOOTO A18890)天翼33G雙網(wǎng)網(wǎng)雙待手手機(jī)評(píng)論論在這種情況況下,對(duì)對(duì)產(chǎn)品特特征之間間的層次次關(guān)系合合理且準(zhǔn)準(zhǔn)確處理理的要求求,就顯顯得非常常急迫,本本課題應(yīng)應(yīng)運(yùn)時(shí)勢(shì)勢(shì),對(duì)產(chǎn)產(chǎn)品特征征進(jìn)行分分層次的的特征抽抽取。1.3 從從評(píng)論語(yǔ)語(yǔ)料庫(kù)中中挖掘產(chǎn)產(chǎn)品特征征

27、詞的研研究現(xiàn)狀狀產(chǎn)品評(píng)論挖挖掘需要要了解用用戶對(duì)產(chǎn)產(chǎn)品的哪哪些功能能、性能能進(jìn)行了了評(píng)價(jià),因因此需要要從產(chǎn)品品評(píng)論語(yǔ)語(yǔ)句中提提取表達(dá)達(dá)了用戶戶評(píng)價(jià)的的對(duì)象產(chǎn)品品特征。產(chǎn)產(chǎn)品特征征提取的的目的是是發(fā)現(xiàn)用用戶在產(chǎn)產(chǎn)品評(píng)論論中對(duì)哪哪些產(chǎn)品品特征表表達(dá)了自自己的看看法。用用戶在產(chǎn)產(chǎn)品評(píng)論論中對(duì)特特征的描描述是一一個(gè)開(kāi)放放性的問(wèn)問(wèn)題,可可能在產(chǎn)產(chǎn)品評(píng)論論中發(fā)表表廠家根根本沒(méi)有有考慮到到的一些些性能,因因此挖掘掘出產(chǎn)品品評(píng)論中中所提及及的特征征,了解解用戶對(duì)對(duì)這類產(chǎn)產(chǎn)品最關(guān)關(guān)心的功功能及性性能是很很重要的的。由于于同類產(chǎn)產(chǎn)品的特特征基本本一致,故故可以利利用產(chǎn)品品特征對(duì)對(duì)同類產(chǎn)產(chǎn)品所獲獲得的評(píng)評(píng)價(jià)進(jìn)行行對(duì)

28、比。產(chǎn)品特征的的提取分分為人工工定義和和自動(dòng)提提取兩類類。在人人工定義義方面,KKobaayasshi、IInuii 和 Mattsummotoo 以人人工定義義方式提提出了針針對(duì)汽車車的產(chǎn)品品特征,建建立了 2877 個(gè)產(chǎn)產(chǎn)品特征征,每一一個(gè)特征征使用一一個(gè)三元元組進(jìn)行行表示(),其中中subbjecct 表表示產(chǎn)品品,atttriibutte 表表示產(chǎn)品品的特征征,vaaluee 表示示對(duì)這個(gè)個(gè)特征的的觀點(diǎn);姚天昉昉利用本本體建立立了汽車車的產(chǎn)品品特征,該該系統(tǒng)可可在電子子公告板板、門(mén)戶戶網(wǎng)站的的各大論論壇上挖挖掘并且且概括意意見(jiàn)持有有者對(duì)各各種汽車車品牌的的不同性性能指標(biāo)標(biāo)的評(píng)論論和意見(jiàn)

29、見(jiàn),并且且判斷這這些意見(jiàn)見(jiàn)的褒貶貶性以及及強(qiáng)度;Li Zhuuangg 針對(duì)對(duì)電影人人工定義義電影的的產(chǎn)品特特征,將將電影的的產(chǎn)品特特征分為為兩類:電影的的元素(scrreennplaay, vissionn efffecct)和和與和電電影相關(guān)關(guān)的人員員(diirecctorr, sscreeenwwritter, acctorr)。人人工定義義產(chǎn)品特特征的方方法需要要每一個(gè)個(gè)領(lǐng)域的的產(chǎn)品都都有該領(lǐng)領(lǐng)域的專專家參與與,因此此不具有有移植性性。同時(shí)時(shí)人工定定義的產(chǎn)產(chǎn)品特征征是靜態(tài)態(tài)的,當(dāng)當(dāng)產(chǎn)品的的功能發(fā)發(fā)生改變變后(比比如手機(jī)機(jī)加入了了新的功功能),只只有重新新召集領(lǐng)領(lǐng)域?qū)<壹也拍軐⑿绿卣髡?/p>

30、加入該該類產(chǎn)品品的產(chǎn)品品特征集集合中。而而且人工工定義的的方法需需要有人人工標(biāo)注注的語(yǔ)料料作為訓(xùn)訓(xùn)練集,不不同種類類的產(chǎn)品品就必須須要標(biāo)注注不同的的語(yǔ)料,這這就相當(dāng)當(dāng)耗費(fèi)時(shí)時(shí)間,也也無(wú)法適適用所有有種類的的產(chǎn)品。1.4產(chǎn)品品特征詞詞挖掘的的發(fā)展前前景產(chǎn)品評(píng)論挖挖掘在國(guó)國(guó)內(nèi)外屬屬于新的的研究方方向,但但是這方方面研究究的意義義非常重重大,它它作為自自然語(yǔ)言言處理領(lǐng)領(lǐng)域的一一個(gè)重要要應(yīng)用,涉涉及到了了大量理理論和應(yīng)應(yīng)用技術(shù)術(shù),它對(duì)對(duì)電子商商務(wù)的發(fā)發(fā)展有著著直接的的促進(jìn)作作用。本本文主要要研究了了產(chǎn)品評(píng)評(píng)論挖掘掘中的產(chǎn)產(chǎn)品特征征詞的抽抽取以。產(chǎn)產(chǎn)品評(píng)論論挖掘是是一個(gè)充充滿機(jī)遇遇和挑戰(zhàn)戰(zhàn)的研究究領(lǐng)域,

31、盡盡管取得得了一些些研究成成果,但但是許多多問(wèn)題還還有待進(jìn)進(jìn)一步的的探索和和研究。1.5 漢漢語(yǔ)分詞詞介紹目前, 漢漢語(yǔ)自動(dòng)動(dòng)分詞的的研究重重心主要要集中在在對(duì)傳統(tǒng)統(tǒng)文本的的有效切切分上。在在計(jì)算機(jī)機(jī)科學(xué)、情情報(bào)信息息和語(yǔ)言言文字研研究三個(gè)個(gè)領(lǐng)域的的學(xué)者專專家們的的共同努努力之下下,傳統(tǒng)統(tǒng)文本的的有效切切分已經(jīng)經(jīng)取得了了重大進(jìn)進(jìn)展。漢語(yǔ)詞的規(guī)規(guī)范研究究。由于于漢語(yǔ)詞詞的規(guī)范范是漢語(yǔ)語(yǔ)自動(dòng)分分詞的基基礎(chǔ)。沒(méi)沒(méi)有統(tǒng)一一和明確確的漢語(yǔ)語(yǔ)詞的定定義,漢有規(guī)規(guī)范的漢漢語(yǔ)分詞詞詞表,漢語(yǔ)自自動(dòng)分詞詞就無(wú)從從談起。在在漢語(yǔ)語(yǔ)語(yǔ)言學(xué)家家和計(jì)算算機(jī)中文文信息處處理研究究專家們們的共同同努力之之下,目前,我國(guó)漢漢

32、語(yǔ)詞的的規(guī)范研研究和漢漢語(yǔ)分詞詞規(guī)范詞詞表的制制定已經(jīng)經(jīng)有了較較大突破破。信信息處理理用現(xiàn)代代漢語(yǔ)分分詞詞表表的制制定及不不斷完善善, 說(shuō)說(shuō)明了我我國(guó)在漢漢語(yǔ)自動(dòng)動(dòng)分詞詞詞表方面面取得了了重大研研究成果果, 這這為漢語(yǔ)語(yǔ)自動(dòng)分分詞的研研究鋪平平了道路路。漢語(yǔ)詞自動(dòng)動(dòng)切分算算法。分分詞算法法研究是是漢語(yǔ)自自動(dòng)分詞詞的重點(diǎn)點(diǎn)和難點(diǎn)點(diǎn),每一一次分詞詞算法上上的突破破都會(huì)使使?jié)h語(yǔ)自自動(dòng)分詞詞的速度度和精度度有較大大提高。據(jù)不完全統(tǒng)計(jì), 目前,在漢語(yǔ)自動(dòng)分詞方法和算法研究中,已經(jīng)出現(xiàn)了數(shù)十種分詞方法和算法。僅80 年代以來(lái)見(jiàn)諸報(bào)端的自動(dòng)分詞方法和算法歸納起來(lái)就有:最大匹配法、逆向最大匹配法、逐詞遍歷法、

33、設(shè)立切分標(biāo)志法、最佳匹配法、有窮多層次列舉法、二次掃描法、高頻優(yōu)先分詞法、基于期望的分詞法、聯(lián)想回溯法、雙向掃描法、鄰接約束法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)分詞法、語(yǔ)境相關(guān)法、全自動(dòng)詞典切詞法、基于規(guī)則的分詞法、多遍掃描聯(lián)想法、部件詞典法、鏈接表法、最少分詞詞頻選擇法、專家系統(tǒng)分詞法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法、特征詞庫(kù)法、EM 算法、演化算法、直接匹配法和后綴匹配法、二分法、基于詞形的分詞算法、MM 分詞算法、改進(jìn)的MM 分詞算法、RMM 算法和DMM 算法等上百種。傳統(tǒng)漢語(yǔ)分詞要獲得新的突破,只能在分詞算法上做文章,必須在現(xiàn)有的分詞算法和方法的基礎(chǔ)找到一種新的分詞算法,這是今后漢語(yǔ)自動(dòng)分詞努力的重要方向之一。

34、漢語(yǔ)詞自動(dòng)動(dòng)切分歧歧義處理理。漢語(yǔ)語(yǔ)自動(dòng)分分詞的主主要困難難是歧義義切分,而歧義義在自動(dòng)動(dòng)分詞普普遍存在在。隨著著分詞研研究的突突破,分詞歧歧義處理理研究也也取得了了重大進(jìn)進(jìn)展。以以前的消消歧方法法大體可可分為兩兩類:規(guī)則方方法與統(tǒng)統(tǒng)計(jì)方法法。由于于自動(dòng)分分詞中存存在三種種歧義類類型,不同類類型的歧歧義,其產(chǎn)生生的根源源和消除除的方法法各不相相同。因因此,應(yīng)針對(duì)對(duì)不同的的歧義類類型采取取不同的的解決方方法:對(duì)于第第一類歧歧義,由于他他們本身身就是漢漢語(yǔ)言中中的歧義義問(wèn)題,解決這這類歧義義需要依依靠上、下下文語(yǔ)義義信息,即增加加語(yǔ)義、語(yǔ)語(yǔ)用知識(shí)識(shí)的處理理。這無(wú)無(wú)異對(duì)自自動(dòng)分詞詞的效率率有很大大的

35、影響響(時(shí)間間上和空空間上),而且且實(shí)現(xiàn)起起來(lái)比較較困難。若若是在詞詞處理的的相應(yīng)階階段,結(jié)合對(duì)對(duì)分詞階階段未解解決的歧歧義字段段進(jìn)行處處理,則會(huì)起起到事半半功倍的的效果。統(tǒng)統(tǒng)計(jì)表明明,第一類類歧義字字段只占占整個(gè)歧歧義字段段總數(shù)的的1/330 以以下,因因此不必必在分詞詞階段花花費(fèi)巨大大的開(kāi)銷銷來(lái)處理理它們。目前對(duì)第二類歧義處理方法主要有以下幾種:分詞知識(shí)處理法、聯(lián)想回溯法、基于詞頻統(tǒng)計(jì)的方法、鄰接約束法、基于數(shù)學(xué)期望的方法。處理第三類歧義目前主要有兩種方法:一是增加構(gòu)詞知識(shí),擴(kuò)大詞典;二是增加臨時(shí)詞典。此外,還可以人工干預(yù)分詞,人工分詞與計(jì)算機(jī)自動(dòng)分詞結(jié)合。在遇到計(jì)算機(jī)解決不了的歧義時(shí),借

36、助于人工干預(yù)來(lái)完成。為了有效地消除歧義字段,還可以在上述方法的基礎(chǔ)上建立分詞歧義知識(shí)庫(kù)或規(guī)則庫(kù)。隨著計(jì)算機(jī)技術(shù)和漢語(yǔ)語(yǔ)言研究的發(fā)展,漢語(yǔ)詞自動(dòng)切分歧義處理將會(huì)有更大的突破。漢語(yǔ)詞自動(dòng)動(dòng)切分應(yīng)應(yīng)用研究究。目前前,漢語(yǔ)自自動(dòng)分詞詞主要在在信息檢檢索、自自動(dòng)標(biāo)引引、自動(dòng)動(dòng)文摘、機(jī)機(jī)器翻譯譯、語(yǔ)言言文字研研究、搜搜索引擎擎研究、自自然語(yǔ)言言理解和和中文信信息處理理等方面面的應(yīng)用用取得了了可喜的的成績(jī)。隨隨著漢語(yǔ)語(yǔ)自動(dòng)分分詞技術(shù)術(shù)的進(jìn)展展,這一研研究成果果將會(huì)被被應(yīng)用到到廣泛的的研究領(lǐng)領(lǐng)域,如詞頻頻統(tǒng)計(jì)、內(nèi)內(nèi)容分析析、概念念分析、認(rèn)認(rèn)知心理理學(xué)和漢漢語(yǔ)語(yǔ)言言學(xué)等方方面。漢語(yǔ)自動(dòng)分分詞是中中文信息息處理的

37、的“瓶頸”問(wèn)題, 它的的最終解解決依賴賴于漢語(yǔ)語(yǔ)的分詞詞結(jié)構(gòu)、句句法結(jié)構(gòu)構(gòu)、語(yǔ)義義等語(yǔ)言言知識(shí)的的深入系系統(tǒng)的研研究;依賴于于對(duì)語(yǔ)言言與思維維的本質(zhì)質(zhì)的揭示示;同時(shí),在很大大程度上上還依賴賴于神經(jīng)經(jīng)網(wǎng)絡(luò)、專專家系統(tǒng)統(tǒng)、知識(shí)識(shí)工程等等人工智智能技術(shù)術(shù)的研究究進(jìn)展。計(jì)計(jì)算機(jī)技技術(shù)是漢漢語(yǔ)自動(dòng)動(dòng)分詞的的技術(shù)基基礎(chǔ),計(jì)算機(jī)機(jī)技術(shù)發(fā)發(fā)展的每每一次巨巨大飛躍躍都是漢漢語(yǔ)自動(dòng)動(dòng)分詞的的福音。因因?yàn)樽匀蝗徽Z(yǔ)言理理解既是是人工智智能研究究領(lǐng)域需需要解決決的重大大課題,也是漢漢語(yǔ)自動(dòng)動(dòng)分詞研研究的重重要內(nèi)容容。因此此,漢語(yǔ)語(yǔ)自動(dòng)分分詞研究究的發(fā)展展同時(shí)也也寄希望望于人工工智能技技術(shù)的突突破。人工智能是是對(duì)信息息進(jìn)

38、行智智能化處處理的一一種模式式,主要要有兩種種處理方方式:一種是是基于心心理學(xué)的的符號(hào)處處理方法法,模擬人人腦的功功能,像專家家系統(tǒng)即即是希望望模擬人人腦的功功能,構(gòu)造推推理網(wǎng)絡(luò)絡(luò),經(jīng)過(guò)符符號(hào)轉(zhuǎn)換換,從而可可以進(jìn)行行解釋性性處理。另另一種是是基于生生理學(xué)的的模擬方方法,神經(jīng)網(wǎng)網(wǎng)絡(luò)旨在在模擬人人腦的神神經(jīng)系統(tǒng)統(tǒng)機(jī)構(gòu)的的運(yùn)作機(jī)機(jī)制來(lái)實(shí)實(shí)現(xiàn)一定定的功能能。以上上兩種思思路也是是近年來(lái)來(lái)人工智智能領(lǐng)域域研究的的熱點(diǎn)問(wèn)問(wèn)題,應(yīng)用到到分詞方方法上, 于是是產(chǎn)生了了專家系系統(tǒng)分詞詞法和神神經(jīng)網(wǎng)絡(luò)絡(luò)分詞法法。目前,人工工智能技技術(shù)的重重點(diǎn)研究究領(lǐng)域主主要是專專家系統(tǒng)統(tǒng)、神經(jīng)經(jīng)網(wǎng)絡(luò)技技術(shù)和生生物芯片片技術(shù)。從從

39、人工智智能的發(fā)發(fā)展和漢漢語(yǔ)自動(dòng)動(dòng)分詞的的要求出出發(fā),比較理理想的自自動(dòng)分詞詞系統(tǒng)應(yīng)應(yīng)該綜合合詞法、句句法和語(yǔ)語(yǔ)義信息息,而用計(jì)計(jì)算機(jī)對(duì)對(duì)語(yǔ)義、語(yǔ)語(yǔ)法進(jìn)行行自動(dòng)分分析尚處處在研究究階段。因因而,已經(jīng)推推出的漢漢語(yǔ)分詞詞與標(biāo)引引系統(tǒng)只只能采用用以機(jī)械械分詞為為主, 輔之以以能部分分反映詞詞法、句句法和語(yǔ)語(yǔ)義規(guī)則則的改進(jìn)進(jìn)算法。但但仍難以以解決復(fù)復(fù)雜的漢漢語(yǔ)組詞詞關(guān)系。因因此,今今后應(yīng)注注重漢語(yǔ)語(yǔ)句法和和語(yǔ)義的的自動(dòng)分分析研究究,并將其其應(yīng)用到到漢語(yǔ)自自動(dòng)分詞詞領(lǐng)域。應(yīng)應(yīng)引入知知識(shí)分詞詞的技術(shù)術(shù)與方法法,采用知知識(shí)分詞詞語(yǔ)義分分析法進(jìn)進(jìn)行自動(dòng)動(dòng)分詞系系統(tǒng)的研研究。從從目前已已經(jīng)公開(kāi)開(kāi)的各種種分詞方方

40、法看,性能比比較優(yōu)異異且具發(fā)發(fā)展前景景的當(dāng)屬屬基于符符號(hào)和啟啟發(fā)式推推理的專專家系統(tǒng)統(tǒng)和基于于數(shù)值和和算法的的神經(jīng)網(wǎng)網(wǎng)絡(luò)技術(shù)術(shù)。神經(jīng)經(jīng)網(wǎng)絡(luò)具具有聯(lián)想想、容錯(cuò)錯(cuò)、記憶憶、自適適應(yīng)、自自學(xué)習(xí)和和處理復(fù)復(fù)雜多模模式等優(yōu)優(yōu)點(diǎn),不足的的是網(wǎng)絡(luò)絡(luò)連接模模型表達(dá)達(dá)復(fù)雜,訓(xùn)練過(guò)過(guò)程較長(zhǎng)長(zhǎng),不能對(duì)對(duì)自身的的推理方方法進(jìn)行行解釋,對(duì)未在在訓(xùn)練樣樣本中出出現(xiàn)過(guò)的的新的詞詞匯不能能給予正正確切分分;專家家系統(tǒng)具具有顯式式的知識(shí)識(shí)表達(dá)形形式, 知識(shí)容容易維護(hù)護(hù),能對(duì)對(duì)推理行行為進(jìn)行行解釋,并可利利用深層層知識(shí)來(lái)來(lái)切分歧歧義字段段;缺點(diǎn)點(diǎn)是不能能從經(jīng)驗(yàn)驗(yàn)中學(xué)習(xí)習(xí),當(dāng)知識(shí)識(shí)庫(kù)龐大大時(shí)難以以維護(hù),在進(jìn)行行多歧義義字段切切分時(shí)

41、耗耗時(shí)較長(zhǎng)長(zhǎng),同時(shí)在在知識(shí)表表示、知知識(shí)獲取取和知識(shí)識(shí)驗(yàn)證等等方面存存在一些些問(wèn)題。因因而,把神經(jīng)經(jīng)網(wǎng)絡(luò)技技術(shù)與專專家系統(tǒng)統(tǒng)結(jié)合起起來(lái)用于于漢語(yǔ)自自動(dòng)分詞詞與標(biāo)引引系統(tǒng)將將是該領(lǐng)領(lǐng)域的發(fā)發(fā)展趨向向。1.5 特特征詞挖挖掘的相相關(guān)算法法 HHu 和和 Liiu 利利用關(guān)聯(lián)聯(lián)規(guī)則挖挖掘的方方法來(lái)抽抽取產(chǎn)品品的特征征,對(duì)于于高頻特特征詞首先使用關(guān)關(guān)聯(lián)規(guī)則則尋找頻頻繁項(xiàng),裁裁剪低于于支持度度的頻繁繁項(xiàng),然然后利用用與形容容詞相鄰近的特性性尋找低低頻特征征詞?;凇爸С侄榷取彼惴▽?duì)對(duì)產(chǎn)品特特征詞進(jìn)進(jìn)行抽取取時(shí),分分為三個(gè)個(gè)步驟:對(duì)評(píng)論論文本進(jìn)進(jìn)行詞性性標(biāo)注;尋找頻頻繁特征征詞;對(duì)對(duì)抽取出出來(lái)的頻頻繁特

42、征征詞進(jìn)行行修剪。所所謂“支持度度”即關(guān)聯(lián)聯(lián)性規(guī)則則的一個(gè)個(gè)關(guān)鍵指指標(biāo),它它對(duì)頻繁繁項(xiàng)的形形成有很很大的影影響,它它是用于于描述頻頻繁項(xiàng)出出現(xiàn)頻度度的指標(biāo)標(biāo),最低低支持度度(Miinimmum_Suppporrt)意意為只對(duì)對(duì)達(dá)到指指定頻度度的項(xiàng)集集感興趣趣,如果果指定最最低支持持度為小小于1的值則則關(guān)聯(lián)規(guī)規(guī)則認(rèn)為為研究者者們只對(duì)對(duì)頻度達(dá)達(dá)到指定定百分比比的項(xiàng)集集感興趣趣。最大大支持度度(Maaximmum_Suppporrt)則則指定了了項(xiàng)集出出現(xiàn)頻度度的上限限,超過(guò)過(guò)上限的的項(xiàng)集也也不是研研究者們們感興趣趣的。HHu 和和 Liiu 的的用戶評(píng)評(píng)論抽取取算法最最后利用用極性詞詞與特征征詞的

43、共共現(xiàn)抽取取低頻特特征詞。使使用極性性詞識(shí)別別低頻特特征詞語(yǔ)語(yǔ)帶來(lái)這這樣一個(gè)個(gè)問(wèn)題:它也能能將與給給定產(chǎn)品品不相關(guān)關(guān)的名詞詞或名詞詞短語(yǔ)找找到。這這是因?yàn)闉槿藗兛煽梢允褂糜眯稳菰~詞描述很很多主體體,既有有我們感感興趣的的,也有有不相關(guān)關(guān)的。在在M.GGamoon等人人的基于于自由文文本用戶戶觀點(diǎn)可可視化原原型系統(tǒng)統(tǒng)中,介介紹了使使用tff/iddf的方方法來(lái)識(shí)識(shí)別分詞詞或者分分詞組合合是否是是真正的的特征詞詞,如果果分詞或或者分詞詞的組合合不是真真正的詞詞語(yǔ)那么么將在語(yǔ)語(yǔ)料中很很少或者者幾乎不不出現(xiàn)。EE.Riilofff等人人通過(guò)已已知的語(yǔ)語(yǔ)法模型型去抽取取特殊的的表達(dá)模模式,主主要考慮慮的

44、模式式有:+、+、+,再再通過(guò)這這些模式式去發(fā)現(xiàn)現(xiàn)對(duì)應(yīng)的的主語(yǔ)、賓賓語(yǔ)、名名詞或名名詞短語(yǔ)語(yǔ)作為特特征詞。1.6開(kāi)發(fā)發(fā)環(huán)境介介紹 本系系統(tǒng)是用用C#編編寫(xiě),CC#是微微軟公司司發(fā)布的的一種面面向?qū)ο笙蟮?、運(yùn)運(yùn)行于.NETT Frrameeworrk之上上的高級(jí)級(jí)程序設(shè)設(shè)計(jì)語(yǔ)言言。并定定于在微微軟職業(yè)業(yè)開(kāi)發(fā)者者論壇(PDCC)上登登臺(tái)亮相相。C#是微軟軟公司研研究員AAndeers Hejjlsbbergg的最新新成果。CC#看起起來(lái)與JJavaa有著驚驚人的相相似;它它包括了了諸如單單一繼承承、接口口、與JJavaa幾乎同同樣的語(yǔ)語(yǔ)法和編編譯成中中間代碼碼再運(yùn)行行的過(guò)程程。但是是C#與與Jav

45、va有著著明顯的的不同,它它借鑒了了Dellphii的一個(gè)個(gè)特點(diǎn),與COOM(組組件對(duì)象象模型)是直接接集成的的,而且且它是微微軟公司司.NEET wwinddowss網(wǎng)絡(luò)框框架的主主角。C#(讀做做 CC shharpp,中中文譯音音暫時(shí)沒(méi)沒(méi)有.專專業(yè)人士士一般讀讀C shaarp,現(xiàn)在在很多非非專業(yè)一一般讀C井。C#是一種種安全的的、穩(wěn)定定的、簡(jiǎn)簡(jiǎn)單的、優(yōu)優(yōu)雅的,由由C和CC+衍衍生出來(lái)來(lái)的面向向?qū)ο蟮牡木幊陶Z(yǔ)語(yǔ)言。它它在繼承承C和CC+強(qiáng)強(qiáng)大功能能的同時(shí)時(shí)去掉了了一些它它們的復(fù)復(fù)雜特性性(例如如沒(méi)有宏宏和模版版,不允允許多重重繼承)。CC#綜合合了VBB簡(jiǎn)單的的可視化化操作和和C+的高運(yùn)

46、運(yùn)行效率率,以其其強(qiáng)大的的操作能能力、優(yōu)優(yōu)雅的語(yǔ)語(yǔ)法風(fēng)格格、創(chuàng)新新的語(yǔ)言言特性和和便捷的的面向組組件編程程的支持持成為.NETT開(kāi)發(fā)的的首選語(yǔ)語(yǔ)言。并且C#成成為ECCMA與與ISOO標(biāo)準(zhǔn)規(guī)規(guī)范。CC#看似似基于CC+寫(xiě)寫(xiě)成,但但又融入入其它語(yǔ)語(yǔ)言如DDelpphi、JJavaa、VBB等。微軟C#語(yǔ)語(yǔ)言定義義主要是是從C和和C+繼承而而來(lái)的,而且語(yǔ)語(yǔ)言中的的許多元元素也反反映了這這一點(diǎn)。C#在在設(shè)計(jì)者者從C+繼承承的可選選選項(xiàng)方方面比JJavaa要廣泛泛一些(比如說(shuō)說(shuō)strrutss),它它還增加加了自己己新的特特點(diǎn)(比比方說(shuō)源源代碼版版本定義義),但它它還太不不成熟,不可能能擠垮JJava

47、a.C#還需要要進(jìn)化成成一種開(kāi)開(kāi)發(fā)者能能夠接受受和采用用的語(yǔ)言言。而微軟軟當(dāng)前為為它的這這種新語(yǔ)語(yǔ)言大造造聲勢(shì)也也是值得得注意的的,目前大大家的反反應(yīng)是:這是對(duì)對(duì)Javva的反反擊。C#更像JJavaa一些,雖然微微軟在這這個(gè)問(wèn)題題上保持持沉默,這也是是意料中中的事情情,我覺(jué)覺(jué)得,因因?yàn)镴aava近近來(lái)很成成功而使使用Jaava的的公司都都報(bào)告說(shuō)說(shuō)它們?cè)谠谏a(chǎn)效效率上比比C+獲得了了提高。Java所所帶來(lái)的的巨大影影響和大大家對(duì)它它的廣泛泛接受已已經(jīng)由工工作于這這種語(yǔ)言言和平臺(tái)臺(tái)之上的的程序員員數(shù)量明明顯的說(shuō)說(shuō)明了(估計(jì)世世界范圍圍內(nèi)共有有兩百五五十萬(wàn)程程序員使使用Jaava)。由這這種語(yǔ)言言

48、寫(xiě)成的的應(yīng)用程程序的數(shù)數(shù)量是令令人驚訝訝的并已已經(jīng)滲透透了每一一個(gè)級(jí)別別的計(jì)算算,包括括無(wú)線計(jì)計(jì)算和移移動(dòng)電話話(比如如日本發(fā)發(fā)明的JJavaa電話)。C#能夠在在用戶領(lǐng)領(lǐng)域獲得得這樣的的禮遇嗎嗎?我們們必須等等待并觀觀望,就就像已經(jīng)經(jīng)由SSSI公司司的CEEO和主主席Kaalpaathii S.Surreshh指出來(lái)來(lái)的那樣樣,“我發(fā)現(xiàn)現(xiàn)所有這這些都是是漸進(jìn)的的。如果CC#不存存在,我我們總能能回到JJavaa或C和和C+這些都都不完全全是新技技術(shù),它們?cè)谠诟蟮牡囊饬x上上來(lái)說(shuō)只只是大公公司制造造的市場(chǎng)場(chǎng)噱頭,我們必必須給他他們時(shí)間間安頓下下來(lái)看看看這些是是不是真真的對(duì)IIT工業(yè)業(yè)有什么么影

49、響”重慶科技學(xué)院本科畢業(yè)生論文 2產(chǎn)品特征詞的挖掘2 產(chǎn)品特特征詞的的挖掘自動(dòng)識(shí)別產(chǎn)產(chǎn)品評(píng)論論中的產(chǎn)產(chǎn)品特征征對(duì)產(chǎn)品品評(píng)論的的挖掘是是一個(gè)難難點(diǎn),因因?yàn)橄鄬?duì)對(duì)普通的的文本而而言,產(chǎn)產(chǎn)品評(píng)論論是用戶戶隨意的的表述,很很少有完完整的主主謂賓結(jié)結(jié)構(gòu),卻卻有不計(jì)計(jì)其數(shù)的的同音錯(cuò)錯(cuò)別字、簡(jiǎn)簡(jiǎn)略語(yǔ)、拼拼音、英英語(yǔ)和中中文混雜雜。目前前對(duì)產(chǎn)品品評(píng)論進(jìn)進(jìn)行挖掘掘的研究究很多都都是基于于英文的的,基于于中文的的產(chǎn)品評(píng)評(píng)論挖掘掘僅僅是是剛起步步,還有有很多關(guān)關(guān)鍵性的的問(wèn)題需需要研究究。2.1問(wèn)題題的提出出及相關(guān)關(guān)研究 在在產(chǎn)品評(píng)評(píng)論中,用用戶為了了能具體體表達(dá)意意見(jiàn),可可能會(huì)將將產(chǎn)品的的部件、功功能、性性能及服務(wù)

50、分分成多個(gè)個(gè)考慮的的對(duì)象來(lái)來(lái)發(fā)表相相應(yīng)的觀觀點(diǎn),這這些被評(píng)評(píng)價(jià)的對(duì)對(duì)象就是是產(chǎn)品特特征,因此產(chǎn)產(chǎn)品特征征與觀點(diǎn)點(diǎn)在產(chǎn)品品評(píng)論中中是具有有對(duì)應(yīng)關(guān)關(guān)系的,特特征觀點(diǎn)點(diǎn)對(duì)(ff,o)就是產(chǎn)產(chǎn)品評(píng)論論中產(chǎn)品品特征(feaaturre)與與對(duì)應(yīng)的的觀點(diǎn)(opiinioon)所所組成的的單位。近近年來(lái),產(chǎn)產(chǎn)品特征征和觀點(diǎn)點(diǎn)的挖掘掘已經(jīng)有有了一些些研究,這這些研究究中對(duì)產(chǎn)產(chǎn)品特征征和觀點(diǎn)點(diǎn)詞的提提取分為為人工定定義和自自動(dòng)提取取兩類。在在人工定定義方面面,Koobayyashhi、IInuii和 MMatssumooto 等人工工定義產(chǎn)產(chǎn)品特征征(coost, prricee, sservvicee, pp

51、erfformmancce, funnctiion,suppporrt, dessignn)和觀觀點(diǎn)(ggoodd, bbeauutifful, brrighht, likke/ffavooritte, higgh),獲獲取同時(shí)時(shí)出現(xiàn)特特征和觀觀點(diǎn)的模模式。姚姚天昉利利用本體體建立了了汽車的的產(chǎn)品特特征,該該系統(tǒng)可可在電子子公告板板、門(mén)戶戶網(wǎng)站的的各大論論壇上挖挖掘并概概括意見(jiàn)見(jiàn)持有者者對(duì)各種種汽車品品牌的不不同性能能指標(biāo)的的評(píng)論和和意見(jiàn),同同時(shí)判斷斷這些意意見(jiàn)的褒褒貶性以以及強(qiáng)度度。Lii Zhhuanng 人人工定義義電影的的產(chǎn)品特特征,將將電影的的產(chǎn)品特特征分為為兩類:電影的的元素(sc

52、rreennplaay, vissionn efffecct)和和與電影影相關(guān)的的人員(dirrecttor, sccreeenwrriteer, acttor),在得得到評(píng)論論中的產(chǎn)產(chǎn)品特征征詞和觀觀點(diǎn)詞后后,通過(guò)過(guò)依存句句法圖來(lái)來(lái)連接特特征和觀觀點(diǎn)生成成特征觀觀點(diǎn)對(duì)。人人工定義義產(chǎn)品特特征和觀觀點(diǎn)需要要每一個(gè)個(gè)領(lǐng)域的的產(chǎn)品都都有該領(lǐng)領(lǐng)域的專專家參與與,因此此不具有有移植性性,不能能應(yīng)對(duì)產(chǎn)產(chǎn)品發(fā)生生變化的的情況。 從從產(chǎn)品評(píng)評(píng)論中自自動(dòng)抽取取產(chǎn)品特特征和觀觀點(diǎn)主要要使用詞詞性標(biāo)注注、句法法分析、文文本模式等自然然語(yǔ)言技技術(shù)對(duì)產(chǎn)產(chǎn)品評(píng)論論中的語(yǔ)語(yǔ)句進(jìn)行行分析,從從中自動(dòng)動(dòng)發(fā)現(xiàn)產(chǎn)產(chǎn)品特征征和觀點(diǎn)

53、詞。Kiim aand Hovvy 首首先尋找找句子中中表達(dá)主主觀性的的詞匯,然然后定義義一個(gè)以以主觀性性詞匯為為中心,大大小固定定的窗口口,將窗窗口中的的名詞或或名詞短短語(yǔ)作為為特征。LLun-WeiiKu 使用用 GII(Geenerral Inqquirrer)、CNNSD(Chiinesse NNetwworkk Seentiimennt DDicttionnaryy)和NTUSDD(Naatioonall Taaiwaan UUnivverssityy Seentiimennt DDicttionnaryy)詞典典,并使使用同義義詞詞林林及 WorrdNeet 進(jìn)進(jìn)行擴(kuò)充充,以此此抽

54、取句句子中的的觀點(diǎn)詞詞。Sooo MMin Kimm 則基基于人工工標(biāo)注的褒貶詞詞典找出出評(píng)價(jià)詞詞,然后后借助于于 FrrameeNett 分析析句子的的語(yǔ)義結(jié)結(jié)構(gòu)來(lái)找找出評(píng)價(jià)價(jià)對(duì)象。HHu aand Liuu 首先先對(duì)評(píng)論論中的主主觀性語(yǔ)語(yǔ)句進(jìn)行行句法分分析,找找到句子子中的名名詞或名名詞短語(yǔ)語(yǔ),然后后使用關(guān)關(guān)聯(lián)規(guī)則則挖掘出出頻繁項(xiàng)項(xiàng),將得得到的頻頻繁項(xiàng)作作為產(chǎn)品品的特征征,然后后將離產(chǎn)產(chǎn)品特征征最近的的形容詞詞作為評(píng)評(píng)價(jià)詞。AAna-Marria Poppesccu 采采用人工工定義的的通用文文本模板板,根據(jù)據(jù)在具體體應(yīng)用領(lǐng)領(lǐng)域?qū)嵗ㄓ糜梦谋灸D0逡孕涡纬沙槿∪∫?guī)則,再再利用抽抽取規(guī)則

55、則進(jìn)行產(chǎn)產(chǎn)品特征征和觀點(diǎn)點(diǎn)的抽取取。以上上研究大大多把特特征和觀觀點(diǎn)分開(kāi)開(kāi)來(lái)識(shí)別別,而實(shí)實(shí)際上在在多數(shù)評(píng)評(píng)論中,產(chǎn)產(chǎn)品特征征都是被被上下文文中的觀觀點(diǎn)詞所所修飾,特特征和觀觀點(diǎn)之間間具有高高度相關(guān)關(guān)性,因因此可以以把特征征識(shí)別和和觀點(diǎn)識(shí)識(shí)別結(jié)合合在一起起進(jìn)行。另另現(xiàn)有的的研究沒(méi)沒(méi)有處理理多特征征單觀點(diǎn)點(diǎn)的問(wèn)題題,即在在產(chǎn)品評(píng)評(píng)論中,經(jīng)經(jīng)常會(huì)出出現(xiàn)多個(gè)個(gè)特征后后面只接接一個(gè)觀觀點(diǎn)詞的的情況,如如“打電電話、播播放 mmp3、看看圖片很很方便”、“無(wú)無(wú)論是從從音場(chǎng)、低低音效果果,都非非常令人人咋舌”、“信信號(hào)強(qiáng)度度、按鍵鍵、待機(jī)機(jī)時(shí)間方方面我都都很滿意意”,本本文則通通過(guò)自動(dòng)動(dòng)獲得的的產(chǎn)品特特征詞

56、和和觀點(diǎn)詞詞對(duì)多特特征單觀觀點(diǎn)的評(píng)評(píng)價(jià)進(jìn)行行處理?,F(xiàn)現(xiàn)有的機(jī)機(jī)器學(xué)習(xí)習(xí)方法很很多是利利用標(biāo)注注的訓(xùn)練練樣本,這這些大規(guī)規(guī)模標(biāo)注注過(guò)的訓(xùn)訓(xùn)練數(shù)據(jù)據(jù)可以提提高學(xué)習(xí)習(xí)算法結(jié)結(jié)果的準(zhǔn)準(zhǔn)確率,但但是標(biāo)注注好的訓(xùn)訓(xùn)練數(shù)據(jù)據(jù)不容易易獲得,并并且網(wǎng)上上信息的的增長(zhǎng)和和變化都都很快,因因此只使使用人工工標(biāo)注訓(xùn)訓(xùn)練數(shù)據(jù)據(jù)的機(jī)器器學(xué)習(xí)方方法已經(jīng)經(jīng)不能滿滿足對(duì)網(wǎng)網(wǎng)上信息息進(jìn)行挖挖掘的需需求,獲獲得的學(xué)學(xué)習(xí)系統(tǒng)統(tǒng)的泛化化能力也也不強(qiáng)。同同時(shí),網(wǎng)網(wǎng)上存在在大量容容易獲得得的未標(biāo)標(biāo)注的數(shù)數(shù)據(jù),采采用能結(jié)結(jié)合標(biāo)注注好的樣樣本和未未標(biāo)注數(shù)數(shù)據(jù)的半半監(jiān)督學(xué)學(xué)習(xí)方法法既能獲獲得專家家的標(biāo)注注知識(shí),又又可以利利用大量量未標(biāo)注注數(shù)據(jù)來(lái)

57、來(lái)改善學(xué)學(xué)習(xí)性能能。本文文就是利利用 BBoottstrrapppingg 半監(jiān)監(jiān)督學(xué)習(xí)習(xí)算法,結(jié)結(jié)合少量量的標(biāo)注注數(shù)據(jù)和和大量的的未標(biāo)注注數(shù)據(jù)來(lái)來(lái)對(duì)產(chǎn)品品評(píng)論進(jìn)進(jìn)行挖掘掘。2.2評(píng)論論語(yǔ)料庫(kù)庫(kù)使用的的現(xiàn)狀 現(xiàn)有有的評(píng)論論挖掘?qū)?duì)產(chǎn)品評(píng)評(píng)論的選選取沒(méi)有有作深入入的研究究。Daavidd Boouniie直接接使用調(diào)調(diào)查表方方式獲得得用戶對(duì)對(duì)視頻游游戲的評(píng)評(píng)價(jià);LLun-Weii Kuu使用 NTCCIR和和TREEC的網(wǎng)網(wǎng)絡(luò)新聞聞?wù)Z料,通通過(guò)詞級(jí)級(jí)、句子子級(jí)和文文檔級(jí)獲獲得對(duì)相相關(guān)事件件表達(dá)的的情感極極性和程程度,提提取用戶戶對(duì)事件件的觀點(diǎn)點(diǎn);Miinqiing Hu抓抓取了m和c|nett.

58、coom網(wǎng)站站上的評(píng)評(píng)論,但但沒(méi)有對(duì)對(duì)提取到到的評(píng)論論內(nèi)容進(jìn)進(jìn)行優(yōu)劣劣評(píng)判;Euggenee Aggichhteiin使用用了LDDC的NNortth AAmerricaan NNewss Teext Corrpuss,通過(guò)過(guò)滾雪球球的迭代代方式從從種子元元素到模模式生成成,再根根據(jù)模式式中從語(yǔ)語(yǔ)料庫(kù)提提取新的的元素加加入種子子集合獲獲取事件件對(duì)應(yīng)的的關(guān)系列列表。這這些研究究所使用用的評(píng)論論內(nèi)容大大多是由由專家在在網(wǎng)絡(luò)上上收集挑挑選出來(lái)來(lái)的,由由于產(chǎn)品品不斷更更新,產(chǎn)產(chǎn)品評(píng)論論不斷增增加,如如果只能能對(duì)專家家挑選出出的評(píng)論論庫(kù)進(jìn)行行挖掘,就就會(huì)大大大削弱研研究的實(shí)實(shí)用性。2.3 弱弱監(jiān)督機(jī)機(jī)器

59、學(xué)習(xí)習(xí)方法介介紹 采采用基于于弱監(jiān)督督機(jī)器學(xué)學(xué)習(xí)方法法,只需需提供少少量的產(chǎn)產(chǎn)品特征征作為種種子集合合,自動(dòng)動(dòng)進(jìn)行文文本模式式的抽取取,再用用抽取得得到的模模式抽取取新的產(chǎn)產(chǎn)品特征征。系統(tǒng)統(tǒng)以人工工提供的的少量產(chǎn)產(chǎn)品特征征作為種種子集合合,發(fā)現(xiàn)現(xiàn)產(chǎn)品評(píng)評(píng)論語(yǔ)料料庫(kù)中的的產(chǎn)品特特征出現(xiàn)現(xiàn)語(yǔ)句,將將這些語(yǔ)語(yǔ)句按照照給定的的文本模模式結(jié)構(gòu)構(gòu)進(jìn)行模模式化表表示,從從中生成成新的文文本模式式,再用用這些自自動(dòng)獲取取的文本本模式來(lái)來(lái)抽取新新的產(chǎn)品品特征,并并將新的的產(chǎn)品特特征加入入產(chǎn)品特特征種子子集合。對(duì)對(duì)該過(guò)程程不斷地地迭代,直直到系統(tǒng)統(tǒng)不能產(chǎn)產(chǎn)生新種種子或新新的文本本模式和和達(dá)到人人工指定定迭代次次數(shù)

60、停止止迭代,將將產(chǎn)品特特征種子子集合中中的種子子輸出作作為結(jié)果果,整個(gè)個(gè)系統(tǒng)流流程分為為4個(gè)階階段如圖圖2.11所示: 圖2.1 文本模模式抽取取系統(tǒng)流流程(1)發(fā)現(xiàn)現(xiàn)產(chǎn)品特特征種子子出現(xiàn)語(yǔ)語(yǔ)句 將語(yǔ)料庫(kù)中中的產(chǎn)品品評(píng)論分分解為語(yǔ)語(yǔ)句,并并對(duì)每一一個(gè)句子子進(jìn)行詞詞性標(biāo)注注,提取取句子中中的名詞詞和名詞詞短語(yǔ),如如果它是是產(chǎn)品特特征種子子集合的的一個(gè)元元素,那那么將出出現(xiàn)該名名詞或名名詞短語(yǔ)語(yǔ)的語(yǔ)句句加入產(chǎn)產(chǎn)品特征征出現(xiàn)語(yǔ)語(yǔ)句集合合|SOO|。 (2)生成成文本模模式 從|SO|中自動(dòng)動(dòng)發(fā)現(xiàn)可可用于抽抽取新的的產(chǎn)品特特征的文文本模式式,該過(guò)過(guò)程分解解為三個(gè)個(gè)子過(guò)程程:1)模式化化表示語(yǔ)語(yǔ)句 通過(guò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論