已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
碩士研究生學(xué)位論文 題目: 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 姓 名: 蘇玉梅 學(xué) 號: 10108083 系 別: 信息 科學(xué)技術(shù) 學(xué)院 專 業(yè): 計(jì)算機(jī)軟件與理論 研究方向: 計(jì)算語言學(xué) 導(dǎo) 師: 俞士汶 教授 孫斌 副教授 二 四 年五月 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意, 不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任。 北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) - I - 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 摘要 天網(wǎng)知名度系統(tǒng)是基于北大天網(wǎng)搜索引擎技術(shù)和中文信息處理技術(shù),針對用戶定制的實(shí)體信息開展的個性化網(wǎng)絡(luò)服務(wù)研究。重點(diǎn)研究了網(wǎng)頁實(shí)體相關(guān)度評價(jià)算法,從而優(yōu)化了針對特定信息的網(wǎng)絡(luò)查詢服務(wù)質(zhì)量。在此研究中,通過對中文網(wǎng)頁文本內(nèi)容的大量觀察,作者提出了中文網(wǎng)頁褒貶態(tài)度機(jī)器評價(jià)的研究方向。 基于褒貶評價(jià)的修辭屬性,作者確定了以語言手段及領(lǐng)域標(biāo)準(zhǔn)為策略的評價(jià)算法 , 獨(dú)立完 成了網(wǎng)頁褒貶態(tài)度機(jī)器評價(jià)模塊的全部設(shè)計(jì)與開發(fā),并為此準(zhǔn)備了必要的褒貶評價(jià)語言知識庫,包括在轉(zhuǎn)化現(xiàn)有的基礎(chǔ)靜態(tài)褒貶義詞典的有限資源之外,搜集來自真實(shí)中文網(wǎng)頁的領(lǐng)域相關(guān)褒貶義補(bǔ)充詞典,積累了一批褒貶態(tài)度 表達(dá)的語言 形式模板。 該評價(jià)模型針對中文網(wǎng)頁,依據(jù)領(lǐng)域補(bǔ)充褒貶義詞典,對網(wǎng)頁實(shí)體進(jìn)行褒貶態(tài)度評價(jià),其中包含了一系列評價(jià)要素,如褒貶結(jié)構(gòu)、領(lǐng)域標(biāo)準(zhǔn)、實(shí)體有關(guān)、褒貶猜測等關(guān)鍵方法,關(guān) 聯(lián)了多種語言知識,從而更合理地模擬了人對網(wǎng)頁褒貶信息 的 解析方法。該模塊被應(yīng)用到天網(wǎng)知名度系統(tǒng),通過對 75 萬網(wǎng)頁近 300 個實(shí)體的評價(jià) 測試 , 得到了 有 價(jià)值 的實(shí)驗(yàn)結(jié)果 。網(wǎng)頁褒貶相關(guān)度評價(jià)模型 的研究開發(fā), 為天網(wǎng)知名度系統(tǒng)的個性化網(wǎng)絡(luò)服務(wù)做出了新的和有意義的嘗試。 關(guān)鍵詞:褒貶態(tài)度 機(jī)器評價(jià) 網(wǎng)絡(luò) 信息 服務(wù) 北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) - F N on on of at of as In of on of it As an a of as of of a 京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) - 正文目錄 第 1 章 引論 .網(wǎng)知名度系統(tǒng) .頁觀察機(jī)器評價(jià)視角下看中文網(wǎng)頁類型 .目延伸探索新的網(wǎng)絡(luò)服務(wù)(網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià)) .文的研究內(nèi)容及意義 .文的結(jié)構(gòu) . 2 章 相關(guān)工作及工作基礎(chǔ) .言手段 . 詞語手段 . 句式手段 . 辭格手段 .價(jià)的規(guī)范與標(biāo)準(zhǔn) .源準(zhǔn)備 . 11 礎(chǔ)褒貶義詞典 . 11 型網(wǎng)頁文本搜集 . 11 域補(bǔ)充褒貶義詞集 . 褒貶評價(jià)模板搜集 .統(tǒng)基礎(chǔ) . 天網(wǎng)知名度系統(tǒng)流程 . 天網(wǎng)知名度系統(tǒng)結(jié)構(gòu)及模塊分布 . 3 章 網(wǎng)頁褒貶態(tài)度評價(jià)模塊 .據(jù)需求 . 網(wǎng)頁表示信息庫 . 注冊實(shí)體信息庫 .鍵策略 . 實(shí)體有關(guān)性 . 領(lǐng)域相關(guān)性 .塊設(shè)計(jì) . 處理流程 . 褒貶結(jié)構(gòu) . 基本結(jié)構(gòu) P . 4 章 實(shí)驗(yàn)結(jié)果及展望 .果瀏 覽界面 .效性分析 .進(jìn)方向 . 更精細(xì)的褒貶評價(jià)模板 . 轉(zhuǎn)折結(jié)構(gòu)及褒貶權(quán)重 . 更精確的褒貶沖突控制 . 褒貶評價(jià)的程度考慮 . 更精細(xì)的褒貶義詞典構(gòu)造 .他應(yīng)用 .驗(yàn)評價(jià) .考文獻(xiàn)與資料 .京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) - 圖表目錄 圖 1 網(wǎng)頁褒貶評價(jià)關(guān)系分析圖 . 2 天網(wǎng)知名度系統(tǒng)流程 . 3 用戶注冊界面 . 4 用戶檢索界面實(shí)體信息列表 . 5 用戶檢索界面 實(shí)體相關(guān)網(wǎng)頁排序 . 6 人名實(shí)體 對應(yīng)示例 . 7 一篇網(wǎng)頁的褒貶評價(jià)流程 . 8 P 的識別流程 . 9 實(shí)體相關(guān)網(wǎng)頁的褒貶評價(jià)結(jié)果瀏覽 . 10 實(shí)驗(yàn)網(wǎng)頁中人名實(shí)體對應(yīng)關(guān)系 . 1 實(shí)驗(yàn)考察與實(shí)驗(yàn)資源的對應(yīng)分布 . 2 網(wǎng)頁褒貶評價(jià)例句 . 11 表 3 注冊實(shí)體信息表的信息項(xiàng)定義 . 4 實(shí)體領(lǐng)域及對應(yīng)的領(lǐng)域褒貶補(bǔ)充詞典 . 5 面向領(lǐng)域的褒貶補(bǔ)充詞典候選樣例 . 6 褒貶評價(jià)候選模板樣例 . 7 褒貶評價(jià)用到的網(wǎng)頁表示庫信息項(xiàng) . 8 褒貶評價(jià)用到的實(shí)體信息庫信息項(xiàng) . 9 褒貶結(jié)構(gòu)模板要素 .京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 引論 - 1 - 第 1章 引論 因特網(wǎng)( 1994 年開始登陸中國,短短幾年內(nèi)得到了迅猛的發(fā)展 , 今天的因特網(wǎng)確實(shí)是一個信息的寶庫,但是在很大程度上它還只是信息的堆砌,因此它更像一個寶礦,等待有需求的人們?nèi)ネ诰颉?網(wǎng)上海量信息的涌現(xiàn)迫使人們越來越依賴搜索引擎,而目前中文搜索引擎的服務(wù)還遠(yuǎn)遠(yuǎn)不能滿足用戶的需要。常見的網(wǎng)絡(luò)檢索服務(wù), 常常沒有語義分析,只是根據(jù)用戶所給出查詢詞串的邏輯組合機(jī)械地找出一系列匹配網(wǎng)頁,同時檢索結(jié)果中常有很多無關(guān)或無用的網(wǎng)頁。通用的搜索引擎缺乏針對性,用戶不能通過搜索系統(tǒng)定期、定量、和自動地獲得目標(biāo)相關(guān)的網(wǎng)頁,必須手工地進(jìn)行繁復(fù)的篩選任務(wù)。 面對網(wǎng)上的海量信息,人們越發(fā)看重準(zhǔn)確性、及時性,迫切需要一種 更加智能的網(wǎng)絡(luò)檢索服務(wù), 能夠 針對用戶關(guān)心的焦點(diǎn), 為用戶自動收集、分析和整理 相關(guān)信息,因此, 提供個性化檢索服務(wù)已勢在必行。 網(wǎng)知名度系統(tǒng) 北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)實(shí)驗(yàn)室 于 1997 年推出了 “天網(wǎng)”搜索引擎,據(jù) “天網(wǎng) ” 搜集的網(wǎng)頁估計(jì),中文(簡體)網(wǎng)頁數(shù)已超過 1 億。從 2002 年 7 月開始,北京大學(xué)計(jì)算語言學(xué)研究所信息提?。?目組與北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室在北 京 大 學(xué)新研究院的支持下開展了“天網(wǎng)知名度” 研究 項(xiàng)目。本項(xiàng)目在天網(wǎng)搜索引擎的基礎(chǔ)上,力求利用中文信息提取的先進(jìn)技術(shù),嘗試個性化檢索服務(wù),提高網(wǎng)絡(luò)服務(wù)的質(zhì)量。 在 天網(wǎng)知名度系統(tǒng)中, 用戶 可以通過指定一批具體的實(shí)體來 定制 自己 的查詢需求 ,即用戶可以指定一個或多個實(shí)體作為信息收集、分析和提供服務(wù)的目標(biāo)對象 , 例如: 名人實(shí)體: 姓名,主要職業(yè)、社會兼職、社會形象、工作單位、代表作品等;公司實(shí)體:名稱(含別名、縮寫名、英文名),所在地、所屬行業(yè)、產(chǎn)品(服務(wù)項(xiàng)目)、負(fù)責(zé)人(可選)等;機(jī)構(gòu)實(shí)體:名稱(含別名、縮寫名、英文名), 所 屬地 區(qū) 、部門、性質(zhì)、負(fù)責(zé)人(可選)等;產(chǎn)品實(shí)體:名稱(含別名、縮寫名、英文名)、型號、功能、規(guī)格等。 北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 引論 - 2 - 經(jīng)過對名人實(shí)體、機(jī)構(gòu)實(shí)體及產(chǎn)品實(shí)體的前期考察,天網(wǎng)知名度系統(tǒng)選擇了名人實(shí)體做為實(shí)驗(yàn)對象。用戶將其要查詢的名人信息注冊 之后 ,系統(tǒng)將為每個用戶登記專用的實(shí)體信息,形成個人信息庫和實(shí)體信息庫,以保證盡量滿足每個用戶的個 性化檢索需求。 用戶通過 天網(wǎng)知名度系統(tǒng)用戶界面登陸 并 提交要查詢的實(shí)體,系統(tǒng) 將 通過檢索評分庫和索引庫將檢索 到的實(shí)體相關(guān)網(wǎng)頁的排序 結(jié)果返回 給 用戶。該系統(tǒng)依托天網(wǎng)搜索引擎的原始網(wǎng)頁庫,目前 在 75 萬中文簡體網(wǎng)頁范圍內(nèi) 小規(guī)模 提供 了 近 300 個名人的網(wǎng)頁搜索服務(wù)。 系統(tǒng) 采用了基于內(nèi)容的淺層分析技術(shù),提取網(wǎng)頁中人名、人的職業(yè)描述以及人所在的工作單位等二元關(guān)系描述,結(jié)合特征向量的加權(quán)統(tǒng)計(jì),對查詢信息建立了合理的結(jié)構(gòu),大大增加了網(wǎng)頁中有關(guān)人物分析的準(zhǔn)確性。不同于 搜索引擎,“天網(wǎng)”知名度項(xiàng)目著眼于用戶的特定檢索需求(表 現(xiàn)為系統(tǒng)中的注冊實(shí)體,包括各信息條目及其權(quán)重),因此實(shí)體信息注冊、二元關(guān)系抽取、加權(quán)分析等是實(shí)現(xiàn)系統(tǒng)目標(biāo)的關(guān)鍵環(huán)節(jié)。 頁觀察機(jī)器評價(jià)視角下看 中文 網(wǎng)頁類型 天網(wǎng)知名度系統(tǒng) 實(shí)驗(yàn)過程中的實(shí)體信息,來自前期考察對網(wǎng)頁實(shí)體信息的認(rèn)知抽象。而 天網(wǎng)知名度系統(tǒng)的 相關(guān)度評價(jià)即是讓機(jī)器來模擬人自身對網(wǎng)頁與實(shí)體的相關(guān)性的認(rèn)知策略,最終機(jī)器的模擬結(jié)果也要接受用戶認(rèn)知體驗(yàn)的檢查。因此作者在參與網(wǎng)頁與注冊實(shí)體相關(guān)度評價(jià)模塊的開發(fā)時,一直注意積累對網(wǎng)頁文本內(nèi)容的觀察。 以公司類實(shí)體的網(wǎng)頁為例,作者發(fā)現(xiàn)如下規(guī)律:從來源看,有 來自 企業(yè)自 身也有 來自外界 的 ,如行業(yè)網(wǎng)站或新聞網(wǎng)站。從網(wǎng)頁內(nèi)容來說,有介紹企業(yè)的產(chǎn)品、經(jīng)營領(lǐng)域(與該企業(yè)的產(chǎn)品類型相關(guān))、下屬子公司、發(fā)行的證券、股票的;也有介紹公司的負(fù)責(zé)人 的 (其人、其事、訪談);有關(guān)于該公司的經(jīng)營研究報(bào)告、業(yè)務(wù)分析、公司的事件新聞(收購、兼并等)等的;還有談及企業(yè)文化概念的,如核心理念、市場口號(例如,“以您的生活為本”,“無抗”等)、特色概念、論壇、周刊、市場策略、經(jīng)營模式,以及它們的改變 等 ;甚至也有介紹其使用的軟件管理系統(tǒng)、電子商務(wù)等(即借該企業(yè)宣傳另一個企業(yè)產(chǎn)品的成功案例的)。形式上,除了單獨(dú) 出現(xiàn)在網(wǎng)頁中,也常在行業(yè)網(wǎng)站和企業(yè)峰會的網(wǎng)站中和其他公司一起出現(xiàn) 的 ,甚至只是名稱列舉。網(wǎng)頁內(nèi)容除了文本本身,還有格式標(biāo)記,某些類別的標(biāo)記可表示一篇網(wǎng)頁的主題信息或通過控制顯示效果而表示一段內(nèi)容的重要性。對網(wǎng)頁的觀察幫助項(xiàng)目組制定出注冊實(shí)體信息的格式和內(nèi)容,也確定了系統(tǒng)進(jìn)行分析評價(jià)所需要的信息。 北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 引論 - 3 - 作者 從大量 的 網(wǎng)頁觀察中發(fā)現(xiàn),與目標(biāo)實(shí)體實(shí)際相關(guān)的網(wǎng)頁, 可以分為 兩類。一類是強(qiáng)文字相關(guān)的信息類網(wǎng)頁 ,這類網(wǎng)頁與實(shí)體信息匹配程度高,簡歷型名人網(wǎng)頁 是很好的例子 。另一類是 弱文字相關(guān)的事件或事物展開型網(wǎng)頁 ,相比 前者, 這類網(wǎng)頁 與實(shí)體的背景性信息匹配程度就低多了。事件展開類網(wǎng)頁,譬如,關(guān)于某名人的事件報(bào)道或訪談記錄,恰好談?wù)摰牟皇敲藢?shí)體中注冊的那些常見資料性信息,假設(shè)一篇談?wù)摽肆诸D在家鋤草的報(bào)道,則這篇網(wǎng)頁的內(nèi)容相對于系統(tǒng)中的資料信息延伸距離很大。另一個典型的例子,中央電視臺 的 節(jié)目表網(wǎng)頁,整個網(wǎng)頁是 一份 央視節(jié)目單的具體 展開 。 這些都 是 與 目標(biāo)實(shí)體 相關(guān)但 無法由特征詞簡單覆蓋的 網(wǎng)頁類型。對此要取得好的評價(jià)結(jié)果,則需要更靈活深刻地利用特征詞手段。 反過來,特征詞頻繁出現(xiàn)的網(wǎng)頁未必與目標(biāo)實(shí)體相關(guān)性很大。例如有時 一篇網(wǎng)頁中分散出現(xiàn)了大量某個注 冊實(shí)體的特征詞 卻 并非著意 于談?wù)撛搶?shí)體 , 這是由于 這些代表實(shí)體信息的特征詞,也正是大多情況下人們談?wù)搶?shí)體 時的語言環(huán)境,甚至有時只在這種語言環(huán)境下才可能順帶提起那個實(shí)體而已 。除了人員 單位和人員 職位二元關(guān)系之外, 如果我們的語言技術(shù) 能 準(zhǔn)確地提取出更多特征信息與實(shí)體的確切關(guān)系,則能在衡量實(shí)體相關(guān)度時起到定性作用,而在有限的計(jì)算語言技術(shù)下,即使是特征詞統(tǒng)計(jì)過程中的定量尺度,也是不易把握的。針對上文的一個更普遍而典型的情形是,網(wǎng)頁在 談?wù)?同領(lǐng)域的其他人物時提起了我們要考察的人物實(shí)體 , 這 種情況 將 在網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 中繼續(xù)討論。 目延伸探索新的網(wǎng)絡(luò)服務(wù)(網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià)) 在參與相關(guān)度評價(jià)的前期開發(fā)過程中,通過對網(wǎng)頁文本內(nèi)容及機(jī)器評價(jià)的聯(lián)系思考,作者獲得了新的實(shí)驗(yàn)方向。 網(wǎng)頁是傳遞信息的。從效果上看,人們通過構(gòu)建網(wǎng)頁來傳遞信息,也可以進(jìn)而表達(dá)態(tài) 度和傳遞情感。 前一階段中 的 網(wǎng)頁與注冊實(shí)體信息的相關(guān)度評價(jià),針對用戶感興趣的目標(biāo),優(yōu)化了檢索排序。而有些用戶在得到與關(guān)心的實(shí)體相關(guān)的一批網(wǎng)頁后,也可能會希望進(jìn)一步 分出 其中的正面報(bào)道和負(fù)面報(bào)道,例如企業(yè)希望了解市場上對其產(chǎn)品的正負(fù)面評價(jià),名人希望了解媒體和公眾對自己的評價(jià)。 在滿足這種用戶需求時,機(jī)器需要做的工作就是分析現(xiàn)實(shí)網(wǎng)頁的修辭效果,即分析網(wǎng)頁所表達(dá)出的態(tài)度和情感,反饋給用戶。網(wǎng)頁的內(nèi)容作者,作為話語構(gòu)建者,總是在一定言語環(huán)境下選擇適切的話語來達(dá)到傳遞信息和交流交流感情的目的的,因此我們的考察是北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 引論 - 4 - 針對一種有意識、有目的、有規(guī)律、有效果期望的話語組織行為,也即修辭行為,這里它是以網(wǎng)頁的形式通過網(wǎng)絡(luò)傳播的,而我們需要獲取的是這種修辭行為的修辭效果之一: 網(wǎng) 頁所包涵的褒貶態(tài)度信息 。 網(wǎng)頁的內(nèi)容作者實(shí)施的是話語的構(gòu)建,即對實(shí)體評價(jià)的褒貶信息編碼;網(wǎng)頁讀者實(shí)施的是話語的解構(gòu),即信息的 接收和解析。網(wǎng)頁構(gòu)建者構(gòu)建網(wǎng)頁,需要掌握和運(yùn)用語言知識,讀者解析網(wǎng)頁也要利用語言知識 基礎(chǔ)來 解析網(wǎng)頁的各種話語信息,包括網(wǎng)頁內(nèi)容作者所表達(dá)出來的對談?wù)搶?shí)體的褒貶態(tài)度信息,是一種褒揚(yáng)的態(tài)度還是貶斥的態(tài)度。文本褒貶態(tài)度的機(jī)器評價(jià)其實(shí)是在模擬人對網(wǎng)頁的解析活動。作者以下圖來標(biāo)示褒貶評價(jià)中各元素的關(guān)系,分析 此圖可以 得到,網(wǎng)頁、實(shí)體和語言知識本身,是網(wǎng)頁內(nèi)容作者、讀者及模擬讀者的機(jī)器所共同關(guān)聯(lián)的 因素 。 圖 1 網(wǎng)頁褒貶評價(jià)關(guān) 系分析圖 上圖揭示,機(jī)器的有效模擬,需要關(guān)注三個 要素 :網(wǎng)頁、語言知識、實(shí)體。 網(wǎng)頁 機(jī)器 讀者 語言 實(shí)體 語言 實(shí)體 語言 實(shí)體 構(gòu)造 認(rèn)知 評價(jià) 解析 評價(jià) 認(rèn)知 認(rèn)知 評價(jià) 解讀 網(wǎng)頁內(nèi)容作者 北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 引論 - 5 - 文的研究內(nèi)容及意義 天網(wǎng)知名度系統(tǒng) 是 立足個性化網(wǎng)絡(luò)服務(wù) 的 探索 研究。網(wǎng)頁相關(guān)度評價(jià)利用計(jì)算語言學(xué)技術(shù)針對用戶定制的實(shí)體信息進(jìn)行網(wǎng)頁相關(guān)度的評價(jià) 及排序, 從而獲得了 更高效優(yōu)質(zhì)的個性化服務(wù) 。作者在參與網(wǎng)頁相關(guān)度評價(jià)模塊的開發(fā)過程中積累了對 中文 網(wǎng)頁的 大量 觀察 ,從而 發(fā)現(xiàn)和明確了網(wǎng)頁褒貶評價(jià)的問題目標(biāo)。網(wǎng)頁褒貶 態(tài)度的 機(jī)器評價(jià)研究符合網(wǎng)絡(luò)用戶的進(jìn)一步查詢需求, 也 符合天網(wǎng)知名度系統(tǒng)個性化網(wǎng)絡(luò)服務(wù)的 研究定位 , 同時可以利用 系統(tǒng) 已有的實(shí)體針對性平臺基 礎(chǔ)。 此 項(xiàng)實(shí)驗(yàn)具有研究和實(shí)驗(yàn)的可延續(xù)性。 另一方面,網(wǎng)絡(luò)傳媒在現(xiàn)代社會中 充當(dāng)著 信息傳播的重要手段。網(wǎng)絡(luò)文本 是典型的 傳播性文本?,F(xiàn)實(shí)網(wǎng)頁中的褒貶態(tài)度表達(dá)往往含有明確的目標(biāo)、動機(jī)和效果期望, 因此 構(gòu)造者 會很重視語言知識 這個 交流 手段 , 網(wǎng)頁中的褒貶態(tài)度表達(dá) 也就是一個 典型的修辭行為,所以實(shí)驗(yàn) 可以充分利用修辭 學(xué) 的理論 成果 ,具有理論指導(dǎo)基礎(chǔ)。而從語言學(xué)角度看,修辭涉及語言的附加意義, 這 區(qū)別于概念意義。 因而 此 項(xiàng)實(shí)驗(yàn)具有 豐富 創(chuàng)新性 研究 價(jià)值。 文 的 結(jié)構(gòu) 本文后面的部分將介紹三部分內(nèi)容。首先是理論基礎(chǔ)和實(shí)驗(yàn)資源的考察。這一部分既驗(yàn) 證實(shí)驗(yàn)的可行性,也是作者完成資源積累作好實(shí)驗(yàn)準(zhǔn)備的 基礎(chǔ)工作 過程。第二部分介紹網(wǎng)頁褒貶機(jī)器評價(jià)模塊的 具體 設(shè)計(jì)實(shí)現(xiàn)。最后給出實(shí)驗(yàn)結(jié)果并做合理性分析。 此 項(xiàng) 實(shí)驗(yàn)中, 本人 的原創(chuàng)性實(shí)驗(yàn)工作主要包括 針對 領(lǐng)域 的 褒貶詞集的 語料搜集整理 和網(wǎng)頁褒貶機(jī)器評價(jià)模塊的全部設(shè)計(jì)與實(shí)現(xiàn)。實(shí)驗(yàn)本身涉及網(wǎng)頁、實(shí)體、語言知識三個 要素 。對于實(shí)驗(yàn) 處理對象 網(wǎng)頁褒貶態(tài)度的話語形式 的關(guān)注 自始至終貫穿本作者的 思考和 實(shí)驗(yàn)過程,指導(dǎo)作者選擇合適的資源或?qū)崿F(xiàn)策略來 捕捉 和 覆蓋 目標(biāo) 問題 ,這 也將成文下文論述的重要線索。 北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 相關(guān)工作及工作基礎(chǔ) - 6 - 第 2章 相關(guān)工作及工作基礎(chǔ) “修辭就是在運(yùn)用 語言的時候根據(jù)一定的目的精心選擇語言材料的過程?!?文獻(xiàn) 7, 網(wǎng)頁中褒貶態(tài)度的表達(dá),是有目標(biāo)有指向的評價(jià)活動, 因此 是典型的修辭活動。修辭者要組織出適切、有效的話語,需要掌握修辭手段的結(jié)構(gòu)和功能。機(jī)器進(jìn)行網(wǎng)頁修辭效果的判斷,也必須利用這些手段 和 規(guī)律來展開修辭效果的分析。 所謂修辭手段就是修辭所需要的材料,主要是指可以利用的語言要素和輔助性非語言要素。按照是否是語言要素,修辭手段 可以分成為語言修辭手段和非語言修辭手段。前者包括詞語、句子、句群 、辭格和語篇。后者主要是指一些輔助性的文字符號以及表 情、動作等。 文獻(xiàn) 3, 表情、動作等輔助手段 可以用在人機(jī)交互多媒體技術(shù)中 , 本實(shí)驗(yàn)?zāi)壳搬槍μ炀W(wǎng)知名度系統(tǒng)的大規(guī)模網(wǎng)頁庫進(jìn)行文本處理,因此下面主要考察語言手段,關(guān)注其中與褒貶 態(tài)度的表達(dá) 有關(guān)聯(lián) 的理論。 言手段 語手段 文章是 由 句子構(gòu)成的,句子的基本單位是詞語。詞語是組成能完成一定交際任務(wù)的句子的基本手段。 文獻(xiàn) 3, 詞性: 詞語可以分為名次、動詞、形容性等。詞語的語法功能分類是為了進(jìn)行語法分析,這有助于解決話語組織的正確性問題,即話語是否 合乎 語法規(guī)則的問題,但 卻 不能解決詞語的其他修辭 問題。 詞義及詞語的修辭功能 :所謂詞語的意義, 實(shí)際 上就是語音或文字符號在人們的心理上引發(fā)的心理形象或記憶、認(rèn)識、經(jīng)驗(yàn)、體驗(yàn)和感受等。 在運(yùn)用中,實(shí)際上是起一定的刺激中介作用。因此說,詞語實(shí)際上所具有的是表意功能或修辭功能。 文獻(xiàn) 3, 語對人腦的 刺激作用 有兩種, 離開言語環(huán)境所具有的基本表意功能,即語言修辭功能,和在具體的言語環(huán)境中的表意功能,即言語修辭功能。 文獻(xiàn) 3, 語的語言修辭功能包括兩北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 相關(guān)工作及工作基礎(chǔ) - 7 - 個方面:一是表示 概念意義 (或理性意義),二是表示 附加意義的功能 (語體、文化 、態(tài)度等標(biāo)示功能)。 文獻(xiàn) 3, 示說話者的 褒貶態(tài)度 ,就是詞語的 附加功能之一 。 在漢語中,具有表示態(tài)度功能的詞語很多,例如“撤退 逃跑”,“效果 后果”,“鼓勵 教唆”,“起義 叛亂”,“愛護(hù) 庇護(hù)”,“團(tuán)結(jié) 勾結(jié)”等,這些詞對中,前者表明了說話者對所談及事物的肯定、擁護(hù)、贊成和褒揚(yáng)態(tài)度,后者則表明了說話者對所談及事物的否定、反對、不贊成甚至貶斥的態(tài)度。 文獻(xiàn) 3, 與一般詞語一樣,熟語除標(biāo)示理性意義的功能之外,也具有一些附加修辭功能。比如“守株待兔”、“揠苗助長”、“刻舟求劍”、“陽奉陰違 ”、“口是心非”、“狼子野心”、“狼心狗肺”、“不三不四”等成語,“抓小辮”、“吃老本”、“吹牛皮”、“出洋相”、“開小差”、“半吊子”等慣用語,“搟面杖吹火 一竅不通”、“老鼠過街 人人喊打”等歇后語,多具有貶斥功能。而“堅(jiān)持不懈”、“老驥伏櫪”、“廢寢忘食”、“眾志成城”、“一心一意”等成語,“眾人拾柴火焰高”、“三個臭皮匠,頂一個諸葛亮”、“若要工夫深,鐵杵磨成針”等諺語,“知識就是力量” 、“謙受益,滿招損” 、“千里之行,始于足下” 、“世上無難事,只怕有心人” 、“良藥苦口利于病,忠言逆耳利 于行”等警句格言,則具有褒揚(yáng)功能。 文獻(xiàn) 3, 在話語組織過程中,選擇什么詞語直接關(guān)系到修辭的效果。比如形容好喝酒的 人 ,就有許多詞語可供選擇:“酒仙” 、 “酒鬼” 、 “酒囊飯袋” 、 “酒桶” 、 “酒簍子”等等。每一個詞語的修辭功能都不完全一樣。每一個詞語的修辭功能都不完全一樣?!熬葡伞蓖ǔJ侵改切╇m然好喝酒,但卻品性高雅的人,“酒鬼” 、 “酒囊飯袋” 、 “酒桶” 、 “酒簍子”,則多形容和比喻那些 酗酒 且無所作為的人。這些同中有異的詞語為話語組織提供了選擇余地,所以說,詞語是重要的修辭手段。 文獻(xiàn) 3, 根據(jù)詞語修辭功能的不同,可以從修辭效果的角度來劃分: 分為書面語詞語、口語詞語;或者褒義詞語、 貶義 詞語等等。這些功能表示了詞語的使用范圍,比如是書面語還是口語,說話者的態(tài)度 是 褒還是貶。 詞語的 褒貶 修辭功能劃分 有利于人們使用詞語來有目標(biāo)地構(gòu)造話語,也方便人們解析說話人的話語信息。 褒貶的劃分確定了詞語褒貶評價(jià)的極性, 而 褒貶 評價(jià)不 只 是兩極對立的,也常會受到程度性修飾,例如“有點(diǎn)吹毛求疵” ,“非常絢麗” 。有時也 甚至 因?yàn)樾揎椂淖儤O性 方向 ,例如“高”這個詞語本身屬于中性,如果說“有點(diǎn)太高了”則往 往是 否定的態(tài)度 。 北京大學(xué)碩士學(xué)位論文 中文 網(wǎng)頁褒貶態(tài)度的機(jī)器評價(jià) 相關(guān)工作及工作基礎(chǔ) - 8 - 詞語的形式 :詞語包括 詞和短語 。短語包括固定的短語和不固定的短語。固定短語包括成語、 慣用語 、諺語、格言及歇后語等。 文獻(xiàn) 3, 固定的短語同樣有修辭功能,關(guān)于不固定的短語我們后面會從模板的角度來考慮。 式手段 漢語不僅有豐富的詞匯手段而且有豐富的句式資源。漢語句式按照語氣劃分為 陳述句 、疑問句 、 祈使句 和 感嘆句 四種。話語組織匯過程中,我們可以根據(jù)表達(dá)需要,選擇不同語氣的句式。 文獻(xiàn) 3, 其中,陳述句和感嘆句句式對褒貶態(tài)度的表達(dá)有影響。 陳述句 是四種語氣的句式中使用頻率 最高的。陳述句主要是對事物、情況等進(jìn)行描述的句子。陳述句還有肯定和否定之分。 文獻(xiàn) 3, 中的否定句會造成褒貶態(tài)度的指向改變。除肯定句和否定句之外,還有一種雙重否定句,表達(dá)的是肯定的意思,可 起 強(qiáng)調(diào)作用。例如:“我們不是沒有能力解決這個問題,而是目前時機(jī)還沒到”。 文獻(xiàn) 3, 感嘆句 用以表達(dá)強(qiáng)烈的情感。例如:白楊樹實(shí)在不平凡,我贊美白楊樹?。┒埽喊讞疃Y贊)如果采用陳述語氣,則顯得十分平淡。 文獻(xiàn) 3, 格手段 漢語中的辭格非常豐富。一類重在深化話語的意義,如比喻、 借 代 、比擬等,這類辭格可以體現(xiàn)說寫人的態(tài)度、情感,例如比喻辭格。如果用來打比方的事物是 美好 的,那么表示說話人對被比方的 事物 的態(tài)度是褒的,反之則是貶的。另一類則是話語形式的 辭格 ,例如對偶、排比、反復(fù)等。 文獻(xiàn) 3, 目前還沒有可用的 針對 辭格形式的計(jì)算識別 技術(shù) 和考量方法 。考慮到 中文 網(wǎng)頁的文本大多是媒體傳播 型 的,辭格的豐富性不及文學(xué)類文本,因此,本 評價(jià) 系統(tǒng)中對于用辭格來表達(dá)的褒貶態(tài)度,將簡化為利用詞語手段等來捕捉,例如,“她像盛開的蓮花”與“她端莊美麗” ,機(jī)器評價(jià)能識別后者,但不理解前者,除非機(jī)器被 灌輸語體“蓮花”這個詞的修辭意義。當(dāng)然,如果句子是“她像蓮花一樣端莊美麗” ,那么機(jī)器同樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年德清縣某事業(yè)單位招聘工作人員備考題庫(含答案詳解)
- 2026年南京市溧水區(qū)教育局所屬高中公開招聘教師備考題庫及參考答案詳解
- 高中生利用X射線衍射技術(shù)分析不同產(chǎn)地茶葉晶體結(jié)構(gòu)特征的課題報(bào)告教學(xué)研究課題報(bào)告
- 2025年寧波市海欣控股集團(tuán)有限公司第二批次公開招聘國有企業(yè)工作人員備考題庫及答案詳解(奪冠系列)
- 2026年陜西郵政校園招聘(含榆林崗)備考題庫及1套完整答案詳解
- 《農(nóng)村一二三產(chǎn)業(yè)融合的利益聯(lián)結(jié)機(jī)制與農(nóng)村農(nóng)業(yè)產(chǎn)業(yè)可持續(xù)發(fā)展研究》教學(xué)研究課題報(bào)告
- 西藏自治區(qū)2026年度政府部門所屬事業(yè)單位急需緊缺人才引進(jìn)備考題庫及一套答案詳解
- 2026年首都醫(yī)科大學(xué)附屬北京安貞醫(yī)院科技處科研管理人才招聘備考題庫及完整答案詳解1套
- 2025年區(qū)塊鏈設(shè)備預(yù)測性維護(hù)案例分析報(bào)告
- 2025年海水養(yǎng)殖網(wǎng)箱抗風(fēng)浪設(shè)備技術(shù)報(bào)告
- 入暗股合同范本
- 2026年國家電網(wǎng)招聘之通信類考試題庫300道帶答案(考試直接用)
- 電力安全生產(chǎn)典型違章300條
- 2025年國企招標(biāo)面試題庫及答案
- 【生 物】復(fù)習(xí)課件-2025-2026學(xué)年人教版生物八年級上冊
- 委內(nèi)瑞拉變局的背后
- 隔油池清洗合同范本
- (新教材)2026年人教版八年級下冊數(shù)學(xué) 第二十章 思想方法 勾股定理中的數(shù)學(xué)思想 課件
- 航道工程社會穩(wěn)定風(fēng)險(xiǎn)評估報(bào)告
- 2025年軍考真題試卷及答案
- 力的合成與分解說課課件-高一上學(xué)期物理人教版
評論
0/150
提交評論