黃玉蘭提綱工作總結(jié)_第1頁
黃玉蘭提綱工作總結(jié)_第2頁
黃玉蘭提綱工作總結(jié)_第3頁
黃玉蘭提綱工作總結(jié)_第4頁
黃玉蘭提綱工作總結(jié)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

工作總結(jié)---黃玉蘭提綱工作匯總有意義串研究工作匯總搜索日志分析系統(tǒng)smark拼音漢字系統(tǒng)調(diào)研有意義串相關(guān)工作詞聚類調(diào)研工作匯總--搜索日志分析系統(tǒng)smark(1)

任務(wù):根據(jù)所給的搜索日志進(jìn)行數(shù)據(jù)分析,提供有用信息。提供數(shù)據(jù)中所能反映的商機以網(wǎng)頁的形式提供服務(wù)。工作匯總--搜索日志分析系統(tǒng)smark(2)

已完成的工作:重復(fù)串的TopN排序。搜索詞的TopN排序。查詢詞的統(tǒng)計信息,如時間分布,地域分布等。查詢詞分類,用戶分類。加入檢索功能。網(wǎng)頁展示界面。工作匯總--搜索日志分析系統(tǒng)smark(3)Smark系統(tǒng)數(shù)據(jù)展示界面Smark系統(tǒng)功能選擇界面工作匯總--拼音漢字轉(zhuǎn)換系統(tǒng)調(diào)研(1)

任務(wù):調(diào)研拼音到漢字的轉(zhuǎn)換方法對快速輸入法提出自己的設(shè)計想法工作匯總--拼音漢字系統(tǒng)調(diào)研(2)

工作進(jìn)展:對音字轉(zhuǎn)化的現(xiàn)狀有了基本了解整理了音字轉(zhuǎn)換系統(tǒng)的組成提出改進(jìn)之處工作匯總--有意義串相關(guān)工作

熟悉師姐的程序,處理不同數(shù)據(jù)商業(yè)網(wǎng)頁數(shù)據(jù)、專利數(shù)據(jù)等根據(jù)不同數(shù)據(jù)改進(jìn)程序?qū)懹幸饬x串方面的專利

面向互聯(lián)網(wǎng)的有意串挖掘?qū)@墨I(xiàn)的領(lǐng)域術(shù)語抽取方法以及專利搜索輔助系統(tǒng)改進(jìn)發(fā)現(xiàn)有意義串的方法基于偽相關(guān)反饋的領(lǐng)域詞典生成算法基于窗口的有意義串挖掘方法有意義串挖掘軟件GoldMiner重寫有意義串挖掘程序加入檢索功能以及界面展示功能工作匯總--詞聚類調(diào)研目標(biāo):給定一個新出現(xiàn)的有意義串,可以找跟它相近的詞,通過這些詞推測這個有意義串的意思和用法。完成情況:整理10多篇關(guān)于聚類的文章實驗效果不是很好,有待改進(jìn)提綱工作匯總有意義串研究有意義串研究背景改進(jìn)方法工作計劃背景--有意義串定義

定義:包含具體語義,并且能夠做為一個靈活獨立的語言單元在不同語境中使用的字符串特點:結(jié)構(gòu)上:結(jié)構(gòu)較穩(wěn)定,具有一定的凝固性。 語義上:表意完整單一、所指明確。 語用上:使用環(huán)境靈活多樣。統(tǒng)計上:在大規(guī)模真實文本中有一定流通度。小說語料專利語料BBS標(biāo)題語料背景--有意義串應(yīng)用索引詞優(yōu)化社會熱點挖掘文本表示語料建設(shè)專業(yè)術(shù)語提取背景--現(xiàn)有的方法

切分方法 組合是利用詞匯的共同屬性,如MI、MI和RIDF、MI和ContextDependence等。組合方法 基于壓縮的切分方法等。背景--鄰接類別(1)左鄰接類別:在串左邊出現(xiàn)的字或詞的種類數(shù)量。右鄰接類別:在串右邊出現(xiàn)的字或詞的種類數(shù)量。鄰接類別:左鄰接類別和右鄰接類別的較小值。背景--鄰接類別(2) 招聘版主 申請版主須知 各位版主請看 請教版主一個啟動的問題 請教版主關(guān)于還原卡的問題 左鄰接類別=4 右鄰接類別=5 鄰接類別=min{4,5}=4背景--位置成詞概率位置成詞概率(Position-WordProbability):漢字c的位置成詞概率PWP(c,pos)計算如下:背景—提取流程有意義串研究背景改進(jìn)方法工作計劃改進(jìn)方法基于偽相關(guān)反饋的領(lǐng)域詞典生成算法基于窗口的有意義串挖掘方法基于偽相關(guān)反饋的領(lǐng)域詞典生成算法(1)主要思想:把領(lǐng)域詞典生成的過程視為一個信息檢索的過程假設(shè)初始檢索出來的前若干個結(jié)果與領(lǐng)域相關(guān),將結(jié)果加到詞典中,重新檢索。查找重復(fù)串上下文鄰接分析成詞概率分析分詞詞典成詞概率表語料有意義串更新詞典更新成詞概率表基于偽相關(guān)反饋的領(lǐng)域詞典生成算法(2)基于窗口的有意義串挖掘方法

方法 1.從整個語料集上查找有意義串。2.把整個語料集分成若干個子語料(如小說語料按章節(jié)份),從子語料中查找有意義串。3.把上兩步的結(jié)果合并起來。效果 1.提高精度,找到只在局部出現(xiàn)而全局信息不夠高的重復(fù)串。(小說語料實驗效果并不是特別明顯) 2.提高速度有意義串研究背景改進(jìn)方法工作計劃工作計劃提高有意義串挖掘算法的效率將有意義串加入到不同應(yīng)用中有意義串分析、展示系統(tǒng)工作計劃(1)

--提高有意義串挖掘算法的效率精度 前N個詞的準(zhǔn)確應(yīng)經(jīng)很高。(BBS標(biāo)題10M語料的前500個詞的準(zhǔn)確率為95%)后面的詞的準(zhǔn)確率越來越低。希望用統(tǒng)計的方法提高這部分的準(zhǔn)確率。速度 現(xiàn)處理有意義串的速度還不高。處理速度主要跟生成的重復(fù)串的數(shù)目有關(guān)。 工作計劃(2)

--將有意義串加入到不同應(yīng)用中領(lǐng)域詞典 如專利領(lǐng)域,開發(fā)專利詞典。在專利檢索過程中,輔助專利分析師或普通的專利檢索者。文本分類 將有意義串挖掘應(yīng)用到文本分類中。先找出文檔集合中的有意義串,再根據(jù)有意義串對文檔進(jìn)行分類。文本聚類或者話題聚類 可以應(yīng)用到短文本的分析中。安全應(yīng)用 用一個詞進(jìn)行聚類,找出詞形或者用法與其相近的詞。如“法輪功”與“法車侖功”屬于詞形相近的詞。熱點發(fā)現(xiàn) 在以句子(或段落)為單位的窗口中,兩個有意義串經(jīng)常共現(xiàn),則兩個有意串很可能構(gòu)成一個熱點話題。如“山西煤礦”和“礦難”就組成了一個社會熱點話題。工作計劃(3)

--有意義串分析、展示系統(tǒng)

做一個有意義串展示平臺,展示內(nèi)容如下:有意串的語用環(huán)境。 有意義串的左右鄰接詞 包含有意義串的句子同義詞 通用詞典和有意義串各找一些同形詞 同上,嘗試用編輯距離作共現(xiàn)詞 經(jīng)常會在一個句子或段落中出現(xiàn)的詞已完成的論文基于偽相關(guān)反饋模型的領(lǐng)域詞典生成算法.黃玉蘭,龔才春,許洪波,程學(xué)旗.第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議基于多重索引模型的大規(guī)模詞典近似匹配算法.龔才春,黃玉蘭,許洪波,白碩.第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議.CaichunGong,YulanHuang,XueqiCheng,ShuoBai.DetectingNear-DuplicatesinLarge-ScaleShortTextDatabases.InProceedingofthePacific-AsiaConferenceonKnowledgeDiscoveryandDataMining2008.審稿中.已完成的專利面向互聯(lián)網(wǎng)的有意串挖掘。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論