數(shù)據(jù)結(jié)構(gòu)課程設(shè)計報告-中文分詞_第1頁
數(shù)據(jù)結(jié)構(gòu)課程設(shè)計報告-中文分詞_第2頁
數(shù)據(jù)結(jié)構(gòu)課程設(shè)計報告-中文分詞_第3頁
數(shù)據(jù)結(jié)構(gòu)課程設(shè)計報告-中文分詞_第4頁
數(shù)據(jù)結(jié)構(gòu)課程設(shè)計報告-中文分詞_第5頁
免費預覽已結(jié)束,剩余11頁可下載查看

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

計算機科學學院數(shù)據(jù)結(jié)構(gòu)課程設(shè)計中文分詞學生姓名:朱亮學號:123455012014業(yè):計算機科學與技術(shù)班級:12級(2)班指導教師姓名及職稱:陳明講師起止時間:2014年3月一一2014年4月1.1研究背景,目的及意義隨著信息時代的到來,可供人們查閱和檢索的中文信息越來越多,如何在茫茫中文信息世界中尋找到我們需要的資料成為一個越來越重要的問題。在這個信息泛濫的時代,用人工處理信息已經(jīng)不能滿足需求。所以,就要借助于自動化的方法,幫助人們歸納,檢索和管理信息,以此來解決現(xiàn)代社會信息豐富但知識難以獲取的矛盾?,F(xiàn)在已經(jīng)有了很多自動化的工具來自動摘要,自動文件檢索等各種語言處理技術(shù)。在各種各樣的語言處理技術(shù)中 ,核心就是分詞,通過分詞簡化語言處理的過程,所以,研究中文分詞對語言處理技術(shù)來說是非常有意義的.中文分詞,很明顯就是借助計算機給中文段詞,使其能正確地表達想要表達的內(nèi)容。首先,中文比起其他語言有著其特有的特點,中文的詞可以是單個字,也可以是雙個字,或者是像成語一樣的多字詞,所以中文分詞是個非常復雜的問題。目前來看,我們已經(jīng)能看見很多的中文分詞軟件,如盤古分詞,IKAnalyzer,Paoding和FreeICTCLAS此類已經(jīng)分廠成熟的中文分詞軟件,他們具有占用內(nèi)存小,分詞準確,分詞效率搞,用戶體驗良好的特點,因為有了這些中文分詞系統(tǒng)的存在,才能為各種形式的需要用到語言處理技術(shù)的軟件給予技術(shù)支持基礎(chǔ),為中文分詞的發(fā)展做出了極大的貢獻。2.概要設(shè)計要完成整個中文分詞系統(tǒng),第一,需要有實現(xiàn)分詞功能的源代碼,來對輸入的文本信息進行識別和分詞,第二,進行分詞需要有大量的詞組文本作為基礎(chǔ)來為分詞系統(tǒng)提供樣本來分詞,第三,作為一個實用性的語言處理軟件,需要有一個容易操作的界面,如果把整個程序看做一個圓的話,那么上述三者的關(guān)系就如下圖1-1的關(guān)系一樣,privatevoidbutton_Split_Click(objectsender,System.EventArgse)privatevoidbutton_Split_Click(objectsender,System.EventArgse)3.詳細設(shè)計分詞功能實現(xiàn):///應用程序的主入口點。///</summary>[STAThread]staticvoidMain()Application.Run(newForm1());privatevoidForm1_Load(objectsender,System.EventArgse){//加載詞語列表seg=newSegment();seg.InitWordDics();label_Time.Text=seg.EventTime.ToString();//分詞if(seg!=null)seg.Separator="/";textBox_Test.Text=seg.SegmentText(textBox_Test.Text,true);label_Time.Text=seg.EventTime.ToString();privatevoidbutton1_Click(objectsender,System.EventArgse)privatevoidbutton_Sort_Click(objectsender,System.EventArgse)seg.SortDic();label_Time.Text=seg.EventTime.ToString();詞組數(shù)據(jù)文檔:sDict.txtsNoise.txtsNumber.txtsPrefix.txtsWord.txt圖形界面實現(xiàn):publicForm1()////Windows窗體設(shè)計器支持所必需的//InitializeComponent();調(diào)試分析報告序號時間問題解決方法12014.4.1using System.Windows.Forms;的語句,但生成解決方案時出錯在項目上點擊鼠標右鍵->添加引用->.Net選項卡->System.Windows.Forms.dll->選擇->確定22014.4.3不知道如何引用可視化窗體using System.Drawing的利用32014.4.7缺少一種分詞方法使用usingShootSeg為分詞提供源代碼用戶使用說明我所編寫的這個中文分詞系統(tǒng)使用起來非常簡單易懂 ,很容易上手操作.首先打開.EXE文件如圖1-2圖1-2然后再白色輸出框內(nèi)輸入文本信息如圖 1-3點擊一鍵分詞按鈕如圖1-4一S分詛圖1-4程序就會完成分詞任務如圖1-5輸入州暫要爛入/的/信馴31.5001中文分詞v_圖1-5程序還會顯示完成分詞的時間如圖1-631£001圖1-6使用完程序后,還可以按界面右上方退出鍵退出程序以釋放空間如圖 1-7圖1-7以上便是這個程序的使用方法,堅持簡潔的原則,本程序簡單易懂,分詞速度快,效率高,擁有很好的用戶體驗.測試結(jié)果測試文本為前文一段話:在各種各樣的語言處理技術(shù)中,核心就是分詞,通過分詞簡化語言處理的過程,所以,研究中文分詞對語言處理技術(shù)來說是非常有意義的.結(jié)果如圖1-8中文分詞圖1-8分詞結(jié)果準確源程序附錄中文分詞源代碼usingSystem;usingSystem.Drawing;usingSystem.Collections;usingSystem.ComponentModel;usingSystem.Windows.Forms;usingSystem.Data;usingSystem.IO;usingShootSeg;namespaceSegTest{///<summary>///Form1 的摘要說明。///</summary>publicclassForm1:System.Windows.Forms.Form{Segmentseg;///<summary>///必需的設(shè)計器變量。///</summary>///privateSystem.ComponentModel.Containercomponents=null;privateSystem.Windows.Forms.Buttonbutton_Split;privateLabellabel_Time;privateSystem.Windows.Forms.TextBoxtextBox_Test;publicForm1(){////Windows窗體設(shè)計器支持所必需的//InitializeComponent();////TODO:在InitializeComponent調(diào)用后添加任何構(gòu)造函數(shù)代碼/////<summary>///清理所有正在使用的資源。///</summary>protectedoverridevoidDispose(booldisposing){if(disposing){if(components!=null){components.Dispose();}base.Dispose(disposing);#regionWindows窗體設(shè)計器生成的代碼///<summary>///設(shè)計器支持所需的方法-不要使用代碼編輯器修改///此方法的內(nèi)容。///</summary>privatevoidInitializeComponent(){this.textBox_Test=newSystem.Windows.Forms.TextBox();this.button_Split=newSystem.Windows.Forms.Button();this.label_Time=newSystem.Windows.Forms.Label();this.SuspendLayout();////textBox_Test//this.textBox_Test.Anchor=((System.Windows.Forms.AnchorStyles)((((System.Windows.Forms.AnchorStyles.Top|System.Windows.Forms.AnchorStyles.Bottom)|System.Windows.Forms.AnchorStyles.Left)|System.Windows.Forms.AnchorStyles.Right)));this.textBox_Test.Location=newSystem.Drawing.Point(16,16);this.textBox_Test.Multiline=true;this.textBox_Test.Name="textBox_Test";this.textBox_Test.ScrollBars=System.Windows.Forms.ScrollBars.Vertical;this.textBox_Test.Size=newSystem.Drawing.Size(512,208);this.textBox_Test.TabIndex=1;this.textBox_Test.TabStop=false;////button_Split//this.button_Split.Anchor=((System.Windows.Forms.AnchorStyles)((System.Windows.Forms.AnchorStyles.Bottom|System.Windows.Forms.AnchorStyles.Left)));this.button_Split.BackColor=System.Drawing.SystemColors.MenuHighlight;this.button_Split.Location=newSystem.Drawing.Point(220,230);this.button_Split.Name="button_Split";this.button_Split.Size=newSystem.Drawing.Size(118,34);this.button_Split.TabIndex=3;this.button_Split.Text="一鍵分詞";this.button_Split.UseVisualStyleBackColor=false;this.button_Split.Click+=newSystem.EventHandler(this.button_Split_Click);////label_Time//this.label_Time.Anchor=((System.Windows.Forms.AnchorStyles)((System.Windows.Forms.AnchorStyles.Bottom|System.Windows.Forms.AnchorStyles.Right)));this.label_Time.AutoSize=true;this.label_Time.Location=newSystem.Drawing.Point(424,240);this.label_Time.Name="label_Time";this.label_Time.Size=newSystem.Drawing.Size(0,12);this.label_Time.TabIndex=4;////Form1//this.AutoScaleBaseSize=newSystem.Drawing.Size(6,14);this.ClientSize=newSystem.Drawing.Size(544,269);this.Controls.Add(this.label_Time);this.Controls.Add(this.button_Split);this.Controls.Add(this.textBox_Test);this.MaximizeBox=false;this.MinimizeBox=false;this.Name="Form1";this.ShowIcon=false;this.StartPosition=System.Windows.Forms.FormStartPosition.CenterScreen;this.Text=" 中文分詞";this.Load+=newSystem.EventHandler(this.Form1_Load);this.ResumeLayout(false);this.PerformLayout();}#endregion///<summary>///應用程序的主入口點。///</summ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論