自然語言處理的學(xué)科定位和發(fā)展特點(diǎn)_第1頁
自然語言處理的學(xué)科定位和發(fā)展特點(diǎn)_第2頁
自然語言處理的學(xué)科定位和發(fā)展特點(diǎn)_第3頁
自然語言處理的學(xué)科定位和發(fā)展特點(diǎn)_第4頁
自然語言處理的學(xué)科定位和發(fā)展特點(diǎn)_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

自然語言處理的學(xué)科定位和發(fā)展特點(diǎn)馮志偉教育部語言文字應(yīng)用研究所0.引言采用計(jì)算機(jī)技術(shù)來研究和處理自然語言是20世紀(jì)40年代末期和50年代才開始的,五十多年來,這項(xiàng)研究取得了長足的進(jìn)展,成為了計(jì)當(dāng)代語言學(xué)中一門重要的新興學(xué)科-自然語言處理(NaturalLanguageProcessing,簡稱NLP)。在信息網(wǎng)絡(luò)時(shí)代,自然語言處理引起了越來越多的語言學(xué)者的重視,成為了當(dāng)代語言學(xué)中的“顯學(xué)”。如何對自然語言處理進(jìn)行正確的學(xué)科定位,使我們認(rèn)識(shí)到自然語言處理在學(xué)科體系中的位置,從而自覺地推動(dòng)自然語言處理的發(fā)展,是一個(gè)至關(guān)重要的問題。我們可以從自然語言處理的過程、自然語言處理的范圍以及自然語言處理的歷史三個(gè)角度來考察自然語言處理的學(xué)科定位問題。從自然語言處理的過程來考察它的學(xué)科定位,是從縱的角度來討論;從自然語言處理的范圍來考察它的學(xué)科定位,是從橫的角度來討論,縱橫交錯(cuò),我們對于自然語言處理的學(xué)科定位就可以在共時(shí)的平面上得到比較清晰的認(rèn)識(shí)。最后,我們再從自然語言處理的歷史來考察,也就是從發(fā)展的角度來討論,這樣,我們對于自然語言處理的學(xué)科定位就可以在歷時(shí)的平面上得到比較清晰的認(rèn)識(shí)。從自然語言處理的過程來考察首先,我們從自然語言處理的過程,也就是從縱的角度來討論這個(gè)問題。我們認(rèn)為,計(jì)算機(jī)對自然語言的研究和處理,一般應(yīng)經(jīng)過如下四個(gè)方面的過程:第一,把需要研究的問題在語言學(xué)上加以形式化,建立語言的形式化模型,使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來;這個(gè)過程可以叫做“語言的形式化”。第二,把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為算法,這個(gè)過程可以叫做“描述的算法化”;第三,根據(jù)算法編寫計(jì)算機(jī)程序,使之在計(jì)算機(jī)上加以實(shí)現(xiàn),建立各種實(shí)用的自然語言處理系統(tǒng);這個(gè)過程可以叫做“計(jì)算的程序化”。第四,對于所建立的自然語言處理系統(tǒng)進(jìn)行評(píng)測,使之不斷地改進(jìn)質(zhì)量和性能,以滿足用戶的要求;這個(gè)過程可以叫做“系統(tǒng)的實(shí)用化”。美國計(jì)算機(jī)科學(xué)家BillManaris在1999年出版的《計(jì)算機(jī)進(jìn)展((AdvancedinComputers)第47卷的《從人-機(jī)交互的角度看自然語言處理》一文中曾經(jīng)給自然語言處理提出了如下的定義:“自然語言處理可以定義為研究在人與人交際中以及在人與計(jì)算機(jī)交際中的語言問題的一門學(xué)科。自然語言處理要研制表示語言能力(linguisticcompetence)和語言應(yīng)用(linguisticperformance)的模型,建立計(jì)算框架來實(shí)現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評(píng)測技術(shù)。”這個(gè)定義的英文如下:“NLPcouldbedefinedasthedisciplinethatstudiesthelinguisticaspectsofhuman-humanandhuman-machinecommunication,developsmodelsoflinguisticcompetenceandperformance,employscomputationalframeworkstoimplementprocessincorporatingsuchmodels,identifiesmethodologiesforiterativerefinementofsuchprocesses/models,andinvestigatestechniquesfOrevaluatingtheresultsystems.”(BillManaris:<Naturallanguageprocessing:Ahuman-computerinteractionperspective>,AdvancesinComputers,Volume47,1999)BillManaris關(guān)于自然語言處理的這個(gè)定義,比較全面地表達(dá)了計(jì)算機(jī)對自然語言的研究和處理的上述四個(gè)方面的過程。我們認(rèn)同這樣的定義。在2001年的美國電影《太空奧德賽》中(StanleyKubrick和ArthurC.Charke編,Screenplayof2001:ASpaceOdysse》機(jī)器人HAL和Dave進(jìn)行了如下對話:DaveBownman:Openthepodbaydoors,HAL.HAL:I’msorryDave,I’amafraidIcan’tdothat.(DaveBownman:HAL,請你打開太空艙的分離艙門。HAL:對不起,Dave,我不能這樣做。)HAL實(shí)際上是一臺(tái)名為“9000”的電子計(jì)算機(jī),這臺(tái)計(jì)算機(jī)具有二十世紀(jì)最受人們認(rèn)可的一些特征。影片中的HAL是一個(gè)具有高級(jí)的語言處理能力并且能夠說英語和理解英語的智能機(jī)器人(artificialagent),在影片的情節(jié)的關(guān)鍵時(shí)刻,HAL甚至能夠進(jìn)行唇讀(readinglip),上面就是電影中的角色Dave先生請求智能機(jī)器人HAL打開宇宙飛船的分離艙門(podbaydoors)與HAL之間的一段對話。HAL的作者ArthurC.Charke曾經(jīng)樂觀地預(yù)言,到一定的時(shí)候,我們就可以制造出像HAL這樣的智能機(jī)器人。但是,現(xiàn)在我們離這樣的預(yù)言還有多遠(yuǎn)呢?為了讓HAL具有與語言相關(guān)的能力,我們還應(yīng)該做些什么呢?我們認(rèn)為,像HAL這樣的機(jī)器人至少應(yīng)該通過語言與人類進(jìn)行交流。其中包括通過語音識(shí)別(speechrecognition)和自然語言理解(naturallanguageprocessing,當(dāng)然包括唇讀)來與人類溝通,通過自然語言生成(naturallanguagegeneration)和語音合成(speechsynthesis)來與人類交際。HAL也應(yīng)該能夠做信息檢索(informationretrieval,發(fā)現(xiàn)它所需要的文本資源在哪里)和信息抽取(informationextraction,從文本資源中抽取它所需要的信息),并且進(jìn)行推理(reference,根據(jù)已知的事實(shí)推出結(jié)論)。盡管這些問題現(xiàn)在還遠(yuǎn)遠(yuǎn)沒有完全解決,HAL需要的一些與語言相關(guān)的技術(shù)現(xiàn)在已經(jīng)研制出來了,有一部分技術(shù)已經(jīng)商品化。解決這樣的問題以及其他類似的問題,是自然語言處理,計(jì)算語言學(xué),語音識(shí)別與語音合成的主要研究內(nèi)容。我們把它們統(tǒng)稱為語音與語言的計(jì)算機(jī)處理(speechandlanguageprocessing),或者簡單地稱為自然語言處理(naturallanguageprocessing),因此,自然語言處理也同時(shí)包括了語音處理的內(nèi)容。像HAL這樣有復(fù)雜的語言能力的智能機(jī)器人將要求非常廣泛和深刻的語言知識(shí)。我們只要讀一讀前面在HAL和Dave之間進(jìn)行的對話,我們就可以了解到這樣的更加復(fù)雜的應(yīng)用所需要的語言知識(shí)的范圍和種類。為了確定Dave講什么,HAL必須能夠分析它所接收的聲音信號(hào),并且把Dave的這些信號(hào)復(fù)原成詞的系列。與此相似,為了生成回答,HAL必須把它的回答組織成詞的系列,并且生成Dave能夠識(shí)別的聲音信號(hào)。要完成這兩方面的任務(wù),需要語音學(xué)(phonetics)和音系學(xué)(phonology)的知識(shí),這樣的知識(shí)可以幫助我們建立詞如何在話語中發(fā)音的模型。值得注意的是,HAL還能夠說出如象I’m和can’t這樣的縮約形式。產(chǎn)生并且識(shí)別單詞的這樣或那樣的變體(例如,識(shí)別Doors是復(fù)數(shù))要求形態(tài)學(xué)方面的知識(shí),這些知識(shí)能夠反映關(guān)于上下文中詞的形態(tài)和行為的有關(guān)信息。除了處理一個(gè)一個(gè)的單詞之外,HAL還應(yīng)該知道怎樣分析Dave所提出的請求的結(jié)構(gòu)。這樣的分析能夠使HAL確定,Dave說的話是關(guān)于要HAL采取某種行動(dòng)的一個(gè)請求,這樣的請求不同于下面關(guān)于陳述客觀世界的簡單命題,也不同于下面關(guān)于door的問話,它們是Dave請求的不同變體:HAL,thepodbaydoorisopen.(HAL,分離艙的門是開著的。)HAL,isthepodbaydooropen?(HAL,分離艙的門是開著的嗎?)此外,HAL還必須使用類似的結(jié)構(gòu)知識(shí)把一個(gè)個(gè)的單詞組織成為符號(hào)串,構(gòu)成它的回答。例如,HAL必須知道,下面的單詞序列對于Dave是沒有意義的,盡管這個(gè)單詞系列所包含的單詞與它原來的回答中所包含的單詞完全一樣:I’mIdo,sorrythatafraidDaveI’mcan’t.這里所說的關(guān)于組詞成句的知識(shí),叫做句法(syntax)。顯而易見,如果只是知道Dave所說的話語的各個(gè)單詞以及句法結(jié)構(gòu),并不能使HAL了解Dave提出的請求的實(shí)質(zhì)。為了理解Dave的請求事實(shí)上是關(guān)于要求關(guān)閉podbaydoor(分離艙門)的一個(gè)命令,而不是講關(guān)于當(dāng)天中飯的菜單的事情,就要有復(fù)合詞的語義的知識(shí)、詞匯語義學(xué)(lexicalsemantics)的知識(shí)、以及如何把這樣的復(fù)合詞組成更大的意義的知識(shí),即關(guān)于組合語義學(xué)(compositionalsemantics)的知識(shí)。podbaydoor按照字面逐詞翻譯是“豆莢-海灣-門”,但是它們組合成的意思卻是“分離艙門”。這是關(guān)于科學(xué)技術(shù)術(shù)語的知識(shí)。另外,盡管智能機(jī)器人HAL的行為還不十分熟練,它也應(yīng)該充分地懂得如何對Dave表示禮貌。例如,它不要簡單地回答No或者No,Iwon’topenthedoor。HAL首先用表示客氣的話回答I’msorry和I’mafraid,然后委婉地說Ican’t,而不是直截了當(dāng)?shù)兀ú⑶依侠蠈?shí)實(shí)地)說Iwon’t。這種禮貌和委婉語言的用法屬于語用學(xué)(pragmatics)的研究領(lǐng)域。最后,HAL不是簡單地?zé)o視Dave的請求,讓門繼續(xù)關(guān)著,而是對于Dave開始的請求,選擇結(jié)構(gòu)會(huì)話的方式來對待。HAL在它給Dave的回答中,正確地使用單詞that來簡單地表示會(huì)話中話段之間的共同部分。正確地把這樣的會(huì)話組織成結(jié)構(gòu),需要話語規(guī)約(discourseconvention)的知識(shí)。因此,我們認(rèn)為,建立自然語言處理模型需要如下不同平面的知識(shí):⑴聲學(xué)和韻律學(xué)的知識(shí):描述語言的節(jié)奏、語調(diào)和聲調(diào)的規(guī)律,說明語音怎樣形成音位。⑵音位學(xué)的知識(shí):描述音位的結(jié)合規(guī)律,說明音位怎樣形成語素。⑶形態(tài)學(xué)的知識(shí):描述語素的結(jié)合規(guī)律,說明語素怎樣形成單詞。⑷詞匯學(xué)的知識(shí):描述詞匯系統(tǒng)的規(guī)律,說明單詞本身固有的語義特性和語法特性。⑸句法學(xué)的知識(shí):描述單詞(或詞組)之間的結(jié)構(gòu)規(guī)則,說明單詞(或詞組)怎樣形成句子。⑹語義學(xué)的知識(shí):描述句子中各個(gè)成分之間的語義關(guān)系,這樣的語義關(guān)系是與情景無關(guān)的,說明怎樣從構(gòu)成句子的各個(gè)成分推導(dǎo)出整個(gè)句子的語義。⑺話語分析的知識(shí):描述句子與句子之間的結(jié)構(gòu)規(guī)律,說明怎樣由句子形成話語或?qū)υ?。⑻語用學(xué)的知識(shí):描述與情景有關(guān)的情景語義,說明怎樣推導(dǎo)出句子具有的與周圍話語有關(guān)的各種涵義。⑼外界世界的常識(shí)性知識(shí):描述關(guān)于語言使用者和語言使用環(huán)境的一般性常識(shí),例如,語言使用者的信念和目的,說明怎樣推導(dǎo)出這樣的信念和目的內(nèi)在的結(jié)構(gòu)。當(dāng)然,關(guān)于自然語言處理所涉及的知識(shí)平面還有不同的看法,不過,一般而言,大多數(shù)的自然語言處理研究人員都認(rèn)為,這些語言學(xué)知識(shí)至少可以分為詞匯學(xué)知識(shí)、句法學(xué)知識(shí)、語義學(xué)知識(shí)和語用學(xué)知識(shí)等平面。每一個(gè)平面?zhèn)鬟_(dá)信息的方式各不相同。例如,詞匯學(xué)平面可能涉及具體的單詞的構(gòu)成成分(例如,語素)以及它們的屈折變化形式的知識(shí);句法學(xué)平面可能涉及在具體的語言中單詞或詞組怎樣結(jié)合成句子的知識(shí);語義學(xué)平面可能涉及怎樣給

具體的單詞或句子指派意義的知識(shí);語用學(xué)平面可能涉及在對話中話語焦點(diǎn)的轉(zhuǎn)移以及在給定的上下文中怎樣解釋句子的涵義的知識(shí)。下面我們具體說明在自然語言處理中這些知識(shí)平面的一般情況。如果我們對計(jì)算機(jī)發(fā)一個(gè)口頭的指令:“Deletefilex”(“刪除文件X”),我們要通過自然語言處理系統(tǒng)讓計(jì)算機(jī)理解這個(gè)指令的涵義,并且執(zhí)行這個(gè)指令,一般來說需要經(jīng)過如下的處理過程:Deletefilexdilef#fail#eksdelete”“file”“x(“delete”VERB)(“file”NOUN)(“x”ID)YSVPNPdelete”“file”“xVERBNOUNIDIII“delete”“file”“x'delete-file(“x”)rm-ix圖1.自然語言處理系統(tǒng)中的知識(shí)平面從圖中可以看出,自然語言處理系統(tǒng)首先把指令“Deletefilex”在音位學(xué)平面轉(zhuǎn)化成音位系列“dilet’#fail#eks”,然后在形態(tài)學(xué)平面把這個(gè)音位系列轉(zhuǎn)化為語素系列“delete”“file”“x”,接著在詞匯學(xué)平面把這個(gè)語素系列轉(zhuǎn)化為單詞系列并標(biāo)注相應(yīng)的詞性:(“delete”VERB)(“file”NOUN)(“x”ID),在句法學(xué)平面進(jìn)行句法分析,得到這個(gè)單詞系列的句法結(jié)構(gòu),用樹形圖表示,在語義學(xué)平面得到這個(gè)句法結(jié)構(gòu)的語義解釋:delete-file(“x”),在語用學(xué)平面得到這個(gè)指令的語用解釋“rm-ix”,最后讓計(jì)算機(jī)執(zhí)行這個(gè)指令。這個(gè)例子來自美國自然語言處理學(xué)者Wilensky為UNIX設(shè)計(jì)的一個(gè)語音理解界面,叫做UNIXConsultant。這個(gè)語音理解界面使用了上述的第1至第6個(gè)平面的知識(shí),得到口頭指令“Deletefilex”的語義解釋:deletefile(彳然后,使用第8個(gè)平面的語用學(xué)知識(shí)把這個(gè)語義解釋轉(zhuǎn)化為計(jì)算機(jī)的指令語言“rm-x”,讓計(jì)算機(jī)執(zhí)行這個(gè)指令,這樣便可以使用口頭指令來指揮計(jì)算機(jī)的運(yùn)行了。不同的自然語言處理系統(tǒng)需要的知識(shí)平面可能與UNIXConsultant不一樣,根據(jù)實(shí)際應(yīng)用的不同要求,很多自然語言處理系統(tǒng)只需要使用上述9個(gè)平面中的部分平面的知識(shí)就行了。例如,書面語言的機(jī)器翻譯系統(tǒng)只需要第3至第7個(gè)平面的知識(shí),個(gè)別的機(jī)器翻譯系統(tǒng)還需要第8個(gè)方面的知識(shí);語音識(shí)別系統(tǒng)只需要第1至第5個(gè)平面的知識(shí)。上述9個(gè)平面的知識(shí)主要涉及的是語言學(xué)知識(shí),所以我們認(rèn)為自然語言處理原則上是一個(gè)語言學(xué)問題。除了語言學(xué)之外,自然語言處理還涉及如下的知識(shí)領(lǐng)域:■計(jì)算機(jī)科學(xué):給自然語言處理提供模型表示、算法設(shè)計(jì)和計(jì)算機(jī)實(shí)現(xiàn)的技術(shù)?!鰯?shù)學(xué):給自然語言處理提供形式化的數(shù)學(xué)模型和形式化的數(shù)學(xué)方法?!鲂睦韺W(xué):給自然語言處理提供人類言語行為的心理模型和理論?!稣軐W(xué):給自然語言處理提供關(guān)于人類的思維和語言的更深層次的理論?!鼋y(tǒng)計(jì)學(xué):給自然語言處理提供基于樣本數(shù)據(jù)來預(yù)測統(tǒng)計(jì)事件的技術(shù)。■電子工程:給自然語言處理提供信息論的理論基礎(chǔ)和語言信號(hào)處理技術(shù)?!錾飳W(xué):給自然語言處理提供大腦中人類語言行為機(jī)制的理論。因此,自然語言處理是一個(gè)多邊緣的交叉學(xué)科。自然語言處理的研究,應(yīng)該把這些學(xué)科的知識(shí)結(jié)合起來。每一個(gè)從事自然語言處理研究的人,都應(yīng)該盡量使自己成為文理兼通、博學(xué)多識(shí)的人。從自然語言處理的范圍來考察上面,我們從自然語言處理的過程,也就是從縱的角度,考察了自然語處理的學(xué)科定位。下面,我們換一個(gè)角度,從自然語言處理的范圍,也就是從橫的角度來考察自然語言處理的學(xué)科定位。自然語言處理的范圍涉及到眾多的部門,如語音的自動(dòng)識(shí)別與合成、機(jī)器翻譯、自然語言理解、人機(jī)對話、信息檢索、文本分類、自動(dòng)文摘,等等。我們認(rèn)為,這些部門可以歸納為如下四個(gè)大的方向:■語言學(xué)方向:把自然語言處理作為語言學(xué)的分支來研究,它只研究語言及語言處理與計(jì)算相關(guān)的方面,而不管其在計(jì)算機(jī)上的具體實(shí)現(xiàn)。這個(gè)研究方向的最重要的研究領(lǐng)域是語法形式化理論和自然語言處理的數(shù)學(xué)理論?!鰯?shù)據(jù)處理方向:把自然語言處理作為開發(fā)語言研究相關(guān)程序以及語言數(shù)據(jù)處理的學(xué)科來研究。這一方向的研究早期的研究有術(shù)語數(shù)據(jù)庫的建設(shè)、各種機(jī)器可讀的電子詞典的開發(fā),近年來隨著大規(guī)模語料庫的出現(xiàn),這個(gè)方向的研究顯得更加重要?!鋈斯ぶ悄芎驼J(rèn)知科學(xué)方向:把自然語言處理作為在計(jì)算機(jī)上實(shí)現(xiàn)自然語言能力的學(xué)科來研究,探索自然語言理解的智能機(jī)制和認(rèn)知機(jī)制。這一方向的研究與人工智能以及認(rèn)知科學(xué)關(guān)系密切?!稣Z言工程方向:把自然語言處理作為面向?qū)嵺`的、工程化的語言軟件開發(fā)來研究。這一方向的研究一般稱為“人類語言技術(shù)(HumanLanguageTechnique,簡稱HLT)”,或者稱為“語言工程”(LanguageEngineering)。最近,德國出版了一本叫做《計(jì)算語言學(xué)和語言技術(shù)》(ComputerlinguistikundSprachtechnologie)的專著,把目前自然語言處理的研究領(lǐng)域也分為四個(gè)方向(Carstensen2004),與我們的分法大致相同。這四個(gè)方向的概括,大致涵蓋當(dāng)今自然語言處理研究的內(nèi)容,更加細(xì)致地說,自然語言處理可以進(jìn)一步細(xì)分為如下十三個(gè)方面的內(nèi)容:⑴口語輸入(SpokenLanguageInput)■語音識(shí)別(SpeechRecognition)■信號(hào)表示(語「音信號(hào)分析)[SignalRepresentation(voicesignalanalysis)]魯棒的語音識(shí)別(RobustSpeechRecognition)語音識(shí)別中的隱馬爾可夫模型方法[HMM(HiddenMarkovModel)MethodsinSpeechRecognition]語言表示理論(語言模型)[LanguageRepresentation(LanguageModel)]■說話人識(shí)別(SpeakerRecognition)口語理解(SpokenLanguageUnderstanding)⑵書面語輸入(WrittenLanguageInput)文獻(xiàn)格式識(shí)別[DocumentImage(format)Analysis]光學(xué)字符識(shí)別:印刷體識(shí)別[OCR(OpticalCharacterRecognition)Print]光學(xué)字符識(shí)別:手寫體識(shí)別[OCR:Handwriting]手寫界面(例如,用筆輸入的計(jì)算機(jī))[HandwritingasComputerInterface(e.g.pencomputer)]手寫文字分析(例如,簽名驗(yàn)證)[HandwritingAnalysis(e.g.signatureverification)]⑶語言分析和理解(LanguageAnalysisandUnderstanding)小于句子單位的處理(形態(tài)分析,形態(tài)排歧)[Sub-SententialProcessing(Morphologicalanalysis,Morphologicaldisambiguation)]■語法的形式化(例如,上下文無關(guān)語法,詞匯功能語法,中心語驅(qū)動(dòng)的短語結(jié)構(gòu)語法)[GrammarFormalisms(e.g.CFG,LFG,FUG,HPSG)]針對基于約束的語法編寫的詞表(LexiconsforConstraint-BasedGrammars)計(jì)算語義學(xué)(Semantics)句子建模與剖析技術(shù)(SentenceModelingandParsing)魯棒的剖析技術(shù)(RobustParsing)⑷語言生成(LanguageGeneration)■句法生成(SyntacticGeneration)■深層生成(DeepGeneration)⑸口語輸出技術(shù)(SpokenOutputTechnologies)合成語音生成(SyntheticSpeechGeneration)用于文本--語音合成(TTS)的文本解釋[TextInterpretationforText-to-Speech(TTS)Synthesis]口語生成(從概念到語音)[SpokenLanguageGeneration(ConceptiontoSpeech)]⑹話語分析與對話(DiscourseandDialogue)■話語建模(DiscourseModeling)■對話建模(DialogueModeling)口語對話系統(tǒng)(SpokenLanguageDialogue)⑺文獻(xiàn)自動(dòng)處理(DocumentProcessing)■文獻(xiàn)檢索(DocumentRetrieval)文本解釋:信息抽取(TextInterpretation:ExtractingInformation)文本內(nèi)容的自動(dòng)歸納(例如,自動(dòng)文摘)[Summarization(e.g.textabstraction)]文本寫作和編輯的計(jì)算機(jī)支持(ComputerAssistanceinTextCreationandEditing)工業(yè)和企業(yè)中使用的受限語言(ControlledLanguagesinIndustryandCompany)⑻多語問題的計(jì)算機(jī)處理(Multilinguality)■機(jī)器翻譯(MachineTranslation)人助機(jī)譯[(Human-Aided)MachineTranslation]■機(jī)助人譯(Machine-aidedHumanTranslation)多語言信息檢索(MultilingualInformationRetrieval)多語言語音識(shí)別(MultilingualSpeechProcessing)自動(dòng)語種驗(yàn)證(AutomaticLanguageIdentification)⑼多模態(tài)的計(jì)算機(jī)處理(Multimodality)空間和時(shí)間的表示方法(從文本中抽取空間和時(shí)間的信息)[RepresentationsofSpaceandTime(Automaticabstractionofspaceandtimefromtext)]文本與圖象處理(TextandImages)口語與手勢的模態(tài)結(jié)合(使用數(shù)據(jù)手套)[ModalityIntegration:SpeechandGesture(usingdata-gloves)]口語與面部信息的模態(tài)結(jié)合:面部運(yùn)動(dòng)與語音識(shí)別(ModalityIntegration:FacialMovement&SpeechRecognition)口語與面部信息的模態(tài)結(jié)合:面部運(yùn)動(dòng)與語音合成(ModalityIntegration:FacialMovement&SpeechSynthesis)信息傳輸與信息存儲(chǔ)(TransmissionandStorage)語音編碼(語音壓縮)[SpeechCoding(speechcompression)]語音品質(zhì)的提升(改善語音的品質(zhì))[SpeechEnhancement(speechqualityImprovement)]自然語言處理中的數(shù)學(xué)方法(MathematicalMethods)統(tǒng)計(jì)建模與分類的數(shù)學(xué)理論(StatisticalModelingandClassification)DSP(數(shù)字信號(hào)處理)技術(shù)[DSP(DigitalSignalProcessing)Techniques]■剖析算法的數(shù)學(xué)基礎(chǔ)研究(ParsingTechniques)連接主義的技術(shù)(例如,神經(jīng)網(wǎng)絡(luò))[ConnectionistTechniques(e.g.NeuralNetwork)]有限狀態(tài)分析技術(shù)(FiniteStateTechnology)語音和語言處理中的最優(yōu)化技術(shù)和搜索技術(shù)(OptimizationandSearchinSpeechandLanguageProcessing)語言資源(LanguageResources)書面語料庫(WrittenLanguageCorpora)口語語料庫(SpokenLanguageCorpora)機(jī)器詞典與詞網(wǎng)的建設(shè)(LexiconsandWordnet)術(shù)語編纂與術(shù)語數(shù)據(jù)庫(TerminologyandTerminologicalDatabank)網(wǎng)絡(luò)數(shù)據(jù)挖掘與信息提取(data-miningandinformationextractinWeb)自然語言處理系統(tǒng)的評(píng)測(Evaluation)面向任務(wù)的文本分析評(píng)測(Task-OrientedTextAnalysisEvaluation)機(jī)器翻譯系統(tǒng)和翻譯工具的評(píng)測(EvaluationofMachineTranslationandTranslationTools)大覆蓋面的自然語言剖析器的評(píng)測(EvaluationofBroad-CoverageNatural-LanguageParsers)人的因素與用戶的可接受性(HumanFactorsandUserAcceptability)語音識(shí)別:評(píng)估與評(píng)測(SpeechInput:AssessmentandEvaluation)語音合成評(píng)測(SpeechSynthesisEvaluation)系統(tǒng)的可用性和界面的評(píng)測(UsabilityandInterfaceDesign)語音通信質(zhì)量的評(píng)測(SpeechCommunicationQuality)文字識(shí)別系統(tǒng)的評(píng)測(CharacterRecognition)這十三個(gè)方面的內(nèi)容的研究對象都是自然語言,當(dāng)然都涉及到語言學(xué),這些研究都要對語言進(jìn)行形式化的描述,建立合適的算法,并在計(jì)算機(jī)上實(shí)現(xiàn)這些算法,因此,要涉及到數(shù)學(xué)和計(jì)算機(jī)科學(xué)??谡Z輸入、書面語輸入、口語輸出、信息傳輸與信息存儲(chǔ)都需要電子工程的技術(shù)。多模態(tài)的計(jì)算機(jī)處理和話語分析涉及到心理學(xué),自然語言系統(tǒng)的評(píng)測也需要心理學(xué)的理論支持??臻g和時(shí)間的表示方法涉及到哲學(xué),機(jī)器詞典和詞網(wǎng)的建設(shè)需要對知識(shí)進(jìn)行分類,需要“本體知識(shí)體系”(ontology)的支持,也涉及到哲學(xué)。書面語料庫和口語語料庫的加工需要使用統(tǒng)計(jì)方法,涉及到統(tǒng)計(jì)學(xué)。神經(jīng)網(wǎng)絡(luò)的連接主義技術(shù)涉及到生物學(xué)??梢钥闯?,從橫的角度來考察,自然語言處理也涉及到語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、哲學(xué)、統(tǒng)計(jì)學(xué)、電子工程、生物學(xué)等領(lǐng)域。不論從縱的角度還是從橫的角度來觀察,自然語言處理都是一個(gè)多邊緣的交叉學(xué)科,由于自然語言處理的對象是自然語言,因此,它基本上是一個(gè)語言學(xué)科,但是,它還涉及到眾多的學(xué)科,特別是涉及到計(jì)算機(jī)科學(xué)和數(shù)學(xué)。前面我們從共時(shí)的平面考察自然語言處理的學(xué)科定位,下面我們進(jìn)一步從歷時(shí)的平面來考察這個(gè)問題。從自然語言處理的歷史來考察在歷史上,自然語言處理曾經(jīng)在計(jì)算機(jī)科學(xué)、電子工程、語言學(xué)和心理認(rèn)知語言學(xué)等不同的領(lǐng)域分別進(jìn)行研究。之所以出現(xiàn)這種情況,是由于自然語言處理包括了一系列性質(zhì)不同而又彼此交叉的學(xué)科,因此,從歷時(shí)方面進(jìn)行考察,也可以幫助我們進(jìn)一步理解自然語言處理的學(xué)科定位。3.1萌芽期從20世紀(jì)40年代到50年代末這個(gè)時(shí)期是自然語言處理的萌芽期。自然語言處理的研究的最早的根子可以追溯到第二次世界大戰(zhàn)剛結(jié)束時(shí)的那個(gè)充滿了理智的時(shí)代,那個(gè)時(shí)代剛發(fā)明了計(jì)算機(jī)。在自然語言處理的萌芽期,有兩項(xiàng)基礎(chǔ)性的研究特別值得注意:--一項(xiàng)是Turing算法計(jì)算模型的研究,--另一項(xiàng)是Shannon概率和信息論模型的研究。20世紀(jì)50年代提出的自動(dòng)機(jī)理論來源于Turing在1936年提出的算法計(jì)算模型,這種模型被認(rèn)為是現(xiàn)代計(jì)算機(jī)科學(xué)的基礎(chǔ)。Turing的工作首先導(dǎo)致了McCulloch-Pitts的神經(jīng)元(neuron)理論。一個(gè)簡單的神經(jīng)元模型就是一個(gè)計(jì)算的單元,它可以用命題邏輯來描述。接著,Turing的工作導(dǎo)致了Kleene關(guān)于有限自動(dòng)機(jī)和正則表達(dá)式的研究。Turing是一個(gè)數(shù)學(xué)家,他的算法計(jì)算模型,與數(shù)學(xué)有著密切的關(guān)系。1948年,Shannon把離散馬爾可夫過程的概率模型應(yīng)用于描述語言的自動(dòng)機(jī)。1956年,Chomsky從Shannon的工作中吸取了有限狀態(tài)馬爾可夫過程的思想,首先把有限狀態(tài)自動(dòng)機(jī)作為一種工具來刻畫語言的語法,并且把有限狀態(tài)語言定義為由有限狀態(tài)語法生成的語言。這些早期的研究工作產(chǎn)生了形式語言理論(formallanguagetheory)這樣的研究領(lǐng)域,采用代數(shù)和集合論把形式語言定義為符號(hào)的序列。Chomsky在研究自然語言的時(shí)候首先提出了上下文無關(guān)語法,但是,Backus和Naur等在描述ALGOL程序語言的工作中,分別于1959年和1960年也獨(dú)立地發(fā)現(xiàn)了這種上下文無關(guān)語法。這些研究都把數(shù)學(xué)、計(jì)算機(jī)科學(xué)與語言學(xué)巧妙地結(jié)合起來。這個(gè)時(shí)期的另外一項(xiàng)基礎(chǔ)研究工作是用于語音和語言處理的概率算法的研制,這是Shannon的另一個(gè)貢獻(xiàn)。Shannon把通過諸如通信信道或聲學(xué)語音這樣的媒介傳輸語言的行為比喻為噪聲信道(noisychannel)或者解碼(decoding)oShannon還借用熱力學(xué)的術(shù)語“熵”(entropy)來作為測量信道的信息能力或者語言的信息量的一種方法,并且他采用手工方法來統(tǒng)計(jì)英語字母的概率,然后使用概率技術(shù)首次測定了英語的熵(4.03比特)。我國馮志偉在上世紀(jì)70年代也采用手工查頻的方法計(jì)算出漢字的熵為9.65比特,并在80年代初期提出了“漢字容量極限定理”,他使用數(shù)學(xué)方法,證明了當(dāng)統(tǒng)計(jì)樣本中漢字的容量不大時(shí),包含在一個(gè)漢字中的熵隨著漢字容量的增加而增加,當(dāng)統(tǒng)計(jì)樣本中的漢字容量達(dá)到12366字時(shí),包含在一個(gè)漢字中的熵就不再增加了,這意味著,在測定漢字的熵的時(shí)候,統(tǒng)計(jì)樣本中漢字的容量是有極限的。這個(gè)極限值就是12366字,超出這個(gè)極限值,測出的漢字的熵再也不會(huì)增加了,在這12366個(gè)漢字中,有4000多個(gè)是常用字,4000多個(gè)是次常用字,4000多個(gè)是罕用字。他認(rèn)為,這12366個(gè)漢字可以代表古代和現(xiàn)代文獻(xiàn)中漢字的基本面貌。由此他得出結(jié)論:從漢語書面語總體來考慮,在全部漢語書面語中(包括現(xiàn)代漢語和古代漢語),包含在一個(gè)漢字中的熵是9.65比特。當(dāng)然,這只是馮志偉的一個(gè)不成熟猜測。1988年北京航空學(xué)院計(jì)算機(jī)系劉源使用計(jì)算機(jī)自動(dòng)查頻計(jì)算出漢字的熵為9.71比特,與馮志偉原來猜測的結(jié)果很接近。這些研究與數(shù)學(xué)和統(tǒng)計(jì)學(xué)有著密切的關(guān)系,屬于信息論(informationtheory)的基礎(chǔ)性研究。1946年,kdnig等還研究了聲譜,聲譜和實(shí)驗(yàn)語音學(xué)的基礎(chǔ)研究為爾后語音識(shí)別的研究奠定了基礎(chǔ)。這導(dǎo)致了50年代第一個(gè)機(jī)器語音識(shí)別器的研制成功。1952年,Bell實(shí)驗(yàn)室的研究人員建立了一個(gè)統(tǒng)計(jì)系統(tǒng)來識(shí)別由一個(gè)單獨(dú)的說話人說出的10個(gè)任意的數(shù)目字。該系統(tǒng)存儲(chǔ)了10個(gè)依賴于說話人的模型,它們粗略的代表了數(shù)目字的頭兩個(gè)元音的共振峰°Bell實(shí)驗(yàn)室的研究人員采用選擇與輸入具有最高相關(guān)系數(shù)模式的方法,達(dá)到了97-99%的準(zhǔn)確率。這些研究與電子工程密切相關(guān)。在20世紀(jì)50年代末期到60年代中期,自然語言處理明顯地分成兩個(gè)陣營:一個(gè)是符號(hào)派(symbolic),一個(gè)是隨機(jī)派(stochastic)。--符號(hào)派的工作可分為兩個(gè)方面。一方面是50年代后期以及60年代初期和中期Chomsky等的形式語言理論和生成句法研究,很多語言學(xué)家和計(jì)算機(jī)科學(xué)家的剖析算法研究,早期的自頂向下和自底向上算法的研究,后期的動(dòng)態(tài)規(guī)劃的研究。最早的完整的剖析系統(tǒng)是ZeligHarris的“轉(zhuǎn)換與話語分析課題“(TransformationandDiscourseAnalysisProject-簡稱TDAP)。這個(gè)剖析系統(tǒng)于1958年6月至1959年7月在賓夕法尼亞大學(xué)研制成功。這些研究都是語言學(xué)家和計(jì)算機(jī)科學(xué)家共同完成的。另一方面是人工智能的研究。在1956年夏天,JohnMcCarthy,MarvinMinsky,ClaudeShannon和NathanielRochester等學(xué)者匯聚到一起組成了一個(gè)為期兩個(gè)月的研究組,討論關(guān)于他們稱之為“人工智能”(ArtificialIntelligence,簡稱AI)的問題。盡管有少數(shù)的人【研究者著重于研究隨機(jī)算法和統(tǒng)計(jì)算法(包括概率模型和神經(jīng)網(wǎng)絡(luò)),但是大多數(shù)的AI研究者著重研究推理和邏輯問題。典型的例子是Newell和Simon關(guān)于“邏輯理論家((LogicTheorist)和“通用問題解答器”(GeneralProblemSolver)的研究工作。早期的自然語言理解系統(tǒng)幾乎都是按照這樣的觀點(diǎn)建立起來的。這些簡單的系統(tǒng)把模式匹配和關(guān)鍵詞搜索與簡單試探的方法結(jié)合起來進(jìn)行推理和自動(dòng)問答,它們都只能在某一個(gè)領(lǐng)域內(nèi)使用。在60年代末期,學(xué)者們又研制了更多的形式邏輯系統(tǒng)。AI的研究是計(jì)算機(jī)科學(xué)、哲學(xué)、生物學(xué)、心理學(xué)、語言學(xué)密切配合的結(jié)果。今年是人工智能誕生50周年,中國人工智能學(xué)會(huì)要舉行慶?;顒?dòng)。--隨機(jī)派主要是一些來自統(tǒng)計(jì)學(xué)專業(yè)和電子學(xué)專業(yè)的研究人員。在20世紀(jì)50年代后期,貝葉斯方法(Bayesianmethod)開始被應(yīng)用于解決最優(yōu)字符識(shí)別的問題。1959年,Bledsoe和Browning建立了用于文本識(shí)別的貝葉斯系統(tǒng),該系統(tǒng)使用了一部大詞典,計(jì)算詞典的單詞中所觀察的字母系列的似然度,把單詞中每一個(gè)字母的似然度相乘,就可以求出字母系列的似然度來。1964年,Mosteller和Wallace用貝葉斯方法來解決在《聯(lián)邦主義者》(TheFederalist)文章中的原作者的分布問題。這些研究與統(tǒng)計(jì)學(xué)和電子工程密切相關(guān)。20世紀(jì)50年代還出現(xiàn)了基于轉(zhuǎn)換語法的第一個(gè)人類語言計(jì)算機(jī)處理的可嚴(yán)格測定的心理模型;并且還出現(xiàn)了第一個(gè)聯(lián)機(jī)語料庫:布朗美國英語語料庫(Browncorpus),該語料庫包含1百萬單詞的語料,樣本來自不同文體的500多篇書面文本,涉及的文體有新聞、中篇小說、寫實(shí)小說、科技文章等。這些語料是布朗大學(xué)(BrownUniversity)在1963—64年收集的。美國加州大學(xué)的華裔科學(xué)家王士元(WilliamS.Y.Wang在1976年建立了DOC(DictionaryonComputer),這是一部聯(lián)機(jī)的漢語方言詞典。這些研究成果是語言學(xué)和計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。自然語言處理萌芽期的這些出色的基礎(chǔ)性研究,為自然語言處理的理論和技術(shù)奠定了堅(jiān)實(shí)的基礎(chǔ)。自然語言處理從萌芽期一開始,就帶有明顯的邊緣性交叉學(xué)科的特點(diǎn),它是在各個(gè)相關(guān)學(xué)科的交融和協(xié)作中萌芽成長起來的。3.2發(fā)展期二十世紀(jì)六十年代中期到八十年代末期年是自然語言處理的發(fā)展期。在自然語言處理的發(fā)展期,各個(gè)相關(guān)學(xué)科的彼此協(xié)作,聯(lián)合攻關(guān),取得了一些令人振奮的成績。主要表現(xiàn)于如下4個(gè)方面:第一,統(tǒng)計(jì)方法在語音識(shí)別算法的研制中取得成功。其中特別重要的是隱馬爾可夫模型(HiddenMarkovModel)和噪聲信道與解碼模型(Noisychannelmodelanddecodingmodel)。這些模型是分別獨(dú)立地由兩支隊(duì)伍研制的。一支是Jelinek,Bahl,Mercer和IBM的華生研究中心的研究人員,另一支是卡內(nèi)基梅隆大學(xué)(CarnegieMellonUniversity)的Baker等,Baker受到普林斯頓防護(hù)分析研究所的Baum和他的同事們的工作的影響。AT&T的貝爾實(shí)驗(yàn)室(Belllaboratories)也是語音識(shí)別和語音合成的中心之一。這些都是統(tǒng)計(jì)學(xué)方法在自然語言處理中應(yīng)用的成果。第二,邏輯方法在自然語言處理中取得了很好的成績。1970年,Colmerauer和他的同事們使用邏輯方法研制了Q系統(tǒng)(Q-system)和變形文法(metamorphosisgrammar)并在機(jī)器翻譯中得到應(yīng)用,Colmerauer還是Prolog語言的先驅(qū)者,他使用邏輯程序設(shè)計(jì)的思想設(shè)計(jì)了Prolog語言。1980年P(guān)ereira和Warren提出的定子句文法(DefiniteClauseGrammar)也是在自然語言處理中使用邏輯方法的成功范例之一。1979年Kay對于功能語法的研究,1982年Bresnan和Kaplan在詞匯功能語法(LexicalFunctionGrammar,簡稱LFG)方面的工作,都是特征結(jié)構(gòu)合一(featurestructureunification)研究方面的重要成果,這是數(shù)學(xué)、邏輯學(xué)和語言學(xué)相結(jié)合的可喜收獲。第三,自然語言理解也取得明顯的成績。這個(gè)時(shí)期的自然語言理解(naturallanguageunderstanding)肇始于TerryWinograd在1972年研制的SHRDLU系統(tǒng),這個(gè)系統(tǒng)能夠模擬一個(gè)嵌入玩具積木世界的機(jī)器人的行為。該系統(tǒng)的程序能夠接受自然語言的書面指令(例如,“Movetheredblockontopofthesmallergreenone”[請把綠色的小積木塊移動(dòng)到紅色積木塊的上端]),從而指揮機(jī)器人擺弄玩具積木塊。迄今為止我們還沒有看到如此復(fù)雜和精妙的系統(tǒng)。這個(gè)系統(tǒng)還首次嘗試建立基于Halliday系統(tǒng)語法的全面的(在當(dāng)時(shí)看來是全面的)英語語法。Winograd的模型還清楚地說明,句法剖析也應(yīng)該重視語義和話語的模型。1977年,RogerSchank和他在耶魯大學(xué)的同事和學(xué)生們(經(jīng)常被稱為耶魯學(xué)派)建立了一些語言理解程序,這些程序構(gòu)成一個(gè)系列,他們重點(diǎn)研究諸如腳本、計(jì)劃和目的這樣的人類的概念知識(shí)以及人類的記憶機(jī)制。他們的工作經(jīng)常使用基于網(wǎng)絡(luò)的語義學(xué)理論,并且在他們的表達(dá)方式中開始引進(jìn)Fillmore在1968年提出的關(guān)于格角色的概念。這些工作是語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)巧妙結(jié)合的成果。在自然語言理解研究中也使用過邏輯學(xué)的方法,例如1967年Woods在他研制的LUNAR問答系統(tǒng)中,就使用謂詞邏輯來進(jìn)行語義解釋。第四,話語分析(discourseanalysis)集中探討了話語研究中的四個(gè)關(guān)鍵領(lǐng)域:話語子結(jié)構(gòu)的研究、話語焦點(diǎn)的研究、自動(dòng)參照消解的研究、基于邏輯的言語行為的研究。1977年,Crosz和她的同事們研究了話語中的子結(jié)構(gòu)(substructure)和話語焦點(diǎn);1972年,Hobbs開始研究自動(dòng)參照消解(automaticreferenceresolution)o在基于邏輯的言語行為研究中,Perrault和Allen在1980年建立了“信念一愿望一意圖”的框架,即BDI(Belief-Desire-Intention)的框架。這樣的研究與心理學(xué)、邏輯學(xué)、哲學(xué)有密切關(guān)系。在1983-1993年的十年中,自然語言處理研究者對于過去的研究歷史進(jìn)行了反思,發(fā)現(xiàn)過去被否定的有限狀態(tài)模型和經(jīng)驗(yàn)主義方法仍然有其合理的內(nèi)核。在這十年中,自然語言處理的研究又回到了五十年代末期到六十年代初期幾乎被否定的有限狀態(tài)模型和經(jīng)驗(yàn)主義方法上去,之所以出現(xiàn)這樣的復(fù)蘇,其部分原因在于1959年Chomsky對于Skinner的“言語行為”(VerbalBehavior)的很有影響的評(píng)論在80年代和90年代之交遭到了理論上的反對。這種反思的第一個(gè)傾向是重新評(píng)價(jià)有限狀態(tài)模型,由于Kaplan和Kay在有限狀態(tài)音系學(xué)和形態(tài)學(xué)方面的工作,以及Church在句法的有限狀態(tài)模型方面的工作,顯示了有限狀態(tài)模型仍然有著強(qiáng)大的功能,因此,這種模型又重新得到自然語言處理界的注意。這種反思的第二個(gè)傾向是所謂的“重新回到經(jīng)驗(yàn)主義”;這里值得特別注意的是語音和語言處理的概率模型的提出,這樣的模型受到IBM公司華生研究中心的語音識(shí)別概率模型的強(qiáng)烈影響。這些概率模型和其他數(shù)據(jù)驅(qū)動(dòng)的方法還傳播到了詞類標(biāo)注、句法剖析、名詞短語附著歧義的判定以及從語音識(shí)別到語義學(xué)的聯(lián)接主義方法的研究中去。此外,在這個(gè)時(shí)期,自然語言的生成研究也取得了引人矚目的成績。3.3繁榮期從二十世紀(jì)九十年代開始,自然語言處理進(jìn)入了繁榮期。1993年7月在日本神戶召開的第四屆機(jī)器翻譯高層會(huì)議(MTSummitIV)上,英國著名學(xué)者哈欽斯(J.Hutchins)在他的特約報(bào)告中指出,自1989年以來,機(jī)器翻譯的發(fā)展進(jìn)入了一個(gè)新紀(jì)元。這個(gè)新紀(jì)元的重要標(biāo)志是,在基于規(guī)則的技術(shù)中引入了語料庫方法,其中包括統(tǒng)計(jì)方法,基于實(shí)例的方法,通過語料加工手段使語料庫轉(zhuǎn)化為語言知識(shí)庫的方法,等等。這種建立在大規(guī)模真實(shí)文本處理基礎(chǔ)上的機(jī)器翻譯,是機(jī)器翻譯研究史上的一場革命,它將會(huì)把自然語言處理推向一個(gè)嶄新的階段。隨著機(jī)器翻譯新紀(jì)元的開始,自然語言處理進(jìn)入了它的繁榮期。特別是在二十世紀(jì)九十年代的最后五年(1994-1999),自然語言處理的研究發(fā)生了很大的變化,出現(xiàn)了空前繁榮的局面。這主要表現(xiàn)在三個(gè)方面。第一,概率和數(shù)據(jù)驅(qū)動(dòng)的方法幾乎成為了自然語言處理的標(biāo)準(zhǔn)方法。句法剖析、詞類標(biāo)注、參照消解和話語處理的算法全都開始引入概率,并且采用從語音識(shí)別和信息檢索中借過來的評(píng)測方法。第二,由于計(jì)算機(jī)的速度和存儲(chǔ)量的增加,使得在語音和語言處理的一些子領(lǐng)域,特別是在語音識(shí)別、拼寫檢查、語法檢查這些子領(lǐng)域,有可能進(jìn)行商品化的開發(fā)。語音和語言處理的算法開始被應(yīng)用于增強(qiáng)交替通信(AugmentativeandAlternativeCommunication,簡稱AAC)中。第三,網(wǎng)絡(luò)技術(shù)的發(fā)展使得基于語言的信息檢索和信息抽取的需要變得更加突出??梢灶A(yù)見,網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,一定會(huì)把自然語言處理的研究推向一個(gè)新階段。自然語言處理在五十多年的發(fā)展歷程中,把語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、哲學(xué)、邏輯學(xué)、統(tǒng)計(jì)學(xué)、電子工程、生物學(xué)等學(xué)科融合起來,形成了一門邊緣性的交叉學(xué)科。所以,不論從共時(shí)的方面考察,還是從歷時(shí)的方面考察,我們都可以看出自然語言處理的學(xué)科交叉性和邊緣性,它橫跨了文科(語言學(xué)、哲學(xué)、邏輯學(xué)、理科(計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)、生物學(xué))和工科(電子工程)三大知識(shí)領(lǐng)域,這就是自然語言處理在人類整個(gè)知識(shí)體系中的定位。當(dāng)前自然語言處理發(fā)展的特點(diǎn)二十一世紀(jì)以來,由于國際互聯(lián)網(wǎng)的普及,自然語言的計(jì)算機(jī)處理成為了從互聯(lián)網(wǎng)上獲取知識(shí)的重要手段,生活在信息網(wǎng)絡(luò)時(shí)代的現(xiàn)代人,幾乎都要與互聯(lián)網(wǎng)打交道,都要或多或少地使用自然語言處理的研究成果來幫助他們獲取或挖掘在廣闊無邊的互聯(lián)網(wǎng)上的各種知識(shí)和信息,因此,世界各國都非常重視自然語言處理的研究,投入了大量的人力、物力和財(cái)力。當(dāng)前國外自然語言處理研究有四個(gè)顯著的特點(diǎn):第一,基于句法-語義規(guī)則的理性主義方法受到質(zhì)疑,隨著語料庫建設(shè)和語料庫語言學(xué)的崛起,大規(guī)模真實(shí)文本的處理成為自然語言處理的主要戰(zhàn)略目標(biāo)。在過去的四十多年中,從事自然語言處理系統(tǒng)開發(fā)的絕大多數(shù)學(xué)者,基本上都采用基于規(guī)則的理性主義方法,這種方法的哲學(xué)基礎(chǔ)是邏輯實(shí)證主義,他們認(rèn)為,智能的基本單位是符號(hào),認(rèn)知過程就是在符號(hào)的表征下進(jìn)行符號(hào)運(yùn)算,因此,思維就是符號(hào)運(yùn)算。著名語言學(xué)家J.A.Fodor在《Representations》一書(MITPress,1980)中說:“只要我們認(rèn)為心理過程是計(jì)算過程(因此是由表征式定義的形式操作),那么,除了將心靈看作別的之外,還自然會(huì)把它看作一種計(jì)算機(jī)。也就是說,我們會(huì)認(rèn)為,假設(shè)的計(jì)算過程包含哪些符號(hào)操作,心靈也就進(jìn)行哪些符號(hào)操作。因此,我們可以大致上認(rèn)為,心理操作跟圖靈機(jī)的操作十分類似疽'Fodor的這種說法代表了自然語言處理中的基于規(guī)則(符號(hào)操作)的理性主義觀點(diǎn)。這樣的觀點(diǎn)受到了學(xué)者們的批評(píng)。J.R.Searle在他的論文《Minds,BrainsandProgrammes》(1980,載《BehavioralandBrainSciences》,Vol.3)中,提出了所謂“中文屋子”的質(zhì)疑。他提出,假設(shè)有一個(gè)懂得英文但是不懂中文的人被關(guān)在一個(gè)屋子中,在他面前是一組用英文寫的指令,說明英文符號(hào)和中文符號(hào)之間的對應(yīng)和操作關(guān)系。這個(gè)人要回答用中文書寫的幾個(gè)問題,為此,他首先要根據(jù)指令規(guī)則來操作問題中出現(xiàn)的中文符號(hào),理解問題的含義,然后再使用指令規(guī)則把他的答案用中文一個(gè)一個(gè)地寫出來。比如,對于中文書寫的問題Q1用中文寫出答案A1,對于中文書寫的問題Q2用中文寫出答案A2,如此等等。這顯然是非常困難的幾乎是不能實(shí)現(xiàn)的事情,而且,這個(gè)人即使能夠這樣做,也不能證明他懂得中文,只能說明他善于根據(jù)規(guī)則做機(jī)械的操作而已。Searle的批評(píng)使基于規(guī)則的理性主義的觀點(diǎn)受到了普遍的懷疑。理性主義方法的另一個(gè)弱點(diǎn)是在實(shí)踐方面的。自然語言處理的理性主義者把自己的目的局限于某個(gè)十分狹窄的專業(yè)領(lǐng)域之中,他們采用的主流技術(shù)是基于規(guī)則的句法■語義分析,盡管這些應(yīng)用系統(tǒng)在某些受限的“子語言”(sub-language)中也曾經(jīng)獲得一定程度的成功,但是,要想進(jìn)一步擴(kuò)大這些系統(tǒng)的覆蓋面,用它們來處理大規(guī)模的真實(shí)文本,仍然有很大的困難。因?yàn)閺淖匀徽Z言系統(tǒng)所需要裝備的語言知識(shí)來看,其數(shù)量之浩大和顆粒度之精細(xì),都是以往的任何系統(tǒng)所遠(yuǎn)遠(yuǎn)不及的。而且,隨著系統(tǒng)擁有的知識(shí)在數(shù)量上和程度上發(fā)生的巨大變化,系統(tǒng)在如何獲取、表示和管理知識(shí)等基本問題上,不得不另辟蹊徑。這樣,就提出了大規(guī)模真實(shí)文本的自然語言處理問題。1990年8月在芬蘭赫爾辛基舉行的第13屆國際計(jì)算語言學(xué)會(huì)議(即COLING'90)為會(huì)前講座確定的主題是:“處理大規(guī)模真實(shí)文本的理論、方法和工具”,這說明,實(shí)現(xiàn)大規(guī)模真實(shí)文本的處理將是自然語言處理在今后一個(gè)相當(dāng)長的時(shí)期內(nèi)的戰(zhàn)略目標(biāo)。為了實(shí)現(xiàn)戰(zhàn)略目標(biāo)的轉(zhuǎn)移,需要在理論、方法和工具等方面實(shí)行重大的革新。1992年6月在加拿大蒙特利爾舉行的第四屆機(jī)器翻譯的理論與方法國際會(huì)議(即TMI-92)上,宣布會(huì)議的主題是“機(jī)器翻譯中的經(jīng)驗(yàn)主義和理性主義的方法”。所謂“理性主義”,就是指以生成語言學(xué)為基礎(chǔ)的方法,所謂“經(jīng)驗(yàn)主義”,就是指以大規(guī)模語料庫的分析為基礎(chǔ)的方法。從中可以看出當(dāng)前自然語言處理關(guān)注的焦點(diǎn)。當(dāng)前語料庫的建設(shè)和語料庫語言學(xué)的崛起,正是自然語言處理戰(zhàn)略目標(biāo)轉(zhuǎn)移的一個(gè)重要標(biāo)志。隨著人們對大規(guī)模真實(shí)文本處理的日益關(guān)注,越來越多的學(xué)者認(rèn)識(shí)到,基于語料庫的分析方法(即經(jīng)驗(yàn)主義的方法)至少是對基于規(guī)則的分析方法(即理性主義的方法)的一個(gè)重要補(bǔ)充。因?yàn)閺摹按笠?guī)?!焙汀罢鎸?shí)”這兩個(gè)因素來考察,語料庫才是最理想的語言知識(shí)資源。這種大規(guī)模真實(shí)的語料庫還為語言研究的現(xiàn)代化提供了強(qiáng)有力手段。馮志偉在20多年前曾經(jīng)測試過漢字的熵(即漢字中所包含的信息量),這是中文信息處理的一項(xiàng)基礎(chǔ)性研究工作。為了計(jì)算漢字的熵,首先需要統(tǒng)計(jì)漢字在文本中的出現(xiàn)頻度,由于70年代我們還沒有機(jī)器可讀的漢語語料庫,哪怕小規(guī)模的漢語語料庫也沒有,他只得根據(jù)書面文本進(jìn)行手工查頻,用了將近10年的時(shí)間,對數(shù)百萬字的現(xiàn)代漢語文本(占70%)和古代漢語文本(占30%)進(jìn)行手工查頻,從小到大地逐步擴(kuò)大統(tǒng)計(jì)的規(guī)模,建立了6個(gè)不同容量的漢字頻度表,最后根據(jù)這些不同的漢字頻度表,逐步地?cái)U(kuò)大漢字的容量,終于計(jì)算出了漢字的熵。這是一件極為艱辛而煩瑣的工作。如今我們有了機(jī)器可讀的漢語語料庫,完全用不著進(jìn)行手工查頻,頻度的統(tǒng)計(jì)可以在計(jì)算機(jī)上進(jìn)行,只要非常簡單的程序就可以輕而易舉地從語料庫中統(tǒng)計(jì)出漢字的頻度并進(jìn)一步計(jì)算出漢字的熵。語言研究工作的效率成百倍、成千倍地提高了!盡管學(xué)問是從苦根上長出來的甜果,但是,現(xiàn)代化的手段不僅可以幫助我們少吃很多的苦,而且也還能把學(xué)問做得更好。手工查頻猶如趕著老牛破車在崎嶇的山路上跋涉,使用語料庫猶如乘宇宙飛船在廣闊的太空中翱翔。這是我從前根本不敢想象的。大規(guī)模機(jī)器可讀語料庫的出現(xiàn)和使用,把語言學(xué)家從艱苦繁重的手工勞動(dòng)中解放出來,使語言學(xué)家可以集中精力來研究那些更加重要的問題,這對于促進(jìn)語言學(xué)研究的現(xiàn)代化具有不可估量的作用。第二,自然語言處理中越來越多地使用機(jī)器自動(dòng)學(xué)習(xí)的方法來獲取語言知識(shí)。傳統(tǒng)語言學(xué)基本上是通過語言學(xué)家歸納總結(jié)語言現(xiàn)象的手工方法來獲取語言知識(shí)的,由于人的記憶能力有限,任何語言學(xué)家,哪怕是語言學(xué)界的權(quán)威泰斗,都不可能記憶和處理浩如煙海的全部的語言數(shù)據(jù),因此,使用傳統(tǒng)的手工方法來獲取語言知識(shí),猶如以管窺豹,以蠡測海,這種獲取語言知識(shí)的方法不僅效率極低,而且?guī)в泻艽蟮闹饔^性。傳統(tǒng)語言學(xué)中嘖嘖地稱道的所謂“例不過十不立,反例不過十不破”的樸學(xué)精神,貌似嚴(yán)格,實(shí)際上,在浩如煙海的語言數(shù)據(jù)中,以十個(gè)正例或十個(gè)反例就輕而易舉地來決定語言規(guī)則的取舍,難道就能夠萬無一失地保證這些規(guī)則是可靠的嗎?這是大大地值得懷疑的。當(dāng)前的自然語言處理研究提倡建立語料庫,使用機(jī)器學(xué)習(xí)的方法,讓計(jì)算機(jī)自動(dòng)地從浩如煙海的語料庫中獲取準(zhǔn)確的語言知識(shí)。機(jī)器詞典和大規(guī)模語料庫的建設(shè),成為了當(dāng)前自然語言處理的熱點(diǎn)。這是語言學(xué)獲取語言知識(shí)方式的巨大變化,作為二十一世紀(jì)的語言學(xué)工作者,都應(yīng)該注意到這樣的變化,逐漸改變獲取語言知識(shí)的手段。2000年,在美國約翰.霍普金斯大學(xué)(JohnsHopkinsUniversity)的暑假機(jī)器翻譯討論班(Workshop)上,來自南加州大學(xué)、羅切斯特大學(xué)、約翰?霍普金斯大學(xué)、施樂公司、賓西法尼亞州立大學(xué)、斯丹福大學(xué)等學(xué)校的研究人員,對于基于統(tǒng)計(jì)的機(jī)器翻譯進(jìn)行了討論,以德國亞琛大學(xué)(Aachenuniversity)年輕的博士研究生奧赫(FranzJosefOch)為主的13位科學(xué)家寫了一個(gè)總結(jié)報(bào)告(FinalReport),報(bào)告的題目是《統(tǒng)計(jì)機(jī)器翻譯的句法》(“SyntaxforStatisticalMachineTranslationw),這個(gè)報(bào)告提出了把基于規(guī)則的方法和基于統(tǒng)計(jì)方法結(jié)合起來的有效途徑。奧赫在國際計(jì)算語言學(xué)2002年的會(huì)議(ACL2002)上發(fā)表論文,題目是:《統(tǒng)計(jì)機(jī)器翻譯的分辨訓(xùn)練與最大熵模型》(“DiscriminativeTrainingandMaximumEntropyModelsforStatistical

MachineTranslation”),進(jìn)一步提出統(tǒng)計(jì)機(jī)器翻譯的系統(tǒng)性方法,獲ACL2002大會(huì)最佳論文獎(jiǎng)。2002年1月,在美國成立了LanguageWeaver公司,專門研制統(tǒng)計(jì)機(jī)器翻譯軟件(StatisticalMachineTranslationSoftware,簡稱SMTS),奧赫加盟LanguageWeaver公司,作為這個(gè)公司的顧問。LanguageWeaver公司是世界上第一個(gè)把統(tǒng)計(jì)機(jī)器翻譯軟件商品化的公司。他們使用機(jī)器自動(dòng)學(xué)習(xí)的技術(shù),從翻譯存儲(chǔ)資料(translationmemories)>翻譯文檔(translatedarchives)>詞典(dictionaries&glossaries)>因特網(wǎng)(Internet)以及翻譯人員(humantranslators)那里獲取大量的語言數(shù)據(jù),在這個(gè)過程中,他們對這些語言數(shù)據(jù)進(jìn)行各種預(yù)處理(pre-processing),包括文本格式過濾(formatfiltering)>光學(xué)自動(dòng)閱讀和掃描(Scan+OCR)、文字轉(zhuǎn)寫(transcription)、文本對齊(documentalignment)>文本片段對齊(segmentalignment)等。接著,把經(jīng)過預(yù)處理的語言數(shù)據(jù),在句子一級(jí)進(jìn)行源語言和目標(biāo)語言的對齊,形成雙語并行語料庫(parallelcorpus)o然后使用該公司自己開發(fā)的“LW學(xué)習(xí)軟件"(LanguageWeaverLearner,簡稱LWLearner),對雙語并行語料庫進(jìn)行處理,從語料庫中抽取概率翻譯詞典、概率翻譯模板以及概率翻譯規(guī)則等語言信息,這些抽取出來的語言信息,統(tǒng)稱為翻譯參數(shù)(translationparameters),這樣的翻譯參數(shù)實(shí)際上就是概率化的語言知識(shí),經(jīng)過上述的處理,語言數(shù)據(jù)就變成了概率化的語言知識(shí)。翻譯參數(shù)是該公司翻譯軟件的重要組成部分。為了處理這些翻譯參數(shù),該公司還開發(fā)了一個(gè)統(tǒng)計(jì)翻譯器,叫做解碼器(Decoder),這個(gè)解碼器是該公司翻譯軟件的另一個(gè)重要組成部分,解碼器和翻譯參數(shù)成為了LanguageWeaver公司翻譯軟件的核心(corecomponents)。解碼器使用上述通過統(tǒng)計(jì)學(xué)習(xí)獲得的翻譯參數(shù)對新的文本進(jìn)行機(jī)器翻譯,把新的源語言文本(newsourcelanguagedocuments)自動(dòng)地翻譯成新的目標(biāo)語言譯文(newtargetlanguagetranslation),提供給用戶使用。LanguageWeaver公司的翻譯系統(tǒng)的工作流程如下圖所示:FmmlMicsnTr-anslatedArchivesDictionariesGlossariesIntErnetHumanTkan5kjLWFmmlMicsnTr-anslatedArchivesDictionariesGlossariesIntErnetHumanTkan5kjLWPRoKrria-h-FiUzsrDocumentalignmentSegmentalignment目前,該公司開發(fā)的漢英機(jī)器翻譯系統(tǒng)和英語一西班牙語雙向機(jī)器翻譯系統(tǒng)即將問世。他們還要使用同樣的方法,開發(fā)英語一法語的雙向機(jī)器翻譯系統(tǒng)、印地語一英語以及索馬里語一英語的單向機(jī)器翻譯系統(tǒng)。2003年7月,在美國馬里蘭州巴爾的摩(Baltimore,Maryland)由美國商業(yè)部國家標(biāo)準(zhǔn)與技術(shù)研究所NIST/TIDES(NationalInstituteofStandardsandTechnology)主持的機(jī)器翻譯評(píng)比中,奧赫獲得了最好的成績,他使用統(tǒng)計(jì)方法從雙語語料庫中自動(dòng)地獲取語言知識(shí),建立統(tǒng)計(jì)機(jī)器翻譯的規(guī)則,在很短的時(shí)間之內(nèi)就構(gòu)造了阿拉伯語和漢語到英語的若干個(gè)機(jī)器翻譯系統(tǒng)。偉大的希臘科學(xué)家阿基米德(Archimedes)說過:“只要給我一個(gè)支點(diǎn),我就可以移動(dòng)地球?!?“Givemeaplacetostandon,andIwillmovetheworld.")而現(xiàn)在奧赫也模仿著阿基米德說:“只要給我充分的并行語言數(shù)據(jù),那么,對于任何的兩種語言,我就可以在幾小時(shí)之內(nèi)給你構(gòu)造出一個(gè)機(jī)器翻譯系統(tǒng)?!薄癎ivemeenoughparalleldata,andyoucanhavetranslationsystemforanytwolanguagesinamatterofhours.”)。這反映了新一代的自然語言處理研究者朝氣蓬勃的探索精神和繼往開來的豪情壯志??磥恚瑠W赫似乎已經(jīng)找到了機(jī)器翻譯的有效方法,至少按照他的路子走下去,使用機(jī)器自動(dòng)學(xué)習(xí)的方法,也許有可能開創(chuàng)出機(jī)器翻譯研究的一片新天地,使我們在探索真理的曲折道路上看到了耀眼的曙光。過去我們使用人工編制語言規(guī)則的方法來研制一個(gè)機(jī)器翻譯系統(tǒng),往往需要幾年的時(shí)間,而現(xiàn)在采用奧赫的機(jī)器學(xué)習(xí)方法,構(gòu)造機(jī)器翻譯系統(tǒng)只要幾個(gè)小時(shí)就可以了,研制機(jī)器翻譯系統(tǒng)的速度已經(jīng)大大地提高了,這是令我們感到振奮的。第三,統(tǒng)計(jì)數(shù)學(xué)方法越來越受到重視。自然語言處理中越來越多地使用統(tǒng)計(jì)數(shù)學(xué)方法來分析語言數(shù)據(jù),使用人工觀察和內(nèi)省的方法,顯然不可能從浩如煙海的語料庫中獲取精確可靠的語言知識(shí),必須使用統(tǒng)計(jì)數(shù)學(xué)的方法。語言模型是描述自然語言內(nèi)在規(guī)律的數(shù)學(xué)模型,構(gòu)造語言模型是自然語言處理的核心。語言模型可以分為傳統(tǒng)的規(guī)則型語言模型和基于統(tǒng)計(jì)的語言模型。規(guī)則型語言模型是人工編制的語言規(guī)則,這些語言規(guī)則來自語言學(xué)家掌握的語言學(xué)知識(shí),具有一定的主觀性和片面性,難以處理大規(guī)模的真實(shí)文本?;诮y(tǒng)計(jì)的語言模型通常是概率模型,計(jì)算機(jī)借助于語言統(tǒng)計(jì)模型的概率參數(shù),可以估計(jì)出自然語言中語言成分出現(xiàn)的可能性,而不是單純地判斷這樣的語言成分是否符合語言學(xué)規(guī)則。目前,自然語言處理中的語言統(tǒng)計(jì)模型已經(jīng)相當(dāng)成熟,例如,隱馬爾可夫模型HiddenMarkovModel,簡稱HMM)、概率上下文無關(guān)語法(ProbabilisticContext-FreeGrammar,簡稱PCFG)、基于決策樹的語言模型(Decision-TreeBasedModel)、最大熵語言模型(MaximumEntropyModel)等。研究這樣的語言統(tǒng)計(jì)模型需要具備統(tǒng)計(jì)數(shù)學(xué)的知識(shí),因此,我們應(yīng)當(dāng)努力進(jìn)行知識(shí)更新,學(xué)習(xí)統(tǒng)計(jì)數(shù)學(xué)。如果我們認(rèn)真地學(xué)會(huì)了統(tǒng)計(jì)數(shù)學(xué),熟練地掌握了統(tǒng)計(jì)數(shù)學(xué),就會(huì)使我們在獲取語言知識(shí)的過程中如虎添翼。第四,自然語言處理中越來越重視詞匯的作用,出現(xiàn)了強(qiáng)烈的“詞匯主義”的傾向。句法歧義問題的解決不僅與概率和結(jié)構(gòu)有關(guān),還往往與詞匯的特性有關(guān)。這里討論兩個(gè)問題。⑴PP附著問題:在英語句子中,介詞短語PP可以做中心動(dòng)詞短語VP的狀語,也可以做它前面名詞短語NP的修飾語,究竟是附著于VP,還是附著于NP,這就是所謂“PP-附著”(PP-attachment)問題。PP-附著與詞匯有著密切的關(guān)系。例如,在句子“Washingtonsentmorethan10,000soldiersintoAfghanistan”中,介詞短語(PP)“intoAfghanistan5或者附著于名詞短語(NP)“morethan10,000soldiers”,或者附著于動(dòng)詞短語(VP)“sent”(單獨(dú)的動(dòng)詞也可以看成一個(gè)動(dòng)詞短語)。這里存在PP-附著問題。在概率上下文無關(guān)語法中,這種PP-附著的判定要在下面的規(guī)則之間進(jìn)行選擇:NP土NPPP(PP附著于NP)和VP土VPPP(PP附著于VP)這兩個(gè)規(guī)則的概率依賴于訓(xùn)練語料庫。在訓(xùn)練語料庫中,NP附著和VP附著的統(tǒng)計(jì)結(jié)果如下:語料庫PP附著于NPPP附著于VPAPNewswire(1300萬詞)67%33%WallStreetJournal&IBMmanuals52%48%

可以看出,在兩個(gè)訓(xùn)練語料庫中,“PP附著于NP”都處于優(yōu)先地位。根據(jù)這樣的統(tǒng)計(jì)結(jié)果,我們應(yīng)該選擇PP附著于NP,也就是選擇PP“intoAfghanis!附fe著于NP“morethan10,000soldiers”這個(gè)結(jié)果。但是,在我們上面的句子中,介詞短語'intoAfghanistan”的正確附著卻應(yīng)該是附著于動(dòng)詞短語VP("sent”),這是因?yàn)檫@個(gè)可以看出,在兩個(gè)訓(xùn)練語料庫中,“PP附著于NP”都處于優(yōu)先地位。根據(jù)這樣的統(tǒng)計(jì)結(jié)果,我們應(yīng)該選擇PP附著于NP,也就是選擇PP“intoAfghanis!附fe著于NP“morethan10,000soldiers”這個(gè)結(jié)果。但是,在我們上面的句子中,介詞短語'intoAfghanistan”的正確附著卻應(yīng)該是附著于動(dòng)詞短語VP("sent”),這是因?yàn)檫@個(gè)VP"sent”往往要求一個(gè)表示方向的介詞短語PP,而介詞短語“intoAfghanistan”正好滿足了這個(gè)要求。語法顯然不能處理這樣的詞匯依存問題。⑵并列結(jié)構(gòu)的歧義:句子“dogsinhousesandcats”是有結(jié)構(gòu)歧義的:右側(cè)樹:概率上下文無關(guān)左側(cè)樹:NPNPNPNoundogsNPPPPrepNPinNounConjandNPNPPPNounNounPrepNPcatsdogsinNPConjNPNounandNounhouse圖2并列結(jié)構(gòu)歧義盡管在直覺上我們認(rèn)為圖2中左側(cè)樹是正確的,但是完全一樣的。這些規(guī)則如下:NP—NPConjNPNP—NPPPNP—Nounhousecats左右兩側(cè)的樹所使用的規(guī)則卻是PP—PrepNPNoun->dogsNoun今houseNoun->catsPrep->inConj今and根據(jù)概率上下文無關(guān)語法的無關(guān)性假設(shè),由于規(guī)則完全相同,使用這些規(guī)則的概率相乘而計(jì)算出來的兩個(gè)樹形圖的概率也應(yīng)該是一樣的。在這種情況下,概率上下文無關(guān)語法將指派這兩個(gè)樹形圖以相同的概率,也就是說,概率上下文無關(guān)語法無法判定這個(gè)句子的歧義。由此可見,盡管我們使用數(shù)學(xué),使用概率的方法,概率上下文無關(guān)語法在遇到詞匯依存問題的時(shí)候就顯得捉襟見肘、無能為力了,我們還需要探索其他的途徑來進(jìn)一步提升概率上下文無關(guān)語法的功能,其中的一個(gè)有效的途徑,就是在概率上下文無關(guān)語法中引入詞匯信息,采用詞匯中心語概率表示法,把概率上下文無關(guān)語法提升為概率詞匯化上下文無關(guān)語法。在理論語言學(xué)中,N.Chomsky最近提出了“最簡方案”,所有重要的語法原則直接運(yùn)用于表層,把具體的規(guī)則減少到最低限度,不同語言之間的差異由詞匯來處理,也非常重視詞匯的作用。在語言學(xué)中出現(xiàn)了“詞匯主義”(lexicalism)的傾向。在自然語言處理中,詞匯知識(shí)庫的建造成為了普遍關(guān)注的問題。美國的WordNet,F(xiàn)rameNet以及我國各種語法知識(shí)庫和語義知識(shí)庫的建設(shè),都反映了這種強(qiáng)烈的“詞匯主義”的傾向。在這樣的新形勢下,自然語言處理這個(gè)學(xué)科的交叉性和邊緣性顯得更加突出了,我們自然語言處理的研究者如果只是局限于自己原有的某一個(gè)專業(yè)的狹窄領(lǐng)域而不從其他相關(guān)的學(xué)科吸取營養(yǎng)來豐富自己的知識(shí),在自然語言處理的研究中必將一籌莫展、處處碰壁。面對這樣的形勢我們應(yīng)該怎么做?是抱殘守缺,繼續(xù)把自己蜷縮在某一個(gè)專業(yè)的狹窄領(lǐng)域之內(nèi)孤芳自賞,還是與時(shí)俱進(jìn),迎頭趕上,努力學(xué)習(xí)新的知識(shí),以適應(yīng)學(xué)科交叉性和邊緣性的要求?這是我國自然語言處理工作者必須考慮的大問題。最近,據(jù)聯(lián)合國《2005年世界主要語種、分布與應(yīng)用力調(diào)查》資料報(bào)道,新的世界十大語言依次是:1英語;2漢語;3德語;4法語;5俄語;6西班牙語;7日語;8阿拉伯語;9韓語(朝鮮語);10葡萄牙語本次TOP榜沒有列出意大利語。這表明,意大利語在意大利繼續(xù)退居國際三流位置時(shí)的無奈狀況。自1985年以來,意大利的經(jīng)濟(jì)與科技競爭力一直呈下降趨勢。面對這個(gè)現(xiàn)狀,意大利政府與政治精英卻長期缺少辦法。目前的國力仍繼續(xù)沿著

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論