改變科學(xué)研究思路的十個知識創(chuàng)新點(diǎn)_第1頁
改變科學(xué)研究思路的十個知識創(chuàng)新點(diǎn)_第2頁
改變科學(xué)研究思路的十個知識創(chuàng)新點(diǎn)_第3頁
改變科學(xué)研究思路的十個知識創(chuàng)新點(diǎn)_第4頁
改變科學(xué)研究思路的十個知識創(chuàng)新點(diǎn)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

改變科學(xué)研究思路的十個知識創(chuàng)新點(diǎn)――探索漢語理論建設(shè)及中文信息處理的新路鄒曉輝519125廣東珠海井岸橋東恒美花園15-2棟201號摘要本文介紹《字本位與中文信息處理的基礎(chǔ)》 廣東省優(yōu)秀科技專著出版基金會 廣東省優(yōu)秀科技專著出版基金會2006專家論證通過正式資助將于2007年底/2008年初出版發(fā)行文的基本原理,信息和智的本質(zhì)定義及基本分類,認(rèn)知心理學(xué)雙語協(xié)同存儲原理,形式理論的受限原理,序位邏輯原理及工具,語言和知識的通用計算方法和量具,生產(chǎn)式教學(xué)及協(xié)同智能訓(xùn)練體系,(產(chǎn)、學(xué)、研、教、用、算)一體化(知識信息數(shù)據(jù))管理。其重要性不僅在于指出自然語言與機(jī)器語言的互換路徑,除直接形式化之外還有間接形式化道路,對漢語形式理論建設(shè)和中文信息處理及基于中文的知識處理而言,后者更便捷而高效,而且還在于改變科學(xué)研究思路的十個知識創(chuàng)新點(diǎn)具有的整體功用。關(guān)鍵詞漢語形式理論、中文信息處理、基于中文的知識處理、融智學(xué)的十個知識創(chuàng)新點(diǎn)?引言在過去幾年,基于語言學(xué)和信息學(xué)的融智學(xué)(如字本位與中文信息處理的基礎(chǔ))研究取得了長足進(jìn)展[1義項(xiàng)語匯典例(SVDE的總量控制模型(CLSW-5論文集)[1],重構(gòu)“概念分類體系”的新思路與新方法(CLSW-6論文集)[2],優(yōu)化“語義信息處理”的新方法與實(shí)施例(CLSW-6論文集)[3],字本位與中文信息處理⑷;2理性的標(biāo)準(zhǔn)的協(xié)同智能模型(CAAI-11錄用)[5],融智學(xué)的觀點(diǎn)和方法(CAAI-11錄用)⑹,信息學(xué)基礎(chǔ)研究(信息科學(xué)交叉研究學(xué)術(shù)研討會2005北京)⑺和Intelligenee MeanslnformationProcessing(智意味著信息處理)ZouXiaoHui(VIIInternational OntologyCongress:RealorVirtual:fromPlato'sCavetoInternet 2006,10,Spain)⑹]。然而也還有很多重要的問題沒有得到滿意的解決[如:3不同的信息觀的分歧依然較大,信息本質(zhì)的理論探討仍在進(jìn)行⑻,漢語理論的本位問題仍未徹底解決[10],中文信息處理現(xiàn)有的三大流派[11]各自預(yù)期都是至少還需要幾代人的努力才可望有所突破);4國際范圍內(nèi)語言與知識的計量問題仍然存在;5人類智力以及人工智能所涉及的智的概念的本質(zhì)似乎仍未搞清()AI2000-2007]。有鑒于此,本文系統(tǒng)地介紹了《字本位與中文信息處理的基礎(chǔ)》 提出的十個知識創(chuàng)新點(diǎn),希望有助于改變漢語理論及中文信息處理的研究思路。它們體現(xiàn)的協(xié)同智能的觀點(diǎn)、原理和方法至少可在“強(qiáng)人工智能”與“弱人工智能”之間形成必要張力。人腦與電腦的雙腦結(jié)合及其相應(yīng)的一整套“軟件和數(shù)據(jù)庫”系統(tǒng)實(shí)質(zhì)上是(k+1)雙文雙語協(xié)同智能計算系統(tǒng)涉及拓廣的(包容大、小字符集的)形式語言、形式文法、形式體系、形式理論和形涉及拓廣的(包容大、小字符集的)形式語言、形式文法、形式體系、形式理論和形式科學(xué).正文領(lǐng)域字本位與中文信息處理,涉及語言學(xué)與信息學(xué)的一系列難題。這些問題中,最基礎(chǔ)的是可否判斷(如字詞含義的消歧)與可否計算(如真實(shí)文本處理)兩類問題。解答前者是人腦的擅長,解答后者是電腦的擅長。由于存在不可判斷(£)與不可計算(%)這兩類超出人腦與電腦處理范圍的問題,因此筆者引入了( k+1)雙文雙語協(xié)同智能計算系統(tǒng),把問題轉(zhuǎn)化限制在可判斷{0,1}與可計算{0,1}+{00,01,10,11}+ …+{000…0,…,1…111}范圍以內(nèi)。于是,《字本位與中文信息處理的基礎(chǔ)》實(shí)際上就是《融智學(xué)導(dǎo)論》特殊性同樣是研究自然語言,不同學(xué)科有不同的視角,基礎(chǔ)語言學(xué)站在人類智能主體立場,采用自然人的視角;計算語言學(xué)站在人工智能代理立場,采用計算機(jī)的視角;融智學(xué)導(dǎo)論站在(k+1)雙文雙語協(xié)同智能計算系統(tǒng)“第三智能”立場,采用人機(jī)分工協(xié)作的視角'所謂“第三智能”就是繼人腦智能和電腦智能之后而出現(xiàn)的協(xié)同智能,其特征在于:“人際、人機(jī)、機(jī)際、機(jī)人”之間的“合理分工、優(yōu)勢互補(bǔ),高度協(xié)作、優(yōu)化互動”重要性自然語言與機(jī)器語言的互換主要是通過高級程序語言的中介而實(shí)現(xiàn)的。這條看似唯一的(直接)形式化途徑與融智學(xué)導(dǎo)論的(間接)形式化道路相比,對英文信息處理而言是殊途同歸,但是,對中文信息處理而言,前者就是“崎嶇小路”而后者才是“平坦大道”,因?yàn)?,現(xiàn)在基于小字符集的形式語言和形式文法,根本沒有考慮漢語的情形,更加不是為基于大字符集的中文而構(gòu)造的,所以有必要為漢語及中文訂制相應(yīng)的形式語言和形式文法,最好是能兼容大、小字符集的形式語言和形式文法。融智學(xué)導(dǎo)論(字本位與中文信息處理專門研究(狹義的)協(xié)同智能的概念、原理和方法及其典型實(shí)例的新型科學(xué)理論,涉及微觀語言學(xué)與信息本體學(xué)兩個基礎(chǔ)分支。融智學(xué)導(dǎo)論對理論融智學(xué)、工程融智學(xué)和應(yīng)用融智學(xué)的研究成果只做簡單介紹。協(xié)同智能的16字方針“合理分工、優(yōu)勢互補(bǔ),高度協(xié)作、優(yōu)化互動”的基礎(chǔ))正是從“第三智能”的角度來提出這個課題的。英文信息處理的事實(shí)證明,詞的5 6“粗分”與“細(xì)分”是必需的。如果漢語的字與英語的詞能等價,那么,也就可直接套用英文信息處理的做法,然而,問題在于漢語的字與英語的詞之間,不僅不具備等價關(guān)系,而且,是兩個完全不同的對象語言體系,各自的思維模式也不同,因此中文信息處理不能簡單地直接套用英文信息處理的做法,事實(shí)也證明此路根本走不通(中文信息處理現(xiàn)有的三大流派各自的預(yù)期都是至少還需要幾代人的努力才可望有所突破)。而本專著所提出的間接形式化道路頂多需要十年就可做到全面突破(而且其中每個階段都可有一個個具體的驚人的大突破一一如在漢語“詞”的切分與標(biāo)注的根本性問題上,如在機(jī)器翻譯上,等等)研究途徑從(k+1)雙文雙語協(xié)同智能計算系統(tǒng)的角度來看,解決漢語“詞”的切分與標(biāo)注的根本性問題,是從解析“字與字組的關(guān)系”入手的,首先,要給出“字”的形式化定義,其次,要實(shí)現(xiàn)“字組”的數(shù)字化劃分,最后,要完成“(字的每個)義項(xiàng)”的字組化解釋。5女口:英語的十大詞類一一代詞、數(shù)詞、動詞、名詞、形容詞、副詞、冠詞、感嘆詞、介詞、連詞。女口:英文信息處理的UCRELCLAWS5TagsetUCRELCLAWS6Tagse和UCRELCLAWS7TagsetHere,UCRELmeanstheUniversityCentreforComputerCorpusResearchonLanguage,andCLAWSmeanstheConstituentLikelihoodAutomaticWord-taggingSystem.具體做法可概括為:間接形式化、全域數(shù)碼化和雙文雙語化,其特征在于子全域和超子域的進(jìn)階層式化 這是以優(yōu)化的形式理論為支持的科學(xué)方法的一個關(guān)鍵之所在。,而且有高效實(shí)用的(k+1 這是以優(yōu)化的形式理論為支持的科學(xué)方法的一個關(guān)鍵之所在?;炯僭O(shè)假設(shè)1:如果腦與智不是一回事,那么,就沒有必要等到徹底搞懂某一類腦才能理解智。假設(shè)2:如果智意味著信息處理 筆者提交第七屆國際本體學(xué)術(shù)大會( 筆者提交第七屆國際本體學(xué)術(shù)大會(2006年10月2至6日西班牙)的科學(xué)論文題目。Intelligenee MeanslnformationProcessing(智意味著信息處理)ZouXiaoHui(inZhuHai,China)假設(shè)3:如果任何符號形式都可轉(zhuǎn)化為數(shù)字形式,那么,語言形式也可轉(zhuǎn)化為數(shù)字形式。假設(shè)4:所謂理解,其實(shí)是在全局中對局部的準(zhǔn)確把握或認(rèn)知,如在參照系中確定序位。(根本上具有創(chuàng)新意義的知識)貢獻(xiàn)貢獻(xiàn)1:發(fā)現(xiàn)并清楚地論述了漢語及中文的基本原理一一字的迭交原理。圖1是“字的迭交原理”(字組的“粗分”與“細(xì)分”是其派生原理)示意圖。由圖1可直觀“字”這個概念的八個基本屬性,分別揭示了微觀語言學(xué)的文字、語音、語義、語法、語用、字典、釋義元語和對象語言八個分支學(xué)科的研究對象??捎媒馕龇ò选靶巫帧焙汀耙糇帧睆摹暗弧钡摹皬?fù)合字”中分離出來 類似于“做(虛擬的)分體手術(shù)”,首先分離“形字”和“音字”,進(jìn)而分離大、小字符集的“音字”。 類似于“做(虛擬的)分體手術(shù)”,首先分離“形字”和“音字”,進(jìn)而分離大、小字符集的“音字”。及中文的“字”的形式特點(diǎn):字(對象語言)具有一語雙文(大、小字符集兼容)的特征。在傳統(tǒng)的“實(shí)字”與“虛字”的基礎(chǔ)上引入“用字”和“ 解字”,不僅可形成“字組方陣”,而且還可提煉出“組字公式”,從而揭示出“字與字組的關(guān)系”,如“意+義=意義”,在形式上只是一個簡單的字符串公式,在內(nèi)容上卻是一個非常復(fù)雜而又十分重要的“組字公式”,其中前字限制后字。于是,現(xiàn)在的問題也就集中到了什么是意義這個問題上面來了。西方哲學(xué)“語言轉(zhuǎn)向”以來,所有的科學(xué)預(yù)言和哲學(xué)反思幾乎全都止步于這個被稱為人文、社會和哲學(xué)等諸學(xué)科共同的核心問題或意義難題,竟然可用“意義 =意+義”這樣的一個十分簡單的字符串公式直接地破題。這不能不說是漢語及中文一個非常獨(dú)特的功能 至少在此超級難題的解釋上,英文不具備中文的這個優(yōu)點(diǎn)。中文有自己獨(dú)特的(區(qū)別于小字符集的)形式化途徑。鄒曉輝:重構(gòu)“概念分類體系”的新思路與新方法 至少在此超級難題的解釋上,英文不具備中文的這個優(yōu)點(diǎn)。中文有自己獨(dú)特的(區(qū)別于小字符集的)形式化途徑。鄒曉輝:重構(gòu)“概念分類體系”的新思路與新方法 (CLSW-6論文集)ISBM98這些發(fā)現(xiàn)是以往的漢語研究未曾注意更未曾上升到理論高度并形成體系的知識創(chuàng)新點(diǎn)。

其中區(qū)分“對象語言的字”和“釋義元語的字(作為構(gòu)造字組的基本結(jié)構(gòu)單位) ”甚至11就是漢語“字本位”理論也未曾注意且更未曾上升到理論高度并形成體系的知識創(chuàng)新點(diǎn)。圖1(漢語及中文的基本原理)“字的迭交原理”示意圖貢獻(xiàn)2:給出了信息的一般科學(xué)定義(即“信息本體”)及其最基本的分類:(信息)=(義)+(文)+(意),其中,(文)含(物)的外觀。(義)=可序位化的基本關(guān)系及其所構(gòu)成的結(jié)構(gòu)體系,(文)=可數(shù)字化的基本符號及其所構(gòu)成的形式體系,(意)=可屬性化的基本概念及其所構(gòu)成的學(xué)問體系,(普遍的)信息是內(nèi)容上可概念化、形式上可數(shù)字化、本質(zhì)上可序位化的范疇,可劃12分為概念、符號、關(guān)系三個基本范疇,其特例(如具體的信息)就是各種各樣特殊的信息。貢獻(xiàn)3:給出了智以及智力或智能的本質(zhì)定義(即:智就是信息處理)及其基本分類。(人們通常所說的)智力或智能,其實(shí)就是(如某類)腦所具有的信息處理能力的簡稱。以生理的腦為載體(如人腦)的信息處理能力,即人腦智力;11本該但是沒有(注意且上升到理論高度并形成體系)12理論融智學(xué)通論所述四大基本范疇:(物)載體;11本該但是沒有(注意且上升到理論高度并形成體系)12理論融智學(xué)通論所述四大基本范疇:(物)載體;{[(意)概念、(文)符號、(義)關(guān)系]=信息}本體。以物理的腦為載體(如電腦)的信息處理能力,即電腦智能;以人腦與電腦合理分工、優(yōu)勢互補(bǔ),高度協(xié)作、優(yōu)化互動的信息處理能力,即協(xié)同智分別代表著智以及智力或智能的三種基本類型,其共性在于三者都具有信息處理能力,其個性在于三者各自具有相互之間不同的特定的信息處理能力貢獻(xiàn)4:發(fā)現(xiàn)并清楚地論述了認(rèn)知心理學(xué)雙文雙語信息處理與理解的協(xié)同存儲原理。筆者在認(rèn)知心理學(xué)雙語者研究兩個對立的學(xué)說即:單獨(dú)存儲模型與共同存儲模型。兩者都有各自相應(yīng)的部分事實(shí)作為其理論的實(shí)踐即:單獨(dú)存儲模型與共同存儲模型。兩者都有各自相應(yīng)的部分事實(shí)作為其理論的實(shí)踐支撐貢獻(xiàn)5:發(fā)現(xiàn)并清楚地論述了形式理論的受限原理:易判斷易計算原理。筆者不僅對(基于小字符集的)形式理論進(jìn)行了合理限制(即排除了不可判斷的 &與不可計算的%這兩類超出了人腦與電腦的常規(guī)信息處理范圍的情形) ,而且,嚴(yán)格地區(qū)分了子全域{0,1}和超子域及其各個進(jìn)階層式{0,1}+{00,01,10,11}+ …+{000…0,…,1…111},從而為模式識別(間接地包含其他各種符號的模式識別)、語言理解(間接地包含自然語言理解)和知識表達(dá)(含知識獲取與知識重用)等人工智能(如基于人腦智力的電腦智能)的一系列難題在協(xié)同智能計算系統(tǒng)的條件下得以順利解決,奠定了完全(間接)形式化的基礎(chǔ)。貢獻(xiàn)6:發(fā)現(xiàn)并清楚地論述了序位邏輯學(xué)的基本原理及其適用工具:雙列表分層集合。筆者根據(jù)“信息基本定律”這一經(jīng)歷了30年經(jīng)驗(yàn)證實(shí)和數(shù)理證明以及眾多的國際國內(nèi)著名學(xué)者舉世聞名的一個個特例(如數(shù)學(xué)的恒等變換及同解變形、形式語言的 S=np+vp和數(shù)理邏輯的演繹推理)的充分驗(yàn)證的科學(xué)假設(shè)筆者為自己在筆者為自己在30年前提出的這一科學(xué)假設(shè)(信息基本定律:同義并列,對應(yīng)轉(zhuǎn)換)旁征博引了可驗(yàn)證的幾乎所有可以視為其特例的事實(shí)和理論 (包含許多著名的理論),在有限域內(nèi)至今沒有發(fā)現(xiàn)一個反例貢獻(xiàn)7:發(fā)現(xiàn)并清楚地論述了自然語言的通用計算方法和基本計量工具。

筆者依據(jù)形式信息的判定與計算、統(tǒng)計乃至估算的融智學(xué)原理,分別已把漢語及中文與英語及英文的對象語言導(dǎo)入雙列表分層集合,從而有效地建立了自然語言的通用計算方法和基本計量工具(1),對“詞”的切分與標(biāo)注可做到相對完全歸納(相當(dāng)于窮舉語言知識)。貢獻(xiàn)8發(fā)現(xiàn)并清楚地論述了信息知識的通用計算方法和可擴(kuò)展的計量工具。筆者依據(jù)內(nèi)容信息的判定與計算、統(tǒng)計乃至估算的融智學(xué)原理,分別已把漢語及中文與英語及英文的釋義元語導(dǎo)入雙列表分層集合,從而有效地建立了自然語言的通用計算方法和可擴(kuò)展計量工具(2);進(jìn)而再導(dǎo)入多列表標(biāo)志集合從而有效地建立了信息知識的通用計算方法和可擴(kuò)展的計量工具。至此為止,語言與知識的計量這一難題的解決雖有一個基于相對完全歸納策略的系統(tǒng)解決方案(相當(dāng)于必要條件),但是,似乎仍然缺乏某種讓它活起來的保障措施(相當(dāng)于充分條件),如確保協(xié)同智能得以實(shí)現(xiàn)的生產(chǎn)式教學(xué)和一體化管理。貢獻(xiàn)9:發(fā)明了(區(qū)別于消費(fèi)式教學(xué)的)生產(chǎn)式教學(xué)方法以及相應(yīng)的協(xié)同智能訓(xùn)練體系。貢獻(xiàn)10:發(fā)明了(產(chǎn)、學(xué)、研、教、用、算)一體化(的知識信息數(shù)據(jù)的)管理方法。這樣,也就為筆者發(fā)明的(k+1)雙文雙語協(xié)同智能計算系統(tǒng)的推廣普及鋪平了道路<3?結(jié)語15簡單的說,融智學(xué)的主題就是研究協(xié)同智能,如(k+1)雙文雙語協(xié)同智能計算系統(tǒng)15即人腦和電腦有機(jī)結(jié)合而成的“雙腦”。也就是我們常說的1+1>2在腦與智的問題上

如果“智意味著信息處理”的具體體現(xiàn)。 筆者提交第七屆國際本體學(xué)術(shù)大會(的具體體現(xiàn)。 筆者提交第七屆國際本體學(xué)術(shù)大會(2006年10月2至6日西班牙)的科學(xué)論文題目。Intelligenee MeanslnformationProcessing(智意味著信息處理) ZouXiaoHui(inZhuHai,China)我們知道“語言形式與語義內(nèi)容(含知識)”或“數(shù)據(jù)與知識”可視為信息這種現(xiàn)象的形式與內(nèi)容兩個方面。因此,“語言與知識”它們的根本難點(diǎn)在于語言與知識的定性分析和定量計算或統(tǒng)計乃至估算。前者涉及(文化基因工程的)文本(形式信息)基因系統(tǒng),后者涉及(文化基因工程的)知識(內(nèi)容信息)基因系統(tǒng)以及總體知識框架。也就自然成了融智學(xué)兩個主要分支研究領(lǐng)域,涉及國內(nèi)外人工智能學(xué)界公認(rèn)的自然語言理解即(理論上叫做)計算語言學(xué)(含自然語言理解,如英文、中文等具體的自然語言信和知識工程息處理的實(shí)踐)(含知識的獲取、表達(dá)和重用)它們的根本難點(diǎn)在于語言與知識的定性分析和定量計算或統(tǒng)計乃至估算。前者涉及(文化基因工程的)文本(形式信息)基因系統(tǒng),后者涉及(文化基因工程的)知識(內(nèi)容信息)基因系統(tǒng)以及總體知識框架。即(理論上叫做)計算語言學(xué)(含自然語言理解,如英文、中文等具體的自然語言信息處理的實(shí)踐)20這兩個非常重要的研究領(lǐng)域。1819即(狹義的)人工智能20融智學(xué)實(shí)際上發(fā)現(xiàn)了“人腦(本身的)智能電腦(人工的)智能-(雙腦)協(xié)同智能”圖1819即(狹義的)人工智能20融智學(xué)實(shí)際上發(fā)現(xiàn)了“人腦(本身的)智能電腦(人工的)智能-(雙腦)協(xié)同智能”這樣一個進(jìn)化路徑。其中,智是核心,協(xié)同智能計算系統(tǒng)是主干, “語言與知識”或“數(shù)據(jù)與知識”是它的兩翼

(可融通融合的)智意味著信息處理“語言形式與語義內(nèi)容(含知識)”或“數(shù)據(jù)與知識”概念與關(guān)系(文)+(意)+(義)=(信息)=(本體)蘊(yùn)含(物)的外觀形象和內(nèi)部結(jié)構(gòu)原理及其運(yùn)動變化的法則(物)=(載體)人腦〕 : (1+k)協(xié)同智能(主體)電腦 (k+1)協(xié)同智能(代理)計算系統(tǒng)視聽(形式信息)模式識別與語義(內(nèi)容信息)模式識別自然語言理解(如中文信息處理)與知識工程(涉及知識獲取、知識表達(dá)與知識重用)圖2“基于語言學(xué)與信息學(xué)的融智學(xué)研究對象的主題架構(gòu)”示意圖由圖2兩個大箭頭內(nèi)嵌的字詞解釋,讀者可洞悉上述融智學(xué)理論框架兩個基本切入點(diǎn)現(xiàn)在的問題是中文信息處理和基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論