版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人工智能與知識表示數(shù)據(jù)標注工程——語言知識與應(yīng)用第一章【ch01】人工智能與知識表示【ch02】語言知識庫的構(gòu)建【ch03】資源類語言知識【ch04】語料庫語言知識【ch05】語言知識的應(yīng)用:面向自然語言處理【ch06】語言知識的應(yīng)用:面向垂直領(lǐng)域全套可編輯PPT課件
本課件是可編輯的正常PPT課件+智能與人工智能01本課件是可編輯的正常PPT課件智能與人工智能01智能智能的定義非常模糊,涵蓋的范疇非常廣泛,所以我們很難給智能下一個科學(xué)、精確的定義。斯滕伯格在1994年就人類意識這個主題給出了以下有用的定義。他認為,智能是個體從經(jīng)驗中學(xué)習(xí)理性思考、記憶重要信息以及應(yīng)付日常生活需求的認知能力。這個定義把智能與意識和智慧等同在一起。這個定義突出了學(xué)習(xí)的重要性,同時強調(diào)了智能必須能夠記憶信息,以及智能的目標是應(yīng)付日常生活中的需求,但并沒有強調(diào)智能的擁有者必須是人類。也就是說,任何滿足這樣條件的人或者事物都是具有智能的。本課件是可編輯的正常PPT課件智能與人工智能01智能在本書中,我們將智能認為是智慧和能力的綜合體現(xiàn)。智慧包括感知、記憶、思維、學(xué)習(xí)、創(chuàng)造等,而能力包括行為、語言、情感等。此外,智能還包括一些特有的特征,如有思維、有創(chuàng)造性、有情感等,人類對于智能有著多樣化的研究和闡述。每一種智能都有自己獨特的特點。比如,人類智能的獨有特點是有創(chuàng)造性、有情感;人類智能體現(xiàn)的一個重要方面是有語言。這使得智能的定義在科學(xué)范疇仍然具有一定的模糊性,也正是因為這種模糊性,使得智能可以被演繹成各種模樣。本課件是可編輯的正常PPT課件智能與人工智能01智能如果我們把智能的范圍從生物擴展到事物,如何去評判一個機器是否具有智能?如果我們認為生命并不是擁有智能的必要條件,換句話說,如果一個機器表現(xiàn)出與人類智能相關(guān)的特征,是否可以認定這個機器也具有智能?這就屬于人工智能研究的范疇。為了了解這個概念,我們首先要來介紹人工智能的概念。本課件是可編輯的正常PPT課件智能與人工智能02人工智能提到人工智能,大多數(shù)人都會想起許多科幻小說和電影中塑造的機器人的形象。例如,20世紀80年代的系列科幻電影《星球大戰(zhàn)》塑造了人形和桶形機器人形象,成為許多青少年的科幻啟蒙之作。2000年上映的電影《人工智能》則描述了一位機器人小孩大衛(wèi),為了成為真正的人而奮斗的故事,也反映了創(chuàng)作者對人工智能發(fā)展的樂觀態(tài)度。近年來,許多科幻影視作品都對未來社會中人類與人工智能機器人共存共處的情況進行了具體的描繪。如迪士尼電影《機器人總動員》在講述兩個機器人的愛情故事的同時,也展示了人類與人工智能機器人相處中,幾乎成為附庸的現(xiàn)象。這樣的思想在《黑客帝國》《終結(jié)者》系列電影中得到了更明確的闡述—當人工智能機器人發(fā)展到一定程度,具有自主意識后,必將超越人類,并且進一步毀滅人類。由此可以看出創(chuàng)作者對人工智能持悲觀態(tài)度。本課件是可編輯的正常PPT課件智能與人工智能02人工智能所謂人工智能,就是用人工的方法,在機器或者計算機上實現(xiàn)的智能,也稱為機器智能。目前我們對人工智能有一個基本的共識,即人工智能區(qū)別于自然智能,是一種用人工手段產(chǎn)生的智能現(xiàn)象。這種人工制造的智能能夠像自然智能一樣,實現(xiàn)某種智能能力。比如,人類的許多活動,如下棋競技、編寫程序、駕駛汽車等,都是需要智能才能完成的。如果我們制造了一個機器,它能夠像人類一樣完成這些任務(wù),我們就認為這個機器具有了某種性質(zhì)的人工智能。本課件是可編輯的正常PPT課件智能與人工智能02人工智能國內(nèi)許多學(xué)者也對人工智能的概念給出了自己的論斷,比如譚鐵牛院士在《求是》上曾經(jīng)提出過自己對人工智能的定義:“人工智能是研究開發(fā)能夠模擬、延伸、擴展人類智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能的研究目的是促使智能機器能夠會聽、會看、會說、會思考、會學(xué)習(xí)、會行動?!北菊n件是可編輯的正常PPT課件智能與人工智能02人工智能在這個定義中,譚鐵牛院士用比較通俗的語言概括了當前人工智能所要實現(xiàn)的目標,即會聽、會看、會說、會思考、會學(xué)習(xí)、會行動。這些目標分別對應(yīng)了一個應(yīng)用問題,如語音翻譯器就對應(yīng)了會聽、會說,人工智能競技則對應(yīng)了會思考,自動駕駛對應(yīng)了會行動。從科學(xué)的角度出發(fā),人工智能并非天馬行空,更非無所不能。目前,人工智能研究的重點在于在有限的條件下,對人類智能的某種能力在某些具體問題上的模擬。本課件是可編輯的正常PPT課件+基本方法和流派02本課件是可編輯的正常PPT課件基本方法和流派在1956年的達特茅斯會議上,與會者給出了人工智能學(xué)科的定義。在此基礎(chǔ)上,與會者們又將當時所有符合人工智能思想的方法進行了匯總,把這些方法歸入學(xué)科的研究范疇,也就形成了最初的人工智能研究的流派,為后續(xù)的學(xué)科發(fā)展奠定了基礎(chǔ)。人工智能的方法也隨之逐漸演變成幾種主要的流派。根據(jù)達特茅斯會議中對人工智能的綱領(lǐng)性描述—學(xué)習(xí)的每個方面或智能的任何特征都能被精確地描述到用機器來模擬的程度—可以將人工智能研究分為兩種方法、三大流派。其中,兩種方法分別是理性主義方法、經(jīng)驗主義方法;三大流派分別是符號主義、連接主義、行為主義。本課件是可編輯的正常PPT課件基本方法和流派01基本方法理性主義認為,人類通過學(xué)習(xí)得到的知識是絕對理性的,是可以精確描述的,因此人工智能需要由人工對人類學(xué)習(xí)到的知識進行匯總、加工、抽象、歸納并建立某種理性思考的框架。智能機器依賴這種框架展開思考。理性主義是人工智能早期的主流思潮,至今依然扮演著重要的角色,如現(xiàn)在人們所熟知的知識庫、知識圖譜等,就是以理性主義為基礎(chǔ)建立的。(1)理性主義方法本課件是可編輯的正常PPT課件基本方法和流派01基本方法與理性主義不同,經(jīng)驗主義則認為,外部世界的知識是無法精確描述的,只能通過體驗、經(jīng)歷、感受才能獲得。智能機器需要通過不斷感知外部世界,以嘗試、探索的方式來獲取知識。經(jīng)驗主義其實就是機器學(xué)習(xí)的最基本思想。(2)經(jīng)驗主義方法理性主義和經(jīng)驗主義的區(qū)別在于,智能機器獲得經(jīng)驗知識的方式不同。理性主義認為知識需要人工總結(jié),機器來運用知識;而經(jīng)驗主義則希望智能機器能夠自己獲取解決問題的經(jīng)驗知識。另外,利用智能機器解決實際問題,還需要依賴問題的形式化,即如何將問題表達為智能機器能接受的形式。目前,主要包括以下三個流派。本課件是可編輯的正常PPT課件基本方法和流派02基本流派符號主義認為人工智能本質(zhì)是知識符號化,只要將世界知識轉(zhuǎn)換為某種符號系統(tǒng),智能機器就可以根據(jù)該符號系統(tǒng),解決真實世界的問題??梢姡栔髁x與理性主義是統(tǒng)一的,是理性主義解決問題的方式。(1)符號主義連接主義認為,大腦是智能產(chǎn)生的根源,因此實現(xiàn)人工智能應(yīng)該研究大腦的結(jié)構(gòu)、信息處理機制、運行方式,然后在機器上模擬大腦,實現(xiàn)人工智能。這就是現(xiàn)階段主流的人工神經(jīng)網(wǎng)絡(luò)方法。(2)連接主義本課件是可編輯的正常PPT課件基本方法和流派02基本流派行為主義又稱模擬學(xué)派,該學(xué)派認為智能行為的基礎(chǔ)是“感知—行動”的反應(yīng)機制,認為智能只是在與環(huán)境交互作用中表現(xiàn)出來,不應(yīng)采用集中式的模式,而是需要具有不同的行為模塊與環(huán)境交互,以此來產(chǎn)生復(fù)雜的行為。其研究重點是模擬人在控制過程中的智能行為和作用,如對自尋優(yōu)、自適應(yīng)、自鎮(zhèn)定、自組織和自學(xué)習(xí)等控制論系統(tǒng)的研究。(3)行為主義根據(jù)以上描述,我們可以知道在人工智能研究的主要方法中,明斯基所提出的人工神經(jīng)網(wǎng)絡(luò)方法是經(jīng)驗主義和連接主義的;麥卡錫提出的搜索方法是符號主義和經(jīng)驗主義的;而西蒙和紐威爾所提出的邏輯理論家方法則是理性主義和符號主義的。本課件是可編輯的正常PPT課件163+知識表示03本課件是可編輯的正常PPT課件知識表示01知識符號化廣義的知識表示問題貫穿了整個哲學(xué)和科學(xué)的發(fā)展歷史。早在古典哲學(xué)中就已經(jīng)出現(xiàn)了事實上的知識表現(xiàn)方法,如古典哲學(xué)中最經(jīng)典的三段論推理就可以視作一種知識表示的形式,圖1-1所示為三段論中的知識表示。本課件是可編輯的正常PPT課件知識表示01知識符號化分析圖1-1可知,三段論推理結(jié)果為:“因為蘇格拉底是人,所以蘇格拉底是會死的?!痹谠撏评磉^程中,你可以將其中的實體和動作替換掉,使之變成:“如果所有的B都滿足A且C屬于B則C必定滿足A?!边@樣的過程實際上就是一種知識抽象化的過程,通過這樣的方法就可以把一個推理形式用一個符號體系來表示,而這個符號體系就體現(xiàn)了這個推理中所蘊含的知識,在事實上已經(jīng)完成了知識的符號化表示。本課件是可編輯的正常PPT課件知識表示01知識符號化在17世紀,德國的數(shù)學(xué)家萊布尼茨(GottfriedWilhelmLeibniz)提出一個設(shè)想,即如果將人類的知識用一組概念來表示,那么這組概念就是人類思想的字母表,有了這些字母表,人類的知識就可以通過字母之間的邏輯運算來得到。萊布尼茨設(shè)想的這種符號體系被稱為“普遍文字”。這樣的一些思想后來被德國哲學(xué)家弗雷格(FriedrichLudwigGottlobFrege)發(fā)揚光大。1879年,弗雷格發(fā)表了被譽為“亞里士多德之后在邏輯學(xué)領(lǐng)域最重要的出版物”的著作《概念文字》。在該著作中,弗雷格建立了一套符號體系,并嘗試用這套符號體系表示包括數(shù)學(xué)在內(nèi)的全部邏輯系統(tǒng)。這套體系對后來的科學(xué)發(fā)展產(chǎn)生了深遠的影響,是知識符號化的鼻祖。本課件是可編輯的正常PPT課件知識表示02知識表示的概念在現(xiàn)代,我們所說的“知識表示”,是指將人類的知識形式化或者模型化,即研究如何把一個任務(wù)領(lǐng)域中人類的“知識”表示成為計算機能夠接受和理解的形式。知識表示有許多形式,可以是一種符號描述;也可以是由人們制定的某種規(guī)則或者約定;也可以是某一些數(shù)據(jù),或者某種數(shù)據(jù)結(jié)構(gòu),只要能夠表達我們所需要處理的知識,并且能夠讓計算機訪問到、能夠處理,就是一種知識表示形式。每一種知識表示都可以對應(yīng)一個知識庫。知識庫中的內(nèi)容,可以描述為“問題域中對象和關(guān)系”與“程序中的計算對象和關(guān)系”之間的一種映射。對于一個問題,如果讓人類去思考,會得到該問題相關(guān)的對象及其關(guān)系,而知識庫則是建立一種映射,將人類思考的對象和關(guān)系表示成為計算機程序中的對象及其關(guān)系。一般來說,知識庫中的知識應(yīng)該與現(xiàn)實世界中人類的觀察結(jié)果相一致。而用來建立人類思考與計算機程序之間的媒介,就是“知識表示模式”。本課件是可編輯的正常PPT課件知識表示03人工智能中的知識表示最早期的人工智能的研究方法主要是理性主義。其中,主要采用符號來表示知識,由此形成了理性主義方法加符號主義知識表示的潮流。其本質(zhì)就是用符號來描述知識,然后再對表示得到的符號公式進行計算,從而求解問題,由此可見知識表示在符號主義中的核心地位。在這一階段,知識的表示包括謂詞邏輯、產(chǎn)生式以及框架等。(1)符號主義的知識表示本課件是可編輯的正常PPT課件知識表示03人工智能中的知識表示進入20世紀90年代后,人工智能的經(jīng)驗主義方法復(fù)興,知識表示的形式由符號主義逐漸向多樣化發(fā)展。知識不再由人工去抽象歸納,而是通過大量樣本的狀態(tài)特征來間接體現(xiàn),即狀態(tài)空間表示方法。在這種方法中,樣本數(shù)據(jù)的狀態(tài)特征表示對應(yīng)了某種知識,智能系統(tǒng)通過體驗或者經(jīng)歷這種樣本,把每一種樣本的特征學(xué)習(xí)到,就獲取了這個樣本或者這一類問題中所包含的知識。這種知識表示的方法,仍然是符號主義的,通過每一種狀態(tài)特征學(xué)習(xí)得到的知識仍然需要以符號形式表示和存儲。(1)符號主義的知識表示本課件是可編輯的正常PPT課件知識表示03人工智能中的知識表示進入2010年,隨著連接主義的深度學(xué)習(xí)興起,知識的表示更加抽象。由于連接主義的核心是模擬人類大腦神經(jīng)元的連接結(jié)構(gòu),因此在這種情況下,從樣本數(shù)據(jù)中獲得的知識實際上表現(xiàn)出來就是神經(jīng)網(wǎng)絡(luò)中的語義向量及神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的權(quán)重。連接主義認為整個神經(jīng)網(wǎng)絡(luò)及它每一個神經(jīng)元所對應(yīng)的權(quán)重,就表示了某種知識。連接主義中的知識表示形式通常就是語義向量及網(wǎng)絡(luò)權(quán)重。(2)連接主義的知識表示本課件是可編輯的正常PPT課件+一階謂詞邏輯的知識表示04本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示在人工智能研究的早期階段,計算機能夠處理的信息類型非常單一,絕大部分都是符號串。在這種情況下,用符號來表示知識就成了人工智能研究的關(guān)鍵課題。學(xué)者們認為知識往往由語言來描述,因此如果能夠?qū)⒄Z言描述的知識轉(zhuǎn)化為某個符號體系,就可以實現(xiàn)知識的形式化,計算機只需要讀入這個符號就可以獲得相應(yīng)的知識,而在這方面最先應(yīng)用于人工智能研究的就是命題和謂詞邏輯。本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示了解命題邏輯的首要任務(wù)是明確命題概念,命題是指對客觀世界的帶有真假意義的確定性的陳述句,并且滿足下面三個條件:(1)命題一定是陳述句而不能是疑問句。(2)命題要有確定性。如“他晚上可能會來”這樣帶有可能性的句子就不是一個命題。(3)命題要有真假意義。01命題邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示命題可以是一個單一的論述,如“云是白色的”就是單一命題;也可以是復(fù)合的論述,如“香蕉的表皮是黃色的而果肉是白色的”就是復(fù)合命題。復(fù)合命題涉及的實體和關(guān)系較單一命題更為復(fù)雜。利用命題邏輯即可表示一些知識,如可以用英文的大寫字母來表示某一個實體的事實,再配合一些邏輯符號,就可以表示知識,下面是一個命題邏輯的例子。01命題邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示例1-1A、B、C參加面試,面試官對三人進行了判斷,得到如下幾條想法:(1)三人中至少錄取一人;(2)若錄取A而不錄取B,則一定錄取C;(3)B、C要么都錄取,要么都不錄??;(4)若錄取C,則一定錄取A。那么,最終誰會被錄取呢?01命題邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示本例中面試官的4條“想法”就是4個命題,要將這4個命題的邏輯用符號表示,可以先用P、Q和R分別來表示錄取A、錄取B和錄取C這三個事件,然后就用符號表示這些命題,如下所示:(1)“三人中至少錄取一人”用符號表示為://P∨Q∨R;(2)“若錄取A而不錄取B,則一定錄取C”用符號表示為://P∧?Q→R;(3)“B、C要么都錄取,要么都不錄取”用符號表示為://Q?R;(4)“若錄取C,則一定錄取A”用符號表示為://R→P。01命題邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示通過上文的方法,原始的四個命題形式就被轉(zhuǎn)化為了一個符號體系、一個符號串,其中“∨”為邏輯析取,表示“或”;“∧”為邏輯合取,表示“和”;“?”為邏輯否定,表示逆命題;“→”為實質(zhì)蘊涵,表示如果該符號前的部分成立,則該符號后面的部分也成立;“?”為實質(zhì)等價,表示該符號的兩邊的部分等價。符號串中的每一個符號都對應(yīng)著某一個命題,這就是利用命題邏輯來表示知識的基本方法。01命題邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示命題邏輯用符號來表示命題,然后通過邏輯符號連接命題,就可以得到復(fù)合命題,從而實現(xiàn)對復(fù)雜知識的表示。但命題邏輯也有它的局限性,比如命題邏輯對命題內(nèi)部的結(jié)構(gòu)實際上沒有做描述,而把整個命題表示成一個字符符號,同時對不同命題的共同特征也缺少描述手段。如這樣兩個命題:“小張是一個父親”“小李是一個父親”,這是兩個不同的命題,所以在作為符號的時候,需要用P、Q分別表示,整個命題則是“P∧Q”。實際上這兩個命題“小張是一個父親”“小李是一個父親”非常類似,但在符號中無法體現(xiàn)出其相似性。命題邏輯的這種局限性,使得命題的任何一個非常小的改變都會導(dǎo)致命題的符號的變化。為了解決這個問題,在命題邏輯的基礎(chǔ)上,人工智能研究者們又發(fā)展出了謂詞邏輯。下面就對謂詞邏輯進行具體介紹。01命題邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示通過仔細觀察命題,研究者們發(fā)現(xiàn)最簡單的命題至少由一個主語和一個謂詞組成。如“小張是一個父親”“云是白色的”“香蕉的味道是甜的”。這幾個命題中的“小張”“云”“香蕉”作為各個命題的主語,表示了命題中獨立存在的某個事物、某個實體或者相應(yīng)的概念,而“父親”“白色”“味道是甜的”這樣的詞則是命題的謂詞,謂詞刻畫了主語的某種性質(zhì)、某種狀態(tài)或者某種關(guān)系屬性。02謂詞邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示在一個命題中,主語往往是具體的、特定的,但謂詞往往是通用的,如上文所提及的“小張是一個父親”“小李是一個父親”中,“小張”和“小李”是主語,是特定的,但“父親”這個謂詞實際上是通用的,可以出現(xiàn)在許多不同的命題中,并代表相同的含義。“云是白色的”“棉花是白色的”中,“云”和“棉花”都是實體,都是特定的概念,但“白色”則是一個通用的屬性。同樣,“香蕉的味道是甜的”“蘋果的味道是甜的”也是同理。02謂詞邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示因此,如果將命題中的謂詞抽象出來,作為核心成分,而將主語視作是謂詞所支配的部分,就可以將命題形式化為以謂詞為中心,主語為謂詞附屬成分的形式。以這種形式來表示知識,就是謂詞邏輯。使用謂詞邏輯來表述簡單的命題,有一種基本形式,即P(x1,x2,…,xn)這樣一個簡單的公式。在該公式中,P代表一個謂詞,x1一直到xn則是這個謂詞所操作或者所控制的個體或者實體。謂詞操作的個體數(shù)目,稱為謂詞的元數(shù),只操作一個實體的謂詞,我們把它稱為一元謂詞,即P(x1),里邊只有一個實體。有些謂詞有兩個實體,即P(x1,x2),需要有涉及兩個實體的某種關(guān)系。02謂詞邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示要將一個命題轉(zhuǎn)化成某個謂詞,首先就涉及謂詞的定義、謂詞的含義、謂詞的元數(shù)設(shè)計。這些通常由使用者根據(jù)自己的經(jīng)驗和需要來規(guī)定,一般而言,謂詞用具有相應(yīng)意義的英文單詞或者詞串來表示。同一個命題可以通過提取出不同的謂詞,從而得到不同的謂詞邏輯表達。下面有3組共6個不同的命題,它們都可以轉(zhuǎn)化為不同的謂詞邏輯表達。02謂詞邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示這6個命題中兩兩一組,其結(jié)構(gòu)非常相似。針對第一組“小張是一個父親”“小李是一個父親”兩個命題,可以把“是”當作謂詞設(shè)計,即is_a,“小張是一個父親”就可以表示為“is_a(小張,父親)”;同理,“小李是一個父親”可以表示為“is_a(小李,父親)”。針對第二組,“云是白色的”“棉花是白色的”,則可以將“顏色”作為謂詞,將它們分別表達為“color(云,白色)”“color(棉花,白色)”。第三組“香蕉的味道是甜的”“蘋果的味道是甜的”也一樣,提取“味道”為謂詞,轉(zhuǎn)化為“taste(香蕉,甜)”“taste(蘋果,甜)”的形式。這樣就將命題邏輯轉(zhuǎn)化為了謂詞邏輯。例1-2以下為6個命題。小張是一個父親小李是一個父親云是白色的棉花是白色的香蕉的味道是甜的蘋果的味道是甜的02謂詞邏輯本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示02謂詞邏輯上面的轉(zhuǎn)化成果都是二元謂詞形式,實際上對于同樣的命題,通過提取不同的謂詞也可以轉(zhuǎn)化為一元謂詞形式。同樣是第一組“小張是一個父親”“小李是一個父親”,選擇提取“父親”為謂詞,就可以分別得到“father(小張)”“father(小李)”兩個一元謂詞;第二組“云是白色的”“棉花是白色的”提取“白色”為謂詞,則可得到“white(云)”“white(棉花)”;第三組“香蕉的味道是甜的”“蘋果的味道是甜的”提取“甜”為謂詞,則可得到“sweet(香蕉)”“sweet(蘋果)”。本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示命題邏輯可以轉(zhuǎn)化為謂詞邏輯形式,但是如果要表示一些更復(fù)雜的,涉及事物與事物間更多關(guān)系的命題,僅僅依靠一個謂詞是不夠的,那么就需要用多個謂詞組成的語句來表達其中的知識。要想用謂詞邏輯表達更加復(fù)雜的知識,就需要將多個謂詞通過邏輯組合和嵌套的方式來實現(xiàn)。而連接各謂詞表達所用的符號仍然是前面所提及的“∨”“∧”“?”“→”“?”等邏輯符號,用括號()、[]則可組成具有優(yōu)先運算關(guān)系的謂詞,如下所示。03使用謂詞表示知識本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示例1-3小李不在足球場
?in(小李,足球場)李明會打籃球和踢足球
canplay(李明,籃球)∧canplay(李明,足球)我想吃雞蛋或者蛋糕
wanteat(我,雞蛋)∨wanteat(我,蛋糕)小張的父親是教師
is_a(father(小張),教師)03使用謂詞表示知識本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示這里的第一個例子是“小李不在足球場”,顯然這是一個否定的命題,可以很輕松地抽取出謂詞“在”,“小李在足球場”,是“小李不在足球場”的逆命題,謂詞表達為“in(小李,足球場)”,則“小李不在足球場”的謂詞表示只需在其前面加上“?”,即“?in(小李,足球場)”。第二個例子是“李明會打籃球和踢足球”,其中“打籃球”“踢足球”同時被謂詞“會打”限制,且兩者是“與”的關(guān)系,用“∧”連接,因此其謂詞表示可以寫成“canplay(李明,籃球)∧canplay(李明,足球)”。第三個例子是“我想吃雞蛋或者吃蛋糕”,其中“雞蛋”與“蛋糕”同時被謂詞“想吃”限制且二者是任選其一,即“或”的關(guān)系,用“∨”連接,所以其謂詞表示可以寫為“wanteat(我,雞蛋)∨wanteat(我,蛋糕)”。第四個例子“小張的父親是教師”則是一個謂詞的嵌套,第一個謂詞表示的是小張的父親,第二個謂詞表示的是這個小張的父親是教師,其關(guān)系可以通過括號來說明。提取謂詞為“是”,表示為is_a(father(小張),教師)。03使用謂詞表示知識本課件是可編輯的正常PPT課件將所有的謂詞連接起來,就可構(gòu)成一個復(fù)雜知識的謂詞語句。隨著需要描述的知識越來越復(fù)雜,謂詞語句的形式也會越來越復(fù)雜,而在所有的這種謂詞語句中,有一種特殊的簡單的形式,即原子語句。原子語句是指整個謂詞邏輯中只有一個謂詞語句,在原子語句中允許出現(xiàn)嵌套,不能包含邏輯運算。右面是一些典型的原子語句。一階謂詞邏輯的知識表示例1-4weather(today,rain)likes(tom,kate)friends(father_of(david),father_of(tom))03使用謂詞表示知識本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示在上面所有舉出的例子中,需要表達的知識中的實體都是非常具體的,或者特指的,如小李、蘋果等。但是,在很多情況下,需要表示的知識中的實體卻是比較泛指的,如“所有人都喜歡吃蘋果”,該句中“喜歡吃蘋果”是一個具體的事項,而所有人則難以被抽象為一個主體,因為沒有一個人能夠代表所有人。這種情況下就需要引入謂詞的變量與量詞。為了解決這個問題,人工智能的研究者們添加了一個變量來實現(xiàn)對某一類實體的這種描述,通常是用一個大寫的英文字母來表示?!八腥硕枷矚g吃蘋果”提取出謂詞“喜歡吃”,就可表示為“l(fā)ovetoeat(X,apple)”,其中的X就并非某一特指的主體,而是代表著某一類人。03使用謂詞表示知識本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示通過添加變量,我們解決了特指主體的問題,但是并沒能完全解決,因為“所有人都喜歡吃蘋果”和“有些人喜歡吃蘋果”這兩句話在這種語境下依然沒有辦法得以明確地區(qū)分。為了表示這種區(qū)別,謂詞邏輯設(shè)計了兩種量詞“
X”和“
X”。(1)
X。存在量詞,意為一定存在一個X,滿足該命題。(2)
X。全稱量詞,意為對所有的X,都滿足該命題。有了存在量詞和全稱量詞,我們就可以更加細致地去區(qū)分變量的屬性,上文提到的問題也就得以解決。對“所有人都喜歡吃蘋果”,就設(shè)計一個變量X,表示為“(
X)lovetoeat(X,apple)”,而“有些人喜歡吃蘋果”則表示為“(
X)lovetoeat(X,apple)”。03使用謂詞表示知識本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示03使用謂詞表示知識使用帶有量詞的謂詞語句就可以表示一些更加豐富的知識,下面即為典型的帶有量詞的謂詞語句。例1-5如果星期一不下雨,Tom會去登山。?weather(monday,rain)→go(tom,mountains)。所有籃球運動員都很高。
X(baskateball_player(X)→tall(X))。許多人喜歡三文魚。
X(person(X)∧likes(X,Salmon))。本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示所謂的一階謂詞邏輯,是指在一階謂詞中,謂詞的語義是唯一的。一階謂詞邏輯可以用來表達對客觀世界的大部分陳述,包括簡單的陳述、多種對象之間的關(guān)系以及推理等邏輯關(guān)系。(1)一階謂詞邏輯一階謂詞的優(yōu)點有:①自然性。一階謂詞對知識的描述非常貼近于人類的總結(jié)。②精確性。一階謂詞通過謂詞加上變量,加上量詞,能夠非常精確地表達復(fù)雜的知識。③容易實現(xiàn)。一階謂詞的設(shè)計難度較低。一階謂詞的缺點有:④不能表示不確定性知識。⑤形式過于自由,兼容性差。(2)一階謂詞的優(yōu)缺點04小結(jié)本課件是可編輯的正常PPT課件一階謂詞邏輯的知識表示04小結(jié)用一階謂詞邏輯可以將一組命題表示為一個知識庫,其步驟如下:①正確理解命題,分析原子命題,以及原子命題之間的關(guān)系。②為每個原子命題定義個體、謂詞。③使用恰當?shù)牧吭~。應(yīng)注意全稱量詞后跟條件式,存在量詞后跟合取式。④使用恰當?shù)倪B接符。用連接符連接謂詞句子,表示給定的命題。(3)一階謂詞邏輯設(shè)計過程本課件是可編輯的正常PPT課件+產(chǎn)生式知識表示05本課件是可編輯的正常PPT課件產(chǎn)生式知識表示一階謂詞邏輯有很強的表示能力,但是,它也有很多缺點,如形式過于靈活不容易統(tǒng)一、無法表示不確定知識等,因此,往往無法直接用于計算。除了一階謂詞邏輯,在人工智能學(xué)科中,還有另一種知識表示形式—產(chǎn)生式(productionrule)。產(chǎn)生式能夠根據(jù)已知的條件產(chǎn)生新知識,能夠彌補一階謂詞邏輯的不足。下面就具體介紹產(chǎn)生式知識表示的相關(guān)知識。01產(chǎn)生式的概念本課件是可編輯的正常PPT課件產(chǎn)生式知識表示產(chǎn)生式是一種能夠根據(jù)已知的條件產(chǎn)生新知識的式子,這些式子往往以推理規(guī)則的形式來描述。產(chǎn)生式的概念最早由美國數(shù)學(xué)家波斯特于1943年提出,在20世紀的60年代與70年代,產(chǎn)生式系統(tǒng)被成功應(yīng)用于人工智能研究中,并在自動推理定理證明和專家系統(tǒng)中得到了廣泛的應(yīng)用,成為當時人工智能學(xué)科的主流方法。之后,產(chǎn)生式系統(tǒng)這種表示形式也被應(yīng)用于更多的領(lǐng)域,如在形式語言學(xué)中,產(chǎn)生式用來描述語言的一個結(jié)構(gòu);在計算語言學(xué)中,產(chǎn)生式被用來描述句法分析器的這種句法規(guī)則等。產(chǎn)生式是用來描述規(guī)則性或者事實性知識的一種表達式,其基本形式有規(guī)則性和事實性兩種,下面分別進行介紹。01產(chǎn)生式的概念本課件是可編輯的正常PPT課件產(chǎn)生式知識表示02規(guī)則性知識的產(chǎn)生式所有能夠用一階謂詞邏輯表示的知識都能夠用規(guī)則性產(chǎn)生式來表達,且規(guī)則性產(chǎn)生式與一階謂詞邏輯蘊含式很像。下面是一個典型的例子。(1)確定性推理知識已知知識:“對于任意動物X,如果它會飛且是卵生,則它是一只鳥?!币浑A謂詞邏輯表示為:“X動物(X)∧會飛(X)∧卵生(X)→鳥(X)?!币?guī)則性產(chǎn)生式表示為:“IF動物AND會飛AND卵生THEN該動物是鳥。”例1-6本課件是可編輯的正常PPT課件產(chǎn)生式知識表示02規(guī)則性知識的產(chǎn)生式規(guī)則性產(chǎn)生式與一階謂詞邏輯蘊含式相比,不僅能夠表達推理知識,還能夠表達更多的知識,如“室內(nèi)溫度過高則將空調(diào)打開”。這樣的知識,無法用一階謂詞邏輯蘊含式來表達,而可以用規(guī)則性產(chǎn)生式表達為“IF室內(nèi)溫度>28度THEN打開空調(diào)”。因此,只有一階謂詞邏輯蘊含式可以轉(zhuǎn)寫為規(guī)則性產(chǎn)生式,而規(guī)則性產(chǎn)生式則不一定能夠轉(zhuǎn)寫為一階謂詞邏輯蘊含式。(2)規(guī)則知識本課件是可編輯的正常PPT課件產(chǎn)生式知識表示02規(guī)則性知識的產(chǎn)生式規(guī)則性產(chǎn)生式不僅能夠表達確定的規(guī)則性知識,還能夠表達不確定的規(guī)則性知識,如圖1-2所示,為不確定性規(guī)則產(chǎn)生式。(3)不確定性規(guī)則知識圖1-2所示是一條醫(yī)學(xué)領(lǐng)域的專家知識。在這條規(guī)則中,規(guī)則性產(chǎn)生式的后件“微生物為綠膿桿菌”并非確實成立,而是一種有概率的推測結(jié)果,因此,在原有的規(guī)則性產(chǎn)生式的基礎(chǔ)上,在后件的末尾加上了“置信度”,即該產(chǎn)生式中的“(0.6)”,表示在前件成立的情況下,后件有60%的可能性成立。因此,在需要表達不確定性規(guī)則知識時,只需要在確定性規(guī)則產(chǎn)生式的末尾加上置信度即可。本課件是可編輯的正常PPT課件產(chǎn)生式知識表示03事實性知識的產(chǎn)生式除規(guī)則性知識外,在日常生活中,有許多知識本身就是一個固定的事實,如“籃球是圓的”“北京是中國的首都”“明天可能會下雨”“π≈3.14159”等,這些事實性的知識無法用規(guī)則來表達,自然也不能用規(guī)則性產(chǎn)生式來表示。事實性的知識需要用事實性產(chǎn)生式來表示。事實性產(chǎn)生式一般是多元組的形式,根據(jù)所表示的知識的形式涉及對象的數(shù)量不同,又可分為關(guān)系型產(chǎn)生式和屬性型產(chǎn)生式。其形式分別如下:(1)關(guān)系型產(chǎn)生式:(對象1,對象2,關(guān)系)(2)屬性型產(chǎn)生式:(對象,屬性,值)本課件是可編輯的正常PPT課件產(chǎn)生式知識表示03事實性知識的產(chǎn)生式“籃球是圓的”就是屬性型知識,其事實性產(chǎn)生式為“(籃球,形狀,圓形)”;“北京是中國的首都”則是關(guān)系型知識,其事實性產(chǎn)生式為“(中國,北京,首都)”;而對于“明天可能會下雨”這種不確定的屬性型知識,其事實性產(chǎn)生式也和規(guī)則性產(chǎn)生式一樣,在末尾加上置信度,具體表示為“(明天,天氣,下雨,0.8)”;“π≈3.14159”的事實性產(chǎn)生式則為“(π,近似值,3.14159)”。本課件是可編輯的正常PPT課件產(chǎn)生式知識表示04產(chǎn)生式系統(tǒng)產(chǎn)生式系統(tǒng)主要包括4個主要部分,其結(jié)構(gòu)如圖1-3所示。①規(guī)則庫。規(guī)則庫中存放相關(guān)的規(guī)則性產(chǎn)生式。②事實庫。事實庫中存放已有的事實,以及通過推理得到的新的事實。③控制器。控制器控制整個解決問題的流程。④推理機。推理機讀取事實庫和規(guī)則庫,將事實與規(guī)則的前件進行匹配,以產(chǎn)生新的事實。(1)產(chǎn)生式系統(tǒng)的結(jié)構(gòu)本課件是可編輯的正常PPT課件產(chǎn)生式知識表示04產(chǎn)生式系統(tǒng)想要通過產(chǎn)生式系統(tǒng)來判斷一個斷言的真?zhèn)?,則需要通過以下的步驟:(1)推理機讀取事實庫和規(guī)則庫。(2)推理機將事實與規(guī)則的前件進行匹配,以產(chǎn)生新的事實。(3)如果新的事實中包含了待證明的斷言,則推理結(jié)束。(2)產(chǎn)生式系統(tǒng)的推理步驟本課件是可編輯的正常PPT課件產(chǎn)生式知識表示04產(chǎn)生式系統(tǒng)下面通過一個例子來進行產(chǎn)生式系統(tǒng)運用的具體介紹。圖1-4所示是一個規(guī)則庫,該規(guī)則庫的作用是根據(jù)動物的特征來識別動物的種類。該規(guī)則庫一共包括14條關(guān)于動物分類的規(guī)則,現(xiàn)已全部表示為規(guī)則性產(chǎn)生式并進行編號。有了規(guī)則庫就可以根據(jù)一些條件來判斷動物的類別,現(xiàn)需要推理“一種動物有毛、有利齒、有爪、眼睛前視、體表有黑斑且為黃褐色。這是什么動物?”其具體步驟如下:首先根據(jù)所給的條件,建立如圖1-5所示的事實庫,將規(guī)則庫與事實庫逐條匹配,產(chǎn)生新的事實。檢測規(guī)則庫,r1:“IF有毛THEN哺乳動物”,其前件可以與事實庫中的r15匹配,執(zhí)行該產(chǎn)生式,產(chǎn)生“哺乳動物”的新事實。(3)應(yīng)用產(chǎn)生式推理的例子本課件是可編輯的正常PPT課件產(chǎn)生式知識表示04產(chǎn)生式系統(tǒng)向事實庫中添加“r21:哺乳動物”。再次檢測規(guī)則庫,r4:“IF有利齒AND有爪AND眼睛前視AND哺乳動物THEN食肉動物”,其前件可以與事實庫中的r16、r17、r18、r21匹配,執(zhí)行該產(chǎn)生式,產(chǎn)生“食肉動物”的新事實。向事實庫中添加“r22:食肉動物”。再次檢測規(guī)則庫,r6:“IF食肉動物AND黑斑AND黃褐色THEN豹”向事實庫中添加“r23:豹”。最后,得到明確分類結(jié)論,推理結(jié)束。(3)應(yīng)用產(chǎn)生式推理的例子本課件是可編輯的正常PPT課件產(chǎn)生式知識表示04產(chǎn)生式系統(tǒng)由以上使用產(chǎn)生式系統(tǒng)推理的過程可見,規(guī)則庫主要用來匹配以及產(chǎn)生新的事實,事實庫則需要存放現(xiàn)有的所有事實。如果需要的結(jié)果已經(jīng)在事實庫中,則推理完成。產(chǎn)生式在人工智能發(fā)展過程中起到了非常重要的作用,具體體現(xiàn)在以下3個方面。(1)在人工智能學(xué)科發(fā)展的早期,產(chǎn)生式類型的知識表示方法,配合推理器,成為AI的主流,推動了定理證明、自動推理、專家系統(tǒng)等方法的發(fā)展。(2)產(chǎn)生式作為一種通用的人類知識的表示形式,也成功應(yīng)用于許多領(lǐng)域,如早期的基于規(guī)則的句法分析器、機器翻譯器等。(3)事實性知識的產(chǎn)生式表示方法,發(fā)展為知識圖譜,成為近幾年人工智能領(lǐng)域知識表示的核心方法。(3)應(yīng)用產(chǎn)生式推理的例子本課件是可編輯的正常PPT課件謝謝觀看人工智能與知識表示數(shù)據(jù)標注工程——語言知識與應(yīng)用本課件是可編輯的正常PPT課件語言知識庫的構(gòu)建數(shù)據(jù)標注工程——語言知識與應(yīng)用第二章本課件是可編輯的正常PPT課件+語言知識的概念01本課件是可編輯的正常PPT課件語言知識的概念01語言知識在日常生活、情景交際、學(xué)校教育、社會生產(chǎn)等各方面,我們時刻都在接觸紛繁復(fù)雜的知識,而知識最簡單有力的呈現(xiàn)方式便是通過語言來表達。人們彼此之間的交往離不開語言,在交流時傳遞的各種信息,各類知識大都是通過語言傳達的。語言是人與人交流的一種簡單而不可代替的方式,也是知識傳播的載體。語言是人類知識和思想的重要表達工具,所有人都是通過學(xué)習(xí)從而獲得的語言能力(世界上有5000多種語言,有的人除了母語,還會學(xué)習(xí)其他國家的語言),語言本身也是一種知識。日常生活中,我們使用的語言知識包括以下兩類:①以語言形式保存的知識,如科學(xué)讀物等。②自然語言中包含的知識,如語文知識等。這兩類語言知識面向的對象都是人類。人類通過學(xué)習(xí)語言,掌握語言技能,然后才能掌握以語言為載體的知識。(1)日常生活中的知識通過語言來承載本課件是可編輯的正常PPT課件語言知識的概念01語言知識隨著人工智能的發(fā)展,計算機也需要掌握人類知識來解決實際問題。許多人類知識必須通過語言來承載,那么如何讓計算機完成這一任務(wù)呢?我們需要預(yù)先建立知識庫,這種知識庫的形式是數(shù)字化的,能夠讓計算機讀取和分析,內(nèi)容上類似于字典,或者百科全書,囊括了某一類完備的知識,規(guī)模與體量都比較大。因此在人工智能領(lǐng)域中,我們討論的語言知識往往是狹義的,即面向人工智能應(yīng)用的語言知識,我們也稱為語言知識庫。(2)面向人工智能應(yīng)用的語言知識庫本課件是可編輯的正常PPT課件語言知識的概念01語言知識在日常生活、情景交際、學(xué)校教育、社會生產(chǎn)等各方面,我們時刻都在接觸紛繁復(fù)雜的知識,而知識最簡單有力的呈現(xiàn)方式便是通過語言來表達。人們彼此之間的交往離不開語言,在交流時傳遞的各種信息,各類知識大都是通過語言傳達的。語言是人與人交流的一種簡單而不可代替的方式,也是知識傳播的載體。語言是人類知識和思想的重要表達工具,所有人都是通過學(xué)習(xí)從而獲得的語言能力(世界上有5000多種語言,有的人除了母語,還會學(xué)習(xí)其他國家的語言),語言本身也是一種知識。日常生活中,我們使用的語言知識包括以下兩類:①以語言形式保存的知識,如科學(xué)讀物等。②自然語言中包含的知識,如語文知識等。這兩類語言知識面向的對象都是人類。人類通過學(xué)習(xí)語言,掌握語言技能,然后才能掌握以語言為載體的知識。(1)日常生活中的知識通過語言來承載本課件是可編輯的正常PPT課件語言知識的概念02語言知識庫我們可以給語言知識庫下一個定義:語言知識庫是語言學(xué)研究的基礎(chǔ)資源,通常指大規(guī)模真實文本的有序集合,是利用計算機對語言進行各種分類、統(tǒng)計、檢索、綜合、比較等研究的基礎(chǔ),廣泛應(yīng)用于詞典編纂、語言教學(xué)、傳統(tǒng)語言研究、自然語言處理、基于統(tǒng)計或?qū)嵗难芯康确矫妗8鶕?jù)研究的需要,在從相對而言無限的自然語言材料中抽取有限文本時,所抽取的文本的長度有時是其自然長度,有時是定長的,有時是等密度的,有時是不等密度的。語言知識資源的規(guī)模和質(zhì)量,對語言智能和人工智能的發(fā)展都有重要影響。(1)語言知識庫的定義本課件是可編輯的正常PPT課件語言知識的概念02語言知識庫①真實性:語言知識庫中存放的是在語言生活中真實出現(xiàn)過的語言材料,能夠反映語言的本質(zhì)特點。②加工性:語言知識庫是語言知識的載體,但并不等同于語言的集合。語言知識庫中的真實語言需要經(jīng)過加工(分析和處理),才能應(yīng)對具體的人工智能問題,才能成為真正有用的語言知識庫。例句庫通常不應(yīng)算作語言知識庫。③數(shù)字化:語言知識庫必須以電子計算機為載體,方便匯集、提取、檢索等操作。(2)語言知識庫的特征本課件是可編輯的正常PPT課件語言知識的概念03語言知識庫的類型01020304可分為異質(zhì)的語言知識庫(沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料)、同質(zhì)的語言知識庫(只收集同一類內(nèi)容的語料)、平衡的語言知識庫。按照用途,可分為通用知識庫(收集用于多種用途的語料)、專用知識庫(只收集用于某一特定用途的語料)??煞殖蓡握Z語言知識庫、雙語語言知識庫、多語語言知識庫??煞譃檎Z篇的、語句的、短語的。按照其中包含的知識范圍分類添加標題按照用途分類按照語言結(jié)構(gòu)的單位本課件是可編輯的正常PPT課件語言知識的概念03語言知識庫的類型資源類語言知識庫包括專家系統(tǒng)、本體知識庫、知識圖譜等。主要是由專家或者計算機自動構(gòu)建的結(jié)構(gòu)化、條目化知識庫,其中的知識以明確的形式和格式存儲,通過知識的查找和直接匹配就能實現(xiàn)知識利用。(1)資源類語言知識庫語料庫類語言知識庫存放的是經(jīng)過加工的真實語料。這些語料經(jīng)過不同的加工和知識注入,形成知識庫。目前,學(xué)界已經(jīng)累積了大量各種類型的語言知識庫,如中文人民日報分詞語料庫、中英雙語對齊語料庫、中英新聞分類語料庫、中文句法結(jié)構(gòu)樹語料庫等。(2)語料庫類語言知識庫本課件是可編輯的正常PPT課件+語言知識的來源02本課件是可編輯的正常PPT課件語言知識的來源01結(jié)構(gòu)化數(shù)據(jù)如果結(jié)構(gòu)化數(shù)據(jù)的形式確定了,其中的信息出現(xiàn)的位置就是固定的。因此,根據(jù)數(shù)據(jù)表的結(jié)構(gòu),就可以提取其中具有某種屬性的信息,或者具有某種關(guān)系的信息。也就是說,結(jié)構(gòu)化數(shù)據(jù)具有很好的知識結(jié)構(gòu),便于知識的提取匯總。但相應(yīng)的,結(jié)構(gòu)化數(shù)據(jù)通常是面向特定用途的專業(yè)知識,并且不同的數(shù)據(jù)會因為數(shù)據(jù)構(gòu)成的差異而不通用。結(jié)構(gòu)化數(shù)據(jù)也稱作表數(shù)據(jù),是由二維邏輯表結(jié)構(gòu)來邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。一般是存儲在數(shù)據(jù)庫或其他地方中的結(jié)構(gòu)完好的數(shù)據(jù),數(shù)值型數(shù)據(jù)、標簽等都是結(jié)構(gòu)化數(shù)據(jù),可以直接取用。結(jié)構(gòu)化數(shù)據(jù)的典型例子包括財務(wù)報表信息、比賽數(shù)據(jù)信息、電子病歷信息等。本課件是可編輯的正常PPT課件語言知識的來源02半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)。它一般是自描述的,往往是已電子化但不具有標準格式、制式內(nèi)容、固定結(jié)構(gòu)的文件,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。我們常見的HTML網(wǎng)頁文件、XML標記文件等形式的數(shù)據(jù)文件,都屬于半結(jié)構(gòu)化數(shù)據(jù)。這類文件可以看作在自然語言基礎(chǔ)上增加了標記信息,我們可以通過分析其中的標記信息來獲取其中的知識。同時,自然語言的基本描述方式又使得這類數(shù)據(jù)具有相當?shù)撵`活性,能表達的知識范圍和形式更加豐富,因此是目前語言知識庫建設(shè)的重要來源。本課件是可編輯的正常PPT課件語言知識的來源03非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),因此,其攜帶信息的形式自由、靈活、不固定。結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的差異在于,前者存儲在關(guān)系數(shù)據(jù)庫,而后者存儲在非關(guān)系數(shù)據(jù)庫。我們在日常生活中使用的自然語言就是一種非結(jié)構(gòu)化數(shù)據(jù)。常見的包括辦公文檔、電子郵件、網(wǎng)頁、各類報表、圖片和音頻、視頻信息、社交類網(wǎng)絡(luò)數(shù)據(jù)(Blog和BBS)等都屬于非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)人可以理解,但機器卻很難直接讀懂。分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的便利性也不同。對于結(jié)構(gòu)化數(shù)據(jù),有許多成熟的分析工具;而對于非結(jié)構(gòu)化數(shù)據(jù),雖然包含了大量信息知識,但并不能直接進行知識提取,往往需要通過專業(yè)人員進行知識加工、知識分析之后,形成一個結(jié)構(gòu)化或半結(jié)構(gòu)化的知識庫,才能使用。這是語言知識研究的關(guān)鍵問題之一。本課件是可編輯的正常PPT課件+語言知識庫的構(gòu)建03本課件是可編輯的正常PPT課件語言知識庫的構(gòu)建01構(gòu)建流程選取知識源遵循原則:精品原則、有影響力原則、高流通度原則、典型性原則、易于獲得原則、具有統(tǒng)計樣本意義原則、符合語言規(guī)范原則。知識標注在做好預(yù)處理之后,需要根據(jù)知識庫的類型,進行知識提取或者知識注入。設(shè)計語言知識庫形式對于知識密集型任務(wù),可以選擇構(gòu)建為資源類語言知識庫;對于語言處理、理解類任務(wù),則選擇構(gòu)建為語料庫類語言知識庫。預(yù)處理預(yù)處理涵蓋許多問題,如將不同的文件格式轉(zhuǎn)成純文本文件格式;按照語料庫加工規(guī)范,對語料質(zhì)量進行分詞與詞性標注、語義角色標注;進一步進行句法分析、關(guān)系抽取等。編碼存儲在做好知識注入后,需要對包含知識的數(shù)據(jù)進行格式化存儲。0102030405本課件是可編輯的正常PPT課件語言知識庫的構(gòu)建02規(guī)范和原則語言知識庫的建設(shè)規(guī)范相關(guān)研究較多,包括選材規(guī)范、文本描述規(guī)范、加工規(guī)范、體系構(gòu)造規(guī)范等,具體可參考以下幾本著作:《信息處理用現(xiàn)代漢語分詞規(guī)范》(中國國家標準GB13715—1992)、《信息處理用現(xiàn)代漢語詞類標記集規(guī)范》(教育部語言文字應(yīng)用研究所,2002)、《現(xiàn)代漢語語料庫文本分詞規(guī)范》(北京語言文化大學(xué)語言信息處理研究所、清華大學(xué)計算機科學(xué)與技術(shù)系,1998年)、《北大語料庫加工規(guī)范:切分、詞性標注、注音》(北京大學(xué)計算語言學(xué)研究所,2003)、《資訊處理用中文分詞標準》(臺灣計算語言學(xué)學(xué)會,1996)。本課件是可編輯的正常PPT課件語言知識庫的構(gòu)建02規(guī)范和原則指一條數(shù)據(jù)在標注知識時,不能出現(xiàn)模棱兩可的情況,任何人根據(jù)標注規(guī)范都應(yīng)能得到一致的標注結(jié)果。一致性原則切分標注一般都遵循一個原則—詞表原則,把詞表中已經(jīng)收錄的詞語都作為一個分詞單位,不再切分,所以幾乎每一個規(guī)范的背后都有一個相應(yīng)的詞表。遵從詞表原則指規(guī)范能夠覆蓋文本的全部,即不能出現(xiàn)沒有適用的規(guī)則的情況。完備性原則結(jié)構(gòu)化標注方法是指對復(fù)雜詞應(yīng)采取先切分后組合的切分標注方法,其中包含:最小標注(方括號內(nèi)的標注,適用于語義分析)、最大標注(方括號外的標注,適用于句法分析)。結(jié)構(gòu)化原則原則本課件是可編輯的正常PPT課件+語言知識獲取方法04本課件是可編輯的正常PPT課件語言知識獲取方法01人工標注知識人工獲取語言知識的方法是獲取語言知識的通用方法,該方法應(yīng)用范圍廣,理論上可以滿足不同行業(yè)的知識獲取需求,至今仍然是最主要的語言知識獲取方法。每年,大量語料庫均由人工標注方法生產(chǎn)出來。對于簡單任務(wù),目前計算機可以利用少數(shù)啟動標注數(shù)據(jù)進行半自動標注;但對于大量復(fù)雜的文本推理、理解、分析等綜合任務(wù),人工標注仍然具有不可替代的作用。隨著人工智能的發(fā)展,對數(shù)據(jù)集質(zhì)量和規(guī)模的要求不斷提高。在對龐大數(shù)據(jù)集進行標注時,人工獲取知識方法耗費時間和經(jīng)濟成本太高,因此,在考慮計算時間和經(jīng)濟成本的前提下,人工獲取知識方法適用于小規(guī)模數(shù)據(jù)集的建立。人工標注也有許多缺點,如人力成本高、數(shù)量有限。本課件是可編輯的正常PPT課件語言知識獲取方法01人工標注知識此外,尤其是在處理需要專業(yè)知識的問題時,如翻譯、行業(yè)知識圖譜構(gòu)建等,人力成本和人力數(shù)量,是制約標注知識規(guī)模的主要因素。對人工標注數(shù)據(jù)質(zhì)量的管控,標注工具的設(shè)計等,均可對最終標注工程起到重要作用。因此,采用人工標注方式構(gòu)建知識庫,需要綜合考慮人力物力成本,以及計算時間、經(jīng)濟成本,精心設(shè)計標注方案,才能保證標注工程的順利開展。在實際標注工程中,由于標注人員自身知識水平、對問題的理解程度存在差異,或者存在沒有被標注規(guī)范覆蓋的語言現(xiàn)象,均會導(dǎo)致標注數(shù)據(jù)存在不可避免的差異。一般來說,需要設(shè)計試標、抽檢、校對等環(huán)節(jié),對標注數(shù)據(jù)質(zhì)量進行管理。本課件是可編輯的正常PPT課件語言知識獲取方法01人工標注知識除了標注數(shù)據(jù)本身問題,人工獲取方法還需要算法工程師、產(chǎn)品經(jīng)理和研發(fā)團隊參與制作標注工具,以提高數(shù)據(jù)標注工作的效率。數(shù)據(jù)標注的復(fù)雜程度也決定了標注工具的制作成本和難易程度。這些都是組織開展人工標注工程中必須要考量的問題。以某金融企業(yè)的智能媒體業(yè)務(wù)為例,開發(fā)者需要使用分類模型對金融專業(yè)文章按照不同“頻道”進行分類。在人工標注模型訓(xùn)練數(shù)據(jù)集工程中,伴隨著以下幾個核心痛點:對數(shù)據(jù)標注人員的要求高人工進行數(shù)據(jù)標注的效率低難以對標注數(shù)據(jù)進行規(guī)劃本課件是可編輯的正常PPT課件語言知識獲取方法02自動獲取知識我們可以通過機器學(xué)習(xí)的方式建立模型,實現(xiàn)自動獲取語言知識。現(xiàn)階段,可以較好地實現(xiàn)自動獲取的語言知識,主要為分類問題、序列標注問題等,在諸如詞性標注、語義角色標注、信息抽取、實體命名識別等問題中技術(shù)較為成熟。不可否認,在這些技術(shù)應(yīng)用成熟的領(lǐng)域中,相較于人工獲取知識的方法,機器獲取知識的方法更為高效準確。理論上,對于能夠采用機器獲取知識的任務(wù),數(shù)據(jù)標注要求具有較強的規(guī)則性,且數(shù)據(jù)格式具有較強的結(jié)構(gòu)性;而對于較為復(fù)雜的標注任務(wù),如涉及文本內(nèi)容理解、文本推理、常識推理等知識的構(gòu)建中,機器獲取知識的方法并不完善,所構(gòu)建的數(shù)據(jù)集質(zhì)量難以達到實用標準。本課件是可編輯的正常PPT課件語言知識獲取方法02自動獲取知識近年來,有采用無監(jiān)督學(xué)習(xí)方法使用特定模型對數(shù)據(jù)進行訓(xùn)練,從中獲取知識。這種方法擴寬了通過機器獲取的知識范圍,不僅局限在字、詞、句等方面數(shù)據(jù)。通過模型對少量帶標注的數(shù)據(jù)集進行訓(xùn)練,讓機器學(xué)習(xí)標注規(guī)則,再應(yīng)用到大規(guī)模數(shù)據(jù)。這種方法一改過去基于規(guī)則的機器獲取方法,讓機器學(xué)習(xí)如何獲取特定知識,這種方法理論上使用范圍廣,但在實際應(yīng)用中,獲取的知識能否應(yīng)用需根據(jù)模型性能表現(xiàn)決定。本課件是可編輯的正常PPT課件+語言知識的存儲05本課件是可編輯的正常PPT課件語言知識的存儲01數(shù)據(jù)庫及其類型語言知識的存儲依賴于數(shù)據(jù)庫。數(shù)據(jù)庫,又稱為數(shù)據(jù)管理系統(tǒng),簡而言之,即可視為電子化的文件柜—存儲電子文件的處所,用戶可以對文件中的數(shù)據(jù)進行新增、查找、更新、刪除等操作。最初,數(shù)據(jù)與程序一樣,以簡單的文件作為主要存儲形式。以這種方式組織的數(shù)據(jù)在邏輯上更簡單,但可擴展性差,當訪問這種數(shù)據(jù)的程序時,需要了解數(shù)據(jù)的具體組織格式。當系統(tǒng)數(shù)據(jù)量大或者用戶訪問量大時,應(yīng)用程序還需要解決數(shù)據(jù)的完整性、一致性以及安全性等一系列的問題。因此,必須開發(fā)出一種系統(tǒng)軟件,使它能夠像操作系統(tǒng)屏蔽了硬件訪問復(fù)雜性那樣,屏蔽數(shù)據(jù)訪問的復(fù)雜性。由此產(chǎn)生了數(shù)據(jù)管理系統(tǒng),即數(shù)據(jù)庫。(1)數(shù)據(jù)庫的概念本課件是可編輯的正常PPT課件語言知識的存儲01數(shù)據(jù)庫及其類型數(shù)據(jù)庫可以依據(jù)它所支持的數(shù)據(jù)庫模型來分類,如傳統(tǒng)的數(shù)據(jù)庫分為層次型數(shù)據(jù)庫、網(wǎng)絡(luò)型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫;也可以依據(jù)它所支持的查詢語言來分類,如SQL數(shù)據(jù)庫、XQuery數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等。數(shù)據(jù)庫與其他學(xué)科技術(shù)相結(jié)合,產(chǎn)生了許多新型、專用數(shù)據(jù)庫,如與人工智能結(jié)合產(chǎn)生的演繹數(shù)據(jù)庫、與多媒體技術(shù)結(jié)合產(chǎn)生的多媒體數(shù)據(jù)庫,還有地理數(shù)據(jù)庫、統(tǒng)計數(shù)據(jù)庫、空間數(shù)據(jù)庫等特定領(lǐng)域數(shù)據(jù)庫。近年來,語言知識庫越來越多采用標記語言來存儲。標記語言格式是一種半結(jié)構(gòu)化數(shù)據(jù),具有如下的一些特征:面向顯示、半結(jié)構(gòu)化和無結(jié)構(gòu)、不同形式的數(shù)據(jù)源、動態(tài)變化及數(shù)據(jù)海量等。因此,支持這種結(jié)構(gòu)松散、形式多樣、動態(tài)變化的海量數(shù)據(jù)的存儲、共享、管理、檢索,成了語言知識數(shù)據(jù)庫技術(shù)的主流。(2)數(shù)據(jù)庫的類型本課件是可編輯的正常PPT課件語言知識的存儲02可擴展標記語言XML的前身是SGML,是自IBM從1960年代就開始發(fā)展的GML標準化后的名稱。1978年,ANSI將GML加以整理規(guī)范,發(fā)布成為SGML,但是SGML過于龐大復(fù)雜(標準手冊就有500多頁),難以理解和學(xué)習(xí),進而影響其推廣與應(yīng)用。于是后來人們以SGML為基礎(chǔ),經(jīng)過精簡,并融合HTML的一些特點,產(chǎn)生出一套使用上規(guī)則嚴謹,但是簡單的描述數(shù)據(jù)語言:XML??蓴U展標記語言(ExtensibleMarkupLanguage,XML)是目前應(yīng)用最為廣泛的一種標記語言。標記指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。如何定義這些標記呢?既可以選擇國際通用的標記語言,如HTML,又可以使用像XML這樣由相關(guān)人士自由決定的標記語言,這就是語言的可擴展性。XML是從標準通用標記語言(SGML)中簡化修改出來的,它主要用到的有可擴展標記語言、可擴展樣式語言(XSL)、XBRL和XPath等。本課件是可編輯的正常PPT課件語言知識的存儲02可擴展標記語言XML被廣泛用來作為跨平臺之間交互數(shù)據(jù)的語言,主要針對數(shù)據(jù)的內(nèi)容,通過不同的格式化描述手段(XSLT、CSS等)完成最終的形式表達(生成對應(yīng)的HTML,PDF或者其他的文件格式)。圖2-1是一個簡單的XML文件格式。本課件是可編輯的正常PPT課件語言知識的存儲02可擴展標記語言(1)字符:XML1.0規(guī)范允許使用任何Unicode字符。XML可以分析標記語言并傳遞結(jié)構(gòu)化信息給應(yīng)用。(2)標記(Markup)與內(nèi)容(Content):XML文檔的字符分為標記與內(nèi)容兩類。標記通常以“<”開頭,以“>”結(jié)尾;或者以字符“&”開頭,以“;”結(jié)尾。不是標記的字符就是內(nèi)容。(3)標簽(Tag):Tag屬于標記結(jié)構(gòu),以“<”開頭,以“>”結(jié)尾。Tag名字大小寫敏感,不能包括任何特殊字符,也不能有空格符,不能以“-”或“.”或數(shù)字開始。本課件是可編輯的正常PPT課件語言知識的存儲02可擴展標記語言(4)元素(Element):元素內(nèi)容包括開始標簽和結(jié)束標簽之間出現(xiàn)的一切內(nèi)容,注意是一切內(nèi)容,無論是注釋、其他元素,還是字符數(shù)據(jù)都屬于元素內(nèi)容。因此元素構(gòu)成了XML整體邏輯結(jié)構(gòu)。整個XML文件可以看作根元素,包含所有的其他元素。(5)屬性(Attribute):屬性是一種標記結(jié)構(gòu),在標簽內(nèi)部以“名字-值”的形式存放。例如:<imgsrc="madonna.jpg"alt="Madonna"/>。每個元素中,一個屬性最多出現(xiàn)一次,一個屬性只能有一個值。(6)XML聲明(Declaration):XML文檔如果以XMLdeclaration開始,則表述了文檔的一些信息。如<?xmlversion="1.0"encoding="UTF-8"?>.本課件是可編輯的正常PPT課件語言知識的存儲02可擴展標記語言下面以小張發(fā)送給大元的便條為例,來看XML的用法。例2-1<?xmlversion="1.0"?><小紙條><收件人>大元</收件人><發(fā)件人>小張</發(fā)件人><主題>問候</主題><具體內(nèi)容>早啊,飯吃了沒?</具體內(nèi)容></小紙條>每個XML文檔都由文件頭開始,如例子中的第一行:<?xmlversion="1.0"?>。這一行代碼會告訴解析器或瀏覽器這個文件應(yīng)該按照XML規(guī)則進行解析。本課件是可編輯的正常PPT課件語言知識的存儲02可擴展標記語言下面就是XML的正文。在XML中,元素到底叫<小紙條>還是<小便條>,是由編寫者自行定義的。對比之下,在HTML中,所有的標記都是固定的、不可更改的。XML的結(jié)構(gòu)有一個缺陷,那就是不支持分幀。當多條XML消息在TCP上傳輸?shù)臅r候,無法基于XML協(xié)議來確定一條XML消息是否已經(jīng)結(jié)束。本課件是可編輯的正常PPT課件語言知識的存儲03數(shù)據(jù)交換格式JSON(JavaScriptObjectNotation)是一種輕量級的數(shù)據(jù)交換語言,該語言以易于讓人閱讀的文字為基礎(chǔ),用來傳輸由屬性值或者序列性的值組成的數(shù)據(jù)對象。盡管JSON是JavaScript的一個子集,但JSON是獨立于語言的文本格式,并且采用了類似于C語言家族的一些習(xí)慣。JSON數(shù)據(jù)格式與語言無關(guān)。即便它源自JavaScript,但目前很多編程語言都支持JSON格式數(shù)據(jù)的生成和解析。JSON文件擴展名是.json。使用JSON表示數(shù)據(jù)的例子,如下所示。本課件是可編輯的正常PPT課件語言知識的存儲03數(shù)據(jù)交換格式JSON與XML最大的不同在于XML是一個完整的標記語言,而JSON不是。這使得XML在程序判讀上效率較低。主要的原因在于XML的設(shè)計理念與JSON不同。XML利用標記語言的特性提供了絕佳的延展性(如XPath),在數(shù)據(jù)存儲、擴展及高級檢索方面具備對JSON的優(yōu)勢;而JSON則由于比XML更加小巧,以及瀏覽器的內(nèi)建快速解析支持,使得其更適用于網(wǎng)絡(luò)數(shù)據(jù)傳輸領(lǐng)域。JSON格式取代XML給網(wǎng)絡(luò)傳輸帶來了很大的便利,但是卻沒有了XML的一目了然,尤其是當JSON數(shù)據(jù)很長的時候,會讓人陷入煩瑣復(fù)雜的數(shù)據(jù)節(jié)點查找中。開發(fā)者們可以通過在線JSON格式化工具來更方便地對JSON數(shù)據(jù)進行節(jié)點查找和解析。本課件是可編輯的正常PPT課件語言知識的存儲04本體知識表示資源描述框架(ResourceDescriptionFramework,RDF)是一個用于表達關(guān)于萬維網(wǎng)(WorldWideWeb)上的資源的信息的語言。它專門用于表達關(guān)于Web資源的元數(shù)據(jù),比如Web頁面的標題、作者和修改時間,Web文檔的版權(quán)和許可信息,某個被共享資源的可用計劃表等。然而,將“Web資源”(WebResource)這一概念一般化后,RDF可被用于表達關(guān)于任何可在Web上被標識的事物的信息,即使有時它們不能被直接從Web上獲取。比如關(guān)于一個在線購物機構(gòu)的某項產(chǎn)品的信息(例如關(guān)于規(guī)格、價格和可用性信息),或者關(guān)于一個Web用戶在信息遞送方面的偏好的描述。
本課件是可編輯的正常PPT課件語言知識的存儲04本體知識表示RDF用于信息需要被應(yīng)用程序處理而不是僅僅顯示給人觀看的場合。RDF提供了一種用于表達這一信息,并使其能在應(yīng)用程序間交換而不喪失語義的通用框架。既然是通用框架,應(yīng)用程序設(shè)計者可以利用現(xiàn)成的通用RDF解析器(RDFparser)以及通用的處理工具。能夠在不同的應(yīng)用程序間交換信息意味著對于那些并非信息的最初創(chuàng)建者的應(yīng)用程序也是可利用這些信息。
有關(guān)RDF的知識我們在第3章做更詳細的論述。本課件是可編輯的正常PPT課件謝謝觀看語言知識庫的構(gòu)建數(shù)據(jù)標注工程——語言知識與應(yīng)用本課件是可編輯的正常PPT課件資源類語言知識數(shù)據(jù)標注工程——語言知識與應(yīng)用第三章本課件是可編輯的正常PPT課件+資源類語言知識的概念01本課件是可編輯的正常PPT課件資源類語言知識的概念01屬性知識屬性是對實體與實體之間關(guān)系的抽象。例如,李安是一個實體,李安是一個人物(type);少年派的奇幻漂流是一個實體,少年派的奇幻漂流是一個電影(type),很明顯兩個實體之間存在著某種關(guān)系,即:李安→導(dǎo)演→少年派的奇幻漂流。因此,李安與少年派的奇幻漂流之間的關(guān)系可以用屬性“導(dǎo)演”刻畫,那么就可以根據(jù)屬性構(gòu)建一層關(guān)系—人物(type)→導(dǎo)演(property)→電影(type)。屬性的分類,按照內(nèi)容分類可以分為ID、時間相關(guān)、任務(wù)相關(guān)、地點相關(guān)、數(shù)量、狀態(tài)等。屬性的取值可以根據(jù)各個數(shù)據(jù)庫的特性設(shè)計,比如MySQL字符串有char、varchar,文本有text,時間有datetime,等等。本課件是可編輯的正常PPT課件資源類語言知識的概念02關(guān)系知識關(guān)系是實體與實體之間關(guān)系的抽象。例如,李安(entity)→導(dǎo)演(relation)→少年派的奇幻漂流(entity),導(dǎo)演這個relation就是描述李安和少年派的奇幻漂流之間的關(guān)系。關(guān)系通常是動詞,比如,老師教課程中的“教”,用于表示實體和實體之間的關(guān)系。在概念模型層級,存在一對多、多對一、多對多等情況,而在邏輯模型和物理模型層級,需要消除多對多的情況。本課件是可編輯的正常PPT課件+資源類語言知識的發(fā)展02本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展01語義網(wǎng)絡(luò)1960年,認知科學(xué)家Collins、Quillian等人提出了一個新的概念,叫作語義網(wǎng)絡(luò)(SemanticNetwork),目的是以網(wǎng)絡(luò)的形式,來描述概念之間的語義關(guān)系。在這樣一個設(shè)想中,語義網(wǎng)絡(luò)將概念作為節(jié)點,用邊來表示概念之間的關(guān)系,可以用來描述語義關(guān)系。例如,圖3-1所示為語義網(wǎng)絡(luò)示意圖,在這個圖譜中,描述了哺乳動物的特點以及與相關(guān)哺乳動物(熊、貓和鯨等)之間的關(guān)系等內(nèi)容。本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展01語義網(wǎng)絡(luò)這樣的語義網(wǎng)絡(luò)形式非常簡單且容易理解,但是網(wǎng)絡(luò)中節(jié)點和關(guān)系的設(shè)定沒有固定的規(guī)范,甚至概念和實體也沒有嚴格的區(qū)分。例如,圖譜中的哺乳動物是一個抽象的概念,實際上并不存在某一種動物的名字叫作哺乳動物,但“哺乳動物”在圖譜中和同樣是實體的“熊”處于同一個級別,兩者都作為一個節(jié)點存在,這顯然是不合理的。從1970年開始,許多學(xué)者都開始著手研究語義理論問題,希望將專家系統(tǒng)和語義網(wǎng)絡(luò)進行有機結(jié)合,并定義一個完美的語義理論,使其同時具有表示知識的能力和推理的能力。在這一時期,具有代表性的工作就是描述邏輯(DescriptionLogic),描述邏輯是一種嘗試將知識表示能力和推理計算能力相結(jié)合,得到具有很強表達能力,并且總是能夠推理出結(jié)果的算法。早期的描述邏輯包括Brachman在1980年代提出的KL-ONE語言,這種語言已經(jīng)可以用來刻畫概念、屬性、個體和個體之間的關(guān)系等一系列的知識要素。本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展02語義Web到了1990年,描述邏輯已經(jīng)發(fā)展成為知識表示領(lǐng)域的一個重要分支,但這個時候的描述邏輯僅僅是一個純理論的工作,沒有數(shù)據(jù)和相關(guān)的應(yīng)用進行支撐。恰好在這個時代,互聯(lián)網(wǎng)進入了應(yīng)用階段—Web1.0誕生。在1989年,Web之父TimBernersLee將超文本鏈接與互聯(lián)網(wǎng)“嫁接”在一起,使得用戶可以通過超鏈接來瀏覽互聯(lián)網(wǎng)上的各種資源,并發(fā)布自己的信息,這就是Web最初的形式。本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展02語義WebWeb1.0誕生之后,互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量迅速增加,網(wǎng)頁之間相互關(guān)聯(lián)形成網(wǎng)絡(luò),其中蘊含著大量的知識。但這種知識的設(shè)計思想是面向人類閱讀和理解的,很難被計算機理解和計算,例如,人們很容易知道兩個網(wǎng)頁的內(nèi)容是相關(guān)的,但計算機則很難通過兩個網(wǎng)頁的內(nèi)容去理解兩者之間的相關(guān)性。針對這種情況,在1998年,TimBernersLee提出了“語義網(wǎng)”(SemanticWeb)的概念,為了與“語義網(wǎng)絡(luò)”(SemanticNetwork)進行區(qū)分,通常也被直接稱為“語義Web”。語義Web旨在對互聯(lián)網(wǎng)內(nèi)容進行語義化表示,通過對網(wǎng)頁進行語義的描述,得到網(wǎng)頁的語義信息,從而使計算機能夠理解,并且推理互聯(lián)網(wǎng)的信息。這是一個龐大的構(gòu)想,不是簡單地去給每一個Web頁面標注一個信息,而是需要更新的一種知識表示手段。在這樣的背景下,“RDF資源描述框架”和“OWL網(wǎng)絡(luò)本體語言”等新的語義表示框架誕生了,下面分別進行介紹。本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展02語義WebRDF最早是由Guha和TimBray在1997年提出來的,是一種描述資源信息的框架,這里的資源可以是任何的東西,包括文檔、人等。一個RDF陳述描述了兩個資源及之間的關(guān)系,兩個資源分別是主語(Subject)和賓語(Object),兩者之間的關(guān)系用謂詞(Predicate)來形容。因為每一個RDF都包含3個元素,因此RDF陳述也被稱為RDF三元組(Triples),如下所示為一些三元組的例子。例3-1有一段論述:“Bob出生于1990年7月4日,他和Alice是好朋友。Bob很喜歡名畫《蒙娜麗莎》?!睂⑵溆肦DF形式表達,得到:<Bob><isa><person><Bob><isafriendof><Alice><Bob><isbornon><the4thofJuly1990><Bob><isinterestedin><theMonaLisa>(1)RDF資源描述框架本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展02語義Web<Bob><isa><person>的意思是Bob是一個人,<Bob><isafriendof><Alice>則指出Bob和Alice是朋友的關(guān)系,<Bob><isbornon><the4thofJuly1990>是說明Bob出生在1990年7月4日,<Bob><isinterestedin><theMonaLisa>則表示Bob非常喜歡《蒙拉麗莎》等。以上的每一條都是一個明確的知識,每一條都包含三元組,將這些三元組中的實體作為節(jié)點,實體之間的關(guān)系作為邊,就可以逐漸構(gòu)建出類似圖3-2所示的RDF知識圖。(1)RDF資源描述框架本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展02語義WebGuha在RDF的基礎(chǔ)上不斷研究和發(fā)展,到2014年以后,已經(jīng)把RDF升級到1.1版。現(xiàn)代的知識圖譜的許多思想都來源于RDF的描述形式,因此,在很多時候,Guha又被稱為“知識圖譜之父”。(1)RDF資源描述框架本課件是可編輯的正常PPT課件資源類語言知識的發(fā)展02語義W
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 整棟房屋分層產(chǎn)權(quán)協(xié)議書
- 預(yù)拌砂漿臨時供應(yīng)協(xié)議書
- 分房協(xié)議書沒簽字
- 代發(fā)企業(yè)和代發(fā)協(xié)議書
- 物流防疫協(xié)議書范本
- 2026年廣州建筑財務(wù)總監(jiān)面試題及參考答案
- 2026年質(zhì)量檢驗員考試題庫與解析
- 2026年出版公司編輯部主任面試技巧與答案參考
- 2026年黃岡職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試參考題庫附答案詳解
- 2026年中國聯(lián)通測試部測試工程師Web端測試用例集含答案
- 2026年益陽職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫及答案詳解一套
- 2025年青海省煙草專賣局(公司)高校畢業(yè)生招聘擬錄用人員筆試參考題庫附帶答案詳解(3卷合一版)
- 維穩(wěn)工作課件
- 2025年品質(zhì)經(jīng)理年度工作總結(jié)及2026年度工作計劃
- 江蘇省2025年普通高中學(xué)業(yè)水平合格性考試化學(xué)試卷(含答案)
- 大學(xué)計算機教程-計算與人工智能導(dǎo)論(第4版)課件 第4章 互聯(lián)網(wǎng)與物聯(lián)網(wǎng)
- 2025 版普通高中化學(xué)課程標準對比
- 肝硬化病人的護理查房
- 2025年中華人民共和國食品安全法培訓(xùn)考試試題及答案
- 潛孔錘鉆進技術(shù)施工方案
- 藥廠管理人員述職
評論
0/150
提交評論