從零構(gòu)建知識(shí)圖譜(技術(shù)、方法與案例)_第1頁(yè)
從零構(gòu)建知識(shí)圖譜(技術(shù)、方法與案例)_第2頁(yè)
從零構(gòu)建知識(shí)圖譜(技術(shù)、方法與案例)_第3頁(yè)
從零構(gòu)建知識(shí)圖譜(技術(shù)、方法與案例)_第4頁(yè)
從零構(gòu)建知識(shí)圖譜(技術(shù)、方法與案例)_第5頁(yè)
已閱讀5頁(yè),還剩310頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

從零構(gòu)建知識(shí)圖譜技術(shù)、方法與案例目錄推薦序前言第1章知識(shí)圖譜概覽1.1知識(shí)圖譜序言1.2知識(shí)圖譜基本概念1.2.1知識(shí)圖譜背景1.2.2知識(shí)圖譜的定義1.2.3典型知識(shí)圖譜示例1.3知識(shí)圖譜的模式1.4為什么需要知識(shí)圖譜1.5知識(shí)圖譜的典型應(yīng)用1.6知識(shí)圖譜的技術(shù)架構(gòu)參考文獻(xiàn)第2章知識(shí)圖譜技術(shù)體系2.1知識(shí)表示與知識(shí)建模2.1.1知識(shí)表示2.1.2知識(shí)建模2.2知識(shí)抽取與知識(shí)挖掘2.2.1知識(shí)抽取2.2.2知識(shí)挖掘2.3知識(shí)存儲(chǔ)與知識(shí)融合2.3.1知識(shí)存儲(chǔ)2.3.2知識(shí)融合2.4知識(shí)檢索與知識(shí)推理2.4.1知識(shí)檢索2.4.2知識(shí)推理參考文獻(xiàn)第3章知識(shí)圖譜工具3.1知識(shí)建模工具3.1.1Protégé3.1.2其他本體建模工具3.1.3本體建模工具的選擇3.2知識(shí)抽取工具3.2.1DeepDive3.2.2其他知識(shí)抽取工具3.2.3知識(shí)抽取工具對(duì)比3.3知識(shí)存儲(chǔ)工具3.3.1Neo4j3.3.2Neo4j安裝與部署3.3.3可視化3.3.4圖模型3.3.5其他圖數(shù)據(jù)庫(kù)參考文獻(xiàn)第4章從零構(gòu)建通用知識(shí)圖譜4.1通用知識(shí)表示與抽取4.1.1通用知識(shí)數(shù)據(jù)來(lái)源4.1.2實(shí)體層構(gòu)建4.1.3表述層構(gòu)建4.1.4概念層構(gòu)建4.2知識(shí)增強(qiáng)4.2.1實(shí)體層知識(shí)增強(qiáng)4.2.2模式完善4.2.3實(shí)體鏈接:表述層與實(shí)體層之間的映射4.2.4實(shí)體分類:實(shí)體層與概念層之間的映射4.3百科知識(shí)存儲(chǔ)與更新4.3.1屬性圖存儲(chǔ)模型4.3.2知識(shí)存儲(chǔ)4.3.3知識(shí)更新第5章領(lǐng)域知識(shí)圖譜構(gòu)建5.1領(lǐng)域知識(shí)圖譜概覽5.2醫(yī)藥領(lǐng)域知識(shí)圖譜5.2.1領(lǐng)域模式構(gòu)建5.2.2領(lǐng)域知識(shí)抽取5.2.3領(lǐng)域圖譜構(gòu)建5.2.4圖譜展示5.3用戶畫像圖譜5.3.1用戶畫像知識(shí)表示5.3.2知識(shí)抽取和挖掘5.3.3抽取案例參考文獻(xiàn)第6章知識(shí)圖譜應(yīng)用6.1知識(shí)可視化6.1.1D36.1.2ECharts6.1.3其他工具介紹6.1.4小結(jié)6.2實(shí)體鏈接6.2.1實(shí)體鏈接的定義6.2.2實(shí)體鏈接的步驟6.2.3實(shí)體鏈接工具6.2.4實(shí)體鏈接的應(yīng)用6.3知識(shí)問答6.3.1知識(shí)問答系統(tǒng)概述6.3.2知識(shí)問答系統(tǒng)的主要流程6.3.3主流知識(shí)問答系統(tǒng)介紹6.3.4問答系統(tǒng)實(shí)戰(zhàn)6.4聯(lián)想6.4.1聯(lián)想整體流程6.4.2話題識(shí)別6.4.3候選話題生成6.4.4候選話題排序6.4.5聯(lián)想回復(fù)生成參考文獻(xiàn)第7章基于知識(shí)圖譜的問答系統(tǒng)7.1簡(jiǎn)介7.2自然語(yǔ)言理解7.2.1概述7.2.2基礎(chǔ)NLU7.2.3意圖理解7.2.4實(shí)體識(shí)別與鏈接7.2.5文本相似度與向量化7.3對(duì)話管理7.3.1概述7.3.2知識(shí)問答7.3.3閑聊7.4自然語(yǔ)言生成7.5服務(wù)化參考文獻(xiàn)第8章總結(jié)與展望參考文獻(xiàn)

第1章知識(shí)圖譜概覽本章將首先介紹知識(shí)圖譜的歷史,隨后引出知識(shí)圖譜的基本概念,接著在1.3節(jié)和1.4節(jié)中為大家介紹知識(shí)圖譜的模式(Schema)以及為什么需要用知識(shí)圖譜。最后介紹知識(shí)圖譜的典型應(yīng)用和技術(shù)架構(gòu)。

1.1知識(shí)圖譜序言2009年5月,NBA西部半決賽正在進(jìn)行,剛剛接觸籃球不久的阿楠驚嘆于火箭隊(duì)的中國(guó)大個(gè)兒——姚明的表現(xiàn),于是嘗試搜索姚明的臂展。他打開Google搜索引擎,將“姚明臂展”作為關(guān)鍵字進(jìn)行搜索,得到一整頁(yè)與姚明相關(guān)的網(wǎng)頁(yè)鏈接,在嘗試打開若干個(gè)鏈接之后,阿楠終于找到一個(gè)關(guān)于姚明的介紹,里面提到姚明的臂展是7英尺5英寸。然后,他又搜索尺寸轉(zhuǎn)換標(biāo)準(zhǔn),計(jì)算出姚明的臂展足足有226.1厘米。可以看到,在當(dāng)時(shí),想要通過搜索引擎獲取一個(gè)問題的答案,可能要經(jīng)過很多步驟,即便Google已經(jīng)在2009年3月開始支持更長(zhǎng)的查詢和初步的語(yǔ)義功能,想要從搜索直接獲得答案仍是一件基本不可能的事情。那么十多年后的今天,如果阿楠想得到同樣的答案,會(huì)有什么不一樣嗎?答案是肯定的,如今在Google搜索引擎中搜索“姚明”(讀者可自行嘗試),會(huì)在搜索頁(yè)面的右側(cè)出現(xiàn)一個(gè)包含很多信息的方框,里面除了姚明的代表性圖片,還有其基本信息,同時(shí)也給出了其他用戶感興趣的搜索項(xiàng)。搜索結(jié)果中優(yōu)先給出了姚明的百科信息鏈接(維基百科和百度百科),還給出了姚明的相關(guān)視頻及新聞??芍^內(nèi)容豐富,圖文并茂。甚至,阿楠還可以用一種更簡(jiǎn)單的方法,通過在Google搜索引擎中搜索“姚明的臂展,厘米”直接得到答案?!白屗阉魍ㄍ鸢浮闭荊oogle搜索引擎的目標(biāo)之一。而這一切都基于2012年Google發(fā)布的知識(shí)圖譜(KnowledgeGraph)。Google知識(shí)圖譜通過從各種來(lái)源搜集信息,來(lái)增強(qiáng)搜索引擎結(jié)果的準(zhǔn)確性。同時(shí),這些不同來(lái)源的信息會(huì)被添加到搜索引擎右側(cè)的信息框(Infobox)中。Google知識(shí)圖譜在發(fā)布后的幾個(gè)月內(nèi),就已覆蓋了超過5.7億個(gè)實(shí)體(Entity)以及180億條事實(shí)(Fact),并回答了在2016年5月Google搜索引擎中接近三分之一的問題(問題搜索總量約為1000億)[1]。利用Google知識(shí)圖譜,如果用戶想要搜索文藝復(fù)興時(shí)期的達(dá)·芬奇,就會(huì)得到如圖1-1所示的結(jié)果,包括不同的實(shí)體以及這些實(shí)體是如何連接在一起的。我們不僅可以看到達(dá)·芬奇的生卒年月(1452—1519),還可以看到他和他的作品(蒙娜麗莎)、他和他的出生地(意大利)之間的聯(lián)系。通過發(fā)掘這樣相互聯(lián)系的結(jié)果,用戶可以了解實(shí)體更深層次的信息,并進(jìn)行關(guān)聯(lián)信息的查詢。圖1-1Google知識(shí)圖譜中“達(dá)·芬奇”的可視化搜索結(jié)果通過以上的例子,我們可以直觀地感受到,知識(shí)圖譜是一種具有圖結(jié)構(gòu)的知識(shí)庫(kù),其結(jié)點(diǎn)通過一些邊連接在一起,也可以看到知識(shí)圖譜在搜索引擎上的強(qiáng)大應(yīng)用。知識(shí)圖譜可以看作一類語(yǔ)義網(wǎng)絡(luò)(SemanticNetwork)。語(yǔ)義網(wǎng)絡(luò)是一種表示網(wǎng)絡(luò)中概念(Concept)之間語(yǔ)義關(guān)系的知識(shí)庫(kù),通常是一個(gè)有向或無(wú)向圖,由表示概念的結(jié)點(diǎn)和表示概念之間語(yǔ)義關(guān)系的邊組成。在圖1-1中,達(dá)·芬奇是一個(gè)結(jié)點(diǎn),而達(dá)·芬奇和蒙娜麗莎的關(guān)系就是一條邊??梢钥吹?,Google通過一個(gè)強(qiáng)大的知識(shí)圖譜,提高了用戶的搜索體驗(yàn)。實(shí)際上,Google是站在巨人的肩膀上做了一個(gè)拓展,這個(gè)巨人就是當(dāng)時(shí)世界上最大的知識(shí)圖譜之一——Freebase[2]知識(shí)庫(kù)。Freebase是一個(gè)大型的眾包知識(shí)庫(kù),其數(shù)據(jù)源自維基百科[3]、NNDB[4]、MusicBrainz[5]等,同時(shí)通過開源免費(fèi)吸引用戶貢獻(xiàn)數(shù)據(jù),在運(yùn)行3年之后,被Google納入麾下,成為其知識(shí)圖譜的重要基石。可惜的是,F(xiàn)reebase官方網(wǎng)站已經(jīng)在2016年5月關(guān)閉,用戶目前僅能通過GoogleAPI下載其歷史數(shù)據(jù)文件。圖1-2是Freebase官方網(wǎng)站在關(guān)閉之前的截圖。圖1-2Freebase官網(wǎng)截圖/wiki/Knowledge_Graph。/freebase。/。/。/。1.2知識(shí)圖譜基本概念結(jié)合上文的例子,相信讀者對(duì)基于知識(shí)圖譜的搜索有了一定的了解,本節(jié)將詳細(xì)闡述知識(shí)圖譜的基本概念,包括知識(shí)圖譜的背景、定義以及典型示例。1.2.1知識(shí)圖譜背景在給出知識(shí)圖譜的定義之前,我們先分開討論一下什么是知識(shí),什么是圖譜。首先看一下什么是知識(shí)。有讀者可能會(huì)提出這樣的問題,在大數(shù)據(jù)時(shí)代,人類擁有海量的數(shù)據(jù),這是不是代表人類可以隨時(shí)隨地利用無(wú)窮無(wú)盡的知識(shí)呢?答案是否定的。知識(shí)是人類在實(shí)踐中認(rèn)識(shí)客觀世界(包括人類自身)的成果,它包括事實(shí)、信息、描述以及在教育和實(shí)踐中獲得的技能。知識(shí)是人類從各個(gè)途徑中獲得的經(jīng)過提升、總結(jié)與凝煉的系統(tǒng)的認(rèn)識(shí)。因此,可以這樣理解,知識(shí)是人類對(duì)信息進(jìn)行處理之后的認(rèn)識(shí)和理解,是對(duì)數(shù)據(jù)和信息的凝煉、總結(jié)后的成果。讓我們來(lái)看一下Rowley在2007年提出的DIKW體系[1],如圖1-3所示,從數(shù)據(jù)、信息、知識(shí)到智慧,是一個(gè)不斷凝煉的過程。圖1-3DIKW體系舉一個(gè)簡(jiǎn)單的例子,226.1厘米,229厘米,都是客觀存在的孤立的數(shù)據(jù)。此時(shí),數(shù)據(jù)不具有任何意義,僅表達(dá)一個(gè)客觀事實(shí)。而“姚明臂展226.1厘米”“姚明身高229厘米”是事實(shí)型的陳述,屬于信息的范疇。知識(shí),則是對(duì)信息層面的抽象和歸納,把姚明的身高、臂展,及其他屬性整合起來(lái),就得到了對(duì)于姚明的一個(gè)認(rèn)知,也可以進(jìn)一步了解到姚明的身高是比普通人高的。對(duì)于最后的智慧層面,Zeleny提到的智慧是指知道為什么(Know-Why)[2],感興趣的讀者可以自行了解,本書暫不對(duì)此進(jìn)行深入探討。那么什么是圖譜?圖譜的英文是Graph,直譯過來(lái)就是“圖”的意思。在圖論(數(shù)學(xué)的一個(gè)研究分支)中,圖表示一些事物(Object)與另一些事物之間相互連接的結(jié)構(gòu)。一張圖通常由一些結(jié)點(diǎn)(Vertice或Node)和連接這些結(jié)點(diǎn)的邊(Edge)組成。“圖”這一名詞是由詹姆斯·約瑟夫·西爾維斯特在1878年首次提出的[3]。圖1-4是一個(gè)非常簡(jiǎn)單的圖,它由6個(gè)結(jié)點(diǎn)和7條邊組成。圖1-4由6個(gè)結(jié)點(diǎn)和7條邊組成的圖示例從字面上看,知識(shí)圖譜就是用圖的形式將知識(shí)表示出來(lái)。圖中的結(jié)點(diǎn)代表語(yǔ)義實(shí)體或概念,邊代表結(jié)點(diǎn)間的各種語(yǔ)義關(guān)系。我們?cè)賹⒁γ鞯囊恍┗拘畔?,用?jì)算機(jī)所能理解的語(yǔ)言表示出來(lái),構(gòu)建一個(gè)簡(jiǎn)單的知識(shí)圖譜。比如,<姚明,國(guó)籍,中國(guó)>表示姚明的國(guó)籍是中國(guó),其中“姚明”和“中國(guó)”是兩個(gè)結(jié)點(diǎn),而結(jié)點(diǎn)間的關(guān)系是“國(guó)籍”。這是一種常用的基于符號(hào)的知識(shí)表示方式——資源描述框架(ResourceDescriptionFramework,RDF),它把知識(shí)表示為一個(gè)包含主語(yǔ)(Subject)、謂語(yǔ)(Predicate)和賓語(yǔ)(Object)的三元組<S,P,O>,至于如何從非結(jié)構(gòu)化文本中抽取三元組,我們會(huì)在后面的章節(jié)詳細(xì)說明。1.2.2知識(shí)圖譜的定義上一節(jié)對(duì)知識(shí)圖譜給出了一個(gè)具象的描述,即它是由結(jié)點(diǎn)和邊組成的語(yǔ)義網(wǎng)絡(luò)。那么該如何準(zhǔn)確定義知識(shí)圖譜呢?這里我們可以先回顧一下其概念的演化歷程。知識(shí)圖譜概念的演化歷程如圖1-5所示。圖1-5知識(shí)圖譜概念的演化歷程語(yǔ)義網(wǎng)絡(luò)由劍橋語(yǔ)言研究所的RichardH.Richens提出,前文中已經(jīng)簡(jiǎn)單介紹了語(yǔ)義網(wǎng)絡(luò)的含義。它是一種基于圖的數(shù)據(jù)結(jié)構(gòu),是一種知識(shí)表示的手段,可以很方便地將自然語(yǔ)言轉(zhuǎn)化為圖來(lái)表示和存儲(chǔ),并應(yīng)用在自然語(yǔ)言處理問題上,例如機(jī)器翻譯、問答等。到了20世紀(jì)80年代,研究人員將哲學(xué)概念本體(Ontology)引入計(jì)算機(jī)領(lǐng)域,作為“概念和關(guān)系的形式化描述”,后來(lái),Ontology也被用于為知識(shí)圖譜定義知識(shí)體系(Schema)。而真正對(duì)知識(shí)圖譜產(chǎn)生深遠(yuǎn)影響的是Web的誕生。TimBernersLee在1989年發(fā)表的“InformationManagement:AProposal”[4]中提出了Web的愿景,Web應(yīng)該是一個(gè)以“鏈接”為中心的信息系統(tǒng)(LinkedInformationSystem),以圖的方式相互關(guān)聯(lián)。Tim認(rèn)為“以鏈接為中心“和“基于圖的方式”,相比基于樹的固定層次化組織方式更加有用,從而促成了萬(wàn)維網(wǎng)的誕生。我們可以這樣理解,在Web中,每一個(gè)網(wǎng)頁(yè)就是一個(gè)結(jié)點(diǎn),網(wǎng)頁(yè)中的超鏈接就是邊。但其局限性是顯而易見的,比如,超鏈接只能說明兩個(gè)網(wǎng)頁(yè)是相互關(guān)聯(lián)的,而無(wú)法表達(dá)更多信息。1994年,在第一屆國(guó)際萬(wàn)維網(wǎng)大會(huì)上,Tim又指出,人們搜索的并不是頁(yè)面,而是數(shù)據(jù)或事物本身,由于機(jī)器無(wú)法有效地從網(wǎng)頁(yè)中識(shí)別語(yǔ)義信息,因此僅僅建立Web頁(yè)面之間的鏈接是不夠的,還應(yīng)該構(gòu)建對(duì)象、概念、事物或數(shù)據(jù)之間的鏈接。隨后在1998年,Tim正式提出語(yǔ)義網(wǎng)(SemanticWeb)的概念。語(yǔ)義網(wǎng)是一種數(shù)據(jù)互連的語(yǔ)義網(wǎng)絡(luò),它仍然基于圖和鏈接的組織方式,但圖中的結(jié)點(diǎn)不再是網(wǎng)頁(yè),而是實(shí)體。通過為全球信息網(wǎng)上的文檔添加“元數(shù)據(jù)”(MetaData),讓計(jì)算機(jī)能夠輕松理解網(wǎng)頁(yè)中的語(yǔ)義信息,從而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介。我們可以將語(yǔ)義網(wǎng)理解為知識(shí)的互聯(lián)網(wǎng)(WebofKnowledge)或者事物的互聯(lián)網(wǎng)(WebofThing)。2006年,Tim又提出了鏈接數(shù)據(jù)(LinkedData)的概念,進(jìn)一步強(qiáng)調(diào)了數(shù)據(jù)之間的鏈接,而不僅僅是文本的數(shù)據(jù)化。后文還會(huì)介紹鏈接開放數(shù)據(jù)(LinkedOpenData,LOD)項(xiàng)目,它也是為了實(shí)現(xiàn)Tim有關(guān)鏈接數(shù)據(jù)作為語(yǔ)義網(wǎng)的一種實(shí)現(xiàn)的設(shè)想。隨后在2012年,Google基于語(yǔ)義網(wǎng)中的一些理念進(jìn)行了商業(yè)化實(shí)現(xiàn),其提出的知識(shí)圖譜概念也沿用至今??梢钥吹?,知識(shí)圖譜的概念是和Web、自然語(yǔ)言處理(NLP)、知識(shí)表示(KR)、數(shù)據(jù)庫(kù)(DB)、人工智能(AI)等密切相關(guān)的。所以我們可以從以下幾個(gè)角度去了解知識(shí)圖譜。從Web的角度來(lái)看,像建立文本之間的超鏈接一樣,構(gòu)建知識(shí)圖譜需要建立數(shù)據(jù)之間的語(yǔ)義鏈接,并支持語(yǔ)義搜索,這樣就改變了以前的信息檢索方式,可以以更適合人類理解的語(yǔ)言來(lái)進(jìn)行檢索,并以圖形化的形式呈現(xiàn)。從NLP的角度來(lái)看,構(gòu)建知識(shí)圖譜需要了解如何從非結(jié)構(gòu)化的文本中抽取語(yǔ)義和結(jié)構(gòu)化數(shù)據(jù)。從KR的角度來(lái)看,構(gòu)建知識(shí)圖譜需要了解如何利用計(jì)算機(jī)符號(hào)來(lái)表示和處理知識(shí)。從AI的角度來(lái)看,構(gòu)建知識(shí)圖譜需要了解如何利用知識(shí)庫(kù)來(lái)輔助理解人類語(yǔ)言,包括機(jī)器翻譯問題的解決。從DB的角度來(lái)看,構(gòu)建知識(shí)圖譜需要了解使用何種方式來(lái)存儲(chǔ)知識(shí)。由此看來(lái),知識(shí)圖譜技術(shù)是一個(gè)系統(tǒng)工程,需要綜合利用各方面技術(shù)。國(guó)內(nèi)的一些知名學(xué)者也給出了關(guān)于知識(shí)圖譜的定義。這里簡(jiǎn)單列舉了幾個(gè)。電子科技大學(xué)的劉嶠教授給出的定義是:知識(shí)圖譜,是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是“實(shí)體–關(guān)系–實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性–值對(duì),實(shí)體之間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)[5]。清華大學(xué)的李涓子教授給出的定義是:知識(shí)圖譜以結(jié)構(gòu)化的方式描述客觀世界中概念、實(shí)體及其關(guān)系,將互聯(lián)網(wǎng)的信息表示成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力[6]。浙江大學(xué)的陳華鈞教授對(duì)知識(shí)圖譜的理解是:知識(shí)圖譜旨在建模、識(shí)別、發(fā)現(xiàn)和推斷事物、概念之間的復(fù)雜關(guān)系,是事物關(guān)系的可計(jì)算模型,已經(jīng)被廣泛應(yīng)用于搜索引擎、智能問答、語(yǔ)言理解、視覺場(chǎng)景理解、決策分析等領(lǐng)域。東南大學(xué)的漆桂林教授給出的定義是:知識(shí)圖譜本質(zhì)上是一種叫作語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù),即一個(gè)具有有向圖結(jié)構(gòu)的知識(shí)庫(kù),其中圖的結(jié)點(diǎn)代表實(shí)體或者概念,而圖的邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系[7]。當(dāng)前,無(wú)論是學(xué)術(shù)界還是工業(yè)界,對(duì)知識(shí)圖譜還沒有一個(gè)唯一的定義,本書的重點(diǎn)也不在于給出理論上的精確定義,而是嘗試從工程的角度,講解如何構(gòu)建有效的知識(shí)圖譜。在剩下的章節(jié)中,也會(huì)有一些常見概念,這里列舉如下。實(shí)體:對(duì)應(yīng)一個(gè)語(yǔ)義本體,例如“姚明”“中國(guó)”等。屬性:描述一類實(shí)體的特性(例如“身高”:姚明的身高是229厘米)。關(guān)系:對(duì)應(yīng)語(yǔ)義本體之間的關(guān)系,將實(shí)體連接起來(lái)(例如“國(guó)籍”:姚明的國(guó)籍是中國(guó))。有些學(xué)者也將屬性定義為關(guān)系,屬于屬性關(guān)系的一種。但本書將屬性和關(guān)系作為兩種不同的概念區(qū)別對(duì)待。1.2.3典型知識(shí)圖譜示例本節(jié)將列舉幾個(gè)典型的知識(shí)圖譜項(xiàng)目。圖1-6給出了具有代表性的知識(shí)圖譜項(xiàng)目的發(fā)展歷史。圖1-6知識(shí)圖譜發(fā)展歷史從20世紀(jì)80年代開始的CYC項(xiàng)目,到Google2012年提出的知識(shí)圖譜,再到現(xiàn)在不同語(yǔ)種、不同領(lǐng)域的知識(shí)圖譜項(xiàng)目大量涌現(xiàn),知識(shí)圖譜已經(jīng)被深入研究并廣泛應(yīng)用于各個(gè)行業(yè)。例如,WordNet是典型的詞典知識(shí)庫(kù),BabelNet也是類似于WordNet的多語(yǔ)言詞典知識(shí)庫(kù),YAGO集成了Wikipedia、WordNet、GeoNames三個(gè)源的數(shù)據(jù),NELL則持續(xù)不斷從互聯(lián)網(wǎng)上自動(dòng)抽取三元組知識(shí)。由于這些項(xiàng)目的相關(guān)資料較為豐富,本書僅挑選若干具有代表性的知識(shí)圖譜項(xiàng)目加以介紹。(1)CYC[1]CYC項(xiàng)目開始于1984年,最初目標(biāo)是建立人類最大的常識(shí)知識(shí)庫(kù),將上百萬(wàn)條知識(shí)編碼成機(jī)器可用的形式。根據(jù)維基百科數(shù)據(jù),CYC包含320萬(wàn)條人類定義的斷言,涉及30萬(wàn)個(gè)概念和15000個(gè)謂詞。1986年,DouglasLenat推斷要構(gòu)建這樣龐大的知識(shí)庫(kù)需設(shè)計(jì)25萬(wàn)條規(guī)則,同時(shí)需要350個(gè)人年才能完成。這個(gè)看似瘋狂的計(jì)劃之所以能夠推進(jìn),和當(dāng)時(shí)的歷史背景是不可分開的。在CYC中,大部分工作是以知識(shí)工程為基礎(chǔ),且大部分事實(shí)都是通過手動(dòng)添加到知識(shí)庫(kù)上的。CYC主要由兩部分構(gòu)成,第一部分是作為數(shù)據(jù)載體的多語(yǔ)境知識(shí)庫(kù),第二部分是系統(tǒng)本身的推理引擎。比如,通過“每棵樹都是植物”和“植物最終都會(huì)死亡”的知識(shí),推理引擎可以推斷出“樹會(huì)死亡”的結(jié)論。1994年圖靈獎(jiǎng)獲得者愛德華·費(fèi)根鮑姆曾稱:“CYC是世界上最大的知識(shí)庫(kù),也是技術(shù)論的最佳代表?!保?)ConceptNet[2]ConceptNet是一個(gè)利用眾包構(gòu)建的常識(shí)知識(shí)圖譜,起源于麻省理工大學(xué)媒體實(shí)驗(yàn)室的OpenMindCommonSense(OMCS)項(xiàng)目,它免費(fèi)開放并且具有多語(yǔ)言版本。其英文版本自1999年發(fā)布以來(lái),由15000個(gè)貢獻(xiàn)者積累了超過100多萬(wàn)個(gè)事實(shí)。ConceptNet的一大特點(diǎn)是它的知識(shí)描述是非形式化的,更加貼近自然語(yǔ)言的描述。圖1-7給出了ConceptNet的一個(gè)組織架構(gòu)。這里列舉了一些更為具體的描述,例如:“企鵝是一種鳥”“企鵝出現(xiàn)在動(dòng)物園”“企鵝想要有足夠的食物”等。圖1-7ConceptNet的組織架構(gòu)示例(3)DBpedia[3]DBpedia是指數(shù)據(jù)庫(kù)版本的Wikipedia,是從Wikipedia中的信息框抽取出的鏈接數(shù)據(jù)庫(kù)。英文版本的DBpedia包含600萬(wàn)實(shí)體,其中510萬(wàn)個(gè)實(shí)體可以鏈接到本體上。并且,DBpedia還和Freebase、OpenCYC、Bio2RDF等多個(gè)數(shù)據(jù)集建立了數(shù)據(jù)鏈接。截至目前,DBpedia是鏈接開放數(shù)據(jù)(LOD)中最大的具有代表性的開放鏈接數(shù)據(jù)庫(kù)之一。(4)LOD[4]上文提到,LOD的初衷是實(shí)現(xiàn)Tim有關(guān)鏈接數(shù)據(jù)作為語(yǔ)義網(wǎng)的一種實(shí)現(xiàn)的設(shè)想。其遵循四個(gè)原則:使用URI進(jìn)行標(biāo)識(shí);使用HTTPURI,以便用戶可以像訪問網(wǎng)頁(yè)一樣查看事物的描述;使用RDF和SPARQL標(biāo)準(zhǔn);為事物添加與其他事物的URI鏈接,建立數(shù)據(jù)關(guān)聯(lián)。截至2020年7月,LOD有1260個(gè)知識(shí)圖譜,包含16187個(gè)鏈接。圖1-8給出了LOD統(tǒng)計(jì)的知識(shí)圖譜的示意圖,它按照不同的顏色將知識(shí)圖譜分為9個(gè)大類,其中社交媒體、政府、出版和生命科學(xué)四個(gè)領(lǐng)域的數(shù)據(jù)占比之和超過90%。圖1-8LOD知識(shí)圖譜概覽/。https://conceptnet.io/。/。/。

1.3知識(shí)圖譜的模式前文一直在實(shí)際數(shù)據(jù)的層面談?wù)撝R(shí)圖譜,也談到了本體被用于為知識(shí)圖譜定義模式。作為知識(shí)圖譜中的重要概念,本節(jié)我們將深入討論知識(shí)圖譜的知識(shí)體系——模式的含義和構(gòu)建。人類一直在探尋世間真理,嘗試建立知識(shí)體系。從亞里士多德開始,就有很多人對(duì)世間的萬(wàn)事萬(wàn)物進(jìn)行分類。比如亞里士多德將元素分為土、水、火、空氣和以太(構(gòu)成天體的神圣物質(zhì)),在中國(guó)最早的古漢語(yǔ)辭書《爾雅》中則將世間萬(wàn)物分為了天地山水、草木鳥獸等19個(gè)門類,并對(duì)每一個(gè)門類都進(jìn)行了詳細(xì)的講解。例如在“釋獸”中有這樣的描述:“狗四尺為獒”。也就是說,獒是狗的一種,而且是身長(zhǎng)四尺以上的狗。上文我們提到,在知識(shí)圖譜的圖結(jié)構(gòu)表示中,結(jié)點(diǎn)代表語(yǔ)義實(shí)體或概念,邊代表結(jié)點(diǎn)間的各種語(yǔ)義關(guān)系。那么,實(shí)體和概念又該如何區(qū)分呢?舉一個(gè)簡(jiǎn)單的例子。在三元組<姚明,國(guó)籍,中國(guó)>中,“姚明”和“中國(guó)”是兩個(gè)實(shí)體,而姚明是一個(gè)人(Human)或者籃球運(yùn)動(dòng)員(BasketballPlayer),中國(guó)是一個(gè)地點(diǎn)(Location)或者一個(gè)國(guó)家(Country)。這里,人、籃球運(yùn)動(dòng)員、地點(diǎn)、國(guó)家,都可以看作概念。前文提到,由概念組成的體系稱為本體,本體的表達(dá)能力比模式強(qiáng),且包含各種規(guī)則(Axiom),而模式這個(gè)詞匯則來(lái)源于數(shù)據(jù)庫(kù)領(lǐng)域,可視為一個(gè)輕量級(jí)的本體。實(shí)體和概念之間通常是“是”的關(guān)系,也就是“isA”關(guān)系,比如“中國(guó)是一個(gè)國(guó)家”。而概念和概念之間通常是子集關(guān)系,如“subClassOf”,比如“籃球運(yùn)動(dòng)員是人的一個(gè)子集”,“國(guó)家是地點(diǎn)的一個(gè)子集”。一個(gè)簡(jiǎn)單的由本體所描述的模式如圖1-9所示。圖1-9模式示例總體來(lái)看,本體強(qiáng)調(diào)了概念之間的相互關(guān)系,描述了知識(shí)圖譜的模式,而知識(shí)圖譜是在本體的基礎(chǔ)上增加了更豐富的實(shí)體信息。通俗來(lái)講,模式是骨架,而知識(shí)圖譜是血肉。有了模式,我們可以更好地推理和聯(lián)想。例如,樹是一種植物,柳樹是樹的一種實(shí)例化,則可以推斷出“柳樹是植物”。接下來(lái)我們談一下由Google、Microsoft和Yahoo!三大巨頭于2011年推出的模式規(guī)范體系:S[1]。這個(gè)規(guī)范體系是一個(gè)消費(fèi)驅(qū)動(dòng)的嘗試,其指導(dǎo)數(shù)據(jù)發(fā)布者和網(wǎng)站構(gòu)建者在網(wǎng)頁(yè)中嵌入并發(fā)布結(jié)構(gòu)化數(shù)據(jù),當(dāng)用戶使用特定關(guān)鍵字搜索時(shí),可以免費(fèi)為這些網(wǎng)頁(yè)提升排名,從而起到搜索引擎優(yōu)化(SEO)的作用。S支持各個(gè)網(wǎng)站采用語(yǔ)義標(biāo)簽(SemanticMarkup)的方式將語(yǔ)義化的鏈接數(shù)據(jù)嵌入網(wǎng)頁(yè)中。它的核心模式由專家自頂向下定義,截至目前[2],這個(gè)詞匯本體已經(jīng)包含700多個(gè)類和1300多種屬性,覆蓋范圍包括個(gè)人、組織機(jī)構(gòu)、地點(diǎn)、時(shí)間、醫(yī)療、商品等。通過SEO的明確價(jià)值導(dǎo)向,S得到了廣泛應(yīng)用,目前全互聯(lián)網(wǎng)有超過30%的網(wǎng)頁(yè)增加了基于它的數(shù)據(jù)體系的數(shù)據(jù)標(biāo)注。舉一個(gè)簡(jiǎn)單的例子,對(duì)于一個(gè)電影門戶網(wǎng)站的站長(zhǎng)來(lái)說,如果現(xiàn)在一位用戶正在搜索電影《八佰》,該站長(zhǎng)希望能夠通過SEO提升自己網(wǎng)站的排名,從而讓用戶更加傾向點(diǎn)進(jìn)站內(nèi)的相關(guān)電影界面。傳統(tǒng)的HTML標(biāo)簽只會(huì)告訴瀏覽器如何渲染網(wǎng)頁(yè)上的信息,例如<h1>TheEightHundred</h1>僅僅告訴瀏覽器以大標(biāo)題形式顯示文本文字“TheEightHundred”,沒有明確給出這些文本文字的信息。而S可以理解為一份共享詞匯表,一種語(yǔ)義化的網(wǎng)頁(yè)結(jié)構(gòu)標(biāo)記。對(duì)于搜索引擎而言,使用S規(guī)范,可以讓搜索更準(zhǔn)確,生成豐富的網(wǎng)頁(yè)摘要。采用S規(guī)范的網(wǎng)頁(yè)標(biāo)簽示例如下:<divitemscopeitemtype="/Movie"><h1itemprop="name">TheEightHundred</h1><divitemprop="director"itemscopeitemtype="/Person">Director:<spanitemprop="name">HuGuan</span>(born<timeitemprop="birthDate"datetime="1968-08-01">August01,1968</time>)</div><spanitemprop="genre">War</span><ahref=".../trailer/the-eight-hundredtrailer.html"itemprop="trailer">Trailer</a>9.</div>無(wú)論是程序員、搜索引擎還是網(wǎng)絡(luò)爬蟲,都可以很輕松地通過S獲取到結(jié)構(gòu)非常清晰的信息:類型:電影(Movie)名稱:八佰(TheEightHundred)導(dǎo)演姓名:管虎(HuGuan)導(dǎo)演生日:1968年08月01日影片類型:戰(zhàn)爭(zhēng)片(War)當(dāng)然,S也有體系覆蓋度不足、局限于英文、細(xì)致化不足等缺點(diǎn)。尤其是在構(gòu)建特定領(lǐng)域模式的過程中,經(jīng)常需要融合多種知識(shí)體系。由于這些不同體系關(guān)于類別、屬性的定義并不統(tǒng)一,例如GeoNames、DBpediaOntology、S等都有各自獨(dú)特的體系定義,因此,體系融合也是一個(gè)非常大的難題。在工業(yè)實(shí)踐中,開發(fā)人員一般會(huì)根據(jù)一個(gè)成熟的知識(shí)體系,結(jié)合特定需求,構(gòu)建適合自身需求的模式。例如,狗尾草智能科技有限公司推出的百科知識(shí)圖譜“七律”[3]及其相應(yīng)的模式,就是基于AI虛擬生命開發(fā)的知識(shí)體系,如圖1-10所示。圖1-10狗尾草知識(shí)圖譜——七律示例/。截至2021年4月30日。/kg。1.4為什么需要知識(shí)圖譜上文中我們介紹了知識(shí)圖譜的基礎(chǔ)知識(shí),尤其可以看到知識(shí)圖譜在搜索方面的重要作用。可能有讀者會(huì)問,和傳統(tǒng)數(shù)據(jù)庫(kù)相比,知識(shí)圖譜有哪些獨(dú)特優(yōu)勢(shì)?要回答這個(gè)問題,我們先來(lái)聊一聊人工智能目前的發(fā)展情況。隨著硬軟件的發(fā)展,自2012年以來(lái),深度學(xué)習(xí)在各領(lǐng)域,尤其是感知層面,都掀起了技術(shù)革命。在計(jì)算機(jī)視覺領(lǐng)域,微軟在2015年提出的深度學(xué)習(xí)算法[9],已經(jīng)在ImageNet2012[1]分類數(shù)據(jù)集中將錯(cuò)誤率降低到4.94%,首次低于人眼識(shí)別的錯(cuò)誤率(約5.1%)。在語(yǔ)音合成技術(shù)領(lǐng)域,DeepMind公司在2017年6月發(fā)布了最新的WaveNet語(yǔ)音合成系統(tǒng)[2],是當(dāng)時(shí)世界上文本到語(yǔ)音環(huán)節(jié)最好的生成模型。在語(yǔ)音識(shí)別領(lǐng)域,通過引入深度學(xué)習(xí),大大提到了語(yǔ)音識(shí)別的準(zhǔn)確性。2017年8月,微軟語(yǔ)音識(shí)別系統(tǒng)錯(cuò)誤率由之前的5.9%進(jìn)一步降低到5.1%,大幅刷新原先記錄,可與專業(yè)速記員比肩[8]。而在預(yù)訓(xùn)練語(yǔ)言模型方面,OpenAI的語(yǔ)言模型GPT-2[3]在多項(xiàng)任務(wù)上均超越了BERT,成為當(dāng)時(shí)新的標(biāo)桿。2020年,GPT-3[4]橫空出世,其參數(shù)比GPT-2多100倍。該模型經(jīng)過了將近0.5萬(wàn)億個(gè)單詞的預(yù)訓(xùn)練,可以在不進(jìn)行微調(diào)的情況下,在多個(gè)NLP基準(zhǔn)上達(dá)到最優(yōu)質(zhì)的性能。在應(yīng)用領(lǐng)域,有很多人們所熟知的具有代表性的案例。2011年,IBMWaston在綜藝節(jié)目《危險(xiǎn)邊緣》(Jeopardy!)中擊敗了人類最優(yōu)秀的選手。在2016年,Google的AlphaGo打敗了人類最頂尖的圍棋選手李世石。在星際爭(zhēng)霸2中,Google的AlphaStar打敗了人類的專業(yè)選手,而在Dota2比賽與人類的對(duì)戰(zhàn)中,OpenAI也取得了不俗的戰(zhàn)績(jī)。同時(shí),IBM的ProjectDebater,在與人類的辯論賽中也開始嶄露頭角。甚至在人類最后的堡壘藝術(shù)方面,人工智能也取得了令人矚目的突破。2018年10月,一幅名為《愛德蒙·貝拉米的肖像》的畫作(如圖1-11所示)拍出了43.25萬(wàn)美金的高價(jià),遠(yuǎn)超7000到1萬(wàn)美元的預(yù)期。而這幅畫作,是用了1.5萬(wàn)張圖片,結(jié)合生成對(duì)抗模型得到的結(jié)果。圖1-11人工智能畫作《愛德蒙·貝拉米的肖像》人工智能在感知層面的應(yīng)用突飛猛進(jìn),伴隨著深度學(xué)習(xí)的發(fā)展,在各個(gè)領(lǐng)域都取得了超越人類的成績(jī)。但迄今為止,這些突破都是基于海量的訓(xùn)練數(shù)據(jù),通過強(qiáng)大的計(jì)算能力得到的。例如,基于Transformer的GPT-2,擁有15億參數(shù)和40GB網(wǎng)絡(luò)數(shù)據(jù)的測(cè)試集,在算法發(fā)布時(shí)的訓(xùn)練價(jià)格是每小時(shí)2048美元,使用了256塊GoogleTPUv3。GPT3的參數(shù)量更是達(dá)到了驚人的1750億,并使用了45GB的數(shù)據(jù)進(jìn)行訓(xùn)練。眾所周知,人工智能一共有三個(gè)代表性學(xué)派,如圖1-12所示。其中,符號(hào)學(xué)派強(qiáng)調(diào)模擬人的心智,連接學(xué)派強(qiáng)調(diào)模擬腦的結(jié)構(gòu),行為學(xué)派強(qiáng)調(diào)模擬人的行為。圖1-12人工智能代表性的三個(gè)學(xué)派以深度學(xué)習(xí)為代表的連接學(xué)派,主要解決了感知問題,也引領(lǐng)了這一輪人工智能的發(fā)展熱潮。但是在更高層次的認(rèn)知領(lǐng)域,例如自然語(yǔ)言理解、推理和聯(lián)想等方面,還需要符號(hào)學(xué)派的幫助。知識(shí)圖譜是符號(hào)學(xué)派的代表,可以幫助我們構(gòu)建更有學(xué)識(shí)的人工智能,從而提升機(jī)器人推理、理解、聯(lián)想等功能。而這一點(diǎn),僅通過大數(shù)據(jù)和深度學(xué)習(xí)是無(wú)法做到的。多倫多大學(xué)的GeoffreyHinton教授也提出,人工智能未來(lái)的發(fā)展方向之一就是深度神經(jīng)網(wǎng)絡(luò)與符號(hào)人工智能的深入結(jié)合。近兩年,市場(chǎng)上出現(xiàn)了大量聊天機(jī)器人產(chǎn)品,提供各種各樣的功能,比如情感陪伴、個(gè)人助理、兒童教育、生活購(gòu)物等。但從實(shí)際的效果來(lái)看,絕大部分產(chǎn)品只能完成簡(jiǎn)單的問答和對(duì)話,遠(yuǎn)未達(dá)到媒體上宣傳的效果,更不要說進(jìn)行真正的思考和推理,就好像是綠野仙蹤里的鐵皮人,缺少了具有“生命感”的那顆心。同時(shí),在對(duì)常識(shí)的理解上,人工智能系統(tǒng)的理解能力還非常稚嫩,對(duì)于人類而言非常容易的問題,如“雞蛋放到籃子里,是雞蛋大還是籃子大”以及“啤酒杯掉到地毯上會(huì)不會(huì)碎”等問題,則很難判斷。究其原因,大數(shù)據(jù)并不等于知識(shí),人類在長(zhǎng)期生活實(shí)踐中所積累的經(jīng)驗(yàn)和知識(shí),也無(wú)法快速傳遞給人工智能系統(tǒng)。綜上所述,知識(shí)圖譜是實(shí)現(xiàn)通用人工智能(ArtificialGeneralIntelligence,AGI)的重要基石。在從感知到認(rèn)知的跨越過程中,構(gòu)建大規(guī)模高質(zhì)量知識(shí)圖譜是一個(gè)重要環(huán)節(jié)。當(dāng)人工智能可以通過更結(jié)構(gòu)化的表示理解人類知識(shí),并進(jìn)行互聯(lián)時(shí),才有可能讓機(jī)器真正實(shí)現(xiàn)推理、聯(lián)想等認(rèn)知功能。不過,對(duì)于AI擁有了全部人類知識(shí)后是否能夠形成獨(dú)立思考的能力,則需要專家學(xué)者進(jìn)一步研究。/challenges/LSVRC/2012/。/blog/article/wavenet-generative-model-raw-audio。/openai/gpt-2。/openai/gpt-3。

1.5知識(shí)圖譜的典型應(yīng)用我們?cè)谇拔闹幸呀?jīng)接觸到了知識(shí)圖譜對(duì)搜索引擎的成功應(yīng)用。知識(shí)圖譜為搜索提供了豐富的結(jié)構(gòu)化結(jié)果,體現(xiàn)了信息和知識(shí)的關(guān)聯(lián),可以通過搜索直接得到答案。除了通用搜索引擎之外,在一些特定領(lǐng)域中,知識(shí)圖譜也發(fā)揮著重要作用,例如同花順公司的問財(cái)系統(tǒng)[1]、文因互聯(lián)的文因企業(yè)搜索[2]等。在醫(yī)療領(lǐng)域,為了降低發(fā)現(xiàn)新藥的難度,OpenPhacts[3]聯(lián)盟構(gòu)建了一個(gè)發(fā)現(xiàn)平臺(tái),通過整合來(lái)自各種數(shù)據(jù)源的藥理學(xué)數(shù)據(jù),構(gòu)建知識(shí)圖譜,來(lái)支持藥理學(xué)研究和藥物發(fā)現(xiàn)。IBMWaston[4]通過構(gòu)建醫(yī)療信息系統(tǒng),以及一整套的問答和搜索框架,以腫瘤診斷為核心,成功應(yīng)用于包括慢病、醫(yī)療影像、體外檢測(cè)在內(nèi)的九大醫(yī)療領(lǐng)域。其第一步商業(yè)化運(yùn)作是打造了一個(gè)腫瘤解決方案(WastonforOncology),通過輸入紀(jì)念斯隆·凱特琳癌癥中心[5]的數(shù)千份病例、1500萬(wàn)頁(yè)醫(yī)學(xué)文獻(xiàn),可以為不同的腫瘤病人提供個(gè)性化治療方案,連同醫(yī)學(xué)證據(jù)一起推薦給醫(yī)生。在投資研究領(lǐng)域,成立于2010年的AlphaSense[6]公司打造了一款新的金融知識(shí)引擎。與傳統(tǒng)的金融信息數(shù)據(jù)平臺(tái)不同,這款知識(shí)引擎并不僅僅局限在金融數(shù)據(jù)的整合和信息平臺(tái)的范圍,而是通過構(gòu)建知識(shí)圖譜,加上自然語(yǔ)言處理和語(yǔ)義搜索引擎,讓用戶可以更方便地獲取各種素材并加工再使用。另外一款非常具有代表性的金融知識(shí)引擎是Kensho[7]。它通過從各種數(shù)據(jù)源搜集信息,構(gòu)建金融知識(shí)圖譜,并關(guān)注事件和事件之間的依賴,以及對(duì)結(jié)果的關(guān)聯(lián)和推理,從而可為用戶提供自動(dòng)化語(yǔ)義分析、根據(jù)特定行情判斷走勢(shì)等功能。在政府管理和安全領(lǐng)域,一個(gè)具有代表性的案例是Palantir[8],因通過大規(guī)模知識(shí)圖譜協(xié)助抓住了本·拉登而聲名大噪。其核心技術(shù)是整理、分析不同來(lái)源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),為相關(guān)人員提供決策支持。例如在軍事情報(bào)分析系統(tǒng)中,將多源異構(gòu)信息進(jìn)行整合,如電子表格、電話、文檔、傳感器數(shù)據(jù)、動(dòng)態(tài)視頻等,可以對(duì)人員、裝備、事件進(jìn)行全方位實(shí)時(shí)的監(jiān)控分析,使調(diào)度人員第一時(shí)間掌握戰(zhàn)場(chǎng)態(tài)勢(shì),并做出預(yù)判。除了協(xié)助抓住本·拉登,Palantir的另外一項(xiàng)赫赫有名的成就是協(xié)助追回了前納斯達(dá)克主席麥道夫金融欺詐案的數(shù)十億美金。在電商領(lǐng)域,阿里巴巴生態(tài)積聚了海量的商品和交易數(shù)據(jù),它以商品、產(chǎn)品、品牌和條碼為核心,構(gòu)建了百億級(jí)別的商品知識(shí)圖譜,可以廣泛應(yīng)用于搜索、導(dǎo)購(gòu)、平臺(tái)治理、智能問答等業(yè)務(wù),同時(shí)保持每天千萬(wàn)級(jí)別的惡意攻擊攔截量,極大提升了消費(fèi)者的購(gòu)物體驗(yàn)。在聊天機(jī)器人領(lǐng)域,具有問答功能的產(chǎn)品,例如Siri、微軟小冰、公子小白、琥珀·虛顏、天貓精靈、小米音箱,背后均有大規(guī)模知識(shí)圖譜的支持。例如在琥珀·虛顏中,除了有通用百科知識(shí)圖譜——“七律”的支持,還有子領(lǐng)域,例如動(dòng)漫知識(shí)圖譜、美食知識(shí)圖譜、星座知識(shí)圖譜的支持。圖1-13給出了公子小白在多類別知識(shí)圖譜融合后的一個(gè)問答對(duì)話示例。圖1-13公子小白對(duì)話示例/。/。/。/watson-health。/。/。/。/。

1.6知識(shí)圖譜的技術(shù)架構(gòu)本節(jié)將簡(jiǎn)要介紹知識(shí)圖譜的技術(shù)架構(gòu),更多知識(shí)圖譜的技術(shù)和工程實(shí)踐細(xì)節(jié)將在后文詳細(xì)闡述。構(gòu)建知識(shí)圖譜是一個(gè)系統(tǒng)性工程。圖1-14給出了一個(gè)典型的知識(shí)圖譜構(gòu)建與計(jì)算的架構(gòu)。圖1-14知識(shí)圖譜的構(gòu)建與計(jì)算知識(shí)圖譜的構(gòu)建與計(jì)算,不僅需要考慮如何結(jié)合文本、多媒體、半結(jié)構(gòu)化、結(jié)構(gòu)化知識(shí)、服務(wù)或API,以及時(shí)態(tài)知識(shí)等的統(tǒng)一知識(shí)表示,還需要進(jìn)一步考慮如何結(jié)合結(jié)構(gòu)化(如關(guān)系型數(shù)據(jù)庫(kù))、半結(jié)構(gòu)化(HTML或XML)和非結(jié)構(gòu)化(文本、圖像等)多源異質(zhì)數(shù)據(jù)源來(lái)分別構(gòu)建通用事實(shí)類(各種領(lǐng)域相關(guān)實(shí)體知識(shí))、常識(shí)類、用戶個(gè)人記憶類和服務(wù)任務(wù)類知識(shí)庫(kù)等。針對(duì)不同類型的數(shù)據(jù)和知識(shí),有不同的構(gòu)建技術(shù),如針對(duì)結(jié)構(gòu)化數(shù)據(jù)的知識(shí)映射、針對(duì)半結(jié)構(gòu)化知識(shí)的包裝器(Wrapper),以及針對(duì)非結(jié)構(gòu)化知識(shí)的文本挖掘和自然語(yǔ)言處理。文本挖掘充分利用Web和大規(guī)模語(yǔ)料庫(kù)的冗余信息來(lái)發(fā)現(xiàn)隱含的模式;而自然語(yǔ)言處理更多是在開放或者確定的Schema下做各種知識(shí)抽取。為了得到融合的圖譜,我們除了需要考慮離線的多源異構(gòu)的知識(shí)融合,還需要額外考慮服務(wù)任務(wù)類動(dòng)態(tài)知識(shí)的對(duì)象綁定。這項(xiàng)工作往往是在線完成的,相當(dāng)于根據(jù)不同的交互,在線動(dòng)態(tài)擴(kuò)充知識(shí)圖譜并實(shí)例化的過程。最后還需要考慮知識(shí)圖譜的存儲(chǔ)。既然有了知識(shí),就必須用一定的手段去存儲(chǔ)。但這里談到的存儲(chǔ),不僅僅是建立一個(gè)知識(shí)庫(kù),還包括存儲(chǔ)之后的應(yīng)用效率等。傳統(tǒng)型關(guān)系數(shù)據(jù)庫(kù),例如MySQL,以及一些NoSQL數(shù)據(jù)庫(kù),例如MongoDB,能不能存儲(chǔ)KG呢?答案是肯定的,但從直觀上說,考慮到知識(shí)是互聯(lián)、龐大的,且聯(lián)系是數(shù)據(jù)的本質(zhì)所在,而傳統(tǒng)型數(shù)據(jù)庫(kù)對(duì)于數(shù)據(jù)聯(lián)系的表現(xiàn)比較差,所以在知識(shí)圖譜的存儲(chǔ)上,關(guān)系型數(shù)據(jù)庫(kù)沒有圖數(shù)據(jù)庫(kù)靈活。尤其是涉及多跳關(guān)聯(lián)查詢時(shí)(例如姚明的妻子的國(guó)籍是什么),圖數(shù)據(jù)庫(kù)的效率會(huì)遠(yuǎn)比關(guān)系型數(shù)據(jù)庫(kù)高。

參考文獻(xiàn)Rowley,Jennifer.TheWisdomHierarchy:RepresentationsoftheDikwHierarchy[J].JournalofInformationandCommunicationScience,2007,33(2):163-180.Zeleny,Milan.ManagementSupportSystems:TowardsIntegratedKnowledgeManagement[J].HumanSystemsManagement,1987,7(1):59-70.J.J.Sylvester.OnanApplicationoftheNewAtomicTheorytotheGraphicalRepresentationoftheInvariantsandCovariantsofBinaryQuantics[J].AmericanJournalofMathematics,PureandApplied,1878,1(1):64-90.Berners-Lee,TimothyJ.Informationmanagement:Aproposal[J].No.CERN-DD-89-001-OC.1989.劉嶠,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.李涓子,侯磊.知識(shí)圖譜研究綜述[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(2017年03):454-459.漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017,3(1):4-25.XiongW,WuL,AllevaF,DroppoJ,HuangX,StolckeA,TheMicrosoft2017ConversationalSpeechRecognitionSystem[R].MicrosoftTechnicalReportMSR-TR-2017-39,arXiv:1708.06073v2,2017.HeK,ZhangX,RenS,SunJ.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification,arXiv:1502.01852v1,2015.第2章知識(shí)圖譜技術(shù)體系當(dāng)前,人工智能技術(shù)的發(fā)展速度之快已經(jīng)超出了所有人的想象,以至于總會(huì)有人不斷將現(xiàn)有人工智能的表現(xiàn)與人類相比較。然而,在經(jīng)過不同層面的對(duì)比之后,不難得出一個(gè)結(jié)論:盡管目前人工智能技術(shù)在一些特定任務(wù)上有比較好的表現(xiàn),但在一些開放性的任務(wù)上往往不盡如人意。換言之,利用深度學(xué)習(xí)和大數(shù)據(jù),目前的人工智能系統(tǒng)足夠“聰明”,雖可以在計(jì)算密集型任務(wù)上超越人類,卻遠(yuǎn)未達(dá)到“有學(xué)識(shí)”的程度,無(wú)法和人一樣進(jìn)行復(fù)雜的推理和聯(lián)想等。而知識(shí)圖譜被認(rèn)為是讓人工智能系統(tǒng)做到“有學(xué)識(shí)”的關(guān)鍵,它通過諸如RDF、圖形式等存儲(chǔ)各種各樣的結(jié)構(gòu)化知識(shí),成為人工智能的“大腦”。然而知識(shí)圖譜并不是單一技術(shù),而是一整套數(shù)據(jù)加工、存儲(chǔ)及應(yīng)用流程。本章將會(huì)圍繞知識(shí)圖譜的整體技術(shù)體系進(jìn)行闡述,具體分為四個(gè)主要部分:知識(shí)表示與知識(shí)建模、知識(shí)抽取與知識(shí)挖掘、知識(shí)存儲(chǔ)與知識(shí)融合、知識(shí)檢索與知識(shí)推理。通過閱讀本章,讀者能夠建立對(duì)知識(shí)圖譜技術(shù)棧的整體認(rèn)知。2.1知識(shí)表示與知識(shí)建模對(duì)現(xiàn)有知識(shí)進(jìn)行表示和建模是構(gòu)建知識(shí)圖譜的基礎(chǔ)和準(zhǔn)備工作,也是完整構(gòu)建有價(jià)值的知識(shí)圖譜的前提。本節(jié)將對(duì)知識(shí)表示與知識(shí)建模的概念及常用方法進(jìn)行詳細(xì)介紹。2.1.1知識(shí)表示通過將知識(shí)按照一定的方法進(jìn)行表示和存儲(chǔ),才能讓計(jì)算機(jī)系統(tǒng)更高效地處理和利用知識(shí)。實(shí)際上,知識(shí)表示是人工智能領(lǐng)域一個(gè)較為核心的問題。對(duì)于知識(shí)表示的準(zhǔn)確定義目前仍舊沒有一個(gè)完美的答案。Davis等人在論文“Whatisknowledgerepresentation”[1]中給出了知識(shí)表示的五種角色,具體如下所示。真實(shí)世界中知識(shí)的抽象替代本體論的集合不完整的智能推理理論高效計(jì)算的媒介知識(shí)的中間體以上內(nèi)容可以看作是對(duì)知識(shí)表示的定義較為全面的一種闡述,那么,這五種角色的定義,分別是為了解決什么問題呢?首先,知識(shí)表示可以看作真實(shí)世界中知識(shí)的一種抽象替代,而且這種替代是按照計(jì)算機(jī)可以理解的方法來(lái)實(shí)現(xiàn)的。這種解釋來(lái)源于,任何希望對(duì)于所處環(huán)境有所認(rèn)知的智能體都會(huì)遇到一個(gè)問題,即需要了解的知識(shí)全部屬于外部知識(shí)。舉例來(lái)說,當(dāng)人類還處在嬰兒階段時(shí),需要對(duì)外界進(jìn)行學(xué)習(xí)和認(rèn)知。在這種情況下,人類必須將外界的實(shí)物(如汽車、蘋果等)轉(zhuǎn)化成大腦中一種抽象的表示,才可以真正學(xué)習(xí)到這個(gè)知識(shí)?,F(xiàn)在如果希望計(jì)算機(jī)能夠?qū)W習(xí)到真實(shí)世界中的知識(shí),就需要在計(jì)算機(jī)中建立抽象替代。然而,這就會(huì)引出一個(gè)問題,即對(duì)現(xiàn)實(shí)世界的知識(shí)進(jìn)行抽象表示無(wú)法完全做到無(wú)損。為了解決這個(gè)問題,引入了知識(shí)表示的第二個(gè)角色:一組本體論的集合。本體論將真實(shí)世界中的概念和實(shí)體抽象成類和對(duì)象,從某種程度上達(dá)到了與知識(shí)表示相同的目的。將真實(shí)世界抽象成類和對(duì)象的優(yōu)勢(shì)在于,使用者可以只關(guān)注自己想關(guān)注的重點(diǎn)并僅對(duì)其進(jìn)行抽象和表示,避免了知識(shí)表示作為真實(shí)世界抽象替代無(wú)法做到無(wú)損的問題。關(guān)注事物的重點(diǎn),實(shí)際上是人類(包括人工智能)在做出判斷和決策時(shí)所使用的捷徑,這是因?yàn)樵谡鎸?shí)世界中的事物包含的信息量過大,而系統(tǒng)必須關(guān)注對(duì)其有用的信息。除此之外,知識(shí)表示還是一個(gè)不完整的智能推理理論,這也是知識(shí)表示的第三個(gè)角色。這個(gè)角色來(lái)源于,初知識(shí)的概念和表示的產(chǎn)生都是由于智能體需要進(jìn)行推理而驅(qū)使的。認(rèn)知能力對(duì)判斷一個(gè)物體是否智能起著至關(guān)重要的作用,而擁有認(rèn)知能力即代表智能體可以儲(chǔ)存知識(shí),并使用其進(jìn)行推理后得到新的知識(shí)。但僅僅存在知識(shí)的表示理論是不夠的,需要配合推理方法等其他理論形成完整的推理理論,所以知識(shí)表示可以看作一個(gè)不完整的智能推理理論。知識(shí)表示的第四個(gè)角色:一種高效計(jì)算的媒介。這是因?yàn)閱渭儚臋C(jī)器的角度看,計(jì)算機(jī)中的推理是一種計(jì)算過程。如果想要得到推理結(jié)果,必須對(duì)已有的表示進(jìn)行高效的計(jì)算,而知識(shí)表示抽象整合了真實(shí)世界當(dāng)中的知識(shí),在推理時(shí)可以對(duì)知識(shí)進(jìn)行直接利用,達(dá)到高效計(jì)算的目的。與之較為類似的,知識(shí)表示同樣可以看作一種知識(shí)的中間體。根據(jù)字面意思,知識(shí)表示代表了我們對(duì)真實(shí)世界的描述,人類可以將已有的知識(shí)作為中間體來(lái)傳播和表達(dá)知識(shí)(向機(jī)器或人類)。這種表示可以反映在現(xiàn)實(shí)生活中的很多方面,淺顯的如書本就是一種對(duì)知識(shí)的表示,而書本正是人類傳播和描述知識(shí)的中間體。綜合以上五種知識(shí)表示的角色,我們可以將知識(shí)表示理解為對(duì)真實(shí)世界的一種不完整的抽象描述,只包含人類或計(jì)算機(jī)想要關(guān)注的方面,同時(shí)也可以把它作為計(jì)算和推理的中間件。在了解了知識(shí)表示的概念后,接下來(lái)就需要了解知識(shí)是如何被表示的。在計(jì)算機(jī)系統(tǒng)中,知識(shí)表示的方法和形式化語(yǔ)言有很多種,不同的表示方法會(huì)帶來(lái)不同的表示效果。這就使得我們需要一種公認(rèn)的描述方法來(lái)對(duì)需要表示的知識(shí)進(jìn)行描述,這種方法必須足夠簡(jiǎn)潔并且具有較強(qiáng)的可擴(kuò)展性以適應(yīng)現(xiàn)實(shí)世界知識(shí)的多樣性,這就引出了接下來(lái)將會(huì)介紹的描述邏輯與描述語(yǔ)言。1.描述邏輯描述邏輯是指一系列基于邏輯知識(shí)形式化的表示方法,這些表示方法能夠以一種結(jié)構(gòu)化的、易于理解的方式對(duì)知識(shí)進(jìn)行表示和推理。描述邏輯建立在概念和關(guān)系之上,概念即為知識(shí)圖譜中的類和實(shí)體,而關(guān)系可以理解為實(shí)體之間的關(guān)系。實(shí)際上,描述邏輯是一階謂詞邏輯的一個(gè)可判定子集。正如名稱所表示的,描述邏輯可以通過推理的方法基于原子概念對(duì)其他概念進(jìn)行表示與描述。描述邏輯中主要包含兩類知識(shí):術(shù)語(yǔ)知識(shí)(TBox)和斷言知識(shí)(ABox)。其中術(shù)語(yǔ)知識(shí)主要指領(lǐng)域知識(shí)中的類、屬性和關(guān)系,例如公司、地點(diǎn)等元素可以作為領(lǐng)域知識(shí)中的類;而斷言知識(shí)是指與實(shí)例有關(guān)的知識(shí),例如<小米公司,法定代表人,雷軍>即可作為一個(gè)斷言知識(shí)。在描述邏輯中,概念(Concept)表示類和實(shí)體,角色(Role)表示性質(zhì),個(gè)體(Individual)表示概念斷言和常數(shù),運(yùn)算符(Operator)用于構(gòu)建概念或角色的復(fù)雜表達(dá)。例如,雷軍=小米公司∧董事長(zhǎng),即可作為使用描述邏輯表示的簡(jiǎn)單的一條知識(shí)。描述邏輯作為知識(shí)表示和知識(shí)建模的基礎(chǔ),被多種描述語(yǔ)言和描述框架所使用,目前標(biāo)準(zhǔn)的知識(shí)描述語(yǔ)言正是由描述邏輯不斷演化得到的。但相比傳統(tǒng)的描述邏輯,知識(shí)描述語(yǔ)言的擴(kuò)展性更好,對(duì)于人和機(jī)器而言可讀性更強(qiáng)。2.描述語(yǔ)言在知識(shí)表示的過程中,除了需要邏輯來(lái)描述知識(shí)外,還需要一種合適的語(yǔ)言來(lái)基于規(guī)定的邏輯對(duì)知識(shí)進(jìn)行描述并傳遞信息。根據(jù)W3C標(biāo)準(zhǔn),通常使用資源描述框架(RDF)及網(wǎng)絡(luò)本體語(yǔ)言(OWL)對(duì)知識(shí)進(jìn)行描述,且兩者都使用可擴(kuò)展標(biāo)記語(yǔ)言(ExtensibleMarkupLanguage,XML)作為核心語(yǔ)法。本節(jié)會(huì)針對(duì)以上規(guī)范分別進(jìn)行介紹,并給出對(duì)應(yīng)的例子。(1)XMLXML描述了XML類型的一系列數(shù)據(jù)對(duì)象,也描述了處理它們的計(jì)算機(jī)程序行為。XML是一種格式整齊、易于使用并可擴(kuò)展的標(biāo)記語(yǔ)言,允許使用者創(chuàng)建獨(dú)一無(wú)二的標(biāo)簽來(lái)描述內(nèi)容。XML是由XML工作組(初稱為SGML編輯審查委員會(huì))開發(fā)的,該工作組于1996年由萬(wàn)維網(wǎng)聯(lián)盟(W3C)主持成立。XML的主要任務(wù)是以純文本格式存儲(chǔ)和交換數(shù)據(jù),這種方法提供了獨(dú)立于軟件和硬件的存儲(chǔ)方式,方便傳輸和共享數(shù)據(jù)。一個(gè)完整的XML文檔由稱為實(shí)體或元素(下文中稱為元素)的存儲(chǔ)單元組成,而每個(gè)元素又由字符組成,在所有字符中,一部分作為字符數(shù)據(jù),另一部分則作為標(biāo)記,用于標(biāo)記對(duì)文檔的存儲(chǔ)布局和邏輯結(jié)構(gòu)。同時(shí)XML還提供了一種對(duì)存儲(chǔ)布局和邏輯結(jié)構(gòu)施加約束的機(jī)制,使得XML的結(jié)構(gòu)和布局更加整潔。使用XML可以使原系統(tǒng)的擴(kuò)展或升級(jí)變得更加容易,并且不會(huì)丟失數(shù)據(jù)。在設(shè)計(jì)XML時(shí),目標(biāo)和原則主要涉及以下幾點(diǎn)。XML需要能直接在互聯(lián)網(wǎng)上使用。XML需支持各種應(yīng)用程序。XML應(yīng)與SGML(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言,國(guó)際定義的電子文檔和內(nèi)容標(biāo)準(zhǔn))兼容。編寫處理XML文檔的難度應(yīng)降到低。XML中可選功能的數(shù)量應(yīng)保持絕對(duì)小,理想情況下為零。根據(jù)以上內(nèi)容,不難看出XML遵循簡(jiǎn)單、易用、可擴(kuò)展的原則。在Web中,由于XML與應(yīng)用無(wú)關(guān),并且格式相對(duì)方便閱讀,所以常常用于存儲(chǔ)元數(shù)據(jù)。然而由于XML支持自定義標(biāo)簽,所以兩個(gè)計(jì)算機(jī)系統(tǒng)只能在互相已知文件中的所有標(biāo)簽時(shí)才能進(jìn)行XML數(shù)據(jù)交換。需要注意的是,與RDF和OWL不同,XML不是一種知識(shí)表示語(yǔ)言,但它的核心語(yǔ)法能夠被遷移到多種描述語(yǔ)言中,包括RDF和OWL。以下是一段XML文件示例,該示例描述了一個(gè)記錄公司信息列表的XML文件,展示了小米公司的信息,包括名稱、法人、公司種類和地址等屬性,從示例中也可以看到XML的一些格式規(guī)范和使用方法。<?xmlversion="1.0"encoding="UTF-8"?><NOTE><company_list><company><name>Xiaomi</name><represent>LeiJun</represent><category>Soleproprietorshipenterprise</category><address>Beijing</address></company><company>……</company></company_list><NOTE>根據(jù)上述代碼,可以看出XML文件的主要結(jié)構(gòu)是一種樹形結(jié)構(gòu)。其中包括由<>組成的字段以及不包含<>字符的字段,由包含<>的字段嵌套不包含<>的字段共同構(gòu)成了XML文件的基本單元元素。由<>組成的字段稱為元素的標(biāo)簽,即示例中的<NOTE>、<company_list>等,其中所有元素都可以自定義名稱。而不包含<>的字段即要存儲(chǔ)的字符數(shù)據(jù),為元素的值。同時(shí),從以上示例中可以看出,在每個(gè)XML文檔的開頭都需要添加XML的序言,用于告訴解析XML的工具或?yàn)g覽器應(yīng)該按照什么樣的規(guī)范對(duì)XML文件進(jìn)行解析。在上述示例中,第一行即該XML文件的序言,指定了該XML文件的編碼方式和使用的XML版本。除了序言之外,XML文件必須包含根元素,即例子中的<NOTE>元素,其他所有元素都必須是該元素的子元素。同時(shí)XML元素必須包含標(biāo)簽的起始符和終結(jié)符,比如以<company_list>作為起始符,以</company_list>作為終結(jié)符。值得注意的是,XML中的字符是大小寫敏感的,同時(shí)元素的命名不能以數(shù)字或標(biāo)簽開頭,且不能以“xml”或“XML”開始。(2)RDF在了解了XML文件的語(yǔ)法和格式后,還需要掌握使用XML作為核心語(yǔ)法的常用知識(shí)表示方法,包括RDF和OWL,下面將主要介紹RDF。RDF是由W3C于2004年發(fā)布的一種表示W(wǎng)eb中信息的標(biāo)準(zhǔn)。RDF由RDF核心工作組開發(fā),是W3CWeb語(yǔ)義方向工作的一部分。開發(fā)RDF的目的是為Web提供元數(shù)據(jù)模型和開放信息模型,即希望開發(fā)一種框架,用于描述和表示“描述數(shù)據(jù)的數(shù)據(jù)”的元數(shù)據(jù),并通過組合多個(gè)應(yīng)用程序的數(shù)據(jù)來(lái)獲取新信息,以允許軟件自動(dòng)處理Web中的有效信息。除此之外,RDF允許在不同應(yīng)用程序之間公開和共享結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。由于RDF的開放性和擴(kuò)展性,使得它成為目前常用的知識(shí)存儲(chǔ)和表示框架之一,在使用時(shí),可以按照RDF的方法定義對(duì)其知識(shí)進(jìn)行定義和表示。RDF是語(yǔ)義網(wǎng)與本體等結(jié)構(gòu)的基礎(chǔ)層,對(duì)于人和計(jì)算機(jī)來(lái)說都有較好的可讀性。在RDF中,知識(shí)以三元組的形式編碼,其中每個(gè)三元組由一個(gè)主語(yǔ)、一個(gè)謂詞(或一個(gè)屬性)和一個(gè)賓語(yǔ)組成,可以方便地將RDF轉(zhuǎn)化為自然語(yǔ)言。其中RDF的主語(yǔ)、賓語(yǔ)均可以是一個(gè)空白結(jié)點(diǎn)或用來(lái)唯一標(biāo)識(shí)資源的國(guó)際化資源表示符(InternationalizedResourceIdentifier,IRI),謂詞則必須是一個(gè)IRI。下面通過具體代碼了解RDF的使用方法和具體語(yǔ)法。<?xmlversion="1.0"?><rdf:RDFxmlns:rdf="/1999/02/22?rdf?syntax?ns#"xmlns:ab="/"xml:base="/"><rdf:Descriptionrdf:ID="LeiJun"ab:work="CEO"ab:age="40"><ab:friendrdf:nodeID="s3fo"/></rdf:Description><rdf:Descriptionrdf:nodeID="s3fo"rdf:ID="LinBin"ab:age="40"></rdf:Description></rdf:RDF>通過以上代碼段可以看出,RDF的核心語(yǔ)法為XML,RDF的使用方法與XML也有類似之處。在RDF文件的起始位置,同樣需要加入XML序言,序言指定了使用的XML版本。不過,RDF作為一種全新的框架,除了需要優(yōu)先指定XML序言之外,還需要為整個(gè)RDF文件指定語(yǔ)法的命名空間,該操作通過示例中的第2行與第3行代碼實(shí)現(xiàn)。在指定了命名空間后,還需要指定該文件的基鏈接(即xml:base)?;溄涌梢允且粋€(gè)IRI,在指定基鏈接后,在該RDF文件中定義的所有實(shí)體都可以在基鏈接的基礎(chǔ)上進(jìn)行擴(kuò)展并唯一標(biāo)識(shí)。在本例中,我們假設(shè)基鏈接為。在定義了RDF文件的全局信息后,即可根據(jù)RDF語(yǔ)法在其中添加需要描述的信息。在上述代碼中,我們添加了名為L(zhǎng)eiJun的實(shí)體,建立了名為work的關(guān)系,并且根據(jù)該關(guān)系為實(shí)體添加了名為job的賓語(yǔ),以及名為age的屬性,還為其添加了一個(gè)由friend關(guān)系連接的實(shí)體,該實(shí)體同樣擁有age屬性,名稱為L(zhǎng)inBin。上面的例子根據(jù)三元組可以表示為圖2-1所示結(jié)構(gòu)。圖2-1RDF表示的三元組在確定了命名空間后,在三元組中定義的關(guān)系以及屬性的資源標(biāo)識(shí)都將屬于該命名空間。并且根據(jù)前面提到的定義,若定義主語(yǔ)的賓語(yǔ)結(jié)點(diǎn)為空,對(duì)于RDF語(yǔ)法而言也是合法的。實(shí)際上,RDF可以看作對(duì)XML的擴(kuò)充和簡(jiǎn)化。相比于XML要求的嚴(yán)格樹形數(shù)據(jù)結(jié)構(gòu),RDF使用了更加簡(jiǎn)單且接近自然語(yǔ)言的三元組形式,語(yǔ)義信息相對(duì)明確,可以更好地對(duì)知識(shí)進(jìn)行表示和對(duì)元數(shù)據(jù)進(jìn)行描述,也更容易理解。(3)OWLOWL是W3CWeb本體工作組設(shè)計(jì)的一種知識(shí)表示語(yǔ)言,旨在對(duì)特定領(lǐng)域的知識(shí)進(jìn)行表示、交換和推理,經(jīng)常被用于對(duì)本體知識(shí)進(jìn)行表示。OWL作為一種基于計(jì)算邏輯的語(yǔ)言,其表示的知識(shí)可以很容易地被計(jì)算機(jī)所理解與應(yīng)用。與RDF相同,OWL也是2004年被W3C組織推薦作為Web中的知識(shí)表示和知識(shí)儲(chǔ)存語(yǔ)言。OWL的前身是美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)開發(fā)的代理標(biāo)記語(yǔ)言+本體推理層(DAML+OIL)。不過,目前常提到的OWL一般指W3COWL工作組于2009年提出的OWL2。OWL2是對(duì)OWL初版本的擴(kuò)展和修訂,在OWL的基礎(chǔ)上增加了一些新操作,提升了語(yǔ)言的整體表達(dá)能力。在后續(xù)的內(nèi)容中,如不做特殊說明,我們提到的OWL均指OWL2。與XML和RDF相比,OWL提供了更豐富的推理方法和詞匯表,其中包括但不限于類之間的關(guān)系、基數(shù)、更豐富的屬性特征和枚舉類等。同時(shí),為了適應(yīng)不同場(chǎng)景,OWL擁有三個(gè)不同級(jí)別的方案,分別是OWLLite、OWLDL和OWLFull。OWLLite支持用于構(gòu)造分類法和敘詞表的簡(jiǎn)單約束和分類層次結(jié)構(gòu),類的基數(shù)(類中屬性的數(shù)量)限制為0和1。OWLDL在保持計(jì)算完整性和可判定性的同時(shí),提供了大的表達(dá)能力,并且OWLDL類之間的基數(shù)不限于0和1。OWLFull包含OWL的完整特性,并且對(duì)RDF有很好的支持。圖2-2描述了OWLLite、OWLDL與OWLFull的關(guān)系。圖2-2OWLLite、OWLDL與OWLDL的關(guān)系在進(jìn)一步了解OWL之前,首先需要了解下OWL中的一些基本概念。類:對(duì)現(xiàn)實(shí)世界中同類事物的抽象。實(shí)體:指代現(xiàn)實(shí)世界中事物的元素。屬性:類中包含的屬于該類的特征,該值可以是一個(gè)常量,也可以是另一個(gè)類。表達(dá)式:由基本的實(shí)體組成的復(fù)雜描述。正如在對(duì)知識(shí)表示進(jìn)行介紹時(shí)提到的,盡管OWL被用于表示本體和知識(shí),但OWL無(wú)法表示現(xiàn)實(shí)世界知識(shí)的所有方面,使用者可以根據(jù)需求選擇較為重要的方面使用OWL進(jìn)行表示。下面的代碼片段展示了OWL的使用方法和具體語(yǔ)法。<rdf:RDFxmlns:rdf="/1999/02/22?rdf?syntax?ns#"xmlns:rdfs="/2000/01/rdf?schema#"xmlns:owl="http://www.w3.4org/2002/07/owl#"xmlns:xsd="/2001/XMLSchema#"6.xmlns:dc="/TR/2004/REC?owl?guide?20040210/#DublinCore">7.<owl:Ontologyrdf:about="">8.<owl:importsrdf:resource="/company_ontology"/><rdfs:label>CompanyOntology</rdfs:label></owl:Ontology><owl:Classrdf:ID="Company"><owl:Restriction><owl:minCardinalityrdf:datatype="&xsd;string">1</owl:minCardinality></owl:Restriction></owl:Class>17.<owl:ObjectPropertyrdf:ID="representFor"><rdfs:domainrdf:resource="#People"/><rdfs:rangerdf:resource="#Company"/>21.</owl:ObjectProperty>22.<owl:DatatypePropertyrdf:ID="companyName"><rdfs:domainrdf:resource="#Company"/><rdfs:rangerdf:resource="&xsd;string"/></owl:DatatypeProperty>根據(jù)上面的代碼片段,可以比較清晰地看到OWL與RDF類似,OWL也使用XML作為核心語(yǔ)法,并且還使用了一些RDF中的定義。不過,OWL在RDF的三元組表示基礎(chǔ)之上對(duì)類和屬性等元素的表示更加清晰,擴(kuò)展性也更好。比如上面第8~10行代碼導(dǎo)入了一個(gè)已經(jīng)創(chuàng)建好的本體,并且后續(xù)的操作都是基于該本體,從而大大提升了知識(shí)表示的擴(kuò)展性。在此基礎(chǔ)上,第11~16行代碼對(duì)Company類進(jìn)行了定義并約束基數(shù)(即類中的屬性數(shù))為1。同時(shí)第18~21行代碼與第23~26行代碼分別定義了類中的兩種不同屬性,這兩種不同屬性的區(qū)別和聯(lián)系將在下一章詳細(xì)介紹。在前面內(nèi)容中,我們對(duì)知識(shí)表示的概念與方法分別進(jìn)行了介紹,并且對(duì)知識(shí)表示的主流方法進(jìn)行了詳細(xì)介紹與舉例,表2-1是對(duì)這幾種知識(shí)表示方法的簡(jiǎn)單對(duì)比。表2-1知識(shí)表示方法對(duì)比從整體的角度看,XML作為知識(shí)表示的核心語(yǔ)法和語(yǔ)言,在不同知識(shí)表示語(yǔ)言中都起著舉足輕重的作用。在XML的基礎(chǔ)上,RDF將知識(shí)轉(zhuǎn)化為三元組的形式,并且使用IRI作為不同知識(shí)的唯一標(biāo)識(shí)符,使得知識(shí)對(duì)于計(jì)算機(jī)和人而言都更具可讀性。而OWL在RDF的基礎(chǔ)上,利用類和實(shí)體的概念,將知識(shí)進(jìn)一步抽象成本體的表示,使現(xiàn)實(shí)世界的知識(shí)得以更完整、更有層次地表示。在了解了知識(shí)表示方法的基礎(chǔ)上,需要更進(jìn)一步明確采用什么樣的建模方法對(duì)知識(shí)進(jìn)行建模。2.1.2知識(shí)建模知識(shí)建模是指建立計(jì)算機(jī)可解釋的知識(shí)模型的過程。這些模型可以是一些通用領(lǐng)域的知識(shí)模型,也可以是對(duì)于某種產(chǎn)品的解釋或規(guī)范。知識(shí)建模的重點(diǎn)在于,需要建立一個(gè)計(jì)算機(jī)可存儲(chǔ)并且可解釋的知識(shí)模型。通常,這些知識(shí)模型都使用知識(shí)表示方法來(lái)存儲(chǔ)和表示。知識(shí)建模的主要過程分析如下。知識(shí)獲?。焊鶕?jù)知識(shí)系統(tǒng)的要求從多個(gè)來(lái)源使用不同方法獲取知識(shí),然后對(duì)獲取到的知識(shí)進(jìn)行判別并分類保存。知識(shí)結(jié)構(gòu)化:使用不同方法(比如基于本體的建模方法)對(duì)非結(jié)構(gòu)化的知識(shí)進(jìn)行表示和存儲(chǔ),以達(dá)到建模的目的。然后通過已經(jīng)建立的知識(shí)庫(kù),實(shí)現(xiàn)知識(shí)建模后的標(biāo)準(zhǔn)化和規(guī)范化。實(shí)際上,在任何情況下,沒有一種絕對(duì)“好”的建模方案,只有相對(duì)適合的方案。所以根據(jù)不同場(chǎng)景進(jìn)行實(shí)踐得到的結(jié)論,是對(duì)知識(shí)建模好的指南。本節(jié)首先對(duì)知識(shí)建模的流程進(jìn)行介紹,然后以一種常見的知識(shí)模型——本體為例介紹知識(shí)建模的詳細(xì)過程。知識(shí)獲取是通過多種數(shù)據(jù)源以及人類專家,為知識(shí)庫(kù)系統(tǒng)獲取和組織需要的知識(shí)的過程。在知識(shí)獲取階段,首先需要明確建立知識(shí)模型的目的,根據(jù)目的來(lái)確定其中的知識(shí)所覆蓋的領(lǐng)域與范圍。當(dāng)發(fā)現(xiàn)需要建立的知識(shí)模型覆蓋的領(lǐng)域與范圍過大時(shí),也可以先從其中一部分入手,如對(duì)某個(gè)領(lǐng)域的子領(lǐng)域進(jìn)行建模,再對(duì)子領(lǐng)域的模型進(jìn)行集成,終達(dá)到知識(shí)模型所要完成的目標(biāo)。在選擇領(lǐng)域與覆蓋范圍時(shí),盡可能地選擇整體知識(shí)結(jié)構(gòu)相對(duì)穩(wěn)定的領(lǐng)域,一個(gè)不穩(wěn)定的領(lǐng)域會(huì)造成大量數(shù)據(jù)的刪減和重構(gòu),增加知識(shí)模型的維護(hù)成本,同時(shí)降低構(gòu)建的效率。通常來(lái)講,目前常用的知識(shí)來(lái)源主要包含兩方面:以Web數(shù)據(jù)為數(shù)據(jù)源和以專家知識(shí)為數(shù)據(jù)源。根據(jù)不同的數(shù)據(jù)源,可以使用不同的方法來(lái)獲取數(shù)據(jù)。以從Web獲取數(shù)據(jù)為例,這種方法的核心在于使用增量方法針對(duì)特定領(lǐng)域不斷獲取相關(guān)數(shù)據(jù)。在整個(gè)過程中,知識(shí)的獲取是自動(dòng)進(jìn)行的,并且直接從整個(gè)Web以完全無(wú)監(jiān)督和獨(dú)立的方式執(zhí)行。在獲取階段通常希望盡可能多地獲取相關(guān)知識(shí),而Web環(huán)境由于其規(guī)模和異構(gòu)性成為知識(shí)獲取的佳選擇。同時(shí)由于Web環(huán)境規(guī)模相對(duì)較大,在獲取時(shí)需要輕量級(jí)的分析技術(shù)才能獲得良好的可伸縮性和執(zhí)行效率。在從Web獲取知識(shí)的過程中,通常會(huì)在不同領(lǐng)域確定關(guān)鍵詞,并基于這些關(guān)鍵詞對(duì)大量網(wǎng)站進(jìn)行分析,得到需要的知識(shí)。在網(wǎng)頁(yè)分析的過程中,無(wú)須專家監(jiān)督語(yǔ)言模板,也無(wú)須特定分析領(lǐng)域的預(yù)定義知識(shí)(例如領(lǐng)域本體,是知識(shí)獲取的關(guān)鍵技術(shù)之一)。另一方面,知識(shí)同樣可以通過人類專家來(lái)獲取,其中主要的方式包括但不限于由知識(shí)工程師手動(dòng)將知識(shí)輸入計(jì)算機(jī)中,或?qū)︻I(lǐng)域?qū)<疫M(jìn)行采訪等。在獲取了足夠的知識(shí)后,需要判別有效性并盡可能地對(duì)知識(shí)進(jìn)行分類保存。值得注意的是,經(jīng)過上述步驟,獲取到的信息更多是非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,這樣的信息實(shí)際上是無(wú)法被計(jì)算機(jī)直接利用的,所以在完成上述步驟后,還需要對(duì)已獲取到的知識(shí)進(jìn)行結(jié)構(gòu)化。結(jié)構(gòu)化的核心目標(biāo)是將非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,并使用計(jì)算機(jī)可讀的知識(shí)表示方法進(jìn)行表示。該階段的任務(wù)可以分為兩部分:知識(shí)抽取和知識(shí)結(jié)構(gòu)化的表示。知識(shí)抽取部分主要負(fù)責(zé)對(duì)非結(jié)構(gòu)化或半結(jié)構(gòu)化的知識(shí)(通常為自然語(yǔ)言或接近自然語(yǔ)言)進(jìn)行抽取,并為后續(xù)的知識(shí)表示提供便利。根據(jù)我們對(duì)RDF與OWL等知識(shí)表示語(yǔ)言的了解,通常可以將自然語(yǔ)言以三元組的結(jié)構(gòu)重新組織,這樣既方便了人的閱讀,也降低了后續(xù)將知識(shí)通過RDF與OWL表示的難度。關(guān)于知識(shí)抽取的具體方法與使用可參閱后續(xù)章節(jié)。在知識(shí)抽取得到結(jié)構(gòu)化數(shù)據(jù)后,我們還需要將其轉(zhuǎn)換成計(jì)算機(jī)可讀的形式,一種常見的做法是構(gòu)建本體,并將知識(shí)保存為RDF或OWL文件。在本節(jié)中我們將給出一種本體構(gòu)建的方法,并在后續(xù)的章節(jié)中介紹如何具體實(shí)現(xiàn)本體構(gòu)建。前面第1章提過,本體的概念早起源于哲學(xué)領(lǐng)域,主要研究與哲學(xué)意義上的“存在”直接相關(guān)的概念,以及與“存在”相關(guān)的關(guān)系。而在計(jì)算機(jī)和人工智能領(lǐng)域,一種簡(jiǎn)短的對(duì)本體的解釋是,本體是一種對(duì)于現(xiàn)實(shí)世界概念化的規(guī)范,即知識(shí)的一種抽象模型,抽象了不同實(shí)體的特征并將其泛化成不同類和關(guān)系。在本體的構(gòu)建方面,比較經(jīng)典的方法包括METHONTOLOGY法[4]、七步法[17]等,這些方法的產(chǎn)生通常來(lái)源于具體的本體開發(fā)項(xiàng)目。下面我們就以METHONTOLOGY法為例,簡(jiǎn)要介紹本體構(gòu)建的流程,在第3章中我們會(huì)使用七步法構(gòu)建本體。整個(gè)本體構(gòu)建過程將從產(chǎn)生非正式的規(guī)范開始,隨著本體的不斷演進(jìn)終發(fā)展出可被計(jì)算機(jī)理解的本體模型。在演進(jìn)過程中,本體的形式化水平逐漸提高,終可由機(jī)器直接理解。建立本體的第一步是確定建立本體的目的,包括本體的預(yù)期用戶、使用場(chǎng)景及本體涉及的范圍等要素。這一步的重要性在于從多個(gè)維度確定了構(gòu)建本體的條件與前提。在第一步完成后,通常會(huì)輸出一個(gè)描述本體規(guī)范的文檔。在當(dāng)前階段,這樣的規(guī)范可以是任何形式,包括正式的或非正式的,并且可以使用自然語(yǔ)言描述。在規(guī)定了本體的目的和范圍等要素后,第二步則需要進(jìn)行知識(shí)獲取。通常情況下,這些知識(shí)可以來(lái)源于互聯(lián)網(wǎng),也可以來(lái)源于專家或其他途徑。在大多數(shù)情況下,知識(shí)獲取可以和第一步同時(shí)進(jìn)行,即在設(shè)計(jì)本體的同時(shí)根據(jù)設(shè)計(jì)方案盡可能多地獲取數(shù)據(jù),當(dāng)本體規(guī)范文檔輸出后,再根據(jù)該文檔篩選出對(duì)本體構(gòu)建至關(guān)重要的數(shù)據(jù)。在METHONTOLOGY法的第三步,需要對(duì)本體進(jìn)行概念化。這一步的目的是組織和結(jié)構(gòu)化外部源獲取到的知識(shí)。根據(jù)第一步指定的規(guī)范,在這一步需要進(jìn)一步對(duì)獲取到的外部知識(shí)進(jìn)行抽象和匯總,提取出概念、類、關(guān)系等抽象關(guān)系作為知識(shí)的中間表示,可以使用基于表格或圖形的方法對(duì)這些中間表示進(jìn)行存儲(chǔ)和展現(xiàn)。這些中間表示需要同時(shí)被領(lǐng)域?qū)<液烷_發(fā)人員理解。第四步,為了使得當(dāng)前構(gòu)建的本體與其他本體融合與共享,需要盡可能集成已有本體。在集成過程中,可以借鑒已有本體的某些定義,使新建立的本體與已有本體保持一致。第五步,使用形式化語(yǔ)言實(shí)現(xiàn)該本體,即使用形式化語(yǔ)言進(jìn)行表示。舉例來(lái)說,可以使用前文提到的RDF與OWL等形式化語(yǔ)言表示本體。在這一步中輸出的本體形式化表示應(yīng)當(dāng)是可被計(jì)算機(jī)理解和存儲(chǔ)的。當(dāng)完成本體的形式化表示后,需要對(duì)構(gòu)建好的本體進(jìn)行評(píng)估,這是METHONTOLOGY法構(gòu)建本體的第六步。這一步的重要性在于識(shí)別本體中存在的冗余、不完備與不一致,以便對(duì)本體進(jìn)行優(yōu)化來(lái)提升本體的質(zhì)量。接下來(lái)即可將上述每一步的成果整理成文檔并保存,這也是METHONTOLOGY法構(gòu)建本體的后一步。通過將構(gòu)建本體的過程文檔化,可以對(duì)整個(gè)本體構(gòu)建過程進(jìn)行反思與復(fù)盤,以便在后續(xù)需要維護(hù)時(shí)快速進(jìn)入本體的下一個(gè)生命周期。

2.2知識(shí)抽取與知識(shí)挖掘本節(jié)我們也將從概念及常用方法入手,介紹知識(shí)抽取與知識(shí)挖掘的相關(guān)內(nèi)容。2.2.1知識(shí)抽取知識(shí)抽取是指從不同來(lái)源、不同結(jié)構(gòu)的數(shù)據(jù)中,利用實(shí)體抽取、關(guān)系抽取、事件抽取等抽取知識(shí)的技術(shù)。知識(shí)抽取技術(shù)是知識(shí)圖譜構(gòu)建的基礎(chǔ),也是大數(shù)據(jù)時(shí)代的自然產(chǎn)物。隨著互聯(lián)網(wǎng)信息爆炸式增長(zhǎng),人們需要這樣一種從原始數(shù)據(jù)中提取高價(jià)值信息的方法,而知識(shí)抽取技術(shù)在其中發(fā)揮了重要作用。知識(shí)抽取的應(yīng)用領(lǐng)域非常廣泛,例如恐怖襲擊預(yù)警、空難事故調(diào)查、疾病爆發(fā)預(yù)測(cè)等。以恐怖襲擊預(yù)警為例,通過知識(shí)抽取,可以抽取出恐怖事件的詳細(xì)信息,包括時(shí)間、地點(diǎn)、嫌疑人、受害人、襲擊目標(biāo)、武器裝備等,從而構(gòu)建反恐語(yǔ)料庫(kù),為預(yù)測(cè)未來(lái)可能發(fā)生的恐襲提供參考。1.知識(shí)抽取數(shù)據(jù)來(lái)源知識(shí)圖譜的數(shù)據(jù)來(lái)源按照結(jié)構(gòu)的不同,可以分為三大類,分別是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),不同類型的數(shù)據(jù),知識(shí)抽取方法也不同。圖2-3給出了針對(duì)不同數(shù)據(jù)類型采用的不同抽取方法,下面分別加以介紹。圖2-3知識(shí)抽取方法(1)結(jié)構(gòu)化數(shù)據(jù)的抽取結(jié)構(gòu)化數(shù)據(jù)主要分為兩類,分別是關(guān)系數(shù)據(jù)庫(kù)和鏈接數(shù)據(jù)。針對(duì)關(guān)系數(shù)據(jù)庫(kù),可以采用標(biāo)準(zhǔn)化方法,如直接映射[1]和R2RML[2],將其映射為RDF格式數(shù)據(jù)。直接映射的本質(zhì)是通過編寫啟發(fā)式規(guī)則,把關(guān)系數(shù)據(jù)庫(kù)中的表轉(zhuǎn)換為RDF格式三元組;R2RML是一種將關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)映射到RDF數(shù)據(jù)的語(yǔ)言,可以定制映射,因此更為靈活。抽取關(guān)系數(shù)據(jù)庫(kù)的難點(diǎn)在于對(duì)復(fù)雜表數(shù)據(jù)的處理,如嵌套表。針對(duì)鏈接數(shù)據(jù),需要從中(通常是已有的通用知識(shí)圖譜)抽取出一個(gè)子集,形成領(lǐng)域知識(shí)圖譜。主要實(shí)現(xiàn)方式是圖映射,即將通用知識(shí)圖譜映射到定義好的領(lǐng)域知識(shí)圖譜模式上,該方法的難點(diǎn)是數(shù)據(jù)對(duì)齊問題。表2-2展示的是部分人物的結(jié)構(gòu)化數(shù)據(jù)表。表2-2結(jié)構(gòu)化數(shù)據(jù)示例直接映射的映射方式,是將關(guān)系數(shù)據(jù)庫(kù)中的表轉(zhuǎn)換成一個(gè)RDF類,表中的每個(gè)字段(列)轉(zhuǎn)換成一個(gè)RDF屬性,表中的每一行轉(zhuǎn)換成一個(gè)RDF資源,表中的單元格轉(zhuǎn)換成一個(gè)字面值,因此表2-2可以轉(zhuǎn)換成一個(gè)“人物”類,“姓名”“國(guó)籍”“民族”等字段可以轉(zhuǎn)換成人物類的屬性,每一行描述人物的所有屬性,而每一行中具體的值就表示相應(yīng)的屬性值,如人物“雷軍”,包含“職業(yè)”屬性,屬性值就是“企業(yè)家”。R2RML映射分為三元組映射(TriplesMap)、主語(yǔ)映射(SubjectMap)、謂語(yǔ)賓語(yǔ)映射(PredicateObjectMap),其中謂語(yǔ)賓語(yǔ)映射又分為謂語(yǔ)映射(PredicateMap)、賓語(yǔ)映射(ObjectMap)和引用賓語(yǔ)映射(RefObjectMap),一個(gè)三元組映射也可包含圖映射(GraphMap)。三元組映射將結(jié)構(gòu)數(shù)據(jù)表中的每一行映射成一系列RDF三元組,如三元組(雷軍,國(guó)籍,中國(guó)),(雷軍,職業(yè),企業(yè)家)等;主語(yǔ)映射從結(jié)構(gòu)化數(shù)據(jù)表中生成三元組的主語(yǔ),如雷軍、林斌、馬云等,謂語(yǔ)映射從結(jié)構(gòu)化數(shù)據(jù)表中生成三元組的賓語(yǔ),如姓名、國(guó)籍、民族等,賓語(yǔ)映射從結(jié)構(gòu)化數(shù)據(jù)表中生成三元組的賓語(yǔ),如中國(guó)、漢族、企業(yè)家。(2)半結(jié)構(gòu)化數(shù)據(jù)的抽取半結(jié)構(gòu)化數(shù)據(jù)主要分為兩類,分別是百科類數(shù)據(jù)和普通網(wǎng)頁(yè)數(shù)據(jù)。對(duì)于百科類數(shù)據(jù),例如維基百科、百度百科,其知識(shí)結(jié)構(gòu)較為明確,一般以“鍵值對(duì)”的形式出現(xiàn),易于抽取。在百度百科中檢索“小米科

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論