領(lǐng)域知識(shí)圖譜的技術(shù)和應(yīng)用_第1頁(yè)
領(lǐng)域知識(shí)圖譜的技術(shù)和應(yīng)用_第2頁(yè)
領(lǐng)域知識(shí)圖譜的技術(shù)和應(yīng)用_第3頁(yè)
領(lǐng)域知識(shí)圖譜的技術(shù)和應(yīng)用_第4頁(yè)
領(lǐng)域知識(shí)圖譜的技術(shù)和應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

...wd......wd......wd...領(lǐng)域應(yīng)用|知識(shí)圖譜的技術(shù)與應(yīng)用本文轉(zhuǎn)載自公眾號(hào):貪心科技。領(lǐng)域應(yīng)用|知識(shí)圖譜的技術(shù)與應(yīng)用李文哲開放知識(shí)圖譜1周前本文轉(zhuǎn)載自公眾號(hào):貪心科技。作者|李文哲,人工智能、知識(shí)圖譜領(lǐng)域?qū)<覍?dǎo)讀:從一開場(chǎng)的Google搜索,到現(xiàn)在的聊天機(jī)器人、大數(shù)據(jù)風(fēng)控、證券投資、智能醫(yī)療、自適應(yīng)教育、推薦系統(tǒng),無(wú)一不跟知識(shí)圖譜相關(guān)。它在技術(shù)領(lǐng)域的熱度也在逐年上升。本文以通俗易懂的方式來講解知識(shí)圖譜相關(guān)的知識(shí)、尤其對(duì)從零開場(chǎng)搭建知識(shí)圖譜過程當(dāng)中需要經(jīng)歷的步驟以及每個(gè)階段需要考慮的問題都給予了比較詳細(xì)的解釋。對(duì)于讀者,我們不要求有任何AI相關(guān)的背景知識(shí)。目錄:概論什么是知識(shí)圖譜知識(shí)圖譜的表示知識(shí)抽取知識(shí)圖譜的存儲(chǔ)金融知識(shí)圖譜的搭建定義具體的業(yè)務(wù)問題數(shù)據(jù)收集&預(yù)處理知識(shí)圖譜的設(shè)計(jì)把數(shù)據(jù)存入知識(shí)圖譜上層應(yīng)用的開發(fā)知識(shí)圖譜在其他行業(yè)中的應(yīng)用實(shí)踐上的幾點(diǎn)建議結(jié)語(yǔ)1.概論隨著移動(dòng)互聯(lián)網(wǎng)的開展,萬(wàn)物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長(zhǎng),而且這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料。如果說以往的智能分析專注在每一個(gè)個(gè)體上,在移動(dòng)互聯(lián)網(wǎng)時(shí)代那么除了個(gè)體,這種個(gè)體之間的關(guān)系也必然成為我們需要深入分析的很重要一局部。在一項(xiàng)任務(wù)中,只要有關(guān)系分析的需求,知識(shí)圖譜就“有可能〞派的上用場(chǎng)。2.什么是知識(shí)圖譜知識(shí)圖譜是由Google公司在2012年提出來的一個(gè)新的概念。從學(xué)術(shù)的角度,我們可以對(duì)知識(shí)圖譜給一個(gè)這樣的定義:“知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò)〔SemanticNetwork〕的知識(shí)庫(kù)〞。但這有點(diǎn)抽象,所以換個(gè)角度,從實(shí)際應(yīng)用的角度出發(fā)其實(shí)可以簡(jiǎn)單地把知識(shí)圖譜理解成多關(guān)系圖〔Multi-relationalGraph〕。那什么叫多關(guān)系圖呢學(xué)過數(shù)據(jù)構(gòu)造的都應(yīng)該知道什么是圖〔Graph〕。圖是由節(jié)點(diǎn)〔Vertex〕和邊〔Edge〕來構(gòu)成,但這些圖通常只包含一種類型的節(jié)點(diǎn)和邊。但相反,多關(guān)系圖一般包含多種類型的節(jié)點(diǎn)和多種類型的邊。比方左以以下圖表示一個(gè)經(jīng)典的圖構(gòu)造,右邊的圖那么表示多關(guān)系圖,因?yàn)閳D里包含了多種類型的節(jié)點(diǎn)和邊。這些類型由不同的顏色來標(biāo)記。在知識(shí)圖譜里,我們通常用“實(shí)體〔Entity〕〞來表達(dá)圖里的節(jié)點(diǎn)、用“關(guān)系〔Relation〕〞來表達(dá)圖里的“邊〞。實(shí)體指的是現(xiàn)實(shí)世界中的事物比方人、地名、概念、藥物、公司等,關(guān)系那么用來表達(dá)不同實(shí)體之間的某種聯(lián)系,比方人-“居住在〞-北京、張三和李四是“朋友〞、邏輯回歸是深度學(xué)習(xí)的“先導(dǎo)知識(shí)〞等等?,F(xiàn)實(shí)世界中的很多場(chǎng)景非常適合用知識(shí)圖譜來表達(dá)。比方一個(gè)社交網(wǎng)絡(luò)圖譜里,我們既可以有“人〞的實(shí)體,也可以包含“公司〞實(shí)體。人和人之間的關(guān)系可以是“朋友〞,也可以是“同事〞關(guān)系。人和公司之間的關(guān)系可以是“現(xiàn)任職〞或者“曾任職〞的關(guān)系。類似的,一個(gè)風(fēng)控知識(shí)圖譜可以包含“〞、“公司〞的實(shí)體,和之間的關(guān)系可以是“通話〞關(guān)系,而且每個(gè)公司它也會(huì)有固定的。3.知識(shí)圖譜的表示知識(shí)圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識(shí)圖譜,也可以把它認(rèn)為是一個(gè)知識(shí)庫(kù)。這也是為什么它可以用來答復(fù)一些搜索相關(guān)問題的原因,比方在Google搜索引擎里輸入“WhoisthewifeofBillGates?〞,我們直接可以得到答案-“MelindaGates〞。這是因?yàn)槲覀冊(cè)谙到y(tǒng)層面上已經(jīng)創(chuàng)立好了一個(gè)包含“BillGates〞和“MelindaGates〞的實(shí)體以及他倆之間關(guān)系的知識(shí)庫(kù)。所以,當(dāng)我們執(zhí)行搜索的時(shí)候,就可以通過關(guān)鍵詞提取〔〞BillGates〞,“MelindaGates〞,“wife〞〕以及知識(shí)庫(kù)上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的,一個(gè)傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁(yè)、而不是最終的答案,所以就多了一層用戶自己篩選并過濾信息的過程。在現(xiàn)實(shí)世界中,實(shí)體和關(guān)系也會(huì)擁有各自的屬性,比方人可以有“姓名〞和“年齡〞。當(dāng)一個(gè)知識(shí)圖譜擁有屬性時(shí),我們可以用屬性圖〔PropertyGraph〕來表示。下面的圖表示一個(gè)簡(jiǎn)單的屬性圖。李明和李飛是父子關(guān)系,并且李明擁有一個(gè)138開頭的號(hào),這個(gè)號(hào)開通時(shí)間是2018年,其中2018年就可以作為關(guān)系的屬性。類似的,李明本人也帶有一些屬性值比方年齡為25歲、職位是總經(jīng)理等。這種屬性圖的表達(dá)很貼近現(xiàn)實(shí)生活中的場(chǎng)景,也可以很好地描述業(yè)務(wù)中所包含的邏輯。除了屬性圖,知識(shí)圖譜也可以用RDF來表示,它是由很多的三元組〔Triples〕來組成。RDF在設(shè)計(jì)上的主要特點(diǎn)是易于發(fā)布和分享數(shù)據(jù),但不支持實(shí)體或關(guān)系擁有屬性,如果非要加上屬性,那么在設(shè)計(jì)上需要做一些修改。目前來看,RDF主要還是用于學(xué)術(shù)的場(chǎng)景,在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫(kù)〔比方用來存儲(chǔ)屬性圖〕的方式。感興趣的讀者可以參考RDF的相關(guān)文獻(xiàn),在文本里不多做解釋。4.知識(shí)抽取知識(shí)圖譜的構(gòu)建是后續(xù)應(yīng)用的根基,而且構(gòu)建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來。對(duì)于垂直領(lǐng)域的知識(shí)圖譜來說,它們的數(shù)據(jù)源主要來自兩種渠道:一種是業(yè)務(wù)本身的數(shù)據(jù),這局部數(shù)據(jù)通常包含在公司內(nèi)的數(shù)據(jù)庫(kù)表并以構(gòu)造化的方式存儲(chǔ);另一種是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁(yè)的形式存在所以是非構(gòu)造化的數(shù)據(jù)。前者一般只需要簡(jiǎn)單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語(yǔ)言處理等技術(shù)來提取出構(gòu)造化信息。比方在上面的搜索例子里,BillGates和MalindaGate的關(guān)系就可以從非構(gòu)造化數(shù)據(jù)中提煉出來,比方維基百科等數(shù)據(jù)源。信息抽取的難點(diǎn)在于處理非構(gòu)造化數(shù)據(jù)。在下面的圖中,我們給出了一個(gè)實(shí)例。左邊是一段非構(gòu)造化的英文文本,右邊是從這些文本中抽取出來的實(shí)體和關(guān)系。在構(gòu)建類似的圖譜過程當(dāng)中,主要涉及以下幾個(gè)方面的自然語(yǔ)言處理技術(shù):a.實(shí)體命名識(shí)別〔NameEntityRecognition〕b.關(guān)系抽取〔RelationExtraction〕c.實(shí)體統(tǒng)一〔EntityResolution〕d.指代消解〔CoreferenceResolution〕下面針對(duì)每一項(xiàng)技術(shù)解決的問題做簡(jiǎn)單的描述,以至于這些是具體怎么實(shí)現(xiàn)的,不在這里一一展開,感興趣的讀者可以查閱相關(guān)資料,或者學(xué)習(xí)我的課程。首先是實(shí)體命名識(shí)別,就是從文本里提取出實(shí)體并對(duì)每個(gè)實(shí)體做分類/打標(biāo)簽:比方從上述文本里,我們可以提取出實(shí)體-“NYC〞,并標(biāo)記實(shí)體類型為“Location〞;我們也可以從中提取出“Virgil’sBBQ〞,并標(biāo)記實(shí)體類型為“Restarant〞。這種過程稱之為實(shí)體命名識(shí)別,這是一項(xiàng)相比照擬成熟的技術(shù),有一些現(xiàn)成的工具可以用來做這件事情。其次,我們可以通過關(guān)系抽取技術(shù),把實(shí)體間的關(guān)系從文本中提取出來,比方實(shí)體“hotel〞和“Hiltonproperty〞之間的關(guān)系為“in〞;“hotel〞和“TimeSquare〞的關(guān)系為“near〞等等。另外,在實(shí)體命名識(shí)別和關(guān)系抽取過程中,有兩個(gè)比較棘手的問題:一個(gè)是實(shí)體統(tǒng)一,也就是說有些實(shí)體寫法上不一樣,但其實(shí)是指向同一個(gè)實(shí)體。比方“NYC〞和“NewYork〞外表上是不同的字符串,但其實(shí)指的都是紐約這個(gè)城市,需要合并。實(shí)體統(tǒng)一不僅可以減少實(shí)體的種類,也可以降低圖譜的稀疏性〔Sparsity〕;另一個(gè)問題是指代消解,也是文本中出現(xiàn)的“it〞,“he〞,“she〞這些詞到底指向哪個(gè)實(shí)體,比方在本文里兩個(gè)被標(biāo)記出來的“it〞都指向“hotel〞這個(gè)實(shí)體。實(shí)體統(tǒng)一和指代消解問題相對(duì)于前兩個(gè)問題更具有挑戰(zhàn)性。5.知識(shí)圖譜的存儲(chǔ)知識(shí)圖譜主要有兩種存儲(chǔ)方式:一種是基于RDF的存儲(chǔ);另一種是基于圖數(shù)據(jù)庫(kù)的存儲(chǔ)。它們之間的區(qū)別如以以下圖所示。RDF一個(gè)重要的設(shè)計(jì)原那么是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫(kù)那么把重點(diǎn)放在了高效的圖查詢和搜索上。其次,RDF以三元組的方式來存儲(chǔ)數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫(kù)一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性,這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景。根據(jù)最新的統(tǒng)計(jì)〔2018年上半年〕,圖數(shù)據(jù)庫(kù)仍然是增長(zhǎng)最快的存儲(chǔ)系統(tǒng)。相反,關(guān)系型數(shù)據(jù)庫(kù)的增長(zhǎng)基本保持在一個(gè)穩(wěn)定的水平。同時(shí),我們也列出了常用的圖數(shù)據(jù)庫(kù)系統(tǒng)以及他們最新使用情況的排名。其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫(kù),它擁有活潑的社區(qū),而且系統(tǒng)本身的查詢效率高,但唯一的缺乏就是不支持準(zhǔn)分布式。相反,OrientDB和JanusGraph〔原Titan〕支持分布式,但這些系統(tǒng)相對(duì)較新,社區(qū)不如Neo4j活潑,這也就意味著使用過程當(dāng)中不可防止地會(huì)遇到一些刺手的問題。如果選擇使用RDF的存儲(chǔ)系統(tǒng),Jena或許一個(gè)比較不錯(cuò)的選擇。6.金融知識(shí)圖譜的搭建接下來我們看一個(gè)實(shí)際的具體案例,講解怎么一步步搭建可落地的金融風(fēng)控領(lǐng)域的知識(shí)圖譜系統(tǒng)。首先需要說明的一點(diǎn)是,有可能不少人認(rèn)為搭建一個(gè)知識(shí)圖譜系統(tǒng)的重點(diǎn)在于算法和開發(fā)。但事實(shí)并不是想象中的那樣,其實(shí)最重要的核心在于對(duì)業(yè)務(wù)的理解以及對(duì)知識(shí)圖譜本身的設(shè)計(jì),這就類似于對(duì)于一個(gè)業(yè)務(wù)系統(tǒng),數(shù)據(jù)庫(kù)表的設(shè)計(jì)尤其關(guān)鍵,而且這種設(shè)計(jì)絕對(duì)離不開對(duì)業(yè)務(wù)的深入理解以及對(duì)未來業(yè)務(wù)場(chǎng)景變化的預(yù)估。當(dāng)然,在這里我們先不討論數(shù)據(jù)的重要性。一個(gè)完整的知識(shí)圖譜的構(gòu)建包含以下幾個(gè)步驟:1.定義具體的業(yè)務(wù)問題

2.數(shù)據(jù)的收集&預(yù)處理

3.知識(shí)圖譜的設(shè)計(jì)

4.把數(shù)據(jù)存入知識(shí)圖譜

5.上層應(yīng)用的開發(fā),以及系統(tǒng)的評(píng)估。下面我們就按照這個(gè)流程來講一下每個(gè)步驟所需要做的事情以及需要思考的問題。6.1定義具體的業(yè)務(wù)問題在P2P網(wǎng)貸環(huán)境下,最核心的問題是風(fēng)控,也就是怎么去評(píng)估一個(gè)借款人的風(fēng)險(xiǎn)。在線上的環(huán)境下,欺詐風(fēng)險(xiǎn)尤其為嚴(yán)重,而且很多這種風(fēng)險(xiǎn)隱藏在復(fù)雜的關(guān)系網(wǎng)絡(luò)之中,而且知識(shí)圖譜正好是為這類問題所設(shè)計(jì)的,所以我們“有可能〞期待它能在欺詐,這個(gè)問題上帶來一些價(jià)值。在進(jìn)入下一個(gè)話題的討論之前,要明確的一點(diǎn)是,對(duì)于自身的業(yè)務(wù)問題到底需不需要知識(shí)圖譜系統(tǒng)的支持。因?yàn)樵诤芏嗟膶?shí)際場(chǎng)景,即使對(duì)關(guān)系的分析有一定的需求,實(shí)際上也可以利用傳統(tǒng)數(shù)據(jù)庫(kù)來完成分析的。所以為了防止使用知識(shí)圖譜而選擇知識(shí)圖譜,以及更好的技術(shù)選型,以下給出了幾點(diǎn)總結(jié),供參考。6.2數(shù)據(jù)收集&預(yù)處理下一步就是要確定數(shù)據(jù)源以及做必要的數(shù)據(jù)預(yù)處理。針對(duì)于數(shù)據(jù)源,我們需要考慮以下幾點(diǎn):1.我們已經(jīng)有哪些數(shù)據(jù)2.雖然現(xiàn)在沒有,但有可能拿到哪些數(shù)據(jù)3.

其中哪局部數(shù)據(jù)可以用來降低風(fēng)險(xiǎn)4.哪局部數(shù)據(jù)可以用來構(gòu)建知識(shí)圖譜在這里需要說明的一點(diǎn)是,并不是所有跟反欺詐相關(guān)的數(shù)據(jù)都必須要進(jìn)入知識(shí)圖譜,對(duì)于這局部的一些決策原那么在接下來的局部會(huì)有比較詳細(xì)的介紹。對(duì)于反欺詐,有幾個(gè)數(shù)據(jù)源是我們很容易想得到的,包括用戶的基本信息、行為數(shù)據(jù)、運(yùn)營(yíng)商數(shù)據(jù)、網(wǎng)絡(luò)上的公開信息等等。假設(shè)我們已經(jīng)有了一個(gè)數(shù)據(jù)源的列表清單,那么下一步就要看哪些數(shù)據(jù)需要進(jìn)一步的處理,比方對(duì)于非構(gòu)造化數(shù)據(jù)我們或多或少都需要用到跟自然語(yǔ)言處理相關(guān)的技術(shù)。用戶填寫的基本信息基本上會(huì)存儲(chǔ)在業(yè)務(wù)表里,除了個(gè)別字段需要進(jìn)一步處理,很多字段那么直接可以用于建?;蛘咛砑拥街R(shí)圖譜系統(tǒng)里。對(duì)于行為數(shù)據(jù)來說,我們那么需要通過一些簡(jiǎn)單的處理,并從中提取有效的信息比方“用戶在某個(gè)頁(yè)面停留時(shí)長(zhǎng)〞等等。對(duì)于網(wǎng)絡(luò)上公開的網(wǎng)頁(yè)數(shù)據(jù),那么需要一些信息抽取相關(guān)的技術(shù)。舉個(gè)例子,對(duì)于用戶的基本信息,我們很可能需要如下的操作。一方面,用戶信息比方姓名、年齡、學(xué)歷等字段可以直接從構(gòu)造化數(shù)據(jù)庫(kù)中提取并使用。但另一方面,對(duì)于填寫的公司名來說,我們有可能需要做進(jìn)一步的處理。比方局部用戶填寫“北京貪心科技〞,另外一局部用戶填寫“北京望京貪心科技〞,其實(shí)指向的都是同一家公司。所以,這時(shí)候我們需要做公司名的對(duì)齊,用到的技術(shù)細(xì)節(jié)可以參考前面講到的實(shí)體對(duì)齊技術(shù)。6.3知識(shí)圖譜的設(shè)計(jì)圖譜的設(shè)計(jì)是一門藝術(shù),不僅要對(duì)業(yè)務(wù)有很深的理解、也需要對(duì)未來業(yè)務(wù)可能的變化有一定預(yù)估,從而設(shè)計(jì)出最貼近現(xiàn)狀并且性能高效的系統(tǒng)。在知識(shí)圖譜設(shè)計(jì)的問題上,我們肯定會(huì)面臨以下幾個(gè)常見的問題:1.需要哪些實(shí)體、關(guān)系和屬性2.

哪些屬性可以做為實(shí)體,哪些實(shí)體可以作為屬性3.哪些信息不需要放在知識(shí)圖譜中

基于這些常見的問題,我們從以往的設(shè)計(jì)經(jīng)歷中抽象出了一系列的設(shè)計(jì)原那么。這些設(shè)計(jì)原那么就類似于傳統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)中的范式,來引導(dǎo)相關(guān)人員設(shè)計(jì)出更合理的知識(shí)圖譜系統(tǒng),同時(shí)保證系統(tǒng)的高效性。接下來,我們舉幾個(gè)簡(jiǎn)單的例子來說明其中的一些原那么。首先是,業(yè)務(wù)原那么〔BusinessPrinciple〕,它的含義是“一切要從業(yè)務(wù)邏輯出發(fā),并且通過觀察知識(shí)圖譜的設(shè)計(jì)也很容易推測(cè)其背后業(yè)務(wù)的邏輯,而且設(shè)計(jì)時(shí)也要想好未來業(yè)務(wù)可能的變化〞。舉個(gè)例子,可以觀察一下下面這個(gè)圖譜,并試問自己背后的業(yè)務(wù)邏輯是什么。通過一番觀察,其實(shí)也很難看出到底業(yè)務(wù)流程是什么樣的。做個(gè)簡(jiǎn)單的解釋,這里的實(shí)體-“申請(qǐng)〞意思就是application,如果對(duì)這個(gè)領(lǐng)域有所了解,其實(shí)就是進(jìn)件實(shí)體。在下面的圖中,申請(qǐng)和實(shí)體之間的“has_phone〞,“parentphone〞是什么意思呢接下來再看一下下面的圖,跟之前的區(qū)別在于我們把申請(qǐng)人從原有的屬性中抽取出來并設(shè)置成了一個(gè)單獨(dú)的實(shí)體。在這種情況下,整個(gè)業(yè)務(wù)邏輯就變得很清晰,我們很容易看出張三申請(qǐng)了兩個(gè)貸款,而且張三擁有兩個(gè)手機(jī)號(hào),在申請(qǐng)其中一個(gè)貸款的時(shí)候他填寫了父母的號(hào)。總而言之,一個(gè)好的設(shè)計(jì)很容易讓人看到業(yè)務(wù)本身的邏輯。接下來再看一個(gè)原那么叫做效率原那么〔EfficiencyPrinciple〕。效率原那么讓知識(shí)圖譜盡量輕量化、并決定哪些數(shù)據(jù)放在知識(shí)圖譜,哪些數(shù)據(jù)不需要放在知識(shí)圖譜。在這里舉一個(gè)簡(jiǎn)單的類比,在經(jīng)典的計(jì)算機(jī)存儲(chǔ)系統(tǒng)中,我們經(jīng)常會(huì)談?wù)摰絻?nèi)存和硬盤,內(nèi)存作為高效的訪問載體,作為所有程序運(yùn)行的關(guān)鍵。這種存儲(chǔ)上的層次構(gòu)造設(shè)計(jì)源于數(shù)據(jù)的局部性-“l(fā)ocality〞,也就是說經(jīng)常被訪問到的數(shù)據(jù)集中在某一個(gè)區(qū)塊上,所以這局部數(shù)據(jù)可以放到內(nèi)存中來提升訪問的效率。類似的邏輯也可以應(yīng)用到知識(shí)圖譜的設(shè)計(jì)上:我們把常用的信息存放在知識(shí)圖譜中,把那些訪問頻率不高,對(duì)關(guān)系分析無(wú)關(guān)緊要的信息放在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)當(dāng)中。效率原那么的核心在于把知識(shí)圖譜設(shè)計(jì)成小而輕的存儲(chǔ)載體。比方在下面的知識(shí)圖譜中,我們完全可以把一些信息比方“年齡〞,“家鄉(xiāng)〞放到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)當(dāng)中,因?yàn)檫@些數(shù)據(jù)對(duì)于:a.分析關(guān)系來說沒有太多作用

b.

訪問頻率低,放在知識(shí)圖譜上反而影響效率另外,從分析原那么〔AnalyticsPrinciple〕的角度,我們不需要把跟關(guān)系分析無(wú)關(guān)的實(shí)體放在圖譜當(dāng)中;從冗余原那么〔RedundancyPrinciple〕的角度,有些重復(fù)性信息、高頻信息可以放到傳統(tǒng)數(shù)據(jù)庫(kù)當(dāng)中。6.4把數(shù)據(jù)存入知識(shí)圖譜存儲(chǔ)上我們要面臨存儲(chǔ)系統(tǒng)的選擇,但由于我們?cè)O(shè)計(jì)的知識(shí)圖譜帶有屬性,圖數(shù)據(jù)庫(kù)可以作為首選。但至于選擇哪個(gè)圖數(shù)據(jù)庫(kù)也要看業(yè)務(wù)量以及對(duì)效率的要求。如果數(shù)據(jù)量特別龐大,那么Neo4j很可能滿足不了業(yè)務(wù)的需求,這時(shí)候不得不去選擇支持準(zhǔn)分布式的系統(tǒng)比方OrientDB,JanusGraph等,或者通過效率、冗余原那么把信息存放在傳統(tǒng)數(shù)據(jù)庫(kù)中,從而減少知識(shí)圖譜所承載的信息量。通常來講,對(duì)于10億節(jié)點(diǎn)以下規(guī)模的圖譜來說Neo4j已經(jīng)足夠了。6.5上層應(yīng)用的開發(fā)等我們構(gòu)建好知識(shí)圖譜之后,接下來就要使用它來解決具體的問題。對(duì)于風(fēng)控知識(shí)圖譜來說,首要任務(wù)就是挖掘關(guān)系網(wǎng)絡(luò)中隱藏的欺詐風(fēng)險(xiǎn)。從算法的角度來講,有兩種不同的場(chǎng)景:一種是基于規(guī)那么的;另一種是基于概率的。鑒于目前AI技術(shù)的現(xiàn)狀,基于規(guī)那么的方法論還是在垂直領(lǐng)域的應(yīng)用中占據(jù)主導(dǎo)地位,但隨著數(shù)據(jù)量的增加以及方法論的提升,基于概率的模型也將會(huì)逐步帶來更大的價(jià)值。6.5.1基于規(guī)那么的方法論首先,我們來看幾個(gè)基于規(guī)那么的應(yīng)用,分別是不一致性驗(yàn)證、基于規(guī)那么的特征提取、基于模式的判斷。不一致性驗(yàn)證為了判斷關(guān)系網(wǎng)絡(luò)中存在的風(fēng)險(xiǎn),一種簡(jiǎn)單的方法就是做不一致性驗(yàn)證,也就是通過一些規(guī)那么去找出潛在的矛盾點(diǎn)。這些規(guī)那么是以人為的方式提前定義好的,所以在設(shè)計(jì)規(guī)那么這個(gè)事情上需要一些業(yè)務(wù)的知識(shí)。比方在下面的這個(gè)圖中,李明和李飛兩個(gè)人都注明了同樣的公司,但實(shí)際上從數(shù)據(jù)庫(kù)中判斷這倆人其實(shí)在不同的公司上班,這就是一個(gè)矛盾點(diǎn)。類似的規(guī)那么其實(shí)可以有很多,不在這里一一列出?;谝?guī)那么提取特征我們也可以基于規(guī)那么從知識(shí)圖譜中提取一些特征,而且這些特征一般基于深度的搜索比方2度,3度甚至更高維度。比方我們可以問一個(gè)這樣的問題:“申請(qǐng)人二度關(guān)系里有多少個(gè)實(shí)體觸碰了黑名單〞,從圖中我們很容觀察到二度關(guān)系中有兩個(gè)實(shí)體觸碰了黑名單〔黑名單由紅色來標(biāo)記〕。等這些特征被提取之后,一般可以作為風(fēng)險(xiǎn)模型的輸入。在此還是想說明一點(diǎn),如果特征并不涉及深度的關(guān)系,其實(shí)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)那么足以滿足需求?;谀J降呐袛噙@種方法比較適用于找出團(tuán)體欺詐,它的核心在于通過一些模式來找到有可能存在風(fēng)險(xiǎn)的團(tuán)體或者子圖〔sub-graph〕,然后對(duì)這局部子圖做進(jìn)一步的分析。這種模式有很多種,在這里舉幾個(gè)簡(jiǎn)單的例子。比方在以以下圖中,三個(gè)實(shí)體共享了很多其他的信息,我們可以看做是一個(gè)團(tuán)體,并對(duì)其做進(jìn)一步的分析。再比方,我們也可以從知識(shí)圖譜中找出強(qiáng)連通圖,并把它標(biāo)記出來,然后做進(jìn)一步風(fēng)險(xiǎn)分析。強(qiáng)連通圖意味著每一個(gè)節(jié)點(diǎn)都可以通過某種路徑到達(dá)其他的點(diǎn),也就說明這些節(jié)點(diǎn)之間有很強(qiáng)的關(guān)系。6.5.2基于概率的方法除了基于規(guī)那么的方法,也可以使用概率統(tǒng)計(jì)的方法。比方社區(qū)挖掘、標(biāo)簽傳播、聚類等技術(shù)都屬于這個(gè)范疇。對(duì)于這類技術(shù),在本文里不做詳細(xì)的講解,感興趣的讀者可以參考相關(guān)文獻(xiàn)。社區(qū)挖掘算法的目的在于從圖中找出一些社區(qū)。對(duì)于社區(qū),我們可以有多種定義,但直觀上可以理解為社區(qū)內(nèi)節(jié)點(diǎn)之間關(guān)系的密度要明顯大于社區(qū)之間的關(guān)系密度。下面的圖表示社區(qū)發(fā)現(xiàn)之后的結(jié)果,圖中總共標(biāo)記了三個(gè)不同的社區(qū)。一旦我們得到這些社區(qū)之后,就可以做進(jìn)一步的風(fēng)險(xiǎn)分析。由于社區(qū)挖掘是基于概率的方法論,好處在于不需要人為地去定義規(guī)那么,特別是對(duì)于一個(gè)龐大的關(guān)系網(wǎng)絡(luò)來說,定義規(guī)那么這事情本身是一件很復(fù)雜的事情。標(biāo)簽傳播算法的核心思想在于節(jié)點(diǎn)之間信息的傳遞。這就類似于,跟優(yōu)秀的人在一起自己也會(huì)逐漸地變優(yōu)秀是一個(gè)道理。因?yàn)橥ㄟ^這種關(guān)系會(huì)不斷地吸取高質(zhì)量的信息,最后使得自己也會(huì)不知不覺中變得更加優(yōu)秀。具體細(xì)節(jié)不在這里做更多解釋。相比規(guī)那么的方法論,基于概率的方法的缺點(diǎn)在于:需要足夠多的數(shù)據(jù)。如果數(shù)據(jù)量很少,而且整個(gè)圖譜比較稀疏〔Sparse〕,基于規(guī)那么的方法可以成為我們的首選。尤其是對(duì)于金融領(lǐng)域來說,數(shù)據(jù)標(biāo)簽會(huì)比較少,這也是為什么基于規(guī)那么的方法論還是更普遍地應(yīng)用在金融領(lǐng)域中的主要原因。6.5.3基于動(dòng)態(tài)網(wǎng)絡(luò)的分析以上所有的分析都是基于靜態(tài)的關(guān)系圖譜。所謂的靜態(tài)關(guān)系圖譜,意味著我們不考慮圖譜構(gòu)造本身隨時(shí)間的變化,只是聚焦在當(dāng)前知識(shí)圖譜構(gòu)造上。然而,我們也知道圖譜的構(gòu)造是隨時(shí)間變化的,而且這些變化本身也可以跟風(fēng)險(xiǎn)有所關(guān)聯(lián)。在下面的圖中,我們給出了一個(gè)知識(shí)圖譜T時(shí)刻和T+1時(shí)刻的構(gòu)造,我們很容易看出在這兩個(gè)時(shí)刻中間,圖譜構(gòu)造〔或者局部構(gòu)造〕發(fā)生了很明顯的變化,這其實(shí)暗示著潛在的風(fēng)險(xiǎn)。那怎么去判斷這些構(gòu)造上的變化呢感興趣的讀者可以查閱跟“dynamicnetworkmining〞相關(guān)的文獻(xiàn)。7.知識(shí)圖譜在其他行業(yè)中的應(yīng)用除了金融領(lǐng)域,知識(shí)圖譜的應(yīng)用可以涉及到很多其他的行業(yè),包括醫(yī)療、教育、證券投資、推薦等等。其實(shí),只要有關(guān)系存在,那么有知識(shí)圖譜可發(fā)揮價(jià)值的地方。在這里簡(jiǎn)單舉幾個(gè)垂直行業(yè)中的應(yīng)用。比方對(duì)于教育行業(yè),我們經(jīng)常談?wù)搨€(gè)性化教育、因材施教的理念。其核心在于理解學(xué)生當(dāng)前的知識(shí)體系,而且這種知識(shí)體系依賴于我們所獲取到的數(shù)據(jù)比方交互數(shù)據(jù)、評(píng)測(cè)數(shù)據(jù)、互動(dòng)數(shù)據(jù)等等。為了分析學(xué)習(xí)路徑以及知識(shí)構(gòu)造,我們那么需要針對(duì)于一個(gè)領(lǐng)域的概念知識(shí)圖譜,簡(jiǎn)單來講就是概念拓?fù)錁?gòu)造。在下面的圖中,我們給出了一個(gè)非常簡(jiǎn)單的概念圖譜:比方為了學(xué)習(xí)邏輯回歸那么需要先理解線性回歸;為了學(xué)習(xí)CNN,得對(duì)神經(jīng)網(wǎng)絡(luò)有所理解等等。所有對(duì)學(xué)生的評(píng)測(cè)、互動(dòng)分析都離不開概念圖譜這個(gè)底層的數(shù)據(jù)。在證券領(lǐng)域,我們經(jīng)常會(huì)關(guān)心比方“一個(gè)事件發(fā)生了,對(duì)哪些公司產(chǎn)生什么樣的影響〞比方有一個(gè)負(fù)面消息是關(guān)于公司1的高管,而且我們知道公司1和公司2有種很密切的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論