版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
垂直知識圖譜構(gòu)造工具與行業(yè)應用阮彤自然語言處理與大數(shù)據(jù)挖掘?qū)嶒炇抑魅稳A東理工大學主要內(nèi)容為什么垂直行業(yè)需要知識圖譜垂直知識圖譜的特點垂直知識圖譜工具——VKGBuilder介紹垂直知識圖譜應用我們從通用知識圖譜開始。。。。1.SSCO/對不同的中文數(shù)據(jù)源進行合并,組成統(tǒng)一的知識庫。共有621萬實例,73萬類別,上億的事實。成果在ISWC以及SCI期刊上發(fā)表。使用機器學習獲得的知識網(wǎng)絡(luò),包括260,345個概念,5,602,180個實例,526,219個同義關(guān)系,下圖顯示了網(wǎng)絡(luò)的部分節(jié)點2.zhishi.me華東理工大學上海交大為了讓知識圖譜有用,準備構(gòu)造一個搜索引擎?
谷歌知識圖譜01百度“知心”搜狗“知立方”02為什么行業(yè)需要知識圖譜1.圖書館行業(yè)的故事——地方圖書館與內(nèi)容供應商之爭
內(nèi)容供應商超星萬方鏈接舟山圖書館門戶數(shù)字圖書館資源屬于內(nèi)容供應商用戶訪問日志屬于內(nèi)容供應商!讀者誰能夠提供更好的服務(wù)?內(nèi)容供應商!為什么行業(yè)需要知識圖譜1.圖書館行業(yè)的故事——地方圖書館之爭
內(nèi)容供應商超星萬方維普鏈接鏈接鏈接舟山圖書館門戶數(shù)字圖書館誰擁有更多的資源?大圖書館!浙江圖書館門戶國家圖書館門戶地方圖書館利用知識圖譜實現(xiàn)轉(zhuǎn)型嚴重的內(nèi)容相似缺乏內(nèi)容控制缺乏競爭力尋覓新的機會!與地方經(jīng)濟結(jié)合自有內(nèi)容專有技術(shù)為什么行業(yè)需要知識圖譜2.證券行業(yè)的故事——購買數(shù)據(jù)VS自己處理數(shù)據(jù)大智慧萬德同花順交易所購買模式平臺模式集成并分析數(shù)據(jù)同花順大智慧新聞網(wǎng)站證券公司研報內(nèi)部交易數(shù)據(jù)為什么行業(yè)需要知識圖譜2.證券行業(yè)的故事——現(xiàn)有搜索引擎的困惑搜牛問財——知識庫結(jié)構(gòu)化查詢2.證券行業(yè)的故事——語義技術(shù)的滲透不同來源知識庫之間如何關(guān)聯(lián)?疾病、藥品、檢查的關(guān)聯(lián)中西醫(yī)疾病名稱關(guān)聯(lián)中西藥成分關(guān)聯(lián)電子病歷搜索某類患者,如心衰并患有高血壓患者的患者?與某病人相似的患者?電子病歷文本中有大量的數(shù)據(jù),如何進行結(jié)構(gòu)化,以更好地進行電子病歷數(shù)據(jù)的大數(shù)據(jù)挖掘?為什么行業(yè)需要知識圖譜3.醫(yī)療行業(yè)的例子——難點為什么行業(yè)需要知識圖譜3.醫(yī)療行業(yè)的例子——病歷結(jié)構(gòu)化的必要性
詞匯二義性傳統(tǒng)非結(jié)構(gòu)化病歷數(shù)據(jù),只能通過文本匹配來進行查詢無法理解相同文字但不同含義的詞匯
關(guān)聯(lián)查詢無法精確切分查詢詞,理解查詢意圖為什么行業(yè)需要知識圖譜3.醫(yī)療行業(yè)的例子——ICD-11的構(gòu)造ICD11使用了類/子類關(guān)系,子屬性,定義域與值域,等價類。ICD
11表達能力是SHOIN(D)??梢允褂肈L推理程序去推理系統(tǒng)之間的非一致性。每個疾病有56個屬性,而其中52個是用填實例的。ICD
10以及以前版本,基本上沒有結(jié)構(gòu)。分類碼通常是一長串的疾病與它們相關(guān)的代碼,以及少量屬性,如同義詞等。WHO在11版的ICD開發(fā)中使用語義Web技術(shù),支持協(xié)同編輯的語義Web平臺。4年中,有270個來自世界各地的領(lǐng)域?qū)<沂褂胕CAT編輯了45,000個類,執(zhí)行了260,000個變更。構(gòu)造了17,000個鏈接,鏈到外部醫(yī)學術(shù)語。為什么行業(yè)需要知識圖譜行業(yè)需要數(shù)據(jù)(語義)集成能力文本
與結(jié)構(gòu)化數(shù)據(jù)的集成不同來源、不同格式的大量數(shù)據(jù)自動/半自動的集成行業(yè)需要(語義)數(shù)據(jù)查詢能力更豐富的表達更精準的結(jié)果
總結(jié)為什么行業(yè)需要知識圖譜知識圖譜的技術(shù)優(yōu)勢漸增式數(shù)據(jù)模式設(shè)計初始設(shè)計的時候,很難清楚所有的概念,而知識圖譜的動態(tài)可擴充性以及“無模式”特性使得用戶很容易增加或修改模式。數(shù)據(jù)集成更輕松本體的語義互操作特性以及“鏈接數(shù)據(jù)”原則,使得來自不同供應商的數(shù)據(jù)集成更為方便?,F(xiàn)有標準支持有RDF(S),OWL,SPARQL等標準,可以逐漸要求內(nèi)容供應商支持。語義搜索用戶可以查詢具有某類特征的某類實體,比起基于基于關(guān)鍵詞的搜索,更為精準。主要內(nèi)容為什么需要行業(yè)需要知識圖譜垂直知識圖譜的特點垂直知識圖譜工具垂直知識圖譜應用垂直知識圖譜特點
領(lǐng)域?qū)?shù)據(jù)質(zhì)量要求更高,例如藥品名稱處方當中,藥品的克數(shù)企業(yè)名稱企業(yè)股票價格領(lǐng)域數(shù)據(jù)字段與數(shù)據(jù)關(guān)聯(lián)更豐富一個企業(yè)包含的信息字段可能有上百個字段ICD11當中,每個疾病有56個屬性,而其中52個是用填實例的。(不是隨意填寫一個文本,而是這個填的值本身也是RDF的一個實例。只有滿足了上述條件,才能用于商業(yè)分析與決策支持1.更為豐富與精確的領(lǐng)域數(shù)據(jù)VS姚明的身高?VS電影的字段垂直知識圖譜特點普通的KG,使用一種自底向上的方法,更強調(diào)數(shù)據(jù)的寬度。如DBpedia在構(gòu)造過程中,先有數(shù)據(jù),后有本體。對于行業(yè)本體來說,由于數(shù)據(jù)質(zhì)量以及行業(yè)本身的規(guī)范要求,將使用自頂向下的方式。2.自頂向下垂直知識圖譜特點企業(yè)/組織結(jié)構(gòu)自有數(shù)據(jù),如:對證券公司而言,自有用戶交易數(shù)據(jù)醫(yī)院,電子病歷,付費、檢查記錄圖書館地方政府數(shù)據(jù)行業(yè)數(shù)據(jù)如行業(yè)標準、規(guī)范,如MedicalGuideline如第三方收集的企業(yè)數(shù)據(jù)
諸多以RDB方式存儲3.豐富的內(nèi)部數(shù)據(jù)來源垂直知識圖譜特點比起互聯(lián)網(wǎng)企業(yè),垂直行業(yè)客戶相對投入低,能力弱。需要可配置、圖形化界面。需要容易地面向不同行業(yè)做客戶化。4.需要可擴充的第三方工具支持垂直知識圖譜特點醫(yī)療:如果我構(gòu)造了醫(yī)學知識圖譜,下一步就是,如何基于這個圖譜做診療?證券:如何我構(gòu)造了一個企業(yè)知識圖譜,下一步就是,如何找到滿足某一類條件的企業(yè)?5.與決策支持集成——語義搜索?RuleEngine?大數(shù)據(jù)挖掘?主要內(nèi)容為什么需要行業(yè)需要知識圖譜垂直知識圖譜的特點垂直知識圖譜工具垂直知識圖譜應用垂直知識圖譜體系結(jié)構(gòu)RDBLODUGCTextD2RImporterLODLinkerUGCWrapperInformationExtractorSchemaexpansionandalignmentDataEnrichmentSchemaEditorDataEditorRestfulAPISemanticSearchWithNatureLanguageInterfaceVisualExplorer(CardView,WheelView)IncrementalSchemaDesignandDataEnrichmentKnowledgeRepositoryModuleGraphDatabaseKnowledgeAccessModuleSchemaInconsistencyorDataConflictKowledgeConstructionModuleKGArchitecture以舟山海洋數(shù)字圖書館的例子,說明垂直知識圖譜工具
舟山海洋知識圖譜首頁構(gòu)造海洋KG的例子——多種數(shù)據(jù)來源RelationalDatabaseOwnedByZhouShanFisheryAgency(2attributes)Marine-relatedknowledgebasepublishedontheWeb(10attributes)Encyclopedicwebsitesandfreetextascomplementarycontent構(gòu)造KG從Web抽取數(shù)據(jù)BuildKG配置文件用于從HTML頁面抽取結(jié)構(gòu)化數(shù)據(jù)Web數(shù)據(jù)和知識圖譜中,實體與屬性的匹配規(guī)則。
3)將數(shù)據(jù)導入到圖譜中.從百科網(wǎng)站抽取數(shù)據(jù)BuildKG選項1)當前實體學習/批處理學習2)三個百科:互動、維基與百度3)抽取部分:摘要,Infobox,類型標簽不同數(shù)據(jù)來源沖突解決BuildKG當沖突發(fā)生的時候,會有一個紅色驚嘆號圖標顯示在相應字段。用戶點擊這個圖標,系統(tǒng)顯示具體的沖突來源、不同來源的值、以及建議的數(shù)值.用戶可以選擇他們認為合適的方式。2.PossibleIntentions1.Query3.Answer4.RelatedBooks5.KnowledgeCard6.RelatedContents語義檢索BuildKGUserscansubmitanykeywordqueryornaturallanguagequestion.ThequeryisinterpretedintopossibleSPARQLquerieswithnaturallanguagedescriptions.OnceaSPARQLqueryisselected,thecorrespondinganswersarereturned.alongwithrelevantdocumentswhichcontainsemanticannotationsontheseanswers.瀏覽KG——卡片視圖ExploreKG卡片視圖將所有實體(這幅圖是魚)展現(xiàn)在一個3D空間。最終用戶可以放大、縮小、左移動和右移動,或是點擊特定實體,看到實體詳情。瀏覽KG——輪子視圖搜索一個概念或?qū)嶓w上一頁同一個實體關(guān)系名稱ExploreKG輪子視圖使用兩個輪子組織概念/實體。對于左邊的輪子,感興趣的節(jié)點被放在中央,當相關(guān)實體或?qū)傩员稽c擊的時候,點擊的實體/概念就會成為右邊輪子的中心,右邊相關(guān)節(jié)點就會發(fā)生變化未來產(chǎn)品框架1.大規(guī)模圖數(shù)據(jù)支持2.自動探測數(shù)據(jù)來源3.多策略學習,提高數(shù)據(jù)抽取精度4.自動/半自動多源數(shù)據(jù)融合。5.基于規(guī)則與推理的決策支持
主要內(nèi)容為什么垂直行業(yè)需要知識圖譜垂直知識圖譜的特點垂直知識圖譜工具垂直知識圖譜應用知識圖譜幫助圖書館模式變遷ExtractandIntegrateDataFrommultipleSourcesContinuouslyprovideup-to-datecontent內(nèi)容供應商+平臺運營商RoleofKGZhouShanECUSTZheJiangHeNan……ShangHaiFederatedThematicResourceLibrary……PortEconomyKnowledgeGraphTextileIndustryKnowledgeGraphAgro-ProductProcessingKnowledgeGraphMarineEconomyKnowledgeGraphChemicalEngineeringKnowledgeGraph未來互聯(lián)與共享的圖書館資源庫
Futurework證券行業(yè)基于知識圖譜技術(shù)的醫(yī)療知識庫——正在進行。。。。病歷結(jié)構(gòu)化表示——正在進行【主訴】兩周內(nèi)便血2次【現(xiàn)病史】患者2周前無明顯誘因下出現(xiàn)大便帶鮮紅色液體2次,無肛門口異物感,肛門口無突出物,大便色黃,無粘胨膿液,無惡心嘔吐,無胃寒發(fā)熱,無尿頻尿急尿痛血尿,無腹痛腹瀉里
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年雙溪鄉(xiāng)人民政府關(guān)于公開選拔重點公益林護林員備考題庫及答案詳解一套
- 2025年國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作四川中心公開招聘工作人員40人備考題庫及參考答案詳解
- 2024年廣州市海珠區(qū)社區(qū)專職人員招聘考試真題
- 2025年甘肅電器科學研究院聘用人員招聘備考題庫及答案詳解1套
- 玻璃鋼水箱課程設(shè)計三
- 2025年可再生能源供電十年市場報告
- 2025年齊齊哈爾市總工會工會社會工作者招聘39人考試參考試題及答案解析
- 2025江蘇常州市體育局下屬事業(yè)單位招聘1人備考核心試題附答案解析
- 2025年生物質(zhì)能發(fā)電技術(shù)標準行業(yè)報告
- 2025年中國科學院心理研究所認知與發(fā)展心理學研究室杜憶研究組招聘備考題庫及1套參考答案詳解
- 口腔診所運營管理手冊及營銷方案設(shè)計
- 教輔銷售年終總結(jié)
- GB/T 17119-2025連續(xù)搬運設(shè)備帶承載托輥的帶式輸送機運行功率和張力的計算
- 四川省成都市第七中學2025-2026學年高二上學期11月半期考試英語(含答案)
- (2025版)國家基層高血壓防治管理指南課件
- 2026屆黑龍江省優(yōu)才計劃 中學生標準學術(shù)能力測試高三數(shù)學聯(lián)考試題(含解析)
- 貴州省黔西南州金成實驗學校2024-2025學年九年級上學期期末檢測物理試題(無答案)
- 屠宰場安全生產(chǎn)知識培訓課件
- 石油管道巡護安全培訓課件
- 智能教育設(shè)備設(shè)備使用風險防控方案
- 防洪影響評價編制培訓課件
評論
0/150
提交評論