大數(shù)據(jù)時代的語義技術(shù)_第1頁
大數(shù)據(jù)時代的語義技術(shù)_第2頁
大數(shù)據(jù)時代的語義技術(shù)_第3頁
大數(shù)據(jù)時代的語義技術(shù)_第4頁
大數(shù)據(jù)時代的語義技術(shù)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)時代的語義技術(shù)

---SemanticTechnologyinBigDataEra

作者:

黃智生

作者簡介:

黃智生(1957-),男,博士,教授,荷蘭阿姆斯特丹自由

大學(xué)計算機系。阿姆斯特丹1081hv;北京工業(yè)大學(xué)未來網(wǎng)

絡(luò)科技高精尖創(chuàng)新中心。北京100022;研究方向:人工智

能與大數(shù)據(jù),E-mail:1990245070@qq.com0

原發(fā)信息:

《數(shù)字圖書館論壇》(京)2016年第201610期第9T5頁

內(nèi)容提要:

當(dāng)前正處于大數(shù)據(jù)時代,大數(shù)據(jù)為智慧城市提供豐富的數(shù)

據(jù)環(huán)境。智慧城市技術(shù)需要面向萬維網(wǎng)大數(shù)據(jù)處理及其知

識服務(wù)的支持。語義技術(shù)為海量數(shù)據(jù)處理及知識管理提供

有效的技術(shù)手段。本文系統(tǒng)化介紹面向大數(shù)據(jù)環(huán)境的語義

處理技術(shù),包括大數(shù)據(jù)時代的語義數(shù)據(jù)環(huán)境、海量語義數(shù)

據(jù)處理平臺及語義技術(shù)在智慧城市與醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)

用。

SemanticTechnologyinBigDataEra

關(guān)鍵詞:

大數(shù)據(jù)/語義技術(shù)/知識圖譜/知識管理/智慧城市技術(shù)/Big

data/Semantictechnology/Knowledgegraph/Knowledge

management/Ssarlcitytechnology

期刊名稱:《圖書館學(xué)情報學(xué)》

復(fù)印期號:2017年01期

中圖分類號:TP182

萬維網(wǎng)為大數(shù)據(jù)時代提供海量的異構(gòu)數(shù)據(jù)環(huán)境,進而為智慧城市技術(shù)

及其知識服務(wù)提供巨大的開發(fā)空間。但是,數(shù)據(jù)異構(gòu)性使我國面臨如何對

大數(shù)據(jù)進行有效語義整合和處理的巨大挑戰(zhàn)。有效整合海量異構(gòu)數(shù)據(jù),其

中一個核心主題就是如何實現(xiàn)異構(gòu)數(shù)據(jù)的互操作(Interoperability)。

數(shù)據(jù)互操作指多源數(shù)據(jù)能夠?qū)崿F(xiàn)類似單一系統(tǒng)數(shù)據(jù)般的無縫鏈接。語

義網(wǎng)思想及圍繞語義網(wǎng)目標(biāo)實現(xiàn)所開發(fā)的一系列技術(shù),稱為語義網(wǎng)技術(shù),

簡稱語義技術(shù)(SemanticTechnology),語義技術(shù)為異構(gòu)數(shù)據(jù)提供數(shù)據(jù)互

操作的技術(shù)基礎(chǔ),也為大數(shù)據(jù)的有效分析提供一種技術(shù)途徑[L3]。本文將

系統(tǒng)化地介紹面向大數(shù)據(jù)環(huán)境的語義處理技術(shù)。

1大數(shù)據(jù)時代的語義數(shù)據(jù)環(huán)境

1.1語義技術(shù)的基本思想

面對海量的萬維網(wǎng)數(shù)據(jù),一個核心問題是如何快速有效地尋找所需信

息。目前通用的辦法是通過網(wǎng)絡(luò)搜索引擎,采用鍵入對應(yīng)的關(guān)鍵字來獲得

結(jié)果。但是,傳統(tǒng)搜索引擎主要通過關(guān)鍵字對網(wǎng)絡(luò)資源進行字符串匹配獲

取檢索結(jié)果,易獲得包含部分關(guān)鍵字的噪聲數(shù)據(jù)。如檢索"化學(xué)",檢索

結(jié)果卻出現(xiàn)“自動化學(xué)習(xí)"和"機械化學(xué)習(xí)"。為避免此類字符串誤匹

配,可通過對網(wǎng)絡(luò)中的文本描述進行結(jié)構(gòu)化處理,即采用專業(yè)詞典,將長

串文本描述進行分詞處理,切割成獨立的子部分。如把"自動化學(xué)習(xí)"切

分成"自動化"和"學(xué)習(xí)"兩個獨立的部分,在使用"化學(xué)"進行查找時

就不會匹配到"自動化學(xué)習(xí)”,因為需要滿足同時匹配兩個獨立的子結(jié)

構(gòu)。將長串文本切分成子結(jié)構(gòu)的處理方法稱為結(jié)構(gòu)化處理,但結(jié)構(gòu)化處理

不能實現(xiàn)數(shù)據(jù)互操作。在進行網(wǎng)絡(luò)搜索使用的關(guān)鍵字只是表達語義上的需

求,而并不在意網(wǎng)絡(luò)資源是采用何種具體的詞來表達。因此,需要一種網(wǎng)

絡(luò)資源描述方式,來刻畫語義上的關(guān)聯(lián)性??坍嬆硞€特定領(lǐng)域的概念集合

及該領(lǐng)域概念間的關(guān)聯(lián)性被稱為本體(Ontology)[4-5]。

近十多年,國際萬維網(wǎng)組織制定和出臺了一系列語義技術(shù)標(biāo)準(zhǔn),得到

廣泛的應(yīng)用。其中主要的語義技術(shù)標(biāo)準(zhǔn)包括以下四類。

(1)網(wǎng)絡(luò)資源描述框架(ResourceDescriptionFramework,RDF)和

網(wǎng)絡(luò)資源描述框架模式(ResourceDescriptionFrameworkScheme,

RDFS)。主要用于描述網(wǎng)絡(luò)信息資源,前者用于描述具體的網(wǎng)絡(luò)信息資源

及其對應(yīng)概念,后者用于描述網(wǎng)絡(luò)信息資源概念間的關(guān)聯(lián)性。RDF/RDFS

可以采用不同的數(shù)據(jù)格式表達,可被寫成類似XML格式的文件。經(jīng)常使

用的RDF/RDFS表達格式是Ntriple三元組格式。

⑵網(wǎng)絡(luò)本體語言

(WebOntologyLanguage,OWL)oRDF/RDFS

僅能描述網(wǎng)絡(luò)信息資源及其相關(guān)概念的基本特征,但邏輯表達能力不強。

OWL對RDF/RDFS的邏輯表達能力進行擴展,使之能夠表達更復(fù)雜的邏

輯關(guān)系,提供邏輯推理能力[5]。

(3)RDF直詢語言SPARQL。SPARQL是一種針對RDF/RDFS語義數(shù)

據(jù)的查詢語言,也可用于OWL數(shù)據(jù)查詢;若語義數(shù)據(jù)處理平臺已嵌入對

應(yīng)的推理機,SPAROL還可用于對語義數(shù)據(jù)的推理結(jié)果查詢。一個規(guī)范的

語義數(shù)據(jù)處理平臺通常會提供規(guī)范的SPAROL查詢接口,被稱為

SPAROL月員務(wù)端。

(4)規(guī)則交換格式(RuleInterchangeFormat,RIF),RIF語言標(biāo)準(zhǔn)提

供一種面向網(wǎng)絡(luò)信息資源的高級規(guī)則知識表達能力,可彌補OWL對領(lǐng)域

概念邏輯相關(guān)性描述的不足。

語義技術(shù)標(biāo)準(zhǔn),建立在對網(wǎng)絡(luò)信息資源進行數(shù)據(jù)連接的統(tǒng)一概念格式

上,其主要概念表達方法是三元組(Triple)法,即將信息資源以類似主語、

謂語和賓語結(jié)構(gòu)來表達。為增強語義標(biāo)示的唯一性,通過網(wǎng)絡(luò)資源進行唯

一性語義標(biāo)定是語義技術(shù)的核心思想之一。所以,語義技術(shù)標(biāo)準(zhǔn)的基本作

用是對網(wǎng)絡(luò)資源進行描述,用于提供語義唯一標(biāo)識,同時讓數(shù)據(jù)內(nèi)容獨立

于表達形式。

語義網(wǎng)(語義技術(shù))的主要思想包括:(1)任何信息系統(tǒng)都需要數(shù)據(jù);

(2)數(shù)據(jù)表示要獨立于具體的應(yīng)用和平臺,以保證最大程度的可重用性;

(3)采用統(tǒng)一的數(shù)據(jù)概念表示,以保證數(shù)據(jù)表示獨立于具體系統(tǒng)(可采用

Triple/Tuple形式);(4)數(shù)據(jù)應(yīng)能描述網(wǎng)絡(luò)資源(要采用RDF/RDFS或其他

類似的語言);(5)數(shù)據(jù)應(yīng)提供初步推理支持(要采用OWL或其他知識表示

語言)。值得注意的是RDF/RDFS/OWL均采用Triple語義模型。

1.2現(xiàn)代信息系統(tǒng)的數(shù)據(jù)基礎(chǔ)——關(guān)聯(lián)語義數(shù)據(jù)云圖

近十年,信息領(lǐng)域的重大進展之一是獲得關(guān)聯(lián)語義數(shù)據(jù)云圖(Linked

DataCloud),其中每個結(jié)點表示一個開放的數(shù)據(jù)源,結(jié)點間的弧表示數(shù)

據(jù)源相互鏈接。截至2011年9月,關(guān)聯(lián)語義數(shù)據(jù)云圖已覆蓋295個數(shù)據(jù)

集、310億條RDF語句、5.04億個RDF鏈接(見圖1),其領(lǐng)域涵蓋地理

信息、生命科學(xué)、媒體、出版、政府信息、計算機與通信技術(shù)、工程學(xué)

科、社會科學(xué)等。2011年6月,谷歌、雅虎和微軟共同宣布推出新的語

義搜索的技術(shù)標(biāo)準(zhǔn);2012年5月,谷歌搜索引擎推出基于語義技術(shù)的知

識圖譜;截至2016年,關(guān)聯(lián)語義數(shù)據(jù)云圖的規(guī)模已經(jīng)超過一張圖所能表

達的程度。

圖1關(guān)聯(lián)語義數(shù)據(jù)云圖

數(shù)據(jù)集均采用語義技術(shù)標(biāo)準(zhǔn)(RDF或者OWL形式)來表達,且絕大多

數(shù)數(shù)據(jù)集是公開的,可以免費下載。由于采用國際語義技術(shù)標(biāo)準(zhǔn)與規(guī)范的

本體工程技術(shù)開發(fā)方法,很容易將數(shù)據(jù)載入語義數(shù)據(jù)處理平臺。關(guān)聯(lián)語義

數(shù)據(jù)云圖的核心部分是維基百科,知識采用語義技術(shù)標(biāo)準(zhǔn)表達的數(shù)據(jù)

DBpedia,其他領(lǐng)域數(shù)據(jù)集均可在語義上同維基百科的概念融合,其中

Freebase是類似維基百科的數(shù)據(jù)集。2012年,谷歌以1億美元購買

Freebase,將其改造成知識圖譜(knowledgegraph).

從形式上看,知識圖譜采用語義技術(shù)形式表達系統(tǒng)化、結(jié)構(gòu)化、集成

化的特定領(lǐng)域知識結(jié)構(gòu),是面向萬維網(wǎng)信息環(huán)境的重要的知識表達形式,

是未來網(wǎng)絡(luò)面向知識決策與分析的基礎(chǔ)設(shè)施之一。知識圖譜通常采用一種

基于圖的數(shù)據(jù)結(jié)構(gòu),旨在描述真實世界中存在的各種實體或概念,頂點表

示實體或者概念,邊代表實體與概念間的各種語義關(guān)系。從本質(zhì)上看,知

識圖譜、語義數(shù)據(jù)集和本體沒有根本性的區(qū)別;但是,知識圖譜的構(gòu)建更

多地關(guān)注特定領(lǐng)域的基本事實。

龐大的語義數(shù)據(jù)集提供覆蓋廣泛領(lǐng)域的基礎(chǔ)知識庫,為信息系統(tǒng)開發(fā)

提供全新的數(shù)據(jù)環(huán)境,是現(xiàn)代信息系統(tǒng)的數(shù)據(jù)基礎(chǔ)。在大數(shù)據(jù)語義支撐環(huán)

境下,可便捷地開發(fā)應(yīng)用系統(tǒng)。

語義技術(shù)具有兩大技術(shù)優(yōu)勢:(1)由于采用國際規(guī)范的數(shù)據(jù)表達格

式,應(yīng)用系統(tǒng)可方便地融合海量開源數(shù)據(jù),節(jié)省前期數(shù)據(jù)準(zhǔn)備工作,有利

于未來系統(tǒng)功能的擴充;(2)由于采用面向語義表達的知識描述語言,使應(yīng)

用系統(tǒng)可方便地進行面向萬維網(wǎng)環(huán)境的大數(shù)據(jù)處理,特別是進行知識提取

和數(shù)據(jù)整合,代替現(xiàn)有的大量人工干預(yù)工作。

2海量語義數(shù)據(jù)處理平臺

通過關(guān)聯(lián)語義數(shù)據(jù)云圖,不僅可獲得覆蓋多領(lǐng)域的公開共享的海量數(shù)

據(jù),還可以使用一切采用語義技術(shù)標(biāo)準(zhǔn)描述的數(shù)據(jù)或者知識資源。由于采

用面向語義的知識描述方式,使應(yīng)用系統(tǒng)可實現(xiàn)更加智能化的面向知識表

達和知識處理的各種服務(wù)。

面向語義數(shù)據(jù)存儲和處理的系統(tǒng)稱為三元組存儲系統(tǒng),統(tǒng)稱

TripleStore,類似于關(guān)系數(shù)據(jù)庫。語義數(shù)據(jù)處理平臺是三元組存儲系統(tǒng)的

功能擴展。當(dāng)然,一個三元組存儲系統(tǒng)的功能需求遠超過關(guān)系數(shù)據(jù)庫所能

提供的支持,因為其需要適應(yīng)面向知識處理和推理的能力需求,也需要提

供規(guī)范的語義數(shù)據(jù)查詢服務(wù),即SPARQL服務(wù)端的支持。

2.1海量語義數(shù)據(jù)處理平臺一覽

由于語義數(shù)據(jù)處理平臺需要提供SPARQL查詢服務(wù)端,需要一定的

圖數(shù)據(jù)處理能力。但傳統(tǒng)面向SQL的關(guān)系數(shù)據(jù)庫系統(tǒng)在提供SPARQL查

詢服務(wù)端時,效率不高。

下面是四種常用的語義數(shù)據(jù)處理平臺或三元組存儲系統(tǒng)。

(l)AllegroGraph是由Franz公司開發(fā)的面向語義數(shù)據(jù)處理的圖數(shù)據(jù)

庫系統(tǒng),其具備存儲和處理數(shù)千億級三元組的能力。同時還提供基于邏輯

程序設(shè)計語言Prolog的RDFS++的推理能力。

(2)GraphDB是由OntoText公司開發(fā)的面向語義數(shù)據(jù)處理的圖數(shù)據(jù)

庫系統(tǒng)。GraphDB是在OWLIM三元組存儲系統(tǒng)基礎(chǔ)上開發(fā)的,而

OWLIM的前身是著名的RDF/RDFS數(shù)據(jù)存儲與處理系統(tǒng)Sesame.

(3)LarKC是一個海量語義數(shù)據(jù)處理平臺。LarKC是由歐盟第七研究

框架語義技術(shù)重大項目LarKC團隊開發(fā)的[6-8]。由于OntoText公司是

LarKC的開發(fā)團隊之一,所以LarKC的語義數(shù)據(jù)存儲層采用OntoText公

司的產(chǎn)品0WLIM[9]。LarKC提供靈活的存儲系統(tǒng)嵌入形式,其三元組存

儲系統(tǒng)可方便地替換為其他規(guī)范的語義數(shù)據(jù)存儲系統(tǒng)(如Virtuoso等)。

(4)Virtuos。被稱為多源數(shù)據(jù)通用服務(wù)系統(tǒng),由OpenLink軟件公司

開發(fā)。其支持?jǐn)?shù)據(jù)類型既包括傳統(tǒng)關(guān)系數(shù)據(jù)庫(如RDBMS、ORDBMS、

virtualdatabase等),也包括語義數(shù)據(jù)、XML數(shù)據(jù)、自由文本數(shù)據(jù)和各

類文件數(shù)據(jù)。因此,Virtuoso系統(tǒng)成為被廣泛使用的語義數(shù)據(jù)處理平臺之

雖然Virtuoso有許多明顯的優(yōu)越性,但是并非在各方面都比其他平

臺更強。應(yīng)用時,可根據(jù)不同的環(huán)境選擇不同的語義數(shù)據(jù)處理平臺。對

Virtuoso系統(tǒng)與LarKC平臺進行比較,將二者優(yōu)缺點進行歸納:

(l)Virtuos。優(yōu)點是被廣泛使用、商業(yè)化支持、支持多種格式、可與數(shù)據(jù)

庫融合;缺點是系統(tǒng)響應(yīng)時間慢,數(shù)據(jù)正確性要求比較高,非完全開源、

非完全免費。(2)LarKC優(yōu)點是系統(tǒng)響應(yīng)時間快、數(shù)據(jù)正確性要求比較低、

開源完全免費、支持自主設(shè)計工作流;缺點是參考資料少,無服務(wù)支持。

Virtuoso系統(tǒng)對數(shù)據(jù)的規(guī)范性和正確性要求比較高,如不允許語義

數(shù)據(jù)包含斷行符號的字符串;但LarKC支持字符串自由斷行,便捷性更

強。從系統(tǒng)的響應(yīng)時間看,LarKC比Virtuoso要少一半。因此,LarKC

的使用群體更多。

2.2海量語義數(shù)據(jù)處理LarKC平臺

LarKC是歐盟"第七研究框架計劃的語義技術(shù)重大研究與開發(fā)項

目",旨在通過精準(zhǔn)的知識分析和處理技術(shù),開發(fā)海量語義數(shù)據(jù)處理與推

理平臺,使用戶能有效地從海量數(shù)據(jù)中獲取所需信息。為實現(xiàn)海量語義數(shù)

據(jù)處理,LarKC采用組合的方法,即通過組合各種信息和知識的處理手

段,靈巧地處理海量數(shù)據(jù)。從推理技術(shù)看,LarKC舍棄傳統(tǒng)知識庫推理機

要求推理系統(tǒng)必須完全正確和完備的技術(shù)約束,引入非完備和非完全正確

的推理技術(shù),使之能應(yīng)對語義網(wǎng)上海量語義數(shù)據(jù)的推理要求,主要通過下

列兩個特征來體現(xiàn)。

Q)可插拔(Pluggable)。LarKC平臺采用來自信息處理領(lǐng)域的各種可

能方法,如采用認知科學(xué)的啟發(fā)式方法、有限理性的方法、經(jīng)濟學(xué)的成本

/效益的權(quán)衡方法以及信息檢索和數(shù)據(jù)庫技術(shù)的各種技術(shù)方法。一個可插

拔的體系結(jié)構(gòu)將確保不同領(lǐng)域的計算方法可以連貫集成。

(2)分布式(Distributed)。LarKC平臺支持采用云計算平臺,并行計

算與計算機集群平臺等,其設(shè)計目標(biāo)可擴展到大規(guī)模的分布式計算資源。

LarKC平臺的體系結(jié)構(gòu)如圖2所示。該體系結(jié)構(gòu)主要包括用戶域

(Userdomain),平臺域(Platformdomain)和基礎(chǔ)結(jié)構(gòu)域(Infrastructure

有三種類型的用戶,插件開發(fā)者

domain)oLarKC(Plug-indeveloper).

工作流設(shè)計者(Workflowdesigner)和使用者(Enduser),針對不同類型

的用戶,提供不同的技術(shù)支持。如對于插件開發(fā)者,LarKC提供通過使用

插件開發(fā)向?qū)?,對插件設(shè)計提供支持;工作流設(shè)計者,通過訪問LarKC共

享插件庫來獲得插件。LarKC平臺提供工作流設(shè)計的可視化界面,幫助設(shè)

計者提高工作流設(shè)計的效率。平臺域提供插件開發(fā)和工作流設(shè)計所需的各

種服務(wù)。LarKC核心層包括用于建立和管理有效數(shù)據(jù)流處理的數(shù)據(jù)層以及

提供性能監(jiān)測和評估的各種模塊。

圖2LarKC平臺的體系結(jié)構(gòu)

LarKC平臺成功啟動后,LarKC平臺管理界面可通過在瀏覽器輸入

"http:〃localhost:8182"進行訪問。LarKC提供采用語義數(shù)據(jù)規(guī)范(即三

元組格式)表達的工作流描述。其優(yōu)點在于對于工作流本身也可以通過推理

等進行深入分析和有效管理。

當(dāng)工作流被提交后,即建立了一個SPARQL查詢服務(wù)端,用戶可通

過該服務(wù)端進行規(guī)范的語義查詢。LarKC平臺已經(jīng)嵌入了對于語義數(shù)據(jù)的

基本推理(如RDF/RDFS和OWL的推理)的支持。

LarKC數(shù)據(jù)存儲層可被替換成其他數(shù)據(jù)服務(wù)系統(tǒng),如Virtuoso.所

以,LarKC具備可吸納和兼容其他語義數(shù)據(jù)存儲系統(tǒng)的優(yōu)點。目前,已有

許多語義應(yīng)用系統(tǒng)在LarKC平臺上開發(fā),主要集中在智能交通、智慧城市

技術(shù),以及生物醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用方面[10]。

語義數(shù)據(jù)處理平臺都會提供規(guī)范的語義數(shù)據(jù)查詢服務(wù)端(SPARQL

endpoint),使用戶可以方便地對語義數(shù)據(jù)進行存儲、處理和推理。

3語義技術(shù)在智慧城市與醫(yī)學(xué)大數(shù)據(jù)方面的應(yīng)用

語義技術(shù)在大數(shù)據(jù)方面的應(yīng)用例子很多,其應(yīng)用領(lǐng)域覆蓋智慧城市的

各方面,如智能交通、智慧醫(yī)療、智慧能源與環(huán)境、智慧社區(qū)、智慧家

居、財經(jīng)與金融、新聞報道,及許多工程領(lǐng)域[10-11]。本文重點介紹語

義技術(shù)在智慧城市方面的應(yīng)用,特別是在智能交通與醫(yī)學(xué)大數(shù)據(jù)方面的應(yīng)

用。

3.1語義技術(shù)在智能交通方面的應(yīng)用

智能交通是智慧城市的重要所需,所以歐盟第七框架語義技術(shù)重大課

題LarKC選定的三個實例研究之一是智能交通與城市計算,即采用大數(shù)據(jù)

技術(shù)針對現(xiàn)代化城市各種需求提供知識服務(wù)。采用LarKC平臺開發(fā)智能交

通與物聯(lián)網(wǎng)相關(guān)的應(yīng)用,主要有四種系統(tǒng)。

(1)意大利米蘭交通預(yù)測系統(tǒng)。從該系統(tǒng)功能上看,類似于一般的汽

車導(dǎo)航系統(tǒng),即給定一個起點及目的地,系統(tǒng)能從路網(wǎng)信息中找出用時最

短的行車路線。但與一般汽車導(dǎo)航系統(tǒng)不同,意大利米蘭交通預(yù)測系統(tǒng)除

能考慮季節(jié)、節(jié)假日和客流高峰時間等影響因素外,還能實時地從網(wǎng)絡(luò)采

集并分析該城市舉行的大型活動對交通的潛在影響;同時,該系統(tǒng)還能從

交通部門獲得交通流的實時信息,并綜合這些信息和知識進行智能化導(dǎo)

航。

(2)韓國首爾路標(biāo)管理系統(tǒng)(RoadSignManagement,RSM).該系

統(tǒng)把首爾市的交通路標(biāo)及其路網(wǎng)信息生成對應(yīng)的語義數(shù)據(jù)集,能夠有效地

分析和發(fā)現(xiàn)路標(biāo)中不符合韓國國家路標(biāo)設(shè)置的規(guī)定(如在學(xué)校周圍必須有警

示牌等);同時,還能發(fā)現(xiàn)路牌中自相矛盾或者混亂信息的錯誤[12]。RSM

使用的數(shù)據(jù)集來源包括開放街道地圖數(shù)據(jù)OSM、韓國的POI地圖數(shù)據(jù)、

首爾市路標(biāo)數(shù)據(jù)和關(guān)聯(lián)地理數(shù)據(jù)。RSM系統(tǒng)總的語義數(shù)據(jù)規(guī)模達到了11

億個三元組。

(3)智能手機城市信息服務(wù)系統(tǒng)。該系統(tǒng)能提供地理環(huán)境信息和社交

環(huán)境信息服務(wù)。該服務(wù)可通過用戶智能手機的位置、視角并結(jié)合地理環(huán)境

信息為用戶推薦興趣點。該系統(tǒng)能夠成為智能化個人隨身導(dǎo)游,根據(jù)所在

地理位置,從對應(yīng)的知識圖譜中提供景點的解說,或提供對應(yīng)的信息服務(wù)

(如提供范圍300米內(nèi)的中餐館信息服務(wù)等),是綜合性的地理信息服務(wù)的

知識圖譜系統(tǒng)。

(4)智慧城市知識管理與分析系統(tǒng)。智慧城市的核心內(nèi)容就是智能交

通,智能交通系統(tǒng)的成功設(shè)計需要對群眾的交通出行需求有充分的了解。

智慧城市知識管理與分析系統(tǒng)中的一個基礎(chǔ)模塊就是手機使用者出行軌跡

分析。該系統(tǒng)能夠通過對手機軌跡的大數(shù)據(jù)分析,獲得該地區(qū)人群出行需

求。這些信息可用于智慧城市的宏觀決策和智能交通的設(shè)計。

3.2語義技術(shù)在醫(yī)學(xué)大數(shù)據(jù)方面的應(yīng)用

智慧健康與智能醫(yī)療也是智慧城市的重要內(nèi)容之一。由于健康與醫(yī)療

涉及大量醫(yī)學(xué)知識及分析與推理,生命科學(xué)與醫(yī)學(xué)已成為語義技術(shù)及知識

圖譜應(yīng)用最廣泛的領(lǐng)域。采用LarKC開發(fā)醫(yī)學(xué)大數(shù)據(jù)應(yīng)用,主要有四種系

統(tǒng)。

(1)全基因組關(guān)聯(lián)研究(GenomeWideAssociationStudy,

其是一種在人類全基因組范圍內(nèi)找出存在序列變異的基因分析技

GWAS)O

術(shù)。通過對比某種疾病的一組患者全基因組信息與對照組全基因組信息來

確定某種病種與特定基因的關(guān)系,在一定程度上避免由先驗概率的不準(zhǔn)確

性帶來的誤差。語義技術(shù)用于GWAS的基本切入點在于通過知識分析的

手段來提高先驗概率值的準(zhǔn)確性。LarKC項目的全基因組關(guān)聯(lián)研究的實驗

甚至做到對總數(shù)大概為1500萬的SNP進行系統(tǒng)地分析,從而在很大程度

上避免候選SNP的先驗概率在經(jīng)驗估計上的偏差[13]。

(2)0penphacts藥物研發(fā)平臺。歐盟重大聯(lián)合攻關(guān)項目

Openphacts聯(lián)合歐洲14家重要科研機構(gòu)及8家藥物研發(fā)公司,共斥資

1600萬歐元進行歷時3年的面向藥物研發(fā)的開放數(shù)據(jù)訪問平臺開發(fā),其

核心技術(shù)是采用語義技術(shù)為有關(guān)研究人員提供高效的數(shù)據(jù)訪問技術(shù)環(huán)境的

支持。Openphacts的設(shè)計目標(biāo)是消除小分子藥物發(fā)現(xiàn)的技術(shù)瓶頸,整合

不同的數(shù)據(jù)源,建立標(biāo)準(zhǔn)與共同標(biāo)識,提高藥物研發(fā)工作流中的許多環(huán)節(jié)

的效率,包括數(shù)據(jù)獲取、處理、整合、互操作、可視化等。Openphacts

藥物研發(fā)平臺的初期構(gòu)建是建立在LarKC平臺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論