版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據時代的數(shù)字圖書館Digital
Library
in
theBig
Data
Age
1
23提綱
大數(shù)據與數(shù)字圖書館:為
何要提出這個命題?
大數(shù)據對數(shù)字圖書館的挑
戰(zhàn):為何總是信息革命?
對策探討:數(shù)字圖書館
向業(yè)務流程上游移動3?
大數(shù)據與數(shù)字圖書館?
數(shù)字圖書館受到廣泛的重視,
成績斐然?
數(shù)字圖書館的建設與需求存在
差距大數(shù)據與數(shù)字圖書館?
什么是大數(shù)據?大數(shù)據在哪里?根據IDC監(jiān)測,全球數(shù)據量大約每兩年翻一番,意味著人類在最近兩年產生的數(shù)據量相當于之前產生的全部數(shù)據量,預計到2020年,全球將總共擁有35ZB的數(shù)據量,相較于2010年,數(shù)據量將增長近30倍。
指數(shù)型增長的海量數(shù)據圖片來源:IBM;Cisco;comScore;MapReduce;Radicati
Group;Twitter;You
Tube?
什么是大數(shù)據??準確化(Veracity):浪里淘沙卻又彌足珍貴11/26/2012?社會80%的數(shù)據到底掌握哪里?政府、企業(yè)?今天的數(shù)字圖書館在業(yè)務流程的哪一端??“大數(shù)據”是一個用來描述海量的結構化和非
結構化數(shù)據的流行短語,這些數(shù)據的容量非常
巨大以至于很難用傳統(tǒng)的數(shù)據庫和軟件技術進
行存儲、管理和處理。?大數(shù)據的特性可以用4V描述?大量化(Volume):存儲大;計算量大?多樣化(Variety):來源多;格式多?快速化(Velocity):增長速度快;處理速度要求快大數(shù)據的四個主要特征圖片來源:國金證券研究所?
大數(shù)據在哪里?
業(yè)務流程數(shù)據含天文望遠鏡拍攝的圖像、視頻數(shù)據、氣象學里面的衛(wèi)星云圖數(shù)據等
科學大數(shù)據
含數(shù)據庫等
社會大數(shù)據
含SNS、微博、新聞
媒體、視頻網站、電
子商務、招聘信息等
個人大數(shù)據含個人實時位置、狀態(tài)、見聞、言論等
企業(yè)大數(shù)據含物聯(lián)網、聯(lián)通、移動、電信等通信和互
聯(lián)網運營商等
Big
Data
2011年產生與復制的信息量
超過1.8ZB
5年中增長了9倍?
數(shù)字圖書館的成就斐然11/26/2012我國數(shù)字圖書館的成就斐然?
結構化學術資源內容豐富,結構完整。包
括電子圖書、電子期刊、電子報紙、數(shù)據
庫、音視頻資源、網絡資源在內的海量數(shù)
字資源?
數(shù)字圖書館將資源進行有序組織,在一定
程度上突破了時間和空間的限制,為學術
界便捷地獲取信息與知識、社會數(shù)字閱讀11/26/2012我國數(shù)字圖書館的成就斐然?
數(shù)字圖書館為社會構建了一個資源共享的
公共服務平臺,它集館藏、服務和人為一
體,延伸了傳統(tǒng)圖書館的服務功能?
我國的數(shù)字圖書館多數(shù)是聯(lián)合建設型圖書
館,多以政府投資的形式開展,注重館際
合作,共同爭取經費支持,以實現(xiàn)資源的
合理布局與共享?
數(shù)字圖書館的建設與需求存在差距數(shù)字圖書館與實體館資源同質?數(shù)字圖書館處理的問題是數(shù)據資源數(shù)字化、音頻視頻信息的轉換、存貯和檢索以及多媒體信息技術的擴展深化,但缺乏對海量數(shù)據的加工處理與管理服務。?從長遠發(fā)展的角度來看,數(shù)字圖書館應該進行數(shù)字資源的深層次開發(fā),拓展對原始數(shù)據的挖掘、采集、組織、保存與利用,開拓一條數(shù)據資源主導型的發(fā)展新模式。?技術上的差距并不難彌補,最大的差距是收集數(shù)據的意識。我們收集數(shù)據的意識不強,對于數(shù)據在決策當中的重要性認識不夠,這才是數(shù)字圖書館最大的制約因素。數(shù)字圖書館與實體館用戶同質?因數(shù)字圖書館資源內容多數(shù)為館藏資源的數(shù)字化,實體館用戶同質的現(xiàn)象較為普遍。一些數(shù)字圖書館系統(tǒng)自成體系?走出實體館的象牙塔,實現(xiàn)不同用戶群體的信息共享與利用11/26/2012
數(shù)字圖書館非結構化數(shù)據空白大數(shù)據可以分成二種類型:?一是結構化數(shù)據即行數(shù)據,存儲在數(shù)據庫里,可以用二維表結構來實現(xiàn)的數(shù)據。?二是半結構化或者非結構化數(shù)據這種數(shù)據包括電子郵件、辦公處理文檔,以及許多存儲在Web上的信息及圖像、音頻和視頻等可以被感知的信息。?企業(yè)中80%是非結構化或半結構化的。世界結構化數(shù)據增長率大概是32%,而非結構化數(shù)據增長則是63%。至2012年,非結構化數(shù)據占有比例將達到互聯(lián)網整個數(shù)據量的75%以上。?這些非結構化數(shù)據的產生往往伴隨著社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現(xiàn)和應用。?數(shù)字圖書館中,多數(shù)為數(shù)據庫建設,非結構化的數(shù)據內容所占比重非常低。缺乏大數(shù)據的分析,數(shù)字圖書館很難融入企業(yè)等用戶群體的細節(jié)服務。數(shù)字圖書館非結構化數(shù)據空白科學研究的變化要求數(shù)字圖書館大數(shù)據的支撐?科學研究的不斷變化轉型對數(shù)字圖書館的大數(shù)據利用提出了要求。?然而,數(shù)字圖書館缺乏大數(shù)據的利用,這無法迎合科學研究的變化要求。11/26/2012研究變化了:數(shù)據驅動的研究?????面向問題的研究面向數(shù)字與模擬的研究面向決策支持的研究面向創(chuàng)新驅動的研究越來越依賴數(shù)據11/26/2012學術交流模式已經變化了
(學術交流融合)圖片來源:http://www.ariadne.ac.uk/issue36/lyon11/26/2012
傳統(tǒng)學術交流的四要素:
登記-鑒定-發(fā)現(xiàn)-保存?
Registration-establishing
the
intellectual
priority
of
an
idea,
concept,
or
research;?
Certification-certifying
the
quality
of
the
research
and/or
the
validity
of
the
claimed
finding;?
Awareness-ensuring
the
dissemination
and
accessibility
of
research,
providing
a
means
by
which
researchers
can
become
aware
of
new
research;
and?
Archiving-preserving
the
intellectual
heritage
for
future
use數(shù)字圖書館面臨新的研究需求
?
?
?
?
?
?11/26/2012E-Science海量數(shù)據科教結合協(xié)同創(chuàng)新產學研結合第四范式創(chuàng)新主體的轉移要求大數(shù)據?十八大報告指出,要更加注重協(xié)同創(chuàng)新,要構建以企業(yè)為主體、市場為導向、產學研相結合的技術創(chuàng)新體系?產業(yè)轉型升級依賴于科技創(chuàng)新。這個過程萌芽于科學發(fā)現(xiàn),生長于成果轉化,科學發(fā)現(xiàn)就成了科技創(chuàng)新的原點?發(fā)現(xiàn)隱秘的消費規(guī)律;微博和手機的普及、社交網絡的廣泛應用使得以往幾乎不可能完成的一些人群活動規(guī)律研究成為可能。例如人群在物理上如何移動??全球多家互聯(lián)網巨頭都意識到“大數(shù)據”時代來臨的重要意義。惠普、IBM、微軟等紛紛通過收購“大數(shù)據”相關廠商來實現(xiàn)技術整合。Gartner研究表明,全球500強中85%的企業(yè)將無法利用他們的大數(shù)據國際上的大數(shù)據開發(fā)趨勢強勁?2009年,歐洲一些領先的研究型圖書館和科技信息研究機構建立了伙伴關系致力于改善在互聯(lián)網上獲取科學數(shù)據的簡易性。?2010年7月,聯(lián)合國發(fā)布了《大數(shù)據促發(fā)展:挑戰(zhàn)與機遇(Big
Data
for
Development:
Challenges
&Opportunities)》白皮書,指出大數(shù)據對于全世界是一個歷史性的機遇,可以利用大數(shù)據造福人類。?2012年1月,瑞士達沃斯召開的世界經濟論壇上,大數(shù)據是主題之一,會上發(fā)布的報告《大數(shù)據,大影響:國際化發(fā)展的新機遇(Big
Data,
Big
Impact:New
Possibilitiesfor
International
Development
)》
宣稱,數(shù)據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。11/26/2012國際上的大數(shù)據開發(fā)趨勢強勁?
2009年5月,美國政府成立了名為Data.Gov的公共數(shù)據開放的門戶網站;?
2010年12月,奧巴馬政府出臺了《規(guī)劃數(shù)字化未來》的專門報告,把數(shù)據收集和使用的工作提到了戰(zhàn)略的高度。?
2012年3月,美國政府發(fā)布了《大數(shù)據研究和發(fā)展計劃》
,此項帶有2億多美元推動資金的倡議,旨在通過推動和改善與大數(shù)據相關的收集、組織和分析工具及技術,提升從海量和復雜的數(shù)據集中獲取知識和洞察分析能力。奧巴馬則強調政府必須和公司、大學合作結盟,全民動員來應對“大數(shù)據”時代的挑戰(zhàn)。?
2012年5月,美國行政管理和預算局發(fā)布了《數(shù)字政府:
建立一個面向21世紀的平臺來更好服務美國人民(DigitalGovernment:
Building
a
21st
Century
Platform
to
Better
Servethe
American
People)》行政指令,旨在實現(xiàn)“隨時、隨地、任何設備”都能獲得政府信息資源,提高全社會服務的質量。圖片來源:
McKinsey
Global
Institute:“Big
Data
–
The
next
frontier
forinnovation,
competition
and
productivity”(2011
年
5
月)麥肯錫評估報告中指出,大數(shù)據的應用每年潛在可為美國醫(yī)療健康業(yè)和歐洲發(fā)達經濟體政府分別節(jié)省3000億美金和2500億歐元的開支。利用個人位置信息潛在可創(chuàng)造出1000億美金的消費者剩余。在國際社會的強力驅動下,我國在大數(shù)據開放方面還有待進一步的努力。
大數(shù)據的市場空間及對社會的貢獻?任何人在任何時間、任何地點,可以獲得所需要的任何知識,這是數(shù)字圖書館建設的美好愿景。?而當前,多數(shù)數(shù)字圖書館服務系統(tǒng)都是基于門戶網站開展的服務。少數(shù)數(shù)字圖書館的服務范圍已從互聯(lián)網向移動通信網、廣播電視網等網絡平臺逐步拓展,開展了移動圖書館等新媒體服務建設,但服務功能有限。?我國數(shù)字圖書館對用戶信息需求與信息獲取習慣的變化還不夠敏感,缺乏創(chuàng)新理念與服務機制,缺乏與業(yè)務流程的融合數(shù)字圖書館處在象牙塔遠離創(chuàng)新前沿?
大數(shù)據對數(shù)字圖書館的挑戰(zhàn)11/26/2012
為何總是信息革命??
數(shù)字圖書館缺乏大數(shù)據,導致
數(shù)字圖書館處在象牙塔?
科學研究的變化,要求數(shù)字圖
書館適應新的需求?
創(chuàng)新主體的轉移,要求數(shù)字圖
書館適應企業(yè)界的需要?
用戶信息素養(yǎng)的變化,要求數(shù)
字圖書館適應社會搜尋的需要?
國際上圖書館的變化?
對數(shù)字圖書館的競爭?
原生大數(shù)據的缺乏,與實體圖書館資源和用戶同質現(xiàn)象?
非結構化數(shù)據缺乏,數(shù)字圖書館通常都是在數(shù)據庫里存在的結構化數(shù)據,非結構化數(shù)據如聲音、視頻、音頻、圖片等可視可聽的數(shù)據空白?
數(shù)字圖書館中的數(shù)據則是在各種國內外數(shù)據庫里存在的結構化數(shù)據,大數(shù)據的缺乏導致數(shù)字圖書館處在象牙塔中。數(shù)字圖書館缺乏大數(shù)據,導致數(shù)字圖書館處在象牙塔科學研究的變化,要求數(shù)字圖書館適應新的需求?
現(xiàn)在越來越多新的學科領域,完全建立在大量數(shù)
據的基礎上,比如系統(tǒng)生物學(Systems
Biology)
、宏生態(tài)學(Macroecology)、基因組學(pure
Genomics)等。?
美國國家科學基金會和美國國家衛(wèi)生研究院將對大數(shù)據進行聯(lián)合招標,旨在改進核心科學與技術手段,提高從各種大型數(shù)據集中提取重要信息并對其進行有效管理、分析和可視化能力,加速科技成果的產生,并帶領國家進入一些全新的、以往不可企及的研究領域。33?
李國杰院士認為:“長期以來,許多領域都是在用小數(shù)據做科學實驗,找出一個模型和規(guī)律?,F(xiàn)在越來越復雜,有一堆數(shù)據看上去沒有規(guī)律。科學家要找到新的研究方法,這種模式和方法的改變需要探索。要研究大數(shù)據的問題在哪兒,在應用中發(fā)現(xiàn)什么技術難題,這些有針對性的問題,不是憑空想出來的,是需要實踐總結出來的?!?
從目前來看,大數(shù)據技術主要涵蓋的領域有可視化分析、數(shù)據挖掘算法、預測性分析能力、語義引擎、數(shù)據質量和數(shù)據管理等?
因此,數(shù)字圖書館應適應科學研究變化的新領域、新技術與新需求,推動數(shù)字圖書館的發(fā)展創(chuàng)新主體的轉移,要求數(shù)字圖書館適應企業(yè)界的需要?
黨的十八大:
要構建以企業(yè)為主體、市場為
導向、產學研相結合的技術創(chuàng)新體系(2012年
11月8日)?
全國科技創(chuàng)新大會,推進科技與經濟結合(2012年7月6日)?
技術創(chuàng)新企業(yè)主體地位大數(shù)據概覽圖片來源:互聯(lián)網
國金證券研究所11/26/2012?
從上圖的大數(shù)據概覽中可以看到企業(yè)作為創(chuàng)新主體的重要
作用。?
企業(yè)應用還是大數(shù)據的主要推動者。生物、醫(yī)學、天文、
環(huán)境、物理、工程、經濟、互聯(lián)網等諸多領域涉及大數(shù)據
的處理和應用。?
自2005年以來,IBM投資160億美元進行了30次與大數(shù)據有
關的收購,促使其業(yè)績穩(wěn)定高速增長。2012年,IBM股價
突破200美元大關,3年之內翻了3倍。華爾街早就開始招
聘精通數(shù)據分析的天文學家和理論數(shù)學家來設計金融產品
。IBM現(xiàn)在是全球數(shù)學博士的最大雇主,數(shù)學家正在將其
數(shù)據分析的才能應用于石油勘探、醫(yī)療健康等各個領域。
eBay通過數(shù)據挖掘可以精確計算出廣告中的每一個關鍵字
為公司帶來的回報。?
大數(shù)據應用也早已在商業(yè)領域應用。金蝶他們參與搭建的全國中小企業(yè)信息平臺,匯集了4000萬家企業(yè),通過對這些企業(yè)海量數(shù)據的挖掘和分析,能對經濟運行狀況作出準確的預警?
在微觀經濟領域,“大數(shù)據”的作用也越發(fā)凸顯。天氣預報的信息和數(shù)據可以幫助農業(yè)的種植者在特定季節(jié)中避免遭受氣象災害?
在企業(yè)管理上,大數(shù)據可以用來決策下一步的投資、戰(zhàn)略部署、產品研發(fā)?!庇脩粜畔⑺仞B(yǎng)的變化,要求數(shù)字圖書館適應社會搜尋的需要?
今天的圖書館用戶研究不像從前?
從大量的數(shù)據中分析潛在的價值決定著大數(shù)據時代的圖書館的發(fā)展水平及方向。?
隨著個性化、學科化等越來越專業(yè)、編輯服務的實施與出現(xiàn),用戶的服務要求也日益提高?
在大數(shù)據時代,圖書館的數(shù)據處理范圍、方式、對象、目的等將發(fā)生巨大的變化?
在大數(shù)據時代,數(shù)據分析、數(shù)據挖掘、數(shù)據增值11/26/2012圖書館需要融于社區(qū)圖片來源:http://www.ariadne.ac.uk/issue36/lyon國際上圖書館的變化?
ARL報告11/26/2012
We
have
seen
in
recent
years
it
can
be
argued
that:?
Many
users
now
have
the
skills
and
access
to
technologies
to
find
and
access
resources
which
previously
were
mediated
by
librarians.?
We
are
seeing
a
decrease
in
the
importance
of
finding
via
metadata
and
an
increase
in
the
importance
of
social
discovery.11/26/2012Focussing
on
the
technologicaldevelopments
we
have
seen
in
recentyears
it
can
be
argued
that:?
Many
users
now
have
the
skills
and
access
totechnologies
to
find
and
access
resourceswhich
previously
were
mediated
by
librarians.?
We
are
seeing
a
decrease
in
the
importance
offinding
via
metadata
and
an
increase
in
theimportance
of
social
discovery.11/26/2012?
We
are
seeing
a
decrease
in
the
importance
oflibraries
providing
access
to
trusted
resources.Instead
users
now
wish
to
access
resourcesthey
find
in
the
wild
–
but
will
need
to
be
ableto
evaluate
such
resources.?
We
are
seeing
a
decrease
in
an
unquestioningbelief
in
the
value
of
libraries
and
librariansand
a
need
for
the
sector
to
be
able
todemonstrate
value
and
pro-actively
marketthemselves.對數(shù)字圖書館的競爭?
對于社會中以知識存貯、利用與開發(fā)為己任的
圖書館來說,在這個“大數(shù)據”時代如何提高
海量增長的文獻處理能力,搜尋新的數(shù)據計算、
知識發(fā)現(xiàn)及信息服務的新途徑,面臨挑戰(zhàn)?
數(shù)字圖書館應由靜態(tài)發(fā)展轉向動態(tài)發(fā)展,將數(shù)字圖書館與產業(yè)、社區(qū)結合在一起?
數(shù)字圖書館的對策探
討:向業(yè)務流程上游移動數(shù)字圖書館的對策探討?
非結構化大數(shù)據開發(fā)?
分布式大數(shù)據開發(fā)?
大數(shù)據開發(fā)相關技術?
領域大數(shù)據開發(fā)?
原生大數(shù)據開發(fā)?
特藏大數(shù)據開發(fā)大規(guī)模非結構化數(shù)據急劇增長?
大數(shù)據時代的數(shù)據膨脹導致圖書館無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、處理和管理。?
這些數(shù)據主要有兩類情況:一類是原有數(shù)據種類量的增加另一類是過去我們沒有關心或沒有能力關心的數(shù)據:如社交媒體、實時位置、智能設備、傳感器計量等復雜業(yè)務數(shù)據
非結構化大數(shù)據開發(fā)
大數(shù)據環(huán)境下,圖片、音頻、視頻、XML、HTML、辦公文檔、各類報表等非結構化數(shù)據大量增加。圖片來源:甲骨文公司(《從非結構化數(shù)據到大數(shù)據(Big
Data)》)非結構化大數(shù)據開發(fā)?
大數(shù)據分析經常會用到存儲數(shù)據庫來快速處理大量記錄的數(shù)據流通。一、結構化數(shù)據:?
海量數(shù)據的查詢、統(tǒng)計、更新等操作效率低二、非結構化數(shù)據?
圖片、視頻、word、pdf、ppt等文件存儲?
以多種物理的和邏輯的格式存儲的,而且儲存地點具有分散
性,其內容可能存儲于圖書館內部的不同設備之中以及圖書
館外部。?
不利于檢索、查詢和存儲三、
半結構化數(shù)據?
轉換為結構化存儲?
按照非結構化存儲圖片來源:甲骨文公司(《從非結構化數(shù)據到大數(shù)據(Big
Data)》)結構化與非結構化數(shù)據的統(tǒng)一管理
甲骨文公司的大數(shù)據解決方案:
分布式大數(shù)據開發(fā)?
如何從海量數(shù)據中發(fā)現(xiàn)特定知識,如何高效地處理海量數(shù)
據,幾乎是任何一個信息分析機構要面對的問題。大規(guī)模
非結構化數(shù)據的激增,需要分布式大規(guī)模數(shù)據庫的開發(fā)。
目前,如果不談架構層面上傳統(tǒng)的IaaS、PaaS與SaaS,就
數(shù)以分布式與虛擬化為主要代表的云計算技術被普遍接受。圖片來源:中信證券,張新峰,大數(shù)據(Big
Data)專題研究報告《大數(shù)據大市場大機遇》分布式大數(shù)據開發(fā)?
目前,云數(shù)據管理技術因其低成本、去中心化、
可無限水平擴展、可無間歇在線擴展和海量數(shù)
據管理能力,在很多領域取得明顯成功,如
Google,Amazon,國內的淘寶等?;谠萍夹g
的分布式大規(guī)模數(shù)據庫將全面替代主流關系數(shù)
據庫的呼聲越來越高。?
分布式計算技術可對海量數(shù)據進行分析以實時
得出答案。云計算是分布式計算、并行計算和
網格計算的發(fā)展,是實時分析與NoSQL數(shù)據功
能的結合。
分布式大數(shù)據開發(fā)?
云計算的數(shù)據存儲技術主要有Google的非開源的GFS(
file
system)
和Hadoop的GFS
開源實現(xiàn)HDFS
(
Hadoop
distributed
file
system)
。?
以Google為代表的云計算以其應用簡單、高效得到了廣泛
認可。它通過在分布式文件系統(tǒng)GFS基礎之上的MapReduce
編程模型以及廉價集群的建立,解決了許多大規(guī)模數(shù)據的
計算問題。?
由雅虎資助的開源項目Hadoop,是一個類似于Google
云計
算的技術平臺,專注于海量數(shù)據存儲、處理的分布式系統(tǒng),同時提供了基于Java的MapReduce框架,能夠將分布式應用部署到大型廉價集群上。與此同時,Hadoop在圖書館也得到了應用。例如,Nutch搜索引擎中的分布式搜索、索引等。
以Hadoop云計算平臺為例?
Hadoop是Apache開源組織的一個分布式計算開
源框架,它基于廉價PC服務器,專注于海量數(shù)
據存儲、處理的分布式系統(tǒng)。?
Hadoop具備低廉的硬件成本、開源的軟件體系、
較強的靈活性、允許用戶自己修改代碼等特點,
同時能支持海量數(shù)據存儲和計算任務。?
Hadoop提供由Java
實現(xiàn)的Map-Reduce技術框
架,能夠將分布式應用部署到廉價服務器上。
同時為應用程序提供了一組穩(wěn)定可靠的接口。?
Hadoop框架中最核心的設計是Map-Reduce和
HDFS。
Map-Reduce分布式計算?
Hadoop
中的Map-Reduce是一個軟件框架,基于它寫出來的應用
程序能夠運行在大型集群上,并以一種可靠容錯的方式并行處理
大規(guī)模的數(shù)據集。?
Map-Reduce
模型使用函數(shù)Map分割數(shù)據和函數(shù)Reduce合并數(shù)據。圖片來源:《云計算與大數(shù)據----
新一代數(shù)據管理技術》數(shù)字圖書館體系結構預測用戶行為日志、微博HDFS用戶信息NoSQLDataBase大數(shù)據集縮減
針對用戶的
最佳推送
批處理查詢、借閱
信息內容推送
用戶管理
數(shù)字圖書館用戶信
系統(tǒng)
息系統(tǒng)技術架構客戶端應用層(SAAS)
應用
平臺門戶網站、用戶管理、搜索引擎等數(shù)據處理接口數(shù)據分塊、數(shù)據合并、Map、Reduce集群
VM主機
Hadoop
Map-Reduce
HDFS負載均衡、容錯機制、資源管理平臺層(PAAS)基礎設施層(IAAS)虛擬化層
計算/
存儲/
網絡/
應用/
服務器
虛擬化實體層CUP/存儲/網絡/IO/計算/其他資源大數(shù)據開發(fā)的相關技術?
大數(shù)據開發(fā)是建立在一個獲取、組織和分析范式之上的:?
1、獲取:大數(shù)據開發(fā)方案必須能夠以高速度獲得海量數(shù)據。這通常要通過服務器群集來傳播大量文檔和存儲,每個服務器都在各自的本地磁盤上存儲整體數(shù)據的一個子集,雖然有很多方案,但Hadoop和NoSQL是提供這一功能兩個最基本的技術。?
2、組織:從大規(guī)模的非結構化數(shù)據中識別和提取有用的信息,而不移動這些數(shù)據的組織能力是十分必要的。Hadoop
Map-Reduce框架通過分布在群集中的所有服務器上處理工作來提供這一功能。通過各節(jié)點返回主節(jié)點的高度綜合的數(shù)據可以被其他統(tǒng)計工具分析或載入傳統(tǒng)的數(shù)據倉儲中。NoSQL非關系型數(shù)據庫?
NoSQL=Not
Only
SQL?
NoSQL在很多情況下又叫做云數(shù)據庫。處理數(shù)據的模式完全是分布于各種低成本PC服務器和存儲磁盤。?
NoSQL結構解決了關鍵數(shù)據集成的統(tǒng)一接口問題,強調高吞吐、高并發(fā)、高可用、高分區(qū)容錯性。?
不用將數(shù)據進行歸類組織,能處理各種類型的文檔,數(shù)據格式靈活多變,沒有標準,模型簡單。?
大部分數(shù)據關系僅需建立一次,數(shù)據結構和結構之間的關系穩(wěn)定,不再經常變化;變化的只是數(shù)據值大數(shù)據開發(fā)的相關技術?
3、分析:經過組織的大數(shù)據可以被傳統(tǒng)的數(shù)據
分析工具分析,如加載匯總數(shù)據到數(shù)據倉儲。目
前已有專門的大數(shù)據處理引擎,提供基于數(shù)據庫
分析(In-database)和內存分析(In-memory)。?
數(shù)據庫分析進行動態(tài)數(shù)據管理,目的在于分析和報告數(shù)據運行情況、減少數(shù)據移動和促進更好的數(shù)據管理。使用可擴展的數(shù)據庫架構,進行庫內分析,可以減少數(shù)據準備的時間,構建、導出和更新分析模型。?
內存分析可以迅速解決大數(shù)據的復雜分析問題,使用內存和多用數(shù)據接口快速運行復雜的新計算。用戶可即時對數(shù)據檢索和可視化、構建和導出分析模型并完成具體業(yè)務和挑戰(zhàn)。這些都是在分布式的內存中進行的,而非在一個磁盤中。一、支持對象存儲的統(tǒng)一存儲技術?
文件+元數(shù)據=對象?
元數(shù)據通常稱為“關于數(shù)據的數(shù)據”,是有效管理、共享和存儲信息的最重要因素,可以實現(xiàn)大數(shù)據的集成和循環(huán)利用。?
大數(shù)據時代增長幅度最大的非結構化數(shù)據,將通過互聯(lián)網協(xié)議以文件或對象的形式提供。這些數(shù)據可增長至成百上千的拍字節(jié)和數(shù)十億個對象,?
除了需要更大的文件系統(tǒng)和可擴展的模塊存儲系統(tǒng)外,還需要對文件、模塊和對象數(shù)據存儲進行融合。通過消除數(shù)據保護的備份成本,數(shù)據分析的ETL(提取、轉換和加載)成本以及文件、模塊和對象存儲孤島的管理成本來提高存儲效率。其它大數(shù)據相關技術?
數(shù)據挖掘技術可以對關系數(shù)據庫中的結構化數(shù)據,
或是文本、圖形、圖像數(shù)據等半結構化數(shù)據,甚
至是分布在網絡上的異構型數(shù)據進行采集。三、可視化技術?
由于難以以數(shù)據的形式清晰地進行觀察海量信息,
所以要通過直觀、生動的可視化圖形對數(shù)據進行
展示數(shù)據的關系和結構。大數(shù)據時代迅速增長的
非結構化數(shù)據也需要可視化技術向用戶展現(xiàn)。?
非結構化數(shù)據的可視化編輯系統(tǒng)用超圖模型的方
法,將傳統(tǒng)方法所不能表示的非結構化數(shù)據用超
圖模型統(tǒng)一表示,并能在數(shù)據庫中有效的存儲,
而且提供給用戶一個交互式的界面。
其它大數(shù)據相關技術二、數(shù)據挖掘技術可視化關系圖資料來源:國金證券(《大數(shù)據引領我們走向數(shù)據智能化時代——BigData專題報告》)領域大數(shù)據開發(fā)領域大數(shù)據開發(fā)?
政府投入大數(shù)據開發(fā),形成示范效應,以推動大數(shù)據的發(fā)展。?
在民生領域,應用大數(shù)據技術,提升服務能力和運作效率,以及個性化的服務,比如醫(yī)療、衛(wèi)生、教育等部門;?
在安防領域,應用大數(shù)據技術,提高應急處置能力和安全防范能力;?
在金融、電信等領域投資建立大數(shù)據的處理分析手段,實現(xiàn)綜合治理、業(yè)務開拓等目標。三峽工程長江中下
游干旱臺風
梅花
日本核輻射氣象輿情監(jiān)測
?對氣候的影響
極端天氣頻發(fā),有多少
是人為之禍?公眾對氣
象部門的氣象服務有了
全新的期待。依托數(shù)據中心與云服務平臺,拓爾思大數(shù)據管理系統(tǒng)還原熱點氣象事件引發(fā)的網絡輿情,總結氣象部門應對氣象危機的得失,為氣象部門開拓氣象服務新領域、提升氣象服務水平提供參考。中國氣象局大數(shù)據管理資料來源:北京拓爾思公司(《理解大數(shù)據,實踐大數(shù)據》)氣象信息月度走勢圖年度熱門氣象事件排行榜全國氣象輿情熱度概覽氣象口碑媒體分布圖中國氣象局大數(shù)據管理
借助數(shù)據中心的大數(shù)據與云服務平臺,拓爾思大
數(shù)據管理系統(tǒng)為氣象局提供了全面的多維度分析。資料來源:北京拓爾思公司(《理解大數(shù)據,實踐大數(shù)據》原生大數(shù)據開發(fā)?
原生數(shù)字資源被普遍認為是在產生之初無相同物理替代形態(tài)的數(shù)字信息。由于
原生數(shù)字資源
沒有其他的存儲形式,原生大數(shù)據的開發(fā)、采集、組織和保存工作更需得到圖書館重視。?
OCLC對于原生數(shù)字資源的分類有:數(shù)碼照片、數(shù)字文檔、網絡存檔、數(shù)字手稿、電子記錄、靜態(tài)數(shù)據集、動態(tài)數(shù)據、數(shù)字藝術、數(shù)字媒體出版物。
原生大數(shù)據開發(fā)1、數(shù)碼照片
使用數(shù)碼相機拍攝的數(shù)碼照片是增長最快的
一種原生數(shù)據。保存的重點在于將其以當前的
主流形式拷貝在同時時期的可持久使用的媒介
上。為保護照片的完整和原始,還要注意色彩
空間與壓縮。2、數(shù)字文檔
如今基本所有的文檔文件都是以數(shù)字形式創(chuàng)建的。是否保持其紙本或數(shù)字形式是一個基本而又重要的問題。以創(chuàng)建文檔的軟件區(qū)分這些數(shù)字文檔,繼續(xù)保留如PDF等標準格式的文檔。原生大數(shù)據開發(fā)3、網站存檔
機構可以自己通過互聯(lián)網捕捉網絡快照,以獲得集中的存檔:國家圖書館可以對該國的網站進行存檔;大學可以對某領域內容進行存檔。這些檔案可能集中于某一特定主題或事件。可以將這些檔案以ISO標準WARC文件格式保存;可以通過互聯(lián)網檔案的開源開發(fā)工具來抓取和訪問內容。原生大數(shù)據開發(fā)4、數(shù)字手稿可向手稿提供者推薦修改、組織、命名文件的方法和保存文件的格式與媒介。大多數(shù)收集來的手稿只需稍作處理以保障內容即可。只有極少數(shù)作者的手稿值得進行仿真重建以作收藏。5、電子記錄這類記錄包括政府文件和公司、機構、組織檔案。這類數(shù)據多處于文字處理格式的資料中,包括電子郵件、數(shù)據庫、電子表格、說明和其他類型的文件。由于其中一些只能通過專用軟件讀取,所以最好能從專有格式中將其抽取出來。原生大數(shù)據開發(fā)6、靜態(tài)數(shù)據集靜態(tài)數(shù)據集是建立在研究過程中,并且是未來研究的基礎。但靜態(tài)數(shù)據集的創(chuàng)建往往沒有考慮保存和以后訪問的問題,一些數(shù)據集需要特殊的軟件和文件才能使用。因此,樣品的性質、收集數(shù)據的方法、軟件的使用等背景信息都應予以保留。7、動態(tài)數(shù)據動態(tài)數(shù)據是指在系統(tǒng)應用中隨時間變化而改變的數(shù)據,例如社交網絡上的大量社會信息??梢酝ㄟ^建立動態(tài)數(shù)據中心和自動化管理平臺,進行基于分布式數(shù)據庫的即時管理。
原生大數(shù)據開發(fā)8、數(shù)字藝術
數(shù)字藝術可以是數(shù)字攝影等簡單形式,也可以是混合媒介的、動態(tài)的、更為復雜的形式。9、數(shù)字媒體出版物
它們定期以數(shù)字形式發(fā)表。如音樂、電影、
視頻和游戲等商業(yè)出版物可以被放入其它可
替代的媒介中。對于一些類似早期電影的已
經失去商業(yè)價值的內容,由于版權和許可問
題,圖書館很難采取行動防止其在老化和衰
減過程中流失。特藏大數(shù)據管理?
大數(shù)據環(huán)境下,一個圖書館沒有必要也不可能將它的全部館藏數(shù)字化。?
但圖書館必須將優(yōu)先對在某一方面形成了一定規(guī)模的、結構比較完整的文獻資源特別是原生信息資源,進行有系統(tǒng)、有組織地開發(fā)整理,以真正發(fā)揮數(shù)字圖書館的規(guī)模效益。?
例如美國國會圖書館的“美國記憶”項目,收集整理了照片、手稿、海報、樂譜、地圖、錄音、動態(tài)圖像等記載美國歷史文化的特藏。特藏大數(shù)據管理?
OCLC于2010年11月發(fā)布的調查結果顯示,館藏空間、原生資源和數(shù)字化問題是館藏大數(shù)據管理的三大最具挑戰(zhàn)性的問題。?
經過長時間的努力,仍有一半的檔案收集不在線,用戶需求仍然無法滿足;雖然減少了許多積壓,而幾乎同樣多的在繼續(xù)增長;原生數(shù)字資源管理仍處于起步階段。特藏大數(shù)據管理1、數(shù)字化?
完善大規(guī)模特色館藏數(shù)字化模式,包括選擇合適的資源、安全保護與操作、創(chuàng)建可持續(xù)元數(shù)據等;?
確定要數(shù)字化的不可多得的好書的范圍,挑出那些有開放存取許可的;?
確定完成合作項目主體的最重要的差距所在。
特藏大數(shù)據管理2、原生數(shù)字檔案資料?
定義原生數(shù)字檔案資料的特征,作為“特
色館藏”的重要依據;?
制定一套合理的基本步驟和一個長期計劃,
管理原生數(shù)字檔案資料;?
為原生數(shù)字檔案資料的選擇、管理和保存
開發(fā)使用案例和成本模型。特藏大數(shù)據管理3、館藏?
確定限制合作館藏發(fā)展的障礙,將關鍵特色和預期效果有效結合;?
風險性資料4、人員5、長期保存?????
向業(yè)務流程上游移動數(shù)字圖書館參與業(yè)務大循環(huán)與數(shù)據供應商合作與出版合作與企業(yè)合作我高興看到:CALIS啟動科學數(shù)據項目,中國科技
信息研究所啟動科技報告項目,國家圖書館啟動
國家記憶項目。我希望國家加大對這些項目的支
持力度。通過探索,積累經驗,為圖書館迎接大
數(shù)據時代做出貢獻!11/26/2012??????本演講參考了國內外作者的
著作,特此致謝![1]
Big
Data
:
The
Next
Frontier
for
Innovation,
Competition,
andProductive,
McKinsey
Global
Institute,
2011.5[2]
Big
Data
for
Development:
Challenges
&
Opportunities,
UN
GlobalPulse,
2012.5[3]Digital
Government:
Building
a
21st
Century
Platform
to
Better
Servethe
American
People,
the
office
of
Management
and
Budger,
2012.5[4]
Obama
Administration
Unveils
“Big
Data”Initiative:
Announces
$200Million
in
New
R&DInvestments,
Executive
Office
of
the
President,
2012.3[5]
Big
Data
Across
the
Federal
Government,
Executive
Office
of
thePresident,
2012.3?[6]BigData,BigImpact:NewPossibilitiesforInternational??Development,
2012
World
Economic
Forum[7]
Clouds,
big
data,
and
smart
assets:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 危重癥患者血糖管理指南
- 《GBT 34053.4-2017 紙質印刷產品印制質量檢驗規(guī)范 第 4 部分:中小學教科書》專題研究報告
- 《GB-T 40132-2021便攜式電子產品用振動電機通 用規(guī)范》專題研究報告
- 《GB-T 26763-2011波音和空客系列飛機飛行品質監(jiān)控項目規(guī)范》專題研究報告
- 《GB-T 15471-2013邏輯分析儀通 用規(guī)范》專題研究報告
- 《AQ-T 8012-2022安全生產檢測檢驗機構誠信建設規(guī)范》專題研究報告
- 2026年三亞航空旅游職業(yè)學院單招職業(yè)技能考試題庫附答案詳解
- 《智慧景區(qū)服務與管理》課件-第一章 任務三 旅游景區(qū)服務質量管理
- 縣域電商公共服務信息對接協(xié)議
- 智能完井滑套開關壓力考試試卷和答案
- 2025年中共宜春市袁州區(qū)委社會工作部公開招聘編外人員備考題庫附答案詳解
- 2025年社保常識測試題庫及解答
- 2025年鐵路運輸合同書
- 消防設施培訓課件
- 疤痕子宮破裂護理查房
- 2025-2026學年人教版高一生物上冊必修1第1-3章知識清單
- 腎內科常見并發(fā)癥的觀察與應急處理
- 《馬克思主義與社會科學方法論題庫》復習資料
- 西游記第64回課件
- 2025 年大學體育教育(田徑教學)試題及答案
- 四川省金太陽2025-2026學年高三上學期11月聯(lián)考英語試卷(含答案詳解)
評論
0/150
提交評論