版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1.1.1項(xiàng)目背景 31.1.2項(xiàng)目概述 51.1.3建設(shè)目標(biāo) 71.1.4建設(shè)必要性 81.1.5建設(shè)依據(jù) 91.1.6項(xiàng)目現(xiàn)狀 101.1.7技術(shù)路線 121.1.8總體框架 141.1.9功能設(shè)計(jì) 15數(shù)據(jù)管理 15.1數(shù)據(jù)來源 15.2數(shù)據(jù)采集 15.3數(shù)據(jù)整合 17.4數(shù)據(jù)接入 17.5數(shù)據(jù)存儲與計(jì)算 18知識圖譜構(gòu)建 23.1本體構(gòu)建與管理 24.2數(shù)據(jù)抽取 25.3知識融合 27.4知識推理 28.5知識圖譜存儲與管理 29.6預(yù)覽圖譜 29.7全量&增量更新圖譜數(shù)據(jù) 29.8編輯圖譜數(shù)據(jù) 30.9刪除圖譜 30.10復(fù)制圖譜 30.11導(dǎo)出圖譜數(shù)據(jù) 30專題庫管理 30.1專題知識構(gòu)建與管理 30.2專題庫首頁管理 31.3專題庫模板管理 32.4專題庫目錄結(jié)構(gòu) 32.5專題庫多文件上傳 32.6專題庫知識增刪 33.7專題庫文檔排序 33.8專題庫查詢和搜索 33.9專題庫關(guān)聯(lián)文檔 33.10專題庫文檔版本管理 33.11專題庫權(quán)限管理 34.12專題庫存儲加密 34系統(tǒng)管理 34.1組織架構(gòu)設(shè)置 34.2角色權(quán)限管理 34.3操作日志記錄 35.4個人事務(wù)管理 36.5數(shù)據(jù)管理 36.6門戶配置 37.7統(tǒng)一認(rèn)證 38多維度導(dǎo)航 39.1學(xué)科分類導(dǎo)航 39.2文獻(xiàn)來源導(dǎo)航 39.3文獻(xiàn)作者導(dǎo)航 40.4出版物來源導(dǎo)航 40.5語種分類導(dǎo)航 40.6關(guān)鍵詞導(dǎo)航 40.7行業(yè)導(dǎo)航 40.8年度導(dǎo)航 41.9機(jī)構(gòu)導(dǎo)航 42科技資源統(tǒng)一檢索 42.1檢索方式 42.2檢索結(jié)果 43.3智能推送 44項(xiàng)目背景數(shù)據(jù)科技發(fā)展水平是國家的核心競爭力,建設(shè)以知識服務(wù)為目標(biāo)的科技資源已成為國家軟實(shí)力的重要標(biāo)志。當(dāng)今世界,各國科技資源在影響區(qū)域決策、引導(dǎo)社會輿論、服務(wù)公共事務(wù)、體現(xiàn)國家軟實(shí)力等方面發(fā)揮著重要作用。高端科技資源建設(shè),不僅是國家進(jìn)行宏觀決策的有力支撐,也是推進(jìn)國家治理體系和治理能力現(xiàn)代化的重要內(nèi)容,加快以計(jì)算機(jī)科學(xué)與人工智能為代表的科技領(lǐng)域知識管理與服務(wù)能力建設(shè),是科技強(qiáng)國的緊迫需求。在產(chǎn)業(yè)數(shù)字化發(fā)展的背景下,國家大力支持?jǐn)?shù)據(jù)融合應(yīng)用在產(chǎn)業(yè)創(chuàng)新發(fā)展中發(fā)揮更大作用。為深入實(shí)施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,規(guī)范管理科技資源共享服務(wù)平臺,推進(jìn)科技資源開放共享,依據(jù)《國家科技資源共享服務(wù)平臺管理辦法》(國科發(fā)基〔2018〕48號),《吉林省科技資源共享服務(wù)平臺管理辦法》,規(guī)范管理吉林省科技資源共享平臺,推進(jìn)科技資源開放共享,提高科技資源利用效率,促進(jìn)創(chuàng)新創(chuàng)業(yè),為加速吉林經(jīng)濟(jì)振興提供科技支撐??茖W(xué)技術(shù)數(shù)據(jù)研究所是中國科學(xué)技術(shù)工作者的群眾組織,是中國共產(chǎn)黨領(lǐng)導(dǎo)下的人民團(tuán)體,是黨和政府聯(lián)系科學(xué)技術(shù)工作者的橋梁和紐帶,是國家推動科學(xué)技術(shù)事業(yè)發(fā)展的重要力量。匯聚科學(xué)技術(shù)數(shù)據(jù)研究內(nèi)外部數(shù)據(jù),引領(lǐng)數(shù)據(jù)資源的有效治理和共享融合,開展以數(shù)據(jù)的深度挖掘與融合應(yīng)用為特征的智能化應(yīng)用,打造動態(tài)感知、互聯(lián)、智能的數(shù)據(jù)管理平臺,是科學(xué)技術(shù)數(shù)據(jù)研究數(shù)據(jù)化建設(shè)的重要內(nèi)容。
項(xiàng)目概述數(shù)據(jù)管理平臺是基礎(chǔ)支撐與條件保障類科技創(chuàng)新基地,平臺面向全省科技創(chuàng)新、經(jīng)濟(jì)社會發(fā)展和創(chuàng)新社會治理,加強(qiáng)優(yōu)質(zhì)科技資源有效集成,提升科技資源使用效率,為科學(xué)研究、技術(shù)進(jìn)步和社會發(fā)展提供數(shù)據(jù)化、社會化的科技資源共享服務(wù),遵循合理布局、整合共享、分級分類、動態(tài)調(diào)整的基本原則,加強(qiáng)能力建設(shè),規(guī)范責(zé)任主體,促進(jìn)開放共享。平臺依托科學(xué)技術(shù)數(shù)據(jù)研究所學(xué)科門類齊全、領(lǐng)域交叉充分、智力資源密集的獨(dú)特優(yōu)勢,聚焦科技領(lǐng)域,堅(jiān)持問題導(dǎo)向,以全球視野動態(tài)匯聚、融合關(guān)聯(lián)中國科協(xié)內(nèi)外資源,構(gòu)建面向全球科技領(lǐng)域的覆蓋面廣、權(quán)威性高、實(shí)時性強(qiáng)的知識數(shù)據(jù)資源池,形成“科技領(lǐng)域——專家人才——科研成果”的科技資源知識圖譜,建成“研究興趣/學(xué)術(shù)影響/研究方向”等立體、多維、高精度的專家畫像標(biāo)簽體系,建成數(shù)據(jù)知識領(lǐng)域研究熱點(diǎn)、趨勢、人才態(tài)勢感知服務(wù),利用復(fù)雜網(wǎng)絡(luò)關(guān)系分析、交互學(xué)習(xí)等挖掘技術(shù)為宏觀數(shù)據(jù)管理與決策提供支持服務(wù)。通過平臺的建設(shè),整理省內(nèi)數(shù)據(jù)擁有單位的科學(xué)研究數(shù)據(jù)、檢測數(shù)據(jù)、勘查數(shù)據(jù)等,建立起若干數(shù)據(jù)中心和主體數(shù)據(jù)庫,搭建吉林省科學(xué)數(shù)據(jù)平臺門戶網(wǎng)站,為吉林省各行各業(yè),特別是政府部門開展科技管理、決策,企業(yè)、高校、研究院所開展研發(fā)及橫向聯(lián)合、數(shù)據(jù)溝通,為發(fā)揮吉林省科教優(yōu)勢,促進(jìn)經(jīng)濟(jì)發(fā)展提供及時有效的服務(wù)和支持。它是吉林省創(chuàng)新體系的重要組成部分,具有投入穩(wěn)定、社會共享、公益性和持續(xù)性等特點(diǎn),對全省經(jīng)濟(jì)、社會和科技快速發(fā)展具有重要意義。
建設(shè)目標(biāo)數(shù)據(jù)科技發(fā)展水平是國家的核心競爭力,建設(shè)以知識服務(wù)為目標(biāo)的科技資源已成為國家軟實(shí)力的重要標(biāo)志。本項(xiàng)目以科學(xué)技術(shù)數(shù)據(jù)研究所數(shù)據(jù)中心的大數(shù)據(jù)為支撐,構(gòu)建大規(guī)模實(shí)體要素之間的知識網(wǎng)絡(luò)圖譜,形成立體全景科技態(tài)勢:感知服務(wù)能力,為宏觀科技管理與決策提供支持服務(wù)。進(jìn)一步吸收、融合多來源異構(gòu)數(shù)據(jù),通過持續(xù)的數(shù)據(jù)治理,不斷提高數(shù)據(jù)質(zhì)量、擴(kuò)大數(shù)據(jù)范圍、提升數(shù)據(jù)服務(wù)能力;強(qiáng)化數(shù)據(jù)處理、數(shù)據(jù)管控和數(shù)據(jù)挖掘能力,建設(shè)更為豐富、更加精準(zhǔn)的科技管理大數(shù)據(jù)服務(wù),為不斷提升科技管理現(xiàn)代化創(chuàng)新能力的需求提供全面的技術(shù)和數(shù)據(jù)支撐。項(xiàng)目主要建設(shè)目的如下:1.結(jié)合國家戰(zhàn)略和吉林省經(jīng)濟(jì)社會發(fā)展的需求,持續(xù)開展重要科技資源的收集、整理、保存工作;2.承接科技計(jì)劃項(xiàng)目實(shí)施形成的科技資源匯交、整理和保存任務(wù);3.開展科技資源的社會共享,面向各類科技創(chuàng)新活動提供公共服務(wù),開展科學(xué)普及,根據(jù)創(chuàng)新需求整合資源開展定制服務(wù);4.建設(shè)和維護(hù)在線服務(wù)系統(tǒng),開展科技資源管理與共享服務(wù)技術(shù)研究和應(yīng)用。最終,實(shí)現(xiàn)加強(qiáng)優(yōu)質(zhì)科技資源有效集成,提升科技資源使用效率,為科學(xué)研究、技術(shù)進(jìn)步和社會發(fā)展提供數(shù)據(jù)化、社會化的科技資源共享服務(wù)平臺,推進(jìn)科技資源開放共享,提高科技資源利用效率,促進(jìn)創(chuàng)新創(chuàng)業(yè),為加速吉林經(jīng)濟(jì)振興提供科技支撐。
建設(shè)必要性為進(jìn)一步加強(qiáng)優(yōu)質(zhì)科技資源有效集成,提升科技資源使用效率,科學(xué)技術(shù)數(shù)據(jù)研究所依據(jù)“盤活數(shù)據(jù)資產(chǎn)、發(fā)揮數(shù)據(jù)效能,科學(xué)性、可行性、創(chuàng)新性、前瞻性相結(jié)合”的原則,統(tǒng)籌開展了數(shù)據(jù)管理平臺建設(shè)工作,嘗試在科技人才精準(zhǔn)服務(wù)、科技人才成長規(guī)律以及科技人才區(qū)域流動等方面提供大數(shù)據(jù)決策支撐服務(wù)。系統(tǒng)以人、機(jī)構(gòu)、成果為紐帶和數(shù)據(jù)組織核心,對所有類型實(shí)體數(shù)據(jù)資源進(jìn)行全面融合,形成融會貫通的大規(guī)模關(guān)系網(wǎng)絡(luò),并基于此實(shí)現(xiàn)了多類深層知識分析挖掘,在一定程度上,實(shí)現(xiàn)了科學(xué)技術(shù)數(shù)據(jù)研究現(xiàn)有業(yè)務(wù)數(shù)據(jù)資源與互聯(lián)網(wǎng)數(shù)據(jù)資源的消歧與融合,在資源共享、業(yè)務(wù)協(xié)同、決策支持等方面取得一定效果。數(shù)據(jù)作為生產(chǎn)要素的屬性表明,其未來必將走向市場。數(shù)據(jù)應(yīng)用范圍將從傳統(tǒng)的組織內(nèi)部應(yīng)用為主,發(fā)展為支撐內(nèi)部和服務(wù)外部并重,數(shù)據(jù)資產(chǎn)應(yīng)用和服務(wù)范圍的擴(kuò)大,將成為組織戰(zhàn)略發(fā)展的一部分。今后一段時期,組織能否樹立數(shù)據(jù)作為生產(chǎn)要素的戰(zhàn)略意識,挖掘和利用數(shù)據(jù)價值、盤活數(shù)據(jù)資源,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)保值到增值,決定了組織能否邁出生產(chǎn)要素到生產(chǎn)力轉(zhuǎn)化的重要一步。
建設(shè)依據(jù)為深入實(shí)施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,規(guī)范管理科技資源共享服務(wù)平臺,推進(jìn)科技資源開放共享,依據(jù)《國家科技資源共享服務(wù)平臺管理辦法》(國科發(fā)基〔2018〕48號),本平臺的建設(shè)圍繞吉林省深入實(shí)施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,重點(diǎn)利用科研設(shè)備設(shè)施、科學(xué)數(shù)據(jù)、生物種質(zhì)、實(shí)驗(yàn)材料等科技資源而設(shè)立的專業(yè)化、綜合性公共服務(wù)平臺,構(gòu)建大規(guī)模實(shí)體要素之間的知識網(wǎng)絡(luò)圖譜,形成立體全景科技態(tài)勢感知服務(wù)能力。
項(xiàng)目現(xiàn)狀近年來,隨著“科教興省”戰(zhàn)略的實(shí)施,尤其是黨的十六屆五中全會提出把增強(qiáng)自主創(chuàng)新能力作為科學(xué)技術(shù)發(fā)展的戰(zhàn)略基點(diǎn)和調(diào)整產(chǎn)業(yè)結(jié)構(gòu)、轉(zhuǎn)變增長方式的中心環(huán)節(jié)以來,吉林省對科技的投入不斷增加。到2021年全省科學(xué)研究與技術(shù)開發(fā)機(jī)構(gòu)422個,其中政府部門所屬獨(dú)立研究與開發(fā)機(jī)構(gòu)135個,高等院校所屬科研機(jī)構(gòu)170個,大中型工業(yè)企業(yè)辦科研機(jī)構(gòu)117個。從事科技活動人員8.2萬人,其中研究與發(fā)展人員2.8萬人。擁有中國科學(xué)院和中國工程院院士29人。全省己建國家及省級高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室、工程技術(shù)研究中心(創(chuàng)新中心)等科技公共服務(wù)平臺93個,經(jīng)國家認(rèn)定企業(yè)技術(shù)中心23個。全社會科技創(chuàng)新投入大幅度增長,2021年研究與發(fā)展活動經(jīng)費(fèi)(內(nèi)部)支出50.9億元,占全省生產(chǎn)總值的0.96%。如此龐大的科技數(shù)據(jù)資源在管理方面,主要存在以下現(xiàn)象:海量“孤島”科技數(shù)據(jù)難以共享。科技數(shù)據(jù)的數(shù)據(jù)源載體多、存儲形式多樣、數(shù)據(jù)類型廣泛,數(shù)據(jù)資源孤立分散,給科研人員的數(shù)據(jù)分析、共享及管理過程造成了比較大的麻煩。在數(shù)據(jù)驅(qū)動的研究背景下,海量數(shù)據(jù)通過多種途徑和方式獲取,并存儲在硬盤、數(shù)據(jù)庫或其他存儲介質(zhì)中,則研究者每次進(jìn)行數(shù)據(jù)分析時都要采用不同的方式調(diào)取數(shù)據(jù)分別管理。與此同時,數(shù)據(jù)共享的方式也比較局限,若是使用網(wǎng)盤共享,數(shù)據(jù)上傳、下載耗時耗力;移動硬盤共享倘若后續(xù)發(fā)生數(shù)據(jù)修改也很難再同步給相關(guān)共享人;云計(jì)算雖然可以調(diào)用公開數(shù)據(jù),但有些無法提供本地上傳數(shù)據(jù)集的接口,也并不方便。科技數(shù)據(jù)數(shù)據(jù)資源配置不平衡。吉林省科技數(shù)據(jù)資源配置集中度較高,少數(shù)的科研機(jī)構(gòu)、高等院校占有大量的科技數(shù)據(jù)資源,對于多數(shù)企業(yè),特別是中小企業(yè)而言一方面自身對于科技數(shù)據(jù)投入的認(rèn)識不足,而且企業(yè)應(yīng)用數(shù)據(jù)技術(shù)的水平偏低,應(yīng)用范圍只停留在設(shè)立企業(yè)網(wǎng)站上;另一方而購買大量的網(wǎng)絡(luò)數(shù)據(jù)庫資源需要雄厚的資金支持,往往大大超出企業(yè)的投資成本??萍紨?shù)據(jù)存儲安全性都沒有保障。傳統(tǒng)的有限防護(hù)機(jī)制不一定能保障數(shù)據(jù)權(quán)益和數(shù)據(jù)安全,數(shù)據(jù)共享者將面臨風(fēng)險責(zé)任與權(quán)利受益的矛盾。一方面,科學(xué)數(shù)據(jù)本身具有可復(fù)制性,在共享中易被竊取,造成數(shù)據(jù)貢獻(xiàn)者自身產(chǎn)權(quán)受到侵犯;另一方面,數(shù)據(jù)的集中化共享很有可能導(dǎo)致數(shù)據(jù)使用邊界模糊,增加了數(shù)據(jù)誤用、數(shù)據(jù)濫用等多重風(fēng)險?,F(xiàn)有大部分共享平臺可追溯性差,即使數(shù)據(jù)泄露,參與用戶也很難追究。
技術(shù)路線系統(tǒng)應(yīng)用軟件采用基于組件的多層架構(gòu)。最底層是系統(tǒng)平臺層,主要基于標(biāo)準(zhǔn)的J2EE組件。上層是應(yīng)用平臺層,包括工作流引擎組織權(quán)限框架、基礎(chǔ)數(shù)據(jù)訪問組件等。這些組件分別封裝了工作流、組織權(quán)限、數(shù)據(jù)訪問等方面的基本功能部件,是應(yīng)用系統(tǒng)構(gòu)建業(yè)務(wù)邏輯的基礎(chǔ)。在應(yīng)用平臺層之上,是由各種業(yè)務(wù)數(shù)據(jù)模型、配置數(shù)據(jù)、組織權(quán)限定義、應(yīng)用系統(tǒng)的業(yè)務(wù)處理邏輯和界面控制邏輯等組成的軟件系統(tǒng)。通過組件化拼裝,形成了整個應(yīng)用軟件系統(tǒng),并通過內(nèi)部息互聯(lián)確保整個系統(tǒng)穩(wěn)定、有效地運(yùn)行。同時這種架構(gòu)已經(jīng)充分考慮到未來系統(tǒng)的擴(kuò)展性及集成性,為未來系統(tǒng)的擴(kuò)容和與其他相關(guān)應(yīng)用系統(tǒng)的整合提供技術(shù)保障。技術(shù)架構(gòu)1)分布式緩存。分布式緩存技術(shù)四用于動態(tài)Web應(yīng)用以減輕數(shù)據(jù)庫負(fù)擔(dān)。它是通過在內(nèi)存中緩存數(shù)據(jù)對象來減少讀取數(shù)據(jù)庫的次數(shù),從而提高數(shù)據(jù)庫響應(yīng)速度。2)網(wǎng)頁HTML靜態(tài)化。效率最高、消耗最小的就是純靜態(tài)化的HTML頁面叫,因此本系統(tǒng)盡可能多地使網(wǎng)站上的頁面采用靜態(tài)頁面來實(shí)現(xiàn)。由于本系統(tǒng)網(wǎng)頁內(nèi)容需頻繁更新,采用了數(shù)據(jù)發(fā)布系統(tǒng)實(shí)現(xiàn)最簡單的數(shù)據(jù)錄人并自動生成靜態(tài)頁面,同時具備頻道管理、權(quán)限管理和自動抓取等功能,避免了大量數(shù)據(jù)被前臺程序調(diào)用,從而減少大量的數(shù)據(jù)庫訪問請求。.3)數(shù)據(jù)庫集群和負(fù)載均衡。本系統(tǒng)采用了數(shù)據(jù)庫集群技術(shù),解決網(wǎng)站面對大量訪問時數(shù)據(jù)庫的瓶頸問題。負(fù)載均衡解決了網(wǎng)站高負(fù)荷訪問和大量并發(fā)請求的快速響應(yīng)問題。
總體框架系統(tǒng)采用B/S架構(gòu)即瀏覽器和服務(wù)器模式,用戶通過瀏覽器輸入指定的IP或者網(wǎng)址即可訪問到管理系統(tǒng)。與傳統(tǒng)的C/S架構(gòu)相比,大大簡化了客戶端,使得客戶端機(jī)器只要能上網(wǎng)就可以實(shí)現(xiàn)開發(fā)、維護(hù)等幾乎所有工作都集中在服務(wù)器端,當(dāng)企業(yè)對系統(tǒng)應(yīng)用進(jìn)行維護(hù)與升級時,只需更新服務(wù)器端即可,這節(jié)省了大量的時間與成本。同時系統(tǒng)要求:企業(yè)內(nèi)部所有人員均需要能夠進(jìn)行簡單操作,同時少數(shù)的系統(tǒng)管理人員會進(jìn)行稍微復(fù)雜的管理操作;系統(tǒng)能夠進(jìn)行簡單部署,集中管理。因此采用B/S結(jié)構(gòu)模式進(jìn)行開發(fā)較為恰當(dāng)。
功能設(shè)計(jì)數(shù)據(jù)管理平臺的綜合集成,是查詢、統(tǒng)計(jì)、關(guān)聯(lián)、圖譜及可視化等各類功能的數(shù)據(jù)基石。數(shù)據(jù)管理平臺實(shí)現(xiàn)了各來源科技數(shù)據(jù)資源的導(dǎo)入和集成管理,平臺支持研究院現(xiàn)有業(yè)務(wù)數(shù)據(jù)資源導(dǎo)入并支持開放數(shù)據(jù)的獲取。平臺功能主要包括數(shù)據(jù)管理、知識圖譜構(gòu)建、專題庫管理、系統(tǒng)管理、多維度導(dǎo)航、科技資源統(tǒng)一檢索。數(shù)據(jù)管理數(shù)據(jù)管理包含數(shù)據(jù)源分析、數(shù)據(jù)接入、數(shù)據(jù)存儲與計(jì)算等。數(shù)據(jù)來源本項(xiàng)目中所用到的數(shù)據(jù)主要是甲方合作的商業(yè)數(shù)據(jù):包含中國知網(wǎng)、萬方數(shù)據(jù)、維普數(shù)據(jù)、國家科技圖書文獻(xiàn)中心、中國工程院知識中心、讀秀、尚唯科技報(bào)告和產(chǎn)品樣本庫、中經(jīng)數(shù)據(jù)庫、萬方、科慧項(xiàng)目數(shù)據(jù)和中國科學(xué)院計(jì)算機(jī)所的科學(xué)數(shù)據(jù)等。所涉及到的數(shù)據(jù)通過數(shù)據(jù)庫或者接口方式接入,類型包含但不限于:期刊論文、學(xué)位論文、會議論文、科技報(bào)告、產(chǎn)品樣品、標(biāo)準(zhǔn)、科技成果、科技政策、人才數(shù)據(jù)等。數(shù)據(jù)采集(1)抓取Internet網(wǎng)絡(luò)資源,可以對靜態(tài)網(wǎng)頁中的文本數(shù)據(jù)進(jìn)行抓取和下載,可實(shí)現(xiàn)基于模板的網(wǎng)頁數(shù)據(jù)提取和元數(shù)據(jù)抽取。(2)自動下載網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù),可自動下載網(wǎng)絡(luò)數(shù)據(jù)庫的元數(shù)據(jù)以及其中的數(shù)據(jù),并可根據(jù)數(shù)據(jù)的數(shù)據(jù)自動抽取數(shù)據(jù)庫的元數(shù)據(jù)。(3)對本地相關(guān)文檔數(shù)據(jù)進(jìn)行采集,可自動對本地?cái)?shù)據(jù)資源屬性進(jìn)行抽取,并對資源進(jìn)行相應(yīng)標(biāo)注。(4)對數(shù)據(jù)進(jìn)行自動過濾、歸類和整理,對所采集的數(shù)據(jù)進(jìn)行重復(fù)性過濾,去除重復(fù)資源,在此基礎(chǔ)上對獲取的資源進(jìn)行歸類,并對歸類后的資源進(jìn)行索引、重排等整理。(5)根據(jù)用戶需求,按照用戶的個性化需求在資源中選擇合適的數(shù)據(jù)提供給用戶,并按照需求將相關(guān)數(shù)據(jù)加載到資源庫中。(6)對Internet進(jìn)行檢測和監(jiān)控,為用戶提供任務(wù)調(diào)度預(yù)設(shè)功能,根據(jù)用戶的設(shè)定定期跟蹤網(wǎng)絡(luò)資源的變化情況,對新增資源進(jìn)行識別,并在本地庫中進(jìn)行記錄,實(shí)現(xiàn)實(shí)時網(wǎng)絡(luò)監(jiān)測和監(jiān)控。數(shù)據(jù)整合根據(jù)不同數(shù)據(jù)資源所共有的標(biāo)題、作者、單位、出版刊物、關(guān)鍵詞、中英文摘要、參考文獻(xiàn)等數(shù)據(jù),整合到一個檢索系統(tǒng)中,用戶通過元數(shù)據(jù)對資源進(jìn)行檢索,系統(tǒng)的搜索引擎將遍覽各資源數(shù)據(jù)庫,最后將檢索結(jié)果整合在一起將數(shù)據(jù)資源的概要和鏈接提交給用戶?;跀?shù)據(jù)的整合,在用戶提交檢索請求前就已將數(shù)據(jù)資源整合到一起,因此在用戶檢索時期效率較高。數(shù)據(jù)接入數(shù)據(jù)管理平臺提供數(shù)據(jù)源接入的功能,通過監(jiān)控?cái)?shù)據(jù)源的數(shù)據(jù),實(shí)現(xiàn)實(shí)時及離線數(shù)據(jù)的同步,如果是實(shí)時的數(shù)據(jù),會轉(zhuǎn)發(fā)到數(shù)據(jù)分發(fā)服務(wù)上,由數(shù)據(jù)分發(fā)服務(wù)對數(shù)據(jù)進(jìn)行實(shí)時分析,與存儲。計(jì)劃支持關(guān)系型數(shù)據(jù),或者通過監(jiān)控?cái)?shù)據(jù)庫的binlog,來實(shí)現(xiàn)數(shù)據(jù)的同步。在數(shù)據(jù)同步方式建立好,需要通過配置的方式,將源數(shù)據(jù)的屬性信息與數(shù)據(jù)平臺的數(shù)據(jù)倉庫的屬性進(jìn)行關(guān)聯(lián),這樣才能完成從數(shù)據(jù)源將數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu),適應(yīng)后面的數(shù)據(jù)清洗、計(jì)算、歸總等處理過程,通過提供數(shù)據(jù)源,數(shù)據(jù)源的字典等信息,將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)平臺。平臺支持不同種類、不同數(shù)據(jù)源、不同目標(biāo)庫的數(shù)據(jù)接入。支持Oracle、Sql-Server、My-Sql、H-base、Hive等主流數(shù)據(jù)庫,支持常用文件類型:XML、CSV、EXCEL等。數(shù)據(jù)庫接入方式:ODBC方式聯(lián)接ODBC(OpenDataBaseConnectivity)翻譯過來就是開放數(shù)據(jù)庫互聯(lián)。是由微軟主導(dǎo)的數(shù)據(jù)庫鏈接標(biāo)準(zhǔn)。是一種底層的訪問技術(shù),ODBCAPI可以讓客戶應(yīng)用程序能從底層設(shè)置和控制數(shù)據(jù)庫,完成一些高級數(shù)據(jù)庫技術(shù)無法完成的功能;但不足之處由于ODBC是只能用于關(guān)系型數(shù)據(jù)庫,使得利用ODBC很難訪問對象數(shù)據(jù)庫及其他非關(guān)系數(shù)據(jù)庫。DAO方式聯(lián)接DAO(DataAccessObject)數(shù)據(jù)訪問對象型。不提供遠(yuǎn)程訪問功能。只提供了一種通過程序代碼創(chuàng)建和操縱數(shù)據(jù)庫的機(jī)制。最大特點(diǎn)是對MICROSOFTJET數(shù)據(jù)庫的操作很方便,而且是操作JET數(shù)據(jù)庫時性能最好的技術(shù)接口之一。并且它并不只能用于訪問這種數(shù)據(jù)庫,事實(shí)上,通過DAO技術(shù)可以訪問從文本文件到大型后臺數(shù)據(jù)庫等多種數(shù)據(jù)格式。MicrosoftJet為Access和VisualBasic這樣的產(chǎn)品提供了數(shù)據(jù)引擎。ADO方式聯(lián)接ADO(ActiveXDataObject),是ActiveX數(shù)據(jù)對象,是基于OLEDB的訪問接口,它是面向?qū)ο蟮腛LEDB技術(shù),繼承了OLEDB的優(yōu)點(diǎn)。屬于數(shù)據(jù)庫訪問的高層接口。是在OLEDB規(guī)程下開發(fā)的,基于OLE-DB建立連接的局部和遠(yuǎn)程數(shù)據(jù)庫訪問技術(shù)。同OLE-DB一樣,它要“年輕”些。使用中,我們一般用OLE-DB和ADO替代DAO和RDO。數(shù)據(jù)存儲與計(jì)算(1)數(shù)據(jù)存儲分布式存儲系統(tǒng)滿足海量數(shù)字媒體資源的分布式存儲,存儲平臺實(shí)現(xiàn)以下功能點(diǎn):數(shù)據(jù)加密(不存儲裸數(shù)據(jù),按塊加密存儲);加密系統(tǒng)是由明文、密文、算法和密鑰組成。發(fā)送方通過加密設(shè)備或加密算法,用加密密鑰將數(shù)據(jù)加密后發(fā)送出去。接收方在收到密文后,用解密密鑰將密文解密,恢復(fù)為明文。在傳輸過程中,即使密文被非法分子偷竊獲取,得到的也只是無法識別的密文,從而起到數(shù)據(jù)保密的作用。海量的數(shù)據(jù)存儲能力(億級的存儲能力);提供基于分布式文件系統(tǒng)和并行架構(gòu)的大數(shù)據(jù)存儲能力,支持PB級數(shù)據(jù)規(guī)模的高可靠和高可用存儲,支持存放多種文件格式。具備持續(xù)的靈活的擴(kuò)容能力;支持系統(tǒng)盤和本地盤擴(kuò)容,彈性按需擴(kuò)容。支持每天百萬級文件數(shù)以上寫入;利用頁緩存技術(shù)+磁盤順序?qū)懞土憧截惣夹g(shù)實(shí)現(xiàn)每天百萬級文件數(shù)以上寫入。支持每天千萬級文件數(shù)據(jù)讀??;通過采用開辟大塊連續(xù)磁盤空間的方式來存儲大量文件,也將邏輯上連續(xù)的數(shù)據(jù)盡可能地存儲在磁盤陣列的連續(xù)空間上。通過負(fù)載均衡能夠持續(xù)提高系統(tǒng)吞吐量;負(fù)載均衡提高系統(tǒng)的吞吐量,有效降低系統(tǒng)的單點(diǎn)故障率,讓系統(tǒng)降低對外網(wǎng)端口的依賴,降低系統(tǒng)對網(wǎng)絡(luò)帶寬的要求,實(shí)現(xiàn)不停機(jī)升級系統(tǒng)。提供多種語言接口。包括java,c,.net多種語言支持的客戶端接口,方便其他應(yīng)用系統(tǒng)集成調(diào)用。數(shù)據(jù)存儲方式:順序存儲方法:該方法把邏輯上相鄰的結(jié)點(diǎn)存儲在物理位置上相鄰的存儲單元里,結(jié)點(diǎn)間的邏輯關(guān)系由存儲單元的鄰接關(guān)系來體現(xiàn)。鏈接存儲方法:該方法不要求邏輯上相鄰的結(jié)點(diǎn)在物理位置上亦相鄰,結(jié)點(diǎn)間的邏輯關(guān)系由附加的指針字段表示。索引存儲方法:該方法通常在儲存結(jié)點(diǎn)信息的同時,還建立附加的索引表。索引表由若干索引項(xiàng)組成。若每個結(jié)點(diǎn)在索引表中都有一個索引項(xiàng),則該索引表稱之為稠密索引(DenseIndex)。若一組結(jié)點(diǎn)在索引表中只對應(yīng)一個索引項(xiàng),則該索引表稱為稀疏索引(SpareIndex)。散列存儲方法:該方法的基本思想是:根據(jù)結(jié)點(diǎn)的關(guān)鍵字直接計(jì)算出該結(jié)點(diǎn)的存儲地址。散列的數(shù)據(jù)訪問速度要高于數(shù)組,因?yàn)榭梢砸罁?jù)存儲數(shù)據(jù)的部分內(nèi)容找到數(shù)據(jù)在數(shù)組中的存儲位置,進(jìn)而能夠快速實(shí)現(xiàn)數(shù)據(jù)的訪問,理想的散列訪問速度是非常迅速的,而不像在數(shù)組中的遍歷過程,采用存儲數(shù)組中內(nèi)容的部分元素作為映射函數(shù)的輸入,映射函數(shù)的輸出就是存儲數(shù)據(jù)的位置,這樣的訪問速度就省去了遍歷數(shù)組的實(shí)現(xiàn),因此時間復(fù)雜度可以認(rèn)為為O(1),而數(shù)組遍歷的時間復(fù)雜度為O(n)。數(shù)據(jù)存儲階段需掌握的技術(shù)有:hbase、hive、sqoop等。1、HBaseHBase是一個分布式的、面向列的開源數(shù)據(jù)庫,它不同于一般的關(guān)系數(shù)據(jù)庫,更適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),大數(shù)據(jù)開發(fā)需掌握HBase基礎(chǔ)知識、應(yīng)用、架構(gòu)以及高級用法等。2、HiveHive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。對于Hive需掌握其安裝、應(yīng)用及高級操作等。(2)數(shù)據(jù)計(jì)算支持提供對海量數(shù)據(jù)匯總后的多種數(shù)據(jù)并行處理框架,包括離線的批處理分析、SQL分析、以及近實(shí)時的內(nèi)存分析,可提供的組件能力包含但不限于:分布式批處理引擎MapReduce、分布式內(nèi)存計(jì)算引擎Spark、流處理計(jì)算引擎Storm、數(shù)據(jù)倉儲組件Hive等。對于采集到的不同的數(shù)據(jù)集,可能存在不同的結(jié)構(gòu)和模式,如文件、XML樹、關(guān)系表等,表現(xiàn)為數(shù)據(jù)的異構(gòu)性。對多個異構(gòu)的數(shù)據(jù)集,需要做進(jìn)一步集成處理或整合處理,將來自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。數(shù)據(jù)實(shí)時計(jì)算階段需掌握的技術(shù)有:Mahout、Spark、storm。1、SparkSpark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,其提供了一個全面、統(tǒng)一的框架用于管理各種不同性質(zhì)的數(shù)據(jù)集和數(shù)據(jù)源的大數(shù)據(jù)處理的需求,大數(shù)據(jù)開發(fā)需掌握Spark基礎(chǔ)、SparkJob、SparkRDD、sparkjob部署與資源分配、Sparkshuffle、Spark內(nèi)存管理、Spark廣播變量、SparkSQL、SparkStreaming以及SparkML等相關(guān)知識。2、stormStorm為分布式實(shí)時計(jì)算提供了一組通用原語,可被用于“流處理”之中,實(shí)時處理消息并更新數(shù)據(jù)庫。這是管理隊(duì)列及工作者集群的另一種方式。Storm可以方便地在一個計(jì)算機(jī)集群中編寫與擴(kuò)展復(fù)雜的實(shí)時計(jì)算,Storm用于實(shí)時處理,就好比Hadoop用于批處理。Storm保證每個消息都會得到處理,而且它很快——在一個小集群中,每秒可以處理數(shù)以百萬計(jì)的消息。(3)數(shù)據(jù)傳輸支持不同類型的抽取匯聚任務(wù)配置,主要包括異構(gòu)數(shù)據(jù)庫之間數(shù)據(jù)傳輸匯聚,不同類型、跨服務(wù)器的文件型數(shù)據(jù)傳輸,數(shù)據(jù)庫和文件類、服務(wù)接口間相互傳輸?shù)取VС謹(jǐn)?shù)據(jù)清洗和數(shù)據(jù)規(guī)范的規(guī)則自定義,主要包括NULL值替換、字符串操作、數(shù)據(jù)類型轉(zhuǎn)換、函數(shù)依賴、正則處理、組合字段、數(shù)據(jù)比對、自定義SQL腳本執(zhí)行、JSON輸出等數(shù)據(jù)轉(zhuǎn)換規(guī)則,以及對相似重復(fù)記錄和屬性值異常等問題數(shù)據(jù)清洗規(guī)則,以及MD5加密規(guī)則。數(shù)據(jù)傳輸方式:按數(shù)據(jù)傳輸順序:并行傳輸和串行傳輸按數(shù)據(jù)傳輸?shù)耐椒绞剑和絺鬏敽彤惒絺鬏敯磾?shù)據(jù)傳輸?shù)牧飨蚝蜁r間關(guān)系:單工、半雙工和全雙工數(shù)據(jù)傳輸數(shù)據(jù)傳輸步驟:在發(fā)送端和接收端之間打開同步傳輸信道;由發(fā)送端通過同步信道派送多個傳輸開始指示符分組直到接收到接收端(的部件上的接受應(yīng)答;在發(fā)送端接收接受應(yīng)答之后,由發(fā)送端通過同步信道派送至少一個有效負(fù)荷分組;在檢測到分組的不良接收之后,由接收端向發(fā)送端派送出錯消息;在由接收端派送的出錯消息被發(fā)送端接收的情況下從出錯位置開始而后重新開始傳輸有效負(fù)荷數(shù)據(jù)。知識圖譜構(gòu)建科技資源知識圖譜處理與融合以科技人才科技成果、組織機(jī)構(gòu)為核心,結(jié)合基于規(guī)則的方法和人工智能方法,實(shí)現(xiàn)數(shù)據(jù)的高效消歧與融合,構(gòu)建基于科技大數(shù)據(jù)的多維統(tǒng)計(jì)數(shù)據(jù)倉庫,建成面向科技服務(wù)的知識圖譜。知識圖譜構(gòu)建包含本體構(gòu)建與管理、數(shù)據(jù)抽取、知識融合、知識推理、知識圖譜存儲與管理。本體構(gòu)建與管理本體構(gòu)建為知識抽取提供規(guī)范化描述的概念層次體系和業(yè)務(wù)知識庫,實(shí)現(xiàn)實(shí)體及實(shí)體屬性、實(shí)體與實(shí)體之間的關(guān)系及關(guān)系屬性的定義。本體是圖譜的模型,是對構(gòu)成圖譜的數(shù)據(jù)的一種模式約束。對于知識圖譜的構(gòu)建,一般是由垂直領(lǐng)域的行業(yè)專家和知識圖譜專家合作完成。本體的構(gòu)建和設(shè)計(jì)對于知識圖譜的構(gòu)建至關(guān)重要??梢酝ㄟ^梳理領(lǐng)域知識、術(shù)語詞典、專家的人工經(jīng)驗(yàn)等作為本體構(gòu)建的基礎(chǔ),結(jié)合知識圖譜的應(yīng)用場景來完善圖譜的構(gòu)建,最終獲得實(shí)體類別、類別之間的關(guān)系、實(shí)體包含的屬性定義。本體構(gòu)建是指在模式層構(gòu)建知識的概念模板,規(guī)范化描述指定領(lǐng)域內(nèi)的概念及概念之間的關(guān)系,其過程又包括概念提取和概念間關(guān)系提取兩部分。根據(jù)構(gòu)建過程的自動化程度不同,可分為手工構(gòu)建、半自動構(gòu)建以及自動構(gòu)建。本體構(gòu)建的目的是構(gòu)建知識數(shù)據(jù)模型和層次體系,主要方法是人工編輯、實(shí)體相似度、實(shí)體關(guān)系自動抽取等。數(shù)據(jù)抽取對多源異構(gòu)數(shù)據(jù)進(jìn)行抽取和結(jié)構(gòu)化表示,將結(jié)構(gòu)化的各領(lǐng)域知識輸出后,進(jìn)行知識融合形成知識圖譜。數(shù)據(jù)抽取包括以下組件:數(shù)據(jù)預(yù)處理、知識抽取管理。知識抽取的目的是根據(jù)不同的數(shù)據(jù)源、不同的數(shù)據(jù)格式,完成實(shí)體、屬性、關(guān)系這種知識的抽取。這是知識圖譜構(gòu)建流程中非常關(guān)鍵的一環(huán),知識抽取的質(zhì)量決定了知識圖譜的質(zhì)量。實(shí)體之間的關(guān)系以及實(shí)體的屬性值,都可以用三元組(主語、謂詞、賓語)來表示,所以知識抽取又可以簡單叫做三元組抽取。知識圖譜構(gòu)建支持結(jié)構(gòu)化Key-Value格式和非結(jié)構(gòu)化文本的三元組抽取。針對結(jié)構(gòu)化數(shù)據(jù),可以通過配置預(yù)置函數(shù)的組合,完成字段的處理。與之對應(yīng)的,針對非結(jié)構(gòu)化文本,云服務(wù)提供算法模型抽取能力,支持業(yè)界前沿的基于機(jī)器閱讀理解(MachineReadingComprehension,MRC)的三元組抽取方法,通過使用多輪對話的思想進(jìn)行三元組抽取,先抽取主語(Subject),然后根據(jù)抽取結(jié)果和候選謂詞對應(yīng)的模板構(gòu)造問句抽取賓語(Object),最終組成(主語,謂詞,賓語)三元組。知識圖譜服務(wù)支持基于該算法的模型訓(xùn)練、預(yù)測以及管理功能,同時以插件形式完成流水線中知識抽取部分。數(shù)據(jù)預(yù)處理在配置數(shù)據(jù)源之前,需要將不同類型、不同格式的數(shù)據(jù)進(jìn)行初步的預(yù)處理。比如:針對本地非電子化文檔,需要先進(jìn)行掃描電子化,結(jié)合OCR等技術(shù)將掃描件轉(zhuǎn)換成文本文檔。再比如:針對本地電子化文檔,需要將本地文檔按文檔類型、格式進(jìn)行歸檔解析整理成規(guī)范的格式,或者針對網(wǎng)絡(luò)資源,需要根據(jù)網(wǎng)站特點(diǎn),開發(fā)相應(yīng)的爬蟲,對數(shù)據(jù)進(jìn)行爬取,并存儲到本地?cái)?shù)據(jù)庫等等。還有一些第三方資源,需要獲取相應(yīng)的數(shù)據(jù)訪問接口,并通過接口獲取相應(yīng)數(shù)據(jù)。整理好的數(shù)據(jù)上傳到平臺后,知識圖就可以進(jìn)行數(shù)據(jù)源的配置,包括指定格式的針對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本的配置等。知識抽取關(guān)系抽取關(guān)系抽取(RE)是知識抽取的核心內(nèi)容,通過獲取實(shí)體之間的某種語義關(guān)系或關(guān)系的類別,自動識別實(shí)體對及聯(lián)系這一對實(shí)體的關(guān)系所構(gòu)成的三元組。屬性抽取屬性抽取是知識庫構(gòu)建和應(yīng)用的基礎(chǔ),通過不同信息源的原始數(shù)據(jù)中抽取實(shí)體的屬性名和屬性值,構(gòu)建實(shí)體的屬性列表,形成完整的實(shí)體概念,使實(shí)體完整化。屬性抽取方法分為傳統(tǒng)的監(jiān)督、無監(jiān)督和半監(jiān)督屬性抽取、基于神經(jīng)網(wǎng)絡(luò)的屬性抽取和其他類型的屬性抽取。目前大多數(shù)屬性抽取是從文本數(shù)據(jù)中抽取信息。傳統(tǒng)方法的監(jiān)督學(xué)習(xí)的屬性抽取使用HMM和CRF等抽取屬性?;谏窠?jīng)網(wǎng)絡(luò)的屬性抽取一般作為序列標(biāo)注任務(wù),使用序列標(biāo)注模型抽取文本的屬性值?;谠J降膶傩猿槿㈩愋突奈谋灸J浇Y(jié)構(gòu)命名為元結(jié)構(gòu),可以在海量語料庫中發(fā)現(xiàn)元模式,可使用該方法發(fā)現(xiàn)文本中高質(zhì)量的屬性描述語句,作為實(shí)體的屬性值。多模態(tài)屬性抽取方法及數(shù)據(jù)集,實(shí)現(xiàn)對多種類型數(shù)據(jù)的屬性抽取。知識融合知識融合是融合各個層面的知識,包括融合不同知識庫的同一實(shí)體、多個不同的知識圖譜、多源異構(gòu)的外部知識等,并確定知識圖譜中的等價實(shí)例、等價類及等價屬性,實(shí)現(xiàn)對有知識圖譜的更新。平臺支持多種不同來源的數(shù)據(jù)的融合,支持通過語義關(guān)系通過工具對同義、上下位、相關(guān)關(guān)系進(jìn)行管理。知識融合的主要任務(wù)包含實(shí)體對齊和實(shí)體消歧。實(shí)體對齊實(shí)體對齊是知識融合階段的主要任務(wù),目的是發(fā)現(xiàn)語義相同的實(shí)體,主要方法是基于嵌入表示的實(shí)體對齊,實(shí)體對齊方法可分為傳統(tǒng)概率模型、機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等類別。傳統(tǒng)概率模型基于屬性相似關(guān)系,將實(shí)體對齊看作概率分類模型,根據(jù)相似度評分選擇對齊實(shí)體。常用模型有CRF、馬爾可夫邏輯網(wǎng)絡(luò)和隱含狄利克雷分布等?;跈C(jī)器學(xué)習(xí)的實(shí)體對齊將實(shí)體對齊看作二分類問題,可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。在監(jiān)督學(xué)習(xí)實(shí)體對齊中,使用預(yù)先人工標(biāo)注部分訓(xùn)練模型,對未標(biāo)注數(shù)據(jù)進(jìn)行分類。如決策樹、支持向量機(jī)等方法通過比較特征向量進(jìn)行實(shí)體對齊,或考慮實(shí)體的相似度,使相似實(shí)體聚類對齊。在神經(jīng)網(wǎng)絡(luò)方法中,基于嵌入的實(shí)體對齊將不同的知識圖譜表示為低維嵌入,并通過計(jì)算實(shí)體嵌入間的相似度來進(jìn)行實(shí)體對齊。實(shí)體消歧實(shí)體消歧是根據(jù)給定文本,消除不同文本中實(shí)體指標(biāo)的歧義,將其映射到實(shí)際的實(shí)體上。根據(jù)有無目標(biāo)知識庫劃分,實(shí)體消歧主要有命名實(shí)體聚類消歧和命名實(shí)體鏈接消歧等方法。命名實(shí)體聚類消歧將所有的實(shí)體指稱與實(shí)際的目標(biāo)實(shí)體進(jìn)行聚類。命名實(shí)體鏈接消歧則是根據(jù)文本中的上下文信息,將文本中的實(shí)體指稱鏈接到候選的實(shí)際目標(biāo)實(shí)體列表中。知識推理知識推理是針對知識圖譜中已有事實(shí)或關(guān)系的不完備性,挖掘或推斷出未知或隱含的語義關(guān)系。知識推理的對象可以為實(shí)體、關(guān)系和知識圖譜的結(jié)構(gòu)等。知識推理主要有邏輯規(guī)則、嵌入表示和神經(jīng)網(wǎng)絡(luò)三類方法。支持可配置可編輯的知識推理功能,基于路徑查詢、標(biāo)簽傳遞、圖聚類算法實(shí)現(xiàn)基于圖譜數(shù)據(jù)的關(guān)系分析挖掘。知識推理從給定的知識圖譜推導(dǎo)出新的實(shí)體跟實(shí)體之間的關(guān)系。知識圖譜推理可以分為基于符號的推理和基于統(tǒng)計(jì)的推理。在人工智能的研究中,基于符號的推理一般是基于經(jīng)典邏輯(一階謂詞邏輯或者命題邏輯)或者經(jīng)典邏輯的變異(比如說缺省邏輯)?;诜柕耐评砜梢詮囊粋€已有的知識圖譜推理出新的實(shí)體間關(guān)系,可用于建立新知識或者對知識圖譜進(jìn)行邏輯的沖突檢測。基于統(tǒng)計(jì)的方法一般指關(guān)系機(jī)器學(xué)習(xí)方法,即通過統(tǒng)計(jì)規(guī)律從知識圖譜中學(xué)習(xí)到新的實(shí)體間關(guān)系。知識推理在知識計(jì)算中具有重要作用,如知識分類、知識校驗(yàn)、知識鏈接預(yù)測與知識補(bǔ)全等。知識圖譜存儲與管理知識圖譜存儲知識圖譜存儲模式支持對大規(guī)模數(shù)據(jù)的有效管理,實(shí)現(xiàn)對知識圖譜中知識高效查詢。知識圖譜可以將用戶搜索輸入的關(guān)鍵詞,映射為知識圖譜中客觀概念和實(shí)體,搜索結(jié)果直接顯示出滿足用戶需求的結(jié)構(gòu)化信息內(nèi)容,實(shí)現(xiàn)對知識圖譜數(shù)據(jù)的有效管理和高效訪問,支持知識圖譜的存儲建模、物理存儲設(shè)計(jì)、索引和查詢。知識圖譜管理(1)平臺支持知識圖譜的實(shí)時更新,可手動更新,也可后臺自動輪巡更新。(3)平臺支持知識圖譜可視化,更加直觀的、圖形化,實(shí)現(xiàn)以可視化的形式展示實(shí)體、關(guān)系、屬性等抽取的結(jié)果。預(yù)覽圖譜針對已創(chuàng)建的知識圖譜,可以以本體為單位查看,該本體下的實(shí)體關(guān)系情況,不同類型實(shí)體的數(shù)量、不同關(guān)系的數(shù)量,以不同結(jié)構(gòu)形式預(yù)覽指定實(shí)體的知識圖譜。全量&增量更新圖譜數(shù)據(jù)針對已經(jīng)創(chuàng)建的知識圖譜,可以全量更新圖譜,即使用新的數(shù)據(jù)源更新知識圖譜,也可以進(jìn)行增量數(shù)擁更新。編輯圖譜數(shù)據(jù)可以通過編輯實(shí)體屬性或?qū)傩灾禂?shù)據(jù),更新圖譜,以適應(yīng)業(yè)務(wù)變化。刪除圖譜針對在平臺創(chuàng)建的圖譜,可以刪除實(shí)體或?qū)傩砸赃m應(yīng)業(yè)務(wù)變化。復(fù)制圖譜創(chuàng)建與已有圖譜類似的新圖譜時,可復(fù)制原有知識圖譜的相關(guān)配置,快速創(chuàng)建新的圖譜。導(dǎo)出圖譜數(shù)據(jù)針對在平臺創(chuàng)建的圖譜,在圖譜管理中列表中,可以以實(shí)體為單位導(dǎo)出圖譜數(shù)據(jù)。專題庫管理專題庫管理包含專題知識構(gòu)建與管理、專題庫首頁管理、專題庫模板管理。專題知識構(gòu)建與管理平臺支持構(gòu)建科技資源數(shù)據(jù)本體模型,實(shí)現(xiàn)科技數(shù)據(jù)領(lǐng)域中論文、專利、基金等科研數(shù)據(jù)中術(shù)語表達(dá)的統(tǒng)一。同時,對于科研人員、科研機(jī)構(gòu)、科研主題之間復(fù)雜的關(guān)系,支持經(jīng)過本體的對象型屬性關(guān)聯(lián)之后,可以方便的進(jìn)行復(fù)雜的圖譜分析。根據(jù)專題知識體系建設(shè)標(biāo)準(zhǔn),圍繞吉林省六大主導(dǎo)產(chǎn)業(yè):現(xiàn)代農(nóng)業(yè)、新能源汽車、生物醫(yī)藥、新材料、人工智能、裝備制造業(yè),進(jìn)行六大專題知識體系構(gòu)建。以科技文獻(xiàn)資源為基礎(chǔ)數(shù)據(jù)庫,采取機(jī)器+人工相結(jié)合的方式,構(gòu)建各個專題的知識體系;支持對知識的增加、知識的刪除、知識的修改。支持各個數(shù)據(jù)庫之間的數(shù)據(jù)同步,保證數(shù)據(jù)的一致性。支持專題知識檢索功能,主要包括科研人員的檢索、科研機(jī)構(gòu)的檢索和科研文獻(xiàn)的檢索,支持全文搜索和具有與或非邏輯關(guān)系的搜索。支持根據(jù)關(guān)鍵詞,通過本體進(jìn)行語義擴(kuò)展,將檢索詞和擴(kuò)展詞進(jìn)行聯(lián)合查詢,實(shí)現(xiàn)查詢相同語義知識的功能。支持添加、修改、刪除專題知識分類,設(shè)置某個分類的查看和審批權(quán)限,并能無限級對知識進(jìn)行分類。批量轉(zhuǎn)移知識,支持對某個分類下的知識進(jìn)行批量轉(zhuǎn)移。知識分享,支持分享某篇知識給其他使用人,并能附加上自己的推薦語。知識收藏,支持可以收藏某些自己喜歡的知識,并能通過個人搜索小范圍搜索這些知識。專題庫首頁管理專題庫首頁管理包含專題管理和專題配置兩部分:專題配置管理平臺支持在專題庫管理頁面中進(jìn)行專題的添加、刪除、編輯、批量刪除、批量編輯以及相關(guān)屬性的配置。專題管理平臺支持對專題下的各類欄目進(jìn)行增加、刪除、編輯、排序、批量刪除、批量編輯。平臺支持專題庫首頁公告數(shù)據(jù)新建、編輯、發(fā)布、刪除、批量刪除、批量編輯。平臺支持專題庫首頁新聞資訊新建、編輯、發(fā)布、刪除、批量刪除、批量編輯。平臺支持專題庫首頁政策法規(guī)新建、編輯、發(fā)布、刪除、批量刪除、批量編輯。專題庫模板管理平臺支持在模板管理頁面中添加、修改或刪除模板文件;支持上傳制作好的模板文件;支持添加、修改或刪除css(層疊樣式表)文件;支持創(chuàng)建模板庫,對不同的專題、分類設(shè)置不同的模板;支持設(shè)置模板標(biāo)簽,方便新增專題庫知識內(nèi)容;支持按模板分類、名稱、標(biāo)簽進(jìn)行搜索。專題庫目錄結(jié)構(gòu)形成專題庫樹形目錄結(jié)構(gòu),可無限創(chuàng)建文件夾和子文件夾結(jié)構(gòu)??勺远x目錄排序,系統(tǒng)內(nèi)部所有成員實(shí)現(xiàn)文件的安全共享與查看。專題庫多文件上傳平臺支持文件的批量上傳及壓縮包導(dǎo)入,實(shí)現(xiàn)文檔資料的快速輕松存儲管理,支持Office文檔、PDF、圖紙等各類型文件。專題庫知識增刪平臺支持對知識的增加、知識的刪除、知識的修改。支持各個數(shù)據(jù)庫之間的數(shù)據(jù)同步,保證數(shù)據(jù)的一致性。專題庫文檔排序平臺支持根據(jù)文檔的標(biāo)題、大小、日期、上傳人等屬性進(jìn)行排序?qū)n}庫查詢和搜索平臺支持專題知識檢索功能,主要包括科研人員的檢索、科研機(jī)構(gòu)的檢索和科研文獻(xiàn)的檢索,支持全文搜索和具有與或非邏輯關(guān)系的搜索。支持根據(jù)關(guān)鍵詞,通過本體進(jìn)行語義擴(kuò)展,將檢索詞和擴(kuò)展詞進(jìn)行聯(lián)合查詢,實(shí)現(xiàn)查詢相同語義知識的功能。從專題庫中提取內(nèi)容,并有效地運(yùn)用知識內(nèi)容求解復(fù)雜的問題。問題求解的過程本質(zhì)上即為知識的匹配和搜索過程。在搜索過程中,專題庫中的內(nèi)容通??煽闯删哂袑哟侮P(guān)系的樹狀式、網(wǎng)狀式結(jié)構(gòu)。專題庫關(guān)聯(lián)文檔文檔數(shù)據(jù)新建或上傳后,系統(tǒng)會自動或手動為文件生成唯一編號,平臺支持文檔的批量關(guān)聯(lián)。支持通過文件唯一編號,實(shí)現(xiàn)文檔與相關(guān)文檔、圖紙及其它格式附件進(jìn)行關(guān)聯(lián),點(diǎn)擊鏈接即可一鍵快速查看。專題庫文檔版本管理平臺支持版本管理功能,文檔關(guān)聯(lián)多版本,避免錯誤版本的使用,同時支持歷史版本的查看、回退與下載。專題庫權(quán)限管理平臺提供權(quán)限控制機(jī)制,可針對用戶、部門及崗位進(jìn)行細(xì)粒度的權(quán)限控制,控制用戶的管理、瀏覽、閱讀、編輯、下載、刪除、打印、訂閱等操作,實(shí)現(xiàn)文檔安全共享。專題庫存儲加密平臺文件采用加密存儲,防止文件擴(kuò)散,全面保證企業(yè)級數(shù)據(jù)的安全性和可靠性。系統(tǒng)管理系統(tǒng)管理分為組織架構(gòu)、角色權(quán)限管理、部門管理、操作日志記錄、數(shù)據(jù)管理、門戶配置、統(tǒng)一認(rèn)證。組織架構(gòu)設(shè)置平臺支持自定義多方、多級組織架構(gòu),以樹狀形式展示。角色權(quán)限管理角色管理支持為人員設(shè)置、分配不同的角色,比如超級管理員、部門管理員、普通管理員、普通用戶等;支持設(shè)置不同人員的數(shù)據(jù)范圍,不同角色的人員查看到的范圍數(shù)據(jù)不一樣;數(shù)據(jù)范圍支持按所負(fù)責(zé)部門、成果類型、文獻(xiàn)來源、學(xué)科分類等進(jìn)行劃分;支持設(shè)置角色數(shù)據(jù)查詢、增加角色數(shù)據(jù)、刪除角色數(shù)據(jù)、修改角色數(shù)據(jù)功能。(2)權(quán)限管理支持對每種角色設(shè)置各模塊、子模塊、以及各模塊的操作級權(quán)限,如查看權(quán)限、修改權(quán)限、編輯權(quán)限、導(dǎo)入導(dǎo)出權(quán)限等。包含權(quán)限新增、修改、刪除和角色的權(quán)限分配、回收等功能。系統(tǒng)權(quán)限分為普通用戶、附件下載權(quán)限、管理員、超級管理員等權(quán)限,通過這些權(quán)限設(shè)置能夠?qū)ο到y(tǒng)功能進(jìn)行細(xì)粒度的控制設(shè)置知識庫目錄權(quán)限可以設(shè)定每個員工能夠訪問的知識庫目錄權(quán)限,擁有某個分類權(quán)限的人才可以查看該分類下的知識。(3)用戶管理支持對用戶進(jìn)行管理,具有列表檢索、數(shù)據(jù)新增、修改、刪除/批量刪除、重置密碼等功能;支持添加用戶,保存用戶的姓名、性別、登錄信息、聯(lián)系方式、職位、職務(wù)等;支持設(shè)置用戶所屬的組織,可進(jìn)行單獨(dú)授權(quán)或組織調(diào)動。操作日志記錄平臺提供系統(tǒng)的設(shè)置、管理、操作、登錄、授權(quán)、操作時間、操作詳細(xì)信息全面系統(tǒng)的日志記錄功能;平臺支持在系統(tǒng)各種日志文件的基礎(chǔ)上實(shí)現(xiàn)業(yè)務(wù)操作的運(yùn)行監(jiān)控、統(tǒng)計(jì)、查詢等功能,支持系統(tǒng)日志和用戶訪問操作日志的詳細(xì)記錄和統(tǒng)計(jì)分析,以及日志的導(dǎo)入導(dǎo)出等;平臺支持多維度的搜索查詢,從海量的日志數(shù)據(jù)中檢索出所需的信息,進(jìn)而產(chǎn)成更詳細(xì)的日志分析報(bào)表;支持日志歸檔,通過自定義方式,提對收集的日志數(shù)據(jù)進(jìn)行自動歸檔處理,以實(shí)現(xiàn)日志數(shù)據(jù)的長久保存;允許二次開發(fā):提供豐富的開發(fā)接口,允許用戶進(jìn)行二次開發(fā),(比如:自定義圖表的展示、日志的截取、分析結(jié)果的導(dǎo)出等)。個人事務(wù)管理平臺可查看個人在該平臺操作的所有數(shù)據(jù),如下載的資源、收藏的資源、發(fā)布的資源等。數(shù)據(jù)管理(1)身份管理平臺支持與各類資源數(shù)據(jù)庫進(jìn)行統(tǒng)一身份認(rèn)證,作者、機(jī)構(gòu)管理員可進(jìn)行單點(diǎn)登錄;平臺支持靈活的用戶角色權(quán)限控制,多級多角色的分權(quán)管理,不同系統(tǒng)角色使用的頁面及功能模塊不同,支持按需配置不同用戶的功能權(quán)限;平臺支持用戶身份實(shí)名認(rèn)證管理,分為個人賬戶實(shí)名認(rèn)證和組織賬戶實(shí)名認(rèn)證,通過技術(shù)手段自動執(zhí)行實(shí)名認(rèn)證的審核過程,減少甚至取消人工干預(yù);平臺支持賬戶注銷,可對不在使用的身份用戶進(jìn)行注銷,分為個人賬戶的注銷和組織賬戶的注銷。(2)部門管理平臺支持對組織的部門、員工的隸屬關(guān)系進(jìn)行管理和維護(hù),可對單位或部門的信息進(jìn)行增加、刪除、修改、查詢、實(shí)名審核、統(tǒng)計(jì)分析等;平臺支持對組織結(jié)構(gòu)下的用戶進(jìn)行模塊權(quán)限授權(quán)管理,根據(jù)權(quán)限的不同,分配不同的頁面及功能模塊。(3)數(shù)據(jù)安全管理平臺支持?jǐn)?shù)據(jù)自動備份、人工備份、自動還原和人工選擇性還原;定期全面檢查現(xiàn)行系統(tǒng)和應(yīng)用,發(fā)現(xiàn)漏洞后,及時進(jìn)行系統(tǒng)修復(fù),避免漏洞被黑客利用造成機(jī)密泄露;密切監(jiān)管重點(diǎn)崗位的核心數(shù)據(jù),監(jiān)控核心數(shù)據(jù)的同時,需要密切關(guān)注接觸這類數(shù)據(jù)的重點(diǎn)人員的操作行為是否符合制度規(guī)范;定期進(jìn)行安全意識的宣導(dǎo),強(qiáng)化用戶對信息安全的認(rèn)知,引導(dǎo)用戶積極執(zhí)行保密制度。門戶配置平臺支持個性化內(nèi)容定制和展示,支持個性化頁面和風(fēng)格:平臺支持自定義門戶logo、首頁輪播圖、首頁內(nèi)容模塊布局、平臺頁面風(fēng)格、授權(quán)的訪問欄目和信息條目等;系統(tǒng)提供在線文本編輯器,完成信息發(fā)布的編輯、排版、格式模板導(dǎo)入等功能,可以實(shí)現(xiàn)所見即所得編輯功能,所有的配置信息和操作頁面都在門戶控制臺完成,不需要另存其他文件。統(tǒng)一認(rèn)證統(tǒng)一身份認(rèn)證的一個基本應(yīng)用模式是統(tǒng)一認(rèn)證模式,它是以統(tǒng)一身份認(rèn)證服務(wù)為核心的服務(wù)使用模式。用戶登錄統(tǒng)一身份認(rèn)證服務(wù)后,即可使用所有支持統(tǒng)一身份認(rèn)證服務(wù)的管理應(yīng)用系統(tǒng)。流程主要如下:(1)用戶使用在統(tǒng)一認(rèn)證服務(wù)注冊的用戶名和密碼(也可能是其他的授權(quán)信息,比如數(shù)字簽名等)登陸統(tǒng)一認(rèn)證服務(wù);(2)統(tǒng)一認(rèn)證服務(wù)創(chuàng)建了一個會話,同時將與該會話關(guān)聯(lián)的訪問認(rèn)證令牌返回給用戶;(3)用戶使用這個訪問認(rèn)證令牌訪問某個支持統(tǒng)一身份認(rèn)證服務(wù)的應(yīng)用系統(tǒng);(4)該應(yīng)用系統(tǒng)將訪問認(rèn)證令牌傳入統(tǒng)一身份認(rèn)證服務(wù),認(rèn)證訪問認(rèn)證令牌的有效性;(5)統(tǒng)一身份認(rèn)證服務(wù)確認(rèn)認(rèn)證令牌的有效性;(6)應(yīng)用系統(tǒng)接收訪問,并返回訪問結(jié)果,如果需要提高訪問效率的話,應(yīng)用系統(tǒng)可選擇返回其自身的認(rèn)證令牌已使得用戶之后可以使用這個私有令牌持續(xù)訪問。統(tǒng)一認(rèn)證子系統(tǒng)是在該項(xiàng)目的多個應(yīng)用系統(tǒng)中,用戶只需要登錄一次就可以訪問所有互相信任的應(yīng)用系統(tǒng)的一種實(shí)現(xiàn)技術(shù)。具體包含用戶登錄、權(quán)限校驗(yàn)。(1)用戶登錄平臺提供統(tǒng)一登錄頁面和標(biāo)準(zhǔn)接口,與科技資源數(shù)據(jù)庫等實(shí)現(xiàn)統(tǒng)一登錄認(rèn)證。統(tǒng)一登錄頁面根據(jù)用戶輸入的用戶名、密碼和頁面程序獲取的用戶IP進(jìn)行登錄;外部系統(tǒng)可通過接口傳入用戶名、密碼、用戶IP進(jìn)行登錄。(2)權(quán)限校驗(yàn)平臺根據(jù)單位不同的要求和各個門戶系統(tǒng)的接入深度,提供權(quán)限全方面的權(quán)限校驗(yàn)接口。主要是根據(jù)接口傳入數(shù)據(jù)和授權(quán)管理過程的設(shè)置數(shù)據(jù)進(jìn)行權(quán)限匹配校驗(yàn)。多維度導(dǎo)航根據(jù)科技資源的特點(diǎn),從多個屬性不同的角度對檢索知識進(jìn)行導(dǎo)航,以提高用戶檢索和查找標(biāo)準(zhǔn)的效率。本項(xiàng)目的導(dǎo)航建設(shè)可包括但不限于以下幾個維度。學(xué)科分類導(dǎo)航平臺支持按照教育部學(xué)科分類導(dǎo)航體系進(jìn)行資源分類導(dǎo)航
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年流體力學(xué)在風(fēng)洞實(shí)驗(yàn)中的應(yīng)用
- 2025年中職第二學(xué)年(中醫(yī)養(yǎng)生保?。┦朝熣{(diào)配階段測試題及答案
- 2025年大學(xué)應(yīng)用化學(xué)(應(yīng)用化學(xué)研究)試題及答案
- 2025年高職物流自動化技術(shù)(物流自動化技術(shù)基礎(chǔ))試題及答案
- 2025年大學(xué)生物信息學(xué)(生物信息技巧)試題及答案
- 2025年中職(烹飪工藝與營養(yǎng))西式烹調(diào)基礎(chǔ)綜合測試題及答案
- 2025年高職物聯(lián)網(wǎng)(物聯(lián)網(wǎng)終端開發(fā)軟件應(yīng)用)試題及答案
- 2025年高職(物聯(lián)網(wǎng)應(yīng)用技術(shù))物聯(lián)網(wǎng)設(shè)備管理試題及答案
- 2025年高職人力資源管理(人力資源教育心理學(xué)案例分析)試題及答案
- 2025年中職認(rèn)證認(rèn)可管理(認(rèn)證管理基礎(chǔ))試題及答案
- 食品檢驗(yàn)檢測技術(shù)專業(yè)介紹
- 2025年事業(yè)單位筆試-貴州-貴州財(cái)務(wù)(醫(yī)療招聘)歷年參考題庫含答案解析(5卷套題【單項(xiàng)選擇100題】)
- 二年級數(shù)學(xué)上冊100道口算題大全(每日一練共12份)
- 藥店物價收費(fèi)員管理制度
- 數(shù)據(jù)風(fēng)險監(jiān)測管理辦法
- 國家開放大學(xué)《公共政策概論》形考任務(wù)1-4答案
- 肝惡性腫瘤腹水護(hù)理
- 兒童語言發(fā)育遲緩課件
- 2025年河南省鄭州市中考一模英語試題及答案
- 《高等職業(yè)技術(shù)院校高鐵乘務(wù)專業(yè)英語教學(xué)課件》
- DB15T 3758-2024基本草原劃定調(diào)整技術(shù)規(guī)程
評論
0/150
提交評論