科技政策庫的系統(tǒng)集成與建設_第1頁
科技政策庫的系統(tǒng)集成與建設_第2頁
科技政策庫的系統(tǒng)集成與建設_第3頁
科技政策庫的系統(tǒng)集成與建設_第4頁
科技政策庫的系統(tǒng)集成與建設_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

科技庫的系統(tǒng)集成與建設WUHong;YANGBao-Long;DUZhi-Gao;LIHan-Lu【摘要】為了滿足科技政策研究需要,中國科協(xié)設計并實現(xiàn)了一種科技政策庫系統(tǒng).本文首先介紹了科技政策庫的總體設計方案、系統(tǒng)工作流程;然后詳細介紹了系統(tǒng)組成,整個系統(tǒng)由數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)清洗子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)3個子系統(tǒng)組成.數(shù)據(jù)采集子系統(tǒng)基于網(wǎng)絡爬蟲框架Scrapy軟件針對大量異構站點設計了可管理的網(wǎng)絡爬蟲,并基于ABBYYFineReader軟件(俄羅斯軟件公司ABBYY發(fā)行的一款文檔識別軟件)實現(xiàn)了歷史文獻OCR識別(OpticalCharacterRecognition,光學字符識別)和入庫.數(shù)據(jù)清洗子系統(tǒng)基于機器學習算法實現(xiàn)了數(shù)據(jù)去重、非相關數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等功能.數(shù)據(jù)分析子系統(tǒng)則對有效入庫的科技政策進一步進行了文本分類、關聯(lián)關系分析、全文檢索.從2018年10月上線以來,該系統(tǒng)從226個數(shù)據(jù)源采集564749條數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗之后入庫404083條數(shù)據(jù),能夠有力地支撐科技政策研究工作.【期刊名稱】《計算機系統(tǒng)應用》【年(卷),期】2019(028)007【總頁數(shù)】7頁(P58-64)【關鍵詞】科技政策庫;網(wǎng)絡爬蟲;數(shù)據(jù)清洗;機器學習;自然語言處理【作者】WUHong;YANGBao-Long;DUZhi-Gao;LIHan-Lu【作者單位】【正文語種】中文科技政策是國家為實現(xiàn)一定歷史時期的科技任務而規(guī)定的基本行動準則,是確定科技事業(yè)發(fā)展方向,指導整個科技事業(yè)的戰(zhàn)略和策略原則.科技政策是否高效合理,對科學技術能否快速發(fā)展具有重要的影響.為了提升科技政策制定過程的系統(tǒng)性和科學性2005年美國提出了〃科學政策學”(ScienceofSciencePolicy,SoSP),把科技政策研究作為一門“科學”[1],并將SoSP作為建立美國政府〃基于證據(jù)的決策系統(tǒng)”的重要舉措[2].2008年國家科學技術委員會(NSTC)和白宮科技政策辦公室(OSTP)聯(lián)合發(fā)布了《科技政策學:聯(lián)邦研究路線圖》,指導國家科技政策學的發(fā)展[3].2009年日本科學技術振興機構(JST)在日本發(fā)起科技政策學的研究與梳理工作,加強日本科技政策的證據(jù)基礎,推進科技政策科學的發(fā)展[4].2010年,歐盟與美國聯(lián)合舉辦了歐美科技政策學討論會,以推進歐洲科技政策學的規(guī)范化研究[5].自此,世界科技政策研究邁入了科技政策科學的新階段[6],并形成了大量高水平的研究成果.近年來,科技政策研究在國內也得到了越來越多的關注[7,8].作為科技政策研究的主體,國內外的歷史科技政策種類繁多、數(shù)量龐大,近些年的歷史政策散落在互聯(lián)網(wǎng)各處,2000年以前的歷史政策則一般只有紙版文檔,這些政策文獻很難得到有效的收集整理,對科技政策研究帶來了不便和障礙.隨著網(wǎng)絡爬蟲技術的發(fā)展,利用信息技術從互聯(lián)網(wǎng)收集歷史科技政策文獻成為了可能;而自然語言處理、大數(shù)據(jù)、機器學習等技術的發(fā)展,則為科技政策研究提供了新的技術手段[9].部分科技政策研究單位已經(jīng)開始收錄和整理科技政策文獻,但是這項研究整體上仍然處于起步階段.部分現(xiàn)有科技政策數(shù)據(jù)庫僅采集國內政策,缺乏對國際先進經(jīng)驗的整理;或者僅限于科技政策收集,對政策解讀、領導講話、政策研究等相關文獻缺乏關注;還有部分政策庫采集了政府部門制定的所有政策,對科技政策研究而言針對性不強.另外,現(xiàn)有科技政策庫建設的關注焦點仍集中在數(shù)據(jù)采集方面,對數(shù)據(jù)清洗,以及統(tǒng)計分析等研究支持能力缺乏深入研究.本文基于Scrapy爬蟲框架[10]設計和實現(xiàn)了可管理的網(wǎng)絡爬蟲,從225個互聯(lián)網(wǎng)站點采集國內外科技政策文獻;并進一步對原始政策數(shù)據(jù)進行結構化信息提取、數(shù)據(jù)去重、非相關數(shù)據(jù)清洗等數(shù)據(jù)清洗操作,構建了完整和統(tǒng)一的科技政策庫;在政策庫的基礎上實現(xiàn)文本分類、關聯(lián)分析、全文檢索、統(tǒng)計分析功能,為科技政策的研究與制定提供了參考和依據(jù).1系統(tǒng)總體設計方案1.1系統(tǒng)功能目標面向225個國內國外、結構不一、安全策略各異的互聯(lián)網(wǎng)站點,設計可配置、可管理的網(wǎng)絡爬蟲,采集科技政策相關的數(shù)據(jù),實現(xiàn)數(shù)據(jù)的增量更新.利用OCR技術識別歷史文獻圖書,提取文獻的結構化信息,實現(xiàn)歷史文獻的批量入庫.采用機器學習、自然語言處理等技術,對從互聯(lián)網(wǎng)采集的56萬條科技政策相關網(wǎng)頁進行數(shù)據(jù)清洗,通過數(shù)據(jù)去重、非相關數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等一系列操作,去除噪音數(shù)據(jù),提升數(shù)據(jù)質量.在數(shù)據(jù)清洗基礎上實現(xiàn)科技政策庫文獻的分類、關聯(lián)關系分析、全文索引,并向用戶提供文獻檢索、查閱和下載功能;針對有效入庫的文獻實現(xiàn)時域分析、地域分析等功能.1.2系統(tǒng)流程設計科技政策庫系統(tǒng)通過網(wǎng)絡爬蟲采集互聯(lián)網(wǎng)上的政策數(shù)據(jù),對紙版歷史文獻進行OCR識別;這兩類原始數(shù)據(jù)在采集之后被寫入消息隊列;數(shù)據(jù)清洗子系統(tǒng)作為消息隊列消費者,對原始數(shù)據(jù)進行數(shù)據(jù)清洗,并將有效數(shù)據(jù)寫入文獻存儲子系統(tǒng);數(shù)據(jù)分析子系統(tǒng)則對文獻存儲子系統(tǒng)內的文獻進行全文索引、文本分類、關聯(lián)分析,并向管理員和研究人員提供文獻檢索、查閱、下載、統(tǒng)計分析接口.系統(tǒng)的具體流程見圖1.數(shù)據(jù)采集子系統(tǒng)包括網(wǎng)絡爬蟲、增量爬取調度器、數(shù)據(jù)屬性識別、爬蟲配置、爬蟲異常管理等組件.對225個國內外站點按照網(wǎng)站結構、安全策略等特點進行分類,基于Scrapy爬蟲框架設計一系列爬蟲,每個爬蟲負責一類站點的數(shù)據(jù)采集.OCR子系統(tǒng)基于ABBYYFineReader軟件實現(xiàn)歷史文獻的電子化,并進一步提取電子文獻的結構化數(shù)據(jù),批量導入消息隊列.采用Redis軟件實現(xiàn)消息隊列.本系統(tǒng)采集的文獻可以分為核心政策、領導講話、政策解讀、科技政策相關新聞、科技政策研究論文、科技政策研究項目等10類.不同類型文獻的數(shù)據(jù)屬性存在較大差異,通常來自同一站點欄目或者搜索結果列表的文獻結構化信息類似.因此,基于文獻來源在消息隊列中劃分消息主題,同一消息主題下的文獻具有相同的數(shù)據(jù)結構.⑷數(shù)據(jù)清洗子系統(tǒng)包括數(shù)據(jù)去重、非相關數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等組件,清除原始數(shù)據(jù)中的臟數(shù)據(jù).文獻存儲子系統(tǒng)包括:Mysql數(shù)據(jù)庫,存儲文獻的數(shù)據(jù)屬性信息;文件系統(tǒng),存儲原始html、txt、pdf、doc等各種格式的政策文本;Solr,存儲文本和部分結構化信息,實現(xiàn)全文索引.圖1系統(tǒng)流程示意圖數(shù)據(jù)分析子系統(tǒng)包括文本分類,文本關聯(lián)關系分析,文獻檢索、查閱、下載,文獻統(tǒng)計分析等組件.⑺系統(tǒng)包括管理員和研究人員兩類用戶,管理員具有爬蟲配置、異常處理、文獻增刪改查等系統(tǒng)管理權限,研究人員則可以從系統(tǒng)檢索、查閱、下載文獻,進行文獻的統(tǒng)計分析和結果可視化查看.2系統(tǒng)組成2.1數(shù)據(jù)采集子系統(tǒng)科技政策庫系統(tǒng)的采集源共225個站點,其中中央政府和部委站點80個,地方政府站點50個,第三方門戶和垂直資訊站點9個,政策研究機構站點13個,美國政府站點18個,印度政府站點48個,芬蘭政府站點7個.由于源站點范圍廣、種類多,數(shù)據(jù)采集子系統(tǒng)的設計面臨諸多挑戰(zhàn).首先,這些網(wǎng)站的結構差異明顯,部分站點科技政策相關的數(shù)據(jù)集中在某個欄目,其他站點則需要通過檢索接口查詢獲??;各站點的政策列表頁面翻頁機制不盡相同;部分站點的內容由Javascript代碼動態(tài)生成.其次,各站點的政策列表和政策詳情網(wǎng)頁結構差異較大,無法開發(fā)一致的數(shù)據(jù)屬性識別策略.最后,各站點的數(shù)據(jù)保護策略不盡相同,常見的策略包括監(jiān)控訪問頻度、賬號認證、動態(tài)URL(UniformResourceLocator)等.2.1.1基于Scrapy框架的爬蟲設計本文基于Scrapy框架和Splash實現(xiàn)網(wǎng)絡爬蟲.Scrapy是Python開發(fā)的一個快速Web抓取框架,用于抓取web站點并從頁面中提取結構化的數(shù)據(jù).Scrapy是目前廣泛應用的爬蟲框架,非常適合特定站點和欄目的定向爬取.Splash是一個實現(xiàn)了HTTPAPI的輕量級瀏覽器,支持Javascript渲染Scrapy框架通過Scrapy-Splash模塊引入Splash軟件,彌補了Scrapy無法抓取網(wǎng)頁動態(tài)內容的缺陷.根據(jù)網(wǎng)站結構和網(wǎng)頁結構對源站點進行分組,比如大部分部委的網(wǎng)站結構相似,可以分成一個組.針對每組站點設計單獨的爬蟲,實現(xiàn)站點數(shù)據(jù)的爬取和結構化信息提取.2.1.2基于XPath的數(shù)據(jù)屬性識別本文基于XPath實現(xiàn)網(wǎng)頁的數(shù)據(jù)屬性識別.XPath使用路徑表達式來選取XML文檔中的節(jié)點或者節(jié)點集,由于HTML和XML結構基本一致,因此XPath非常適合從網(wǎng)頁中提取結構化信息.例如XPath表達式"http://*[@id='article_author']/text()n在網(wǎng)頁中查找所"article_author"標簽,提取列表中各篇文章的作者姓名.2.1.3反爬設計為了應對各站點的數(shù)據(jù)保護措施,本文采取了3種反爬方法.首先,在爬蟲工作時,設置了最小訪問時間間隔,并動態(tài)調整頁面請求時間間隔.第二種方法是采用動態(tài)UserAgent,部分站點會根據(jù)UserAgent判斷用戶的訪問是否合理,為了避免誤判,使用Python的fake_useragent插件動態(tài)模擬UserAgent.第三種反爬方法是動態(tài)代理IP,部分站點會對頻繁訪問的IP暫時或永久的禁止,針對這些站點爬蟲維護一個可用的代理IP庫,每次請求隨機從該庫中選擇一個IP訪問.2.1.4爬蟲配置和管理網(wǎng)絡爬蟲必須適應網(wǎng)站改版、站點安全策略的變化,因此本文支持對爬蟲的行為進行配置,包括初始URL、搜索關鍵字、最大失敗重試次數(shù)、結構化信息的XPath表達式配置等.對于爬蟲采集數(shù)據(jù)中發(fā)生的各種錯誤,例如404、502、Timeout等錯誤,系統(tǒng)進行記錄、報警,并提供了錯誤查詢接口.為了實現(xiàn)科技政策數(shù)據(jù)的增量更新,實現(xiàn)了爬蟲調度器,定期啟動爬蟲對源站點進行新的數(shù)據(jù)采集操作.為了多次采集造成數(shù)據(jù)重復,將曾經(jīng)爬取的網(wǎng)頁URL保存在Redis中,每次采集時進行比對過濾.2.2數(shù)據(jù)清洗子系統(tǒng)數(shù)據(jù)采集子系統(tǒng)從互聯(lián)網(wǎng)上收集的原始數(shù)據(jù)質量無法保證,首先,雖然數(shù)據(jù)采集子系統(tǒng)避免了相同URL網(wǎng)頁的重復采集,但是很多文獻在不同站點反復出現(xiàn),導致了原始數(shù)據(jù)集存在大量數(shù)據(jù)重復.第二,由于大部分站點的數(shù)據(jù)是通過其檢索接口采集的,因此爬蟲程序采集了大量與科技政策無關的數(shù)據(jù).第三,部分數(shù)據(jù)存在關鍵屬性缺失、屬性錯誤、屬性值格式不統(tǒng)一等缺陷.原始數(shù)據(jù)中夾雜的臟數(shù)據(jù)會誤導科技政策的研究,因此必須予以清除.2.2.1基于Simhash的數(shù)據(jù)去重Simhash是一種LSH算法(Locality-SensitiveHashing,局部敏感哈希)[11],是目前最好的海量文本去重算法.Simhash算法對文本經(jīng)過分詞、散列、加權、合并、降維等一系列計算,最終為文本生成64-bit的信息指紋.判斷兩個文本相似度的方法是對其Simhash值進行異或操作:其中,hammingDist為計算兩個整數(shù)海明距離的函數(shù),即為兩個整數(shù)二進制編碼中不同的位數(shù),K是最大容忍的不同位數(shù),取值3.本文采用Jieba分詞軟件對文本進行分詞,基于詞表去除停用詞,采用TF-IDF(TermFrequency-InverseDocumentFrequency)[12]算法進行權重計算并降維,將文本表示為特征向量;之后為每篇文獻進行Simhash計算;最后逐篇文本進行Simhash計算,比較去重.為了降低計算次數(shù),將文本的64位Simhash值均分為4份,并建立16bit索引進行存儲.分析可知,這種方案的存儲開銷變?yōu)樵瓉淼?倍,但是單個文本的相似度計算次數(shù)降為:4x4n/216,其中n為文獻總量.常規(guī)的兩兩比較計算次數(shù)整體為:nx(n-1)/2,因此整體計算次數(shù)約降為原來的1/基于機器學習的非相關數(shù)據(jù)清洗本文采用邏輯回歸算法[13]將爬蟲采集的原始數(shù)據(jù)分為科技政策相關、非科技政策相關兩類,從而實現(xiàn)對非相關數(shù)據(jù)的清洗.邏輯回歸模型作為廣義線性模型類別,屬于概率性回歸,主要用來推斷兩分類或者多分類應變量與多維解釋變量的關系.使用邏輯回歸算法進行科技政策文本分類的流程:構建訓練集.從爬蟲采集的原始數(shù)據(jù)中選擇1000篇科技政策相關的數(shù)據(jù),政策類型覆蓋核心政策、政策解讀、政策研究等各種類型;并選擇1000篇非科技政策相關的數(shù)據(jù).文本預處理.對訓練集文本使用Jieba分詞軟件分詞,根據(jù)詞表去除停用詞.特征提取.使用TF-IDF算法構建文本的特征向量,并降維.訓練模型.從2000篇標注的文本中隨機選擇1000篇進行模型訓練,并利用其他1000篇驗證模型分類概率.不斷調整梯度下降等算法參數(shù),以達到理想的分類效果.使用訓練好的模型對爬蟲采集的數(shù)據(jù)進行分類,并清除非科技政策相關數(shù)據(jù).2.2.3數(shù)據(jù)屬性缺陷處理對爬蟲提取的結構化信息進行分析,常見的屬性缺陷可以分成四類:第一類缺陷是數(shù)據(jù)屬性值缺失,例如文獻沒有標題;第二類缺陷是數(shù)據(jù)屬性錯誤,例如日期屬性的值為一段描述文字;第三類缺陷是多個屬性之間違反完整性約束,例如政策的發(fā)布日期、生效日期、失效日期違反了先后順序;第四類缺陷是不同文獻的統(tǒng)一屬性格式不統(tǒng)一,例如日期格式五花八門,對后續(xù)的統(tǒng)計分析造成障礙.本文采取基于規(guī)則的方法結合人工參與,來識別和校正數(shù)據(jù)屬性錯誤.對于前三類類缺陷,系統(tǒng)定義一系列規(guī)則去識別缺陷;如果標題和正文等關鍵信息缺失或者錯誤,則丟棄改文獻;如果非關鍵屬性缺失,則依賴人工補充.對于第四類缺陷,系統(tǒng)采用正則表達式實現(xiàn)數(shù)據(jù)屬性的規(guī)格化,首先針對每個數(shù)據(jù)屬性,枚舉所有格式的正則表達式,例如日期格式的[0-9]{4}[-./年][0-9]{2}[-./月][0-9]{2}或者[0-9]{2}[/][0-9]{2}[/][0-9]{4}等;然后針對每個文獻的屬性值,與這些正則表達式進行模式匹配;不同的格式采用不同的轉換方式,最終全部轉換為標準格式.系統(tǒng)對于數(shù)據(jù)屬性錯誤標識、審閱修正保留了記錄,方便后續(xù)對這些操作進行跟蹤評估.2.3數(shù)據(jù)分析子系統(tǒng)2.3.1基于規(guī)則的政策分類科技政策研究需要對文獻進行多種維度的分類:按照國別和地區(qū)分類;按照政策性質分成核心政策、政策解讀、領導講話、政策研究論文、政策法案、政策研究課題等類別;按照政策手段可以分成財稅政策、人才政策等類別;按照政策層次可以分成中長期規(guī)劃、具體政策等類別.系統(tǒng)依據(jù)數(shù)據(jù)來源和文本特點實現(xiàn)了國別和地區(qū)、政策性質的分類.政策的采集來源可以作為重要的分類依據(jù),例如不同國家、不同地方政府發(fā)布的政策采集來源是非常明確的;政策研究課題信息則來源于政策研究機構;政策研究論文則來自于科研論文數(shù)據(jù)庫等.另外核心政策具有很多明確的特點:發(fā)文機構有確定的范圍,政策具有發(fā)文字號,標題中一般包含決議、決定、命令(令)、公報、公告、通告、意見、通知、通報、報告、請示、批復、議案、函、紀要等字眼2.3.2基于Apriori算法的關聯(lián)分析科技政策之間存在替代、合并、規(guī)劃與落實等許多關聯(lián)關系,如果能夠發(fā)現(xiàn)這些關聯(lián)關系,并在用戶瀏覽政策時以推薦、可視化圖譜的形式進行展示,對科技政策研究具有重要意義.Apriori算法[14,15],是最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法,其核心是基于兩階段頻集思想的遞推算法.本文基于Apriori算法,以政策文本中所包含的關鍵詞作為政策的特征描述,并結合政策發(fā)布的時效性特點,計算政策之間的關聯(lián)關系.具體的分析流程:所有政策數(shù)據(jù)集合為D(Data),通過預設以及關鍵詞提取得到的關鍵詞庫集合為K(Keyword),單個政策文本數(shù)據(jù)為P(Policy),三者可以抽象表示為:定義一個政策特征變量S,可表示為一組關鍵詞的集合S={K1,K2,...,Ks},需要注意S與P的區(qū)別:P是某個政策文本中提取出的關鍵詞的集合,而S是所有關鍵詞組成的集合.如果ScP,則說明政策P包含政策特征S,政策與政策特征的包含關系表明S中的各關鍵詞是相互關聯(lián)的.政策數(shù)據(jù)集合D中包含特征S的政策文本數(shù)據(jù)P的數(shù)量為該特征政策的支持數(shù)os,則該政策特征的支持度support(S)為:其中,D為所有政策數(shù)據(jù)的數(shù)量,若support(S)小于系統(tǒng)規(guī)定的最小支持度,則S為不頻繁政策特征集;若S大于等于最小支持度,則S為頻繁特征集.在本系統(tǒng)中,除了統(tǒng)計計算得到的頻繁特征集外,還可以預設頻繁特征集.若有兩個互不包含的政策特征SA,SB,SAnSB記為特征關聯(lián)關系,這個關聯(lián)關系的可信度為在D中包含了政策特征SA的政策文本同時又包含了政策特征SB的數(shù)量百分比,特征關聯(lián)可信度confidence(SAnSB)為:如果confidence(SAnSB)小于系統(tǒng)規(guī)定的最小可信度,則它們?yōu)槿蹶P聯(lián)關系,否則為強關聯(lián)關系.系統(tǒng)在得到頻繁特征集集合和強可信關聯(lián)關系集合后,根據(jù)每個集合中的政策文本的發(fā)文時間以及發(fā)布機構字段來確定同一集合內的政策間的追溯關系.2.3.3統(tǒng)計分析系統(tǒng)在數(shù)據(jù)采集和數(shù)據(jù)清洗的基礎上實現(xiàn)了初步的統(tǒng)計分析功能.系統(tǒng)支持統(tǒng)計每個省、每年發(fā)布的科技政策數(shù)量,以此為基礎支持從時域、地域兩個維度進行統(tǒng)計分析.支持分析指定區(qū)域發(fā)布科技政策數(shù)量隨時間的變化趨勢;支持分析在一定時間范圍內,各地區(qū)發(fā)布的科技政策總量的對比.3成果應用從2018年10月在中國科協(xié)正式上線應用以來,科技政策庫系統(tǒng)對225個互聯(lián)網(wǎng)站點進行了數(shù)據(jù)采集;并實現(xiàn)了一套圖書的OCR識別入庫,即《中共中央文件選集:1949年10月-1966年5月(全五十冊)》;共計獲取564749條科技政策相關的原始數(shù)據(jù);經(jīng)過數(shù)據(jù)清洗,有效入庫數(shù)據(jù)404083條.3.1數(shù)據(jù)清洗統(tǒng)計通過基于Simhash算法的去重清洗了重復數(shù)據(jù)62336條,通過基于邏輯回歸分類方法清洗了非科技政策相關數(shù)據(jù)94706條,清洗標題和文本等關鍵屬性缺失的數(shù)據(jù)3624條.經(jīng)過數(shù)據(jù)清洗之后,有效入庫數(shù)據(jù)404083條.為了驗證數(shù)據(jù)清洗的效果,本文從有效入庫的文獻中隨機抽取1000篇文獻,進行人工的重復、非相關文獻統(tǒng)計.經(jīng)過10次試驗求平均值可知數(shù)據(jù)清洗之后,數(shù)據(jù)重復率約為0.07%,非相關文獻數(shù)量比率約為0.6%.表1科技政策庫數(shù)據(jù)清洗效果清洗操作清洗數(shù)量數(shù)據(jù)總量564749基于Simhash的數(shù)據(jù)去重62336基于邏輯回歸的非相關數(shù)據(jù)清洗94706關鍵屬性缺失清洗3624非關鍵屬性缺失或錯誤8742有效入庫數(shù)據(jù)量4040833.2有效入庫統(tǒng)計對于有效入庫的404083條數(shù)據(jù)按照國別和政策性質兩個維度進行了統(tǒng)計,結果見表2和表3.表3中的177423篇核心政策中,包括中共中央文件選集4248篇美國科技政策法案8157篇.相關數(shù)據(jù)包括科技政策相關的領導講話、科技政策解讀、科技政策新聞等相關文獻.表2有效入庫數(shù)據(jù)按國別分類統(tǒng)計國別政策數(shù)量中國376592美國15232印度9375芬蘭2884表3有效入庫數(shù)據(jù)按政策性質統(tǒng)計政策性質政策數(shù)量核心政策177423相關數(shù)據(jù)211854政策研究論文5815政策研究課題52政策研究報告89393.3關鍵UI頁面系統(tǒng)基于SpringBoot和Javascript、Vue(一種JavaScrip前端開發(fā)框架)等技術實現(xiàn)了B/S架構的管理功能和UI,圖2-圖4展示了科技政策庫系統(tǒng)的部分界面.圖2政策檢索結果列表圖3政策在線閱讀圖4政策發(fā)布趨勢分析圖5政策發(fā)布地區(qū)對比4結論與展望科技政策庫系統(tǒng)基于Scrapy框架針對大量異構站點設計了可管理的網(wǎng)絡爬蟲,基于機器學習算法實現(xiàn)了數(shù)據(jù)去重、非相關數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等數(shù)據(jù)清洗功能,對有效入庫的科技政策進一步進行了文本分類、關聯(lián)關系分析,系統(tǒng)基于B/S架構向用戶提供了政策檢索、在線閱讀、統(tǒng)計分析等功能.系統(tǒng)上線之后總計采集科技政策相關數(shù)據(jù)564749條,數(shù)據(jù)清洗之后有效入庫404083條數(shù)據(jù),為科技政策研究工作提供了堅實的基礎.下一步需要從國內外、歷史文件等方面擴大數(shù)據(jù)采集范圍,引入眾包等最新方法進一步提升數(shù)據(jù)清洗能力從自定義分析、數(shù)據(jù)可視化等方面豐富系統(tǒng)的統(tǒng)計分析手段,以便更好地為科技政策研究提供支持.參考文獻【相關文獻】1樊春良,馬小亮.美國科技政策科學的發(fā)展及其對中國的啟示.中國軟科學,2013,(10):168-181.[doi:10.3969/j.issn.1002-9753.2013.10.016]2肖小溪,楊國梁,李曉軒.美國科技政策方法學(SoSP)及其對我國的啟示.科學學研究2011,29(7):961-964.3NSTC&OSTP.Thescienceofsciencepolicy:Afederalresearchroadmap.Washington:TheWhiteHouse,2008.4樊春良.科技政策科學的思想與實踐.科學學研究,2014,32(11):1601-1607.[doi:10.3969/j.issn.1003-2053.2014.11.001]5陳光,方新.關于科技政策學方法論研究.科學學研究,2014,32(3):321-326.[doi:10.3969/j.issn.1003-2053.2014.03.001]6樊春良.科技政策學的知識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論