中醫(yī)科研中互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的應(yīng)用研究論文設(shè)計(jì)_第1頁(yè)
中醫(yī)科研中互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的應(yīng)用研究論文設(shè)計(jì)_第2頁(yè)
中醫(yī)科研中互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的應(yīng)用研究論文設(shè)計(jì)_第3頁(yè)
中醫(yī)科研中互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的應(yīng)用研究論文設(shè)計(jì)_第4頁(yè)
中醫(yī)科研中互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的應(yīng)用研究論文設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

I摘要互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)在中醫(yī)科研工作中起著非常關(guān)鍵的作用?;ヂ?lián)網(wǎng)數(shù)據(jù)采集技術(shù)將是構(gòu)建中醫(yī)健康數(shù)據(jù)平臺(tái)必不可少的一環(huán),清楚的了解和熟練的使用互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù),將極大的推動(dòng)中醫(yī)科研工作的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)在中醫(yī)科研中的使用會(huì)是一種必然的趨勢(shì)。不管是在國(guó)內(nèi)還是國(guó)外,都對(duì)中醫(yī)藥的數(shù)據(jù)挖掘具有極高的重視。隨著中醫(yī)醫(yī)療數(shù)據(jù)化的發(fā)展,會(huì)不斷產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)里面包含各種各樣的信息,都有很大的價(jià)值。這些數(shù)據(jù)只有經(jīng)過(guò)專(zhuān)業(yè)化的采集和處理,才可以充分發(fā)揮它們的應(yīng)用價(jià)值。處理中醫(yī)藥數(shù)據(jù)要使用互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù),然而當(dāng)前的互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)并沒(méi)有達(dá)到能夠改變中醫(yī)藥數(shù)據(jù)處理起來(lái)困難的現(xiàn)狀,只有把數(shù)據(jù)采集技術(shù)充分的作用充分展現(xiàn)出來(lái),才會(huì)將中醫(yī)藥數(shù)據(jù)挖掘的能力提高至更完美的水平。當(dāng)前在中醫(yī)科研工作中互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)應(yīng)用十分廣泛,也有很多成功的案例,然而互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)還不成熟,也面臨著很多挑戰(zhàn),這是中醫(yī)科研工作中首先要想辦法解決的事情。關(guān)鍵詞:大數(shù)據(jù);中醫(yī)藥發(fā)展;互聯(lián)網(wǎng);數(shù)據(jù)采集技術(shù)

AbstractBigdatainformationoftraditionalChinesemedicinehasgreatvalueinthefuturedevelopmentoftraditionalChinesemedicine.DatacollectiontechnologyisthefoundationofTCMhealthbigdataplatform.UnderstandingandusingdatacollectiontechnologyeffectivelyplaysavitalroleinTCMresearch.TheapplicationofdatabasecollectiontechnologyinTCMresearchwillleadthetrend.Bothathomeandabroad,theyattachgreatimportancetodataminingoftraditionalChinesemedicine.DataminingtechnologyshouldbeusedtoprocessTCMdata,butthecurrentdataminingtechnologyhasnoabilitytochangethecurrentsituationofTCMdatadifficulttoprocess.Onlywhenthedataminingtechnologyisfullydemonstrated,cantheabilityofTCMdatatechnologyberaisedtoamoreperfectlevel.Atpresent,therearesomeapplicationsandsomesuccessfulcasesofdatacollectiontechnologyinthescientificresearchoftraditionalChinesemedicine,butthedatacollectiontechnologystillfacescertainchallenges,whichbecomesanurgentproblemtobesolvedinthescientificresearchoftraditionalChinesemedicine.Keywords:Bigdata;developmentofChinesemedicine;Internet;Dataacquisitiontechnique

緒論數(shù)據(jù)采集技術(shù)在國(guó)內(nèi)外研究現(xiàn)狀國(guó)外互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)對(duì)比中國(guó)來(lái)說(shuō)起步較早,發(fā)展較快,各方面條件都比較成熟,所以數(shù)據(jù)采集技術(shù)更加先進(jìn),如果把中國(guó)的數(shù)據(jù)采集技術(shù)和外國(guó)相比較,技術(shù)上還存在著很大的差距,不過(guò)隨著國(guó)內(nèi)數(shù)據(jù)采集技術(shù)的不斷提高,這種技術(shù)差距在不斷的變小。就現(xiàn)在來(lái)說(shuō),互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)蘊(yùn)含著非常大的社會(huì)價(jià)值,掌握了這種技術(shù)可以節(jié)省大量的人力、物力和財(cái)力,達(dá)到事半功倍的效果,因?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)采集技術(shù)可以幫我們抓取關(guān)鍵的數(shù)據(jù),從而更容易達(dá)到目的。所以當(dāng)前很多國(guó)家政府都非常注重互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的研究與發(fā)展,都出臺(tái)了很多針對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)優(yōu)先發(fā)展的政策,使得互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)得到了飛速的發(fā)展,應(yīng)用范圍越來(lái)越廣,與人們的生產(chǎn)生活聯(lián)系越來(lái)越密切?;ヂ?lián)網(wǎng)數(shù)據(jù)采集技術(shù)應(yīng)用于中醫(yī)科研工作的目的和意義伴隨著大數(shù)據(jù)時(shí)代的來(lái)臨,醫(yī)療數(shù)據(jù)化成為醫(yī)學(xué)發(fā)展的必由之路,從西醫(yī)傳入中國(guó)開(kāi)始,中醫(yī)與西醫(yī)之間的對(duì)比從未停止,一部分人甚至認(rèn)為西方醫(yī)學(xué)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的中醫(yī)。中醫(yī)傳承了幾千年,在這個(gè)過(guò)程中,不斷地取其精華、去其糟粕,留下很多寶貴的數(shù)據(jù)。中醫(yī)與西方醫(yī)學(xué)相比較優(yōu)勢(shì)在于蘊(yùn)含的信息更加豐富多樣,但由于數(shù)據(jù)采集技術(shù)不是那么完善,所以很多寶貴的信息都沒(méi)有得到利用?,F(xiàn)在,就中醫(yī)醫(yī)療體系的各個(gè)層面來(lái)講,都有共同的特征,由于數(shù)據(jù)缺乏營(yíng)養(yǎng),導(dǎo)致出現(xiàn)萎縮,與西醫(yī)相比出現(xiàn)了差距、出現(xiàn)了危機(jī),中醫(yī)向著現(xiàn)代化、數(shù)據(jù)化發(fā)展已經(jīng)是迫在眉睫。中醫(yī)要想進(jìn)一步發(fā)展,就得與時(shí)俱進(jìn),跟上時(shí)代的發(fā)展潮流,向著信息化、現(xiàn)代化的方向發(fā)展,只有這樣才能充分發(fā)揮出中醫(yī)所蘊(yùn)含的價(jià)值,中國(guó)在十三五計(jì)劃期間曾出臺(tái)了《中醫(yī)藥發(fā)展“十三五”規(guī)劃》,這極大的推動(dòng)了中醫(yī)向著信息化、數(shù)據(jù)化發(fā)展,加快了中醫(yī)現(xiàn)代化的腳步,“十三五”計(jì)劃指出要著重建立和完善中醫(yī)醫(yī)療健康信息系統(tǒng),中醫(yī)藥各個(gè)行業(yè)以及社會(huì)各界都在堅(jiān)決貫徹落實(shí)這一偉大的方針,飛躍性的的提高了中醫(yī)藥行業(yè)信息化、數(shù)據(jù)化的水平,但是在中醫(yī)向著光明前進(jìn)的道路并不是一帆風(fēng)順的,仍然存在著這樣或那樣的問(wèn)題,而想要解決這些的問(wèn)題,這一切都與互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)息息相關(guān)。目的是希望中醫(yī)科研工作應(yīng)用互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)收集準(zhǔn)確數(shù)據(jù)以拓展中醫(yī)醫(yī)療服務(wù)空間和內(nèi)容,建立起來(lái)一種中醫(yī)從未有過(guò)的集看病前、看病中、看病后于一體的中醫(yī)院網(wǎng)上系統(tǒng)與中醫(yī)院網(wǎng)下數(shù)據(jù)信息相結(jié)合的新型中醫(yī)醫(yī)療系統(tǒng),將線(xiàn)上醫(yī)療數(shù)據(jù)與線(xiàn)下醫(yī)療數(shù)據(jù)相融合,致力于加快互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)應(yīng)用到中醫(yī)科研工作中的進(jìn)程,改善中醫(yī)治療效率低下的狀況,推動(dòng)中醫(yī)現(xiàn)代化發(fā)展。建設(shè)中醫(yī)醫(yī)療健康系統(tǒng),建立健全“互聯(lián)網(wǎng)+醫(yī)療健康”體系,提升中醫(yī)院管理和服務(wù)水平,加強(qiáng)中醫(yī)醫(yī)療機(jī)構(gòu)基礎(chǔ)設(shè)施的建設(shè),制訂完善相關(guān)配套政策。加強(qiáng)行業(yè)監(jiān)管和安全保障。強(qiáng)化中醫(yī)醫(yī)療質(zhì)量監(jiān)管。利用互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)開(kāi)展中醫(yī)臨床研究,從大規(guī)模數(shù)據(jù)中歸納獲得臨床有用或具備理論意義的知識(shí),可以充分的挖掘除中醫(yī)文化中潛在的寶貴精華,可以為制定中醫(yī)相關(guān)的決策以及診療方案提供技術(shù)支持。推動(dòng)中醫(yī)科研工作的進(jìn)步。互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)基本理論概述數(shù)據(jù)采集概念把指定的信息在各種各樣的的數(shù)據(jù)庫(kù)中提取出來(lái),并且進(jìn)行分析、整理、存儲(chǔ)的過(guò)程就叫數(shù)據(jù)采集。一提到數(shù)據(jù)采集我們就會(huì)想到是數(shù)據(jù)的爬取或者嫁接,其實(shí)一開(kāi)始的數(shù)據(jù)采集就是人們把認(rèn)為有價(jià)值的信息總結(jié)起來(lái),進(jìn)行歸納和整理。隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),數(shù)據(jù)采集也變得更加多種多樣,對(duì)有效信息的獲取越來(lái)越便捷。互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)就是從各種各樣的數(shù)據(jù)信息中提取、分析及存儲(chǔ)的一個(gè)過(guò)程,互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)就是把被調(diào)查對(duì)象的各種參行處理或存儲(chǔ)記錄的過(guò)程。互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)目前已經(jīng)被用到很多方面,各行各業(yè)都有涉及,數(shù)據(jù)采集工具也有很多。收取來(lái)的數(shù)據(jù)就是被轉(zhuǎn)變成了很多不同的量,就比如說(shuō)速度、熱度、硬度、高度等,這些只能用數(shù)值來(lái)表示。被用來(lái)數(shù)據(jù)采集的方法大部分都是使用采樣方法,就是在固定的采樣時(shí)間里對(duì)同樣的一種數(shù)據(jù)進(jìn)行很多遍的抓取,抓取來(lái)的數(shù)據(jù)大部分都是一瞬間的數(shù)值,還能夠是固定的一段時(shí)間內(nèi)的一個(gè)特點(diǎn)數(shù)據(jù)?;ヂ?lián)網(wǎng)數(shù)據(jù)采集技術(shù)涵蓋了很多方面,就像電腦中的監(jiān)控設(shè)備、錄音設(shè)備所收集到數(shù)據(jù)以及后期對(duì)這些數(shù)據(jù)的處理都可以叫做數(shù)據(jù)采集技術(shù)?;ヂ?lián)網(wǎng)數(shù)據(jù)采集技術(shù)處理的對(duì)象是數(shù)字量,但是大部分的信息都是連續(xù)變化的物理量,就像壓力、速度、溫度、位移,要想把這些信息送進(jìn)計(jì)算機(jī)里處理,就首先要把這些物理量離散化,就是要進(jìn)行量化編碼,把他們變成數(shù)字量才可以實(shí)現(xiàn)。數(shù)據(jù)采集方法2.2.1離線(xiàn)采集對(duì)文件的數(shù)據(jù)采集,就像日志分析等,主要有Cloudera的Flume、ApacheChukwa和Facebook的Scribe等,大部分會(huì)用gzip等壓縮算法。如果想對(duì)數(shù)據(jù)庫(kù)表這樣的進(jìn)行數(shù)據(jù)抓取,就要用到適用于表的數(shù)據(jù)采集技術(shù)。主要有以下幾種:迪思杰采集軟件、GoldenGate、IBM發(fā)明的CDC、MySQL的Binlog等等?;诒淼呐砍槿≤浖饕荢qoop和其他ETL工具。2.2.2在線(xiàn)采集在線(xiàn)采集(基于新聞、基于流數(shù)據(jù)等)對(duì)于新聞的數(shù)據(jù)采集來(lái)說(shuō),就比如性能數(shù)據(jù)采集等,主要有以下幾種:Linkedin的Kafka以及開(kāi)源的ActiveMQ、RabbitMQ等等。對(duì)于流數(shù)據(jù)采集,類(lèi)似信令數(shù)據(jù)采集等,主要有TwitterStorm、IBMStreamBase等,這樣的會(huì)通過(guò)場(chǎng)景來(lái)選擇壓縮算法。2.2.3外部數(shù)據(jù)采集外部數(shù)據(jù)采集主要指的就是網(wǎng)絡(luò)上的數(shù)據(jù)獲取,常用的方法有兩種。第一種是開(kāi)源技術(shù),主要有Scrapy、ApacheNutch、WebMagic、Heritrix等網(wǎng)絡(luò)爬蟲(chóng)框架,第二種是網(wǎng)絡(luò)爬蟲(chóng),就是按照一定的規(guī)則,抓取信息的程序框架,就像搜索引擎等,主要產(chǎn)品有Baidu、Google等,這種網(wǎng)絡(luò)搜索技術(shù)很成熟,然而不對(duì)外開(kāi)放。數(shù)據(jù)采集發(fā)展階段數(shù)據(jù)采集有著很久遠(yuǎn)的歷史,在幾千年前,那時(shí)候的人們就懂得用繩子打結(jié)來(lái)記錄事件。而在十九世紀(jì)八十年代,美國(guó)的一名叫霍爾曼的統(tǒng)計(jì)學(xué)家研究出了一臺(tái)電動(dòng)的儀器,它可以計(jì)算卡板上的洞的數(shù)量,有了這個(gè)儀器之后,美國(guó)進(jìn)行人口普查的時(shí)間由八年縮短到了一年。而到了二十世紀(jì),數(shù)據(jù)采集變得越來(lái)越重要,美國(guó)總統(tǒng)羅斯福曾經(jīng)統(tǒng)計(jì)了美國(guó)兩千萬(wàn)的工人和二百萬(wàn)資本家的信息,有了這些信息,有關(guān)社會(huì)的一系列的政策都可以很輕松的實(shí)施。在二十世紀(jì)六十年代左右,有許多發(fā)達(dá)國(guó)家研究出了一些數(shù)據(jù)采集裝置,大部分的產(chǎn)品都被應(yīng)用于特定領(lǐng)域中。舉個(gè)例子,英國(guó)曾經(jīng)制造出一個(gè)專(zhuān)門(mén)用于統(tǒng)計(jì)人口的系統(tǒng),這個(gè)系統(tǒng)有很多的優(yōu)點(diǎn),它比較容易操作,比較省時(shí)省力,還可以自主規(guī)劃獲取信息,從而來(lái)完成統(tǒng)計(jì)任務(wù)。還可以做到一些用傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)方法完不成的任務(wù),受到了社會(huì)各界的關(guān)注。在二十世紀(jì)八十年代左右,開(kāi)始有了計(jì)算機(jī),因此也出現(xiàn)了一些數(shù)據(jù)獲取設(shè)備,一些先進(jìn)的設(shè)備把部分硬件用軟件代替,極大的降低了成本,并且性能得到了很大的提高。為數(shù)據(jù)采集技術(shù)的發(fā)展提供了一個(gè)良好的環(huán)境。而二十世紀(jì)九十年代后,數(shù)據(jù)采集技術(shù)越來(lái)越多的被用到了很多重要領(lǐng)域,比如航天領(lǐng)域、軍工領(lǐng)域等,到后來(lái)隨著生產(chǎn)水平的提高,又制造出了更先進(jìn)的數(shù)據(jù)采集系統(tǒng)DAS。值得一提的是DAS的分辨率達(dá)到了16位,采樣速度能夠達(dá)到每秒幾十萬(wàn)次,大大推動(dòng)了數(shù)據(jù)采集技術(shù)的發(fā)展。在二十一世紀(jì),數(shù)據(jù)采集更是飛速發(fā)展,舉一個(gè)列子,印度曾經(jīng)在2009的時(shí)候?qū)θ珖?guó)人口進(jìn)行了指紋、虹膜采集,還給每個(gè)印度人都規(guī)定了身份號(hào)碼,把這些數(shù)據(jù)都收集到了某個(gè)機(jī)構(gòu),這是數(shù)據(jù)采集非常經(jīng)典的一個(gè)例子。隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)逐漸被應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域,數(shù)據(jù)采集領(lǐng)域逐漸發(fā)生了很大的變化。一方面是,應(yīng)用于分布式領(lǐng)域的互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)變得越來(lái)越成熟,技術(shù)水平越來(lái)越高,而另一個(gè)方面,能用于計(jì)算機(jī)的一些數(shù)據(jù)采集系統(tǒng)的數(shù)量也越來(lái)越多,這一系列因素都把互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的發(fā)展提升到了一個(gè)全新的水平。

研究方法文獻(xiàn)研究法文獻(xiàn)研究法就是在了解研究方向或者課題的數(shù)量后,然后憑借對(duì)文獻(xiàn)的調(diào)查來(lái)獲取數(shù)據(jù)的方法,文獻(xiàn)研究法利用查閱文獻(xiàn)來(lái)獲取信息,從而全面、正確地了解掌握所要研究問(wèn)題。文獻(xiàn)研究法目前已經(jīng)應(yīng)用到了很多個(gè)學(xué)科里面。觀(guān)察法觀(guān)察法就是研究人員在充分了解本次的研究目標(biāo)、研究大綱和觀(guān)察表后,利用人體的感官或者輔助性的設(shè)備直接去觀(guān)察研究事物,從而去獲取數(shù)據(jù)的方法之一。要注意科學(xué)觀(guān)察必須是還要是有目標(biāo)的、有規(guī)劃的、系統(tǒng)的和可重復(fù)的。比較分析法比較分析也被叫做類(lèi)推或類(lèi)比。在研究中應(yīng)用非常廣泛,比較分析法就是對(duì)事情或者問(wèn)題來(lái)進(jìn)行比較,從而來(lái)了解它們的不同、特征和內(nèi)在,它是一種很常見(jiàn)的辯證的邏輯方法。

調(diào)查基本設(shè)計(jì)隨著中醫(yī)醫(yī)療系統(tǒng)信息化的普及,大大增加了醫(yī)療衛(wèi)生數(shù)據(jù)。在這一背景下,中醫(yī)醫(yī)療機(jī)構(gòu)需要建立完整的健康檔案體系。健康記錄將伴隨人們的生活,特別是對(duì)分析疾病的影響因素和改善人們的健康等方面有著很大的作用。正確使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)可以準(zhǔn)確、快速地獲取網(wǎng)頁(yè)上的大量信息,還可以及時(shí)更新數(shù)據(jù)。根據(jù)構(gòu)建健康風(fēng)險(xiǎn)評(píng)估模型的需要,本研究利用數(shù)據(jù)收集、分析和組織過(guò)程處理數(shù)據(jù)并構(gòu)建數(shù)據(jù)庫(kù)系統(tǒng),規(guī)范化管理健康風(fēng)險(xiǎn)評(píng)估研究所需要的數(shù)據(jù),極大的降低了數(shù)據(jù)采集得成本,并且提高了工作效率。然而,使用爬蟲(chóng)方法獲得的數(shù)據(jù)通常存在一些問(wèn)題,例如無(wú)效和混淆。然而,在醫(yī)學(xué)研究統(tǒng)計(jì)分析方法所需的數(shù)據(jù)是全面和準(zhǔn)確的,數(shù)據(jù)必須要保證安全、準(zhǔn)確,必須要滿(mǎn)足科學(xué)研究所需要的條件。本研究為中醫(yī)科研工作建立了數(shù)據(jù)采集系統(tǒng),設(shè)計(jì)了相關(guān)功能。數(shù)據(jù)庫(kù)是存儲(chǔ)和管理數(shù)據(jù)使用最廣泛的工具。此調(diào)查的數(shù)據(jù)存儲(chǔ)在SQLServer數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)的數(shù)據(jù)類(lèi)型原始數(shù)據(jù)。首先,爬蟲(chóng)程序所抓取的原始的分頁(yè)文件就是指的原始得頁(yè)面的存儲(chǔ)的數(shù)據(jù)信息,通常來(lái)說(shuō)都是大型文本文件的數(shù)據(jù)。第一,爬蟲(chóng)的目標(biāo)網(wǎng)站通常都是那種結(jié)構(gòu)相對(duì)復(fù)雜的重要的平臺(tái)。如果長(zhǎng)時(shí)間的收集信息勢(shì)必會(huì)對(duì)醫(yī)療平臺(tái)的工作造成不好的影響。存儲(chǔ)和存檔從原始頁(yè)面收集來(lái)的信息,并隨時(shí)的分析處理存檔的數(shù)據(jù),這可以很大程度上減少網(wǎng)站服務(wù)器上的爬蟲(chóng)程序負(fù)載。第二,如果后續(xù)數(shù)據(jù)處理步驟或源數(shù)據(jù)分離步驟中存在著錯(cuò)誤,則僅應(yīng)讀取存儲(chǔ)在頁(yè)面存檔數(shù)據(jù)庫(kù)中的原始頁(yè)面數(shù)據(jù),無(wú)需再次查看爬蟲(chóng)程序。解析數(shù)據(jù)。解析數(shù)據(jù)是以二維表的形式存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。此處的數(shù)據(jù)大部分來(lái)自爬蟲(chóng)程序捕獲的原始數(shù)據(jù)文件。在數(shù)據(jù)被解析以后,絕大部分的數(shù)據(jù)是能夠被用于科學(xué)研究的。由于視圖的直觀(guān)目的,某些網(wǎng)站可能會(huì)導(dǎo)致數(shù)據(jù)冗余和不規(guī)則等問(wèn)題,這就要求在以后的數(shù)據(jù)庫(kù)設(shè)計(jì)系統(tǒng)中來(lái)組織數(shù)據(jù)。解析處理的數(shù)據(jù)將是可變數(shù)據(jù)排序處理的基礎(chǔ),也是對(duì)分析準(zhǔn)確性驗(yàn)證的參考。變量化的數(shù)據(jù)。一些可變數(shù)據(jù)可以通過(guò)科學(xué)研究直接進(jìn)行分析。此數(shù)據(jù)包括變量數(shù)據(jù)和變量索引。變量索引是區(qū)分結(jié)構(gòu)化數(shù)據(jù)的工具,就像在表中的“健康文件”中一樣,有“年齡數(shù)據(jù)”,然后在變量索引表VARS中添加變量名稱(chēng)“年齡”,在“健康文件”表中是變量ID為“var_11”等數(shù)據(jù)信息,用在索引和解釋變量索引數(shù)據(jù)中,還可以快速執(zhí)行數(shù)據(jù)統(tǒng)計(jì)并了解數(shù)據(jù)的分布。數(shù)據(jù)排序的基礎(chǔ)是變量化,就是內(nèi)部數(shù)據(jù)排序。

數(shù)據(jù)整理截取片段:此功能主要針對(duì)抓取描述性語(yǔ)句中最重要的數(shù)據(jù),它通常是數(shù)據(jù)收集中最基本的操作。在醫(yī)療結(jié)果判定中,通常會(huì)在對(duì)病情結(jié)果的解釋前會(huì)夾雜著幾句介紹性語(yǔ)句,截取關(guān)鍵數(shù)值主要依靠于截取片段功能。對(duì)一組數(shù)據(jù)來(lái)說(shuō),定好數(shù)據(jù)截取的開(kāi)始位置、結(jié)束位置,就能夠獲取有用的數(shù)據(jù),丟掉其他沒(méi)用的數(shù)據(jù)。正則匹配:正則表達(dá)式就是使用某些特定字符形成"規(guī)則字符串"的邏輯公式。而"規(guī)則字符串"是用于表示字符串篩選的一項(xiàng)方法。利用正則表達(dá)式來(lái)整理數(shù)據(jù)是非常方便的數(shù)據(jù)整理方式,能夠很快的匹配到各種用到的數(shù)據(jù)。智能分段:在醫(yī)學(xué)結(jié)果判定方面,大部分的診斷結(jié)果利用數(shù)值來(lái)表示,就像血壓是“130/90”,這種表示方法可以更直觀(guān)的表達(dá)出結(jié)果。不過(guò),在中醫(yī)科研方面,這種的數(shù)值不好統(tǒng)計(jì)也不好分析,最好將這些數(shù)值分成很多的變量,比如采用分段工具,就可以將“130/90”變成兩個(gè)變量,就是舒張壓90收縮壓130。文字替換:數(shù)據(jù)中有著大量毫無(wú)意義的數(shù)據(jù),就像"年齡"字段中使用文本替換函數(shù)的"年份"一樣,使用文字的替換功能,就能夠?qū)⒆址兂煽?,這樣使數(shù)據(jù)得到了更加充分的利用。實(shí)例應(yīng)用資料來(lái)源:山東省許多地市公共醫(yī)療服務(wù)系統(tǒng),包括了市民的健康檔案和公共衛(wèi)生、體檢結(jié)果、診療結(jié)果、病情測(cè)驗(yàn)、健康管理、保險(xiǎn)等數(shù)據(jù)。這一次的研究所創(chuàng)建的數(shù)據(jù)庫(kù)早已在實(shí)際工作環(huán)境中進(jìn)行了測(cè)試。其中存儲(chǔ)和數(shù)據(jù)收集均在SQLServer數(shù)據(jù)庫(kù)中運(yùn)行,本次系統(tǒng)使用Java語(yǔ)言開(kāi)發(fā),在ApacheTomcatWeb服務(wù)器中運(yùn)行,通過(guò)所用到的數(shù)據(jù)及功能建立了數(shù)據(jù)整理系統(tǒng)。在ApacheTomcatWeb服務(wù)器中運(yùn)行,通過(guò)所用到的數(shù)據(jù)及功能建立了數(shù)據(jù)整理系統(tǒng)。本研究通過(guò)數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)排序等功能設(shè)計(jì)了數(shù)據(jù)分揀系統(tǒng)。舉個(gè)網(wǎng)站的示例,上傳從網(wǎng)站搜集的數(shù)據(jù)索引資料以創(chuàng)建種子庫(kù),建立后的種子庫(kù)(圖1所示),完成后來(lái)操作爬蟲(chóng)、服務(wù)于爬蟲(chóng)。截取的原始頁(yè)面來(lái)儲(chǔ)存(圖2所示),而且還利用原始的頁(yè)面建立了HTML解析字典(圖3所示)。本研究中使用的數(shù)據(jù)排序和收集工具(圖4、圖5所示)對(duì)這些數(shù)據(jù)進(jìn)行排序。圖6所示的數(shù)據(jù)為整理后得到的。最后,把處理后的數(shù)據(jù)轉(zhuǎn)換為所使用的格式就可以了。圖STYLEREF1\s4SEQ圖\*ARABIC\s11數(shù)據(jù)庫(kù)功能展示—構(gòu)建URL種子庫(kù)圖STYLEREF1\s4SEQ圖\*ARABIC\s12存儲(chǔ)的原始頁(yè)面圖STYLEREF1\s4SEQ圖\*ARABIC\s13HTML解析字典圖STYLEREF1\s4SEQ圖\*ARABIC\s14數(shù)據(jù)整理工具總覽圖STYLEREF1\s4SEQ圖\*ARABIC\s15數(shù)據(jù)整理工具A:截取片段;B:正則匹配;C:智能分段;D:文字替換。圖STYLEREF1\s4SEQ圖\*ARABIC\s16整理后的數(shù)據(jù)數(shù)據(jù)采集技術(shù)應(yīng)用,數(shù)據(jù)收集技術(shù)的應(yīng)用,這項(xiàng)研究從幾個(gè)公共衛(wèi)生基地收集和整理了數(shù)據(jù)。完成數(shù)據(jù)量見(jiàn)表4-1。表STYLEREF1\s4SEQ表\*ARABIC\s11

分析與結(jié)論5.1數(shù)據(jù)分析通過(guò)數(shù)據(jù)采集技術(shù)。把山東省德州市作為例子,爬取了山東省德州市醫(yī)療衛(wèi)生系統(tǒng)65歲以上老年人的體檢結(jié)果和慢性病管理數(shù)據(jù)。然后把數(shù)據(jù)整理分析后,對(duì)德州市所有患有高血壓/糖尿病的人群的病情的預(yù)防治理做出了評(píng)價(jià)報(bào)告,這次研究指明,從2015年11月到2019年7月,山東省德州市各個(gè)地方統(tǒng)計(jì)患有高血壓的人共有70868人,年齡平均在(64.88±12.08)歲,62.30%的人的文化水平是小學(xué)或初中。高血壓病人隨訪(fǎng)率是60.79%,用了國(guó)家發(fā)放免費(fèi)藥物的病人,占了總用藥病人的42.74%。對(duì)于高血壓的控制,2015年的高血壓隊(duì)列基線(xiàn)中,血壓的控制率是9.23%(其中男性患者為8.35%,女性患者為9.95%),而到了2019年高血壓病人血壓控制率是43.63%(其中男性患者是42.32%,女性患者是44.69%)。隨著管理措施的貫徹落實(shí),高血壓病人的控制率增加了34.74%。從2015年11月份到2019年7月份,這個(gè)項(xiàng)目一共管理了糖尿病人15369人,平均年齡在(64.50±11.29)歲,其中62.15%的糖尿病人的文化水平偏低,為小學(xué)或初中文化。糖尿病人的隨訪(fǎng)率為94.66%,用了國(guó)家免費(fèi)發(fā)放藥物的病人人數(shù)是8308人,占了總用藥病人的90.57%。在血糖控制的這個(gè)方面,在2015年的糖尿病患者隊(duì)列基線(xiàn)中,血糖控制率是30.29%(其中男性患者為31.74%,女性患者為29.44%),而到了2019年,糖尿病患者管理隊(duì)列中的血糖控制率變成了47.61%(其中男性患者為50.59%,女性患者為45.84%)。隨著管理干預(yù)措施的貫徹落實(shí),使得糖尿病人群體血糖控制率增加了17.32%。5.2主要結(jié)論互聯(lián)網(wǎng)數(shù)據(jù)收集技術(shù)使我們能夠快速高效地在網(wǎng)絡(luò)上收集大量數(shù)據(jù),還可以實(shí)時(shí)更新不同的數(shù)據(jù)。目前,國(guó)內(nèi)外許多研究人員深入的研究和探討了數(shù)據(jù)采集技術(shù),而在當(dāng)前已經(jīng)得出的研究中,研究的重點(diǎn)一般都是互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)的創(chuàng)新方面,而互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)大部分用于互聯(lián)網(wǎng)數(shù)據(jù)的搜集方向。目前有很多學(xué)者都針對(duì)中醫(yī)醫(yī)學(xué)數(shù)據(jù)的采集技術(shù)展開(kāi)了深入研究,而且還針對(duì)互聯(lián)網(wǎng)中醫(yī)健康數(shù)據(jù)構(gòu)建了面向患者的數(shù)據(jù)采集算法,不過(guò)就后期的數(shù)據(jù)整理分析來(lái)說(shuō),仍然十分麻煩,還沒(méi)有達(dá)到系統(tǒng)的流程化操作。就中醫(yī)醫(yī)療系統(tǒng)數(shù)據(jù)采集來(lái)說(shuō),大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論