版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
初識(shí)數(shù)據(jù)采集Contents知識(shí)目標(biāo)掌握數(shù)據(jù)采集的定義、范圍技能目標(biāo)熟悉數(shù)據(jù)采集的流程素養(yǎng)目標(biāo)培養(yǎng)良好的信息素養(yǎng)和道德意識(shí)初識(shí)數(shù)據(jù)采集數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用一種程序或裝置從系統(tǒng)外部采集數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終輸入到存儲(chǔ)系統(tǒng)中。定義特點(diǎn)將大量的信息自動(dòng)獲取并整合為有價(jià)值的數(shù)據(jù),大大提高工作效率。通過(guò)程序自動(dòng)獲取信息,避免人工操作中出現(xiàn)的錯(cuò)誤。實(shí)時(shí)監(jiān)控信息更新情況,保證所采集到的數(shù)據(jù)是最新的。高效性準(zhǔn)確性實(shí)時(shí)性初識(shí)數(shù)據(jù)采集數(shù)據(jù)的類型(從結(jié)構(gòu)上區(qū)分)結(jié)構(gòu)化數(shù)據(jù)指具有固定字段和格式的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)指具有一定結(jié)構(gòu),但字段和格式不固定的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)指沒(méi)有固定字段和格式的數(shù)據(jù)。數(shù)據(jù)庫(kù)中的表格CSV文件JSONXMLCSV文本圖像音頻視頻初識(shí)數(shù)據(jù)采集數(shù)據(jù)的類型(從來(lái)源上區(qū)分)業(yè)務(wù)數(shù)據(jù)行業(yè)數(shù)據(jù)線上行為數(shù)據(jù)線下行為數(shù)據(jù)內(nèi)容數(shù)據(jù)思考采集范圍采集流程采集方法?數(shù)據(jù)采集范圍數(shù)據(jù)庫(kù)采集關(guān)系型數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)。系統(tǒng)日志采集離線大數(shù)據(jù)分析系統(tǒng)、在線大數(shù)據(jù)分析系統(tǒng)。滿足高可用性、高可靠性、高可拓展性。網(wǎng)絡(luò)數(shù)據(jù)采集通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或者網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過(guò)程。將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中提取出來(lái)。感知設(shè)備數(shù)據(jù)采集通過(guò)傳感器、攝像頭和其他智能終端自動(dòng)采集信號(hào)、圖片或錄像來(lái)獲取數(shù)據(jù)。對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理。采集流程(多領(lǐng)域范圍)(驗(yàn)證、拆分、過(guò)濾)(靈活、合理)數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)存儲(chǔ)數(shù)據(jù)清洗指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序。檢查數(shù)據(jù)一致性處理無(wú)效值和缺失值包括:采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取主要目的是通過(guò)網(wǎng)絡(luò)請(qǐng)求獲取網(wǎng)頁(yè)的原始內(nèi)容。網(wǎng)頁(yè)發(fā)送HTTP請(qǐng)求獲取HTML代碼常用的Python庫(kù),如Requests、urllib等。2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)爬蟲(chóng)需要設(shè)置合理的請(qǐng)求頭為了避免對(duì)目標(biāo)網(wǎng)站造成過(guò)大的壓力或被封禁,可以設(shè)置合適的請(qǐng)求間隔、使用代理IP等。采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取網(wǎng)絡(luò)爬蟲(chóng)的核心環(huán)節(jié)2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)網(wǎng)頁(yè)提取出有用的數(shù)據(jù)常見(jiàn)提取方式包括正則表達(dá)式、XPath、CSS選擇器等。爬蟲(chóng)采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取目的是將抓取到的數(shù)據(jù)保存下來(lái),以備后續(xù)的分析和應(yīng)用。2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù)保存常見(jiàn)的數(shù)據(jù)存儲(chǔ)方式包括文件存儲(chǔ)、數(shù)據(jù)庫(kù)存儲(chǔ)等。爬蟲(chóng)采集流程采集搜索類日志數(shù)據(jù)涉及以下步驟:1.數(shù)據(jù)源確定2.日志配置3.數(shù)據(jù)篩選4.數(shù)據(jù)轉(zhuǎn)換5.數(shù)據(jù)存儲(chǔ)本講小結(jié)123數(shù)據(jù)采集的定義、類型數(shù)據(jù)采集的流程數(shù)據(jù)采集的方法思政意識(shí)提升我國(guó)在抗擊疫情的嚴(yán)峻斗爭(zhēng)中所表現(xiàn)出的制度優(yōu)勢(shì)、大國(guó)擔(dān)當(dāng),以及大數(shù)據(jù)在疫情監(jiān)測(cè)分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面發(fā)揮了巨大作用,我們要厚植家國(guó)情懷,鑄牢中華民族共同體意識(shí)。課后作業(yè)使用八爪魚(yú)采集器采集任一網(wǎng)址數(shù)據(jù),了解什么是數(shù)據(jù)采集、數(shù)據(jù)采集的流程和方
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)信息安全態(tài)勢(shì)感知指南
- 文庫(kù)發(fā)布:互聯(lián)網(wǎng)技術(shù)
- 路燈工程施工組織設(shè)計(jì)
- 2026年劇本殺運(yùn)營(yíng)公司員工離職與交接管理制度
- 2026年劇本殺運(yùn)營(yíng)公司劇本背景音樂(lè)庫(kù)管理制度
- 2025年氫燃料電池催化劑安全性評(píng)估與標(biāo)準(zhǔn)制定報(bào)告
- 2025年工業(yè)廢水處理設(shè)備市場(chǎng)需求五年預(yù)測(cè)報(bào)告
- 2026及未來(lái)5年中國(guó)智能化αβ表面污染檢測(cè)儀行業(yè)市場(chǎng)供需態(tài)勢(shì)及發(fā)展趨向研判報(bào)告
- 2026年金融智能投顧平臺(tái)報(bào)告及未來(lái)十年財(cái)富管理報(bào)告
- 健康教育列會(huì)制度
- 2025年農(nóng)業(yè)產(chǎn)業(yè)鏈現(xiàn)代化發(fā)展優(yōu)化計(jì)劃書(shū)可行性研究報(bào)告
- 餐廚收運(yùn)駕駛員安全培訓(xùn)課件
- 村委會(huì)工作人員招聘面試常見(jiàn)問(wèn)題及解答
- 學(xué)校6S管理培訓(xùn)
- 中小學(xué)英語(yǔ)銜接教學(xué)策略
- DB15-T 4031-2025 建設(shè)項(xiàng)目水資源論證表編制導(dǎo)則
- 抖店客服培訓(xùn)知識(shí)課件
- 2025年國(guó)家開(kāi)放大學(xué)(電大)《政治學(xué)原理》期末考試備考題庫(kù)及答案解析
- 《北京市科學(xué)技術(shù)獎(jiǎng)勵(lì)辦法》及其實(shí)施細(xì)則的解讀
- 2025年全國(guó)中考真題匯編專題11:議論文閱讀【含答案】
- 婦幼保健員考試試題題庫(kù)及答案
評(píng)論
0/150
提交評(píng)論