商務(wù)數(shù)據(jù)分析技術(shù) 課件項目三數(shù)據(jù)采集技術(shù)

上傳人：q*** IP屬地：山東上傳時間：2025-12-01 格式：PPTX 頁數(shù)：107 大小：8.86MB 積分：15 舉報 版權(quán)申訴

商務(wù)數(shù)據(jù)分析技術(shù) 課件項目三數(shù)據(jù)采集技術(shù)_第2頁

商務(wù)數(shù)據(jù)分析技術(shù) 課件項目三數(shù)據(jù)采集技術(shù)_第3頁

商務(wù)數(shù)據(jù)分析技術(shù) 課件項目三數(shù)據(jù)采集技術(shù)_第4頁

商務(wù)數(shù)據(jù)分析技術(shù) 課件項目三數(shù)據(jù)采集技術(shù)_第5頁

已閱讀5頁，還剩102頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)采集技術(shù)項目三Excel數(shù)據(jù)分析實例無錫商業(yè)職業(yè)技術(shù)學(xué)院李富學(xué)習(xí)目標(biāo)知識目標(biāo)01技能目標(biāo)02素質(zhì)目標(biāo)03學(xué)習(xí)數(shù)據(jù)采集的技術(shù)，熟悉數(shù)據(jù)采集常

用技術(shù)的使用。掌握數(shù)據(jù)分析的使用場景，會對網(wǎng)頁數(shù)據(jù)、日志數(shù)據(jù)和數(shù)據(jù)庫進(jìn)行數(shù)據(jù)分析，進(jìn)行采集。具有數(shù)據(jù)采集思維，培養(yǎng)信息技術(shù)的素養(yǎng)學(xué)習(xí)導(dǎo)圖任務(wù)一數(shù)據(jù)采集渠道01任務(wù)描述數(shù)據(jù)采集的重點不在于數(shù)據(jù)本身，而在于如何真正地解決數(shù)據(jù)運營中的實際商業(yè)問題。但是，要解決商業(yè)問題就得讓數(shù)據(jù)采集產(chǎn)生價值，就得做數(shù)據(jù)分析和數(shù)據(jù)挖掘。而在數(shù)據(jù)分析和數(shù)據(jù)挖掘之前，首先要保證采集到高質(zhì)量的數(shù)據(jù)。本節(jié)讓同學(xué)們熟悉正確采集渠道，才能使分析出的數(shù)據(jù)結(jié)果對決策行為有指導(dǎo)性作用。任務(wù)目標(biāo)1.熟悉數(shù)據(jù)采集渠道的種類。2.熟悉數(shù)據(jù)采集渠道重要性。一、數(shù)據(jù)來源數(shù)據(jù)采集又稱“數(shù)據(jù)獲取”，是利用一種裝置或程序從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個接口。數(shù)據(jù)采集一般有以下幾個特點：數(shù)據(jù)采集以自動化手段為主，盡量擺脫人工錄入的方式；采集內(nèi)容以全量采集為主，擺脫對數(shù)據(jù)進(jìn)行采樣的方式；采集方式多樣化、內(nèi)容豐富化，擺脫以往只采集基本數(shù)據(jù)的方式。數(shù)據(jù)采集需要具備以下3個特性：（1)全面性：數(shù)據(jù)量具有分析價值、數(shù)據(jù)面足夠支撐分析需求。（2)多維性：采集的數(shù)據(jù)更重要的是能滿足分析需求。要靈活、快速地自定義所采集數(shù)據(jù)的多種屬性和不同類型，從而滿足不同的分析目標(biāo)。（3)高效性：包含技術(shù)執(zhí)行的高效性、團(tuán)隊內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實現(xiàn)的高效性。一、數(shù)據(jù)來源1.1

政府?dāng)?shù)據(jù)政府?dāng)?shù)據(jù)往往具有較高的真實性、權(quán)威性、實時性以及數(shù)據(jù)對象描述指向性明確且具體等特點。政府?dāng)?shù)據(jù)的采集還存在很多的挑戰(zhàn)和困難：首先，出于數(shù)據(jù)安全及涉密的考慮，政府?dāng)?shù)據(jù)往往具有很強的封閉性，這使得政府?dāng)?shù)據(jù)的獲取成本往往極高；其次，根據(jù)不同的職能定位，不同政府部門運營和管理的數(shù)據(jù)往往僅與該部門獨立職能相關(guān)，因此，每個部門的政府?dāng)?shù)據(jù)都缺乏全局性。一、數(shù)據(jù)來源1.2

企業(yè)業(yè)務(wù)數(shù)據(jù)大型企業(yè)和事業(yè)單位出于生產(chǎn)、銷售等需求，會構(gòu)建不同的目標(biāo)應(yīng)用系統(tǒng)，例如企業(yè)資源管理計劃(enterpriseresourseplanningERP)、在線辦公、在線交易等，這些系統(tǒng)不僅有效的完成了單位的主營業(yè)務(wù)，還匯聚了大量相關(guān)數(shù)據(jù)。企業(yè)的數(shù)據(jù)采集也存在著很多挑戰(zhàn)和困難。首先，不同的企業(yè)擁有的數(shù)據(jù)在目標(biāo)應(yīng)用中的價值度是不一樣的，數(shù)據(jù)往往僅反映某一個維度的價值趨勢，而如何選擇更多的、彼此互補的數(shù)據(jù)源本身就是一個難題，這不但涉及不同企業(yè)的數(shù)據(jù)評估問題，同時還受大數(shù)據(jù)項目建設(shè)的物理條件的約束；其次，在采集和整合不同單位的數(shù)據(jù)時，一個非技術(shù)因素的難題在于潛在合作單位是否愿意將數(shù)據(jù)共享；最后，不同企業(yè)的信息基礎(chǔ)設(shè)施建設(shè)不均衡，這使得相同類型的數(shù)據(jù)在不同企業(yè)的服務(wù)器上的表現(xiàn)形式不完全一樣，這給數(shù)據(jù)的采集與整合帶來了極大的困難。一、數(shù)據(jù)來源1.3

物聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)在快速發(fā)展的同時也制造了海量數(shù)據(jù)，如何妥善處理及合理利用這些海量數(shù)據(jù)是物聯(lián)網(wǎng)下一步發(fā)展的關(guān)鍵問題。物聯(lián)網(wǎng)主要是通過傳感器、條形碼以及RFID(radiofrequencyidentification)等技術(shù)獲取大量數(shù)據(jù)。條形碼波廣泛應(yīng)用于零售商店的收銀以及車站售票等業(yè)務(wù)中，每天大量的商品銷售記錄(數(shù)據(jù))通過掃描條形碼面產(chǎn)生。RFID技術(shù)又稱無線射頻識別，是一種通信技術(shù)，可通過無線電信號識別特定目標(biāo)并讀/寫相關(guān)數(shù)據(jù)，而無須識別系統(tǒng)與特定目標(biāo)之間建立機械或光學(xué)接觸。RFID被廣泛應(yīng)用于倉庫管理和清單控制方面。一、數(shù)據(jù)來源1.4

互聯(lián)網(wǎng)數(shù)據(jù)Web2.0伴隨著博客、百科全書以及社交網(wǎng)絡(luò)等多種應(yīng)用技術(shù)的發(fā)展，大量的網(wǎng)絡(luò)搜索與交流促使形成海量數(shù)據(jù)，給人類日常生活方式帶來了極大的變革。1.4.1門戶網(wǎng)站具有較強的實時性和專業(yè)性1.4.2

電商網(wǎng)站真實性和實時性1.4.3論壇具有實時性和針對性二、數(shù)據(jù)的類型從采集數(shù)據(jù)的類型看，數(shù)據(jù)的類型是復(fù)雜多樣的，包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。2.1

結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)最常見，就是具有模式的數(shù)據(jù)2.2非結(jié)構(gòu)化數(shù)據(jù)

括所有格式的辦公文檔、文本、圖片、各類報表、圖像和音頻/視順信息等。2.3半結(jié)構(gòu)化數(shù)據(jù)介于結(jié)構(gòu)化與非結(jié)構(gòu)化之間的數(shù)據(jù)，如XML、HTML和JSON就是常見的半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的有序掌控結(jié)構(gòu)化數(shù)據(jù)是最為常見和熟悉的數(shù)據(jù)形態(tài)，它由明確定義的信息組成，并以高度組織化的表格或數(shù)據(jù)庫進(jìn)行存儲和管理。結(jié)構(gòu)化數(shù)據(jù)具備可搜索、可維護(hù)和可跟蹤的特點，常見的例子有關(guān)系型數(shù)據(jù)庫中的客戶數(shù)據(jù)、訂單數(shù)據(jù)、產(chǎn)品數(shù)據(jù)等。這種數(shù)據(jù)形態(tài)對于企業(yè)和組織來說至關(guān)重要，能夠通過預(yù)定義的數(shù)據(jù)模型進(jìn)行分析和挖掘，為決策提供有力支持。非結(jié)構(gòu)化數(shù)據(jù)的自由釋放與結(jié)構(gòu)化數(shù)據(jù)相對應(yīng)的是非結(jié)構(gòu)化數(shù)據(jù)，它是指沒有固定組織原則的未經(jīng)過濾的信息。非結(jié)構(gòu)化數(shù)據(jù)形式多樣，包括圖像、視頻、音頻文件和文本信息等。這類數(shù)據(jù)無法用傳統(tǒng)的關(guān)系數(shù)據(jù)庫進(jìn)行存儲，且數(shù)據(jù)量通常較大。非結(jié)構(gòu)化數(shù)據(jù)的特點在于它沒有預(yù)先定義好的數(shù)據(jù)模型，具備自由表達(dá)的能力，包含更多的細(xì)節(jié)和多樣性。盡管處理和分析非結(jié)構(gòu)化數(shù)據(jù)具有挑戰(zhàn)性，但它蘊含豐富的信息和創(chuàng)新的潛力，廣泛應(yīng)用于圖像識別、語音處理、自然語言處理等領(lǐng)域。半結(jié)構(gòu)化數(shù)據(jù)的連接橋梁半結(jié)構(gòu)化數(shù)據(jù)位于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間，具有一定的結(jié)構(gòu)化特征，但不符合表格數(shù)據(jù)模型或關(guān)系數(shù)據(jù)庫的格式。它包含一些易于分析的結(jié)構(gòu)化元素，例如標(biāo)記，使得數(shù)據(jù)處理和利用更加便捷。半結(jié)構(gòu)化數(shù)據(jù)在特定領(lǐng)域中扮演重要的角色，比如XML文檔和JSON數(shù)據(jù)格式等。它既保留了部分結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢，又能夠靈活適應(yīng)數(shù)據(jù)的變化和擴展。三、數(shù)據(jù)采集范圍的劃分按照數(shù)據(jù)產(chǎn)生的主體不同，數(shù)據(jù)采集范圍主要包括數(shù)據(jù)庫采集、系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、感知設(shè)備數(shù)據(jù)采集等。四、采集流程數(shù)據(jù)采集可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁或者業(yè)務(wù)處理系統(tǒng)中抽取出來，將其存儲為統(tǒng)一的本地數(shù)據(jù)文件，并以結(jié)構(gòu)化的方式儲。它支持圖片、音頻、視頻等文件或附件的采集，附件與正文可以自動關(guān)聯(lián)。網(wǎng)頁爬取的采集流程。在網(wǎng)頁數(shù)據(jù)采集的過程中，一般需要經(jīng)過采集、清洗、存儲3個步驟，具體介紹如下。第一步：采集數(shù)據(jù)。網(wǎng)絡(luò)爬蟲的第一步是本地對起始URL發(fā)送請求以獲取其返回的響應(yīng)，以提取包含在其中數(shù)據(jù)。此步驟一般情況下是通過Python實現(xiàn)。第二步：清洗數(shù)據(jù)。清洗數(shù)據(jù)是采集數(shù)據(jù)之后的一個非常重要的步驟，通過數(shù)據(jù)清洗來統(tǒng)一數(shù)據(jù)的格式，減少數(shù)據(jù)分析中存在的眾多問題，準(zhǔn)確分析數(shù)據(jù)，從而提高數(shù)據(jù)的分析效率。在網(wǎng)頁中，可以剔除一些與內(nèi)容無關(guān)的標(biāo)記，如樣式、腳本等。第三步：存儲數(shù)據(jù)。存儲數(shù)據(jù)是網(wǎng)絡(luò)爬蟲的最后一步，獲取的數(shù)據(jù)在進(jìn)行適當(dāng)?shù)奶幚砗缶涂梢员４嫫饋聿⒂糜谶M(jìn)一步的分析。使用網(wǎng)絡(luò)爬蟲的相關(guān)知識除了可以實現(xiàn)網(wǎng)站頁面的爬取，還可以實現(xiàn)App中頁面相關(guān)信息的爬取，由于手機的普及，App中相關(guān)的信息也同樣是大數(shù)據(jù)分析中不可或缺的一部分。五、采集方法5.1手工編程Python：是一種免費的開源語言，因其易用性而常常與多種采集工具相提并論。5.2開源工具Filebeat：是一種開源的本地文件日志數(shù)據(jù)采集器Logstash：是一種在日志關(guān)系系統(tǒng)中進(jìn)行日志采集的設(shè)備，F(xiàn)lume：是一個分布式的、高可靠的、高可用的日志采集器，5.3商業(yè)工具除了手工編程工具和開源工具以外，還有還有許多專門的商業(yè)數(shù)據(jù)采集平臺，他們提供多場景數(shù)據(jù)計算和分析挖掘的科研基礎(chǔ)環(huán)境，充分結(jié)合行業(yè)課題的相關(guān)數(shù)據(jù)，并利用大數(shù)據(jù)技術(shù)深入挖掘分析。任務(wù)二數(shù)據(jù)采集技術(shù)02任務(wù)描述數(shù)據(jù)采集是數(shù)據(jù)系統(tǒng)必不可少的關(guān)鍵部分，也是數(shù)據(jù)平臺的根基。根據(jù)不同的應(yīng)用環(huán)境有采集對象，有多種不同的數(shù)據(jù)采集方法，包括網(wǎng)絡(luò)數(shù)據(jù)采集、系統(tǒng)日志采集、分布式消息訂閱分發(fā)、數(shù)據(jù)庫數(shù)據(jù)采集等。工欲擅其事，必先利其器。本節(jié)同學(xué)們要熟悉八爪魚、requests、Flume采集技術(shù)。任務(wù)目標(biāo)1.熟悉數(shù)據(jù)采集的幾種技術(shù)。2.熟悉數(shù)據(jù)采集技術(shù)的處理步驟。數(shù)據(jù)采集方法的選擇不但要依賴數(shù)據(jù)源的物理性質(zhì)，還要考慮數(shù)據(jù)分析的目標(biāo)。大數(shù)據(jù)采集過程的主要特點和挑戰(zhàn)是并發(fā)數(shù)高，因為同時可能會有成千上萬個用戶在進(jìn)行訪問和操作，所以在采集端需要部署大量數(shù)據(jù)庫才能對其提供支撐，并且在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡與分片需要深入的思考和設(shè)計。一、八爪魚八爪魚采集器：是一款免費的、簡單直觀的網(wǎng)頁爬蟲工具，無須編碼即可從許多網(wǎng)站抓取數(shù)據(jù)。為了減少使用上的難度，八爪魚為初學(xué)者準(zhǔn)備了“網(wǎng)站簡易模板"網(wǎng)站。1.1簡介八爪魚采集器是一款全網(wǎng)通用的互聯(lián)網(wǎng)數(shù)據(jù)采集器，模擬人瀏覽網(wǎng)頁的行為，通過簡單的頁面點選，生成自動化的采集流程，從而將網(wǎng)頁數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，存儲于EXCEL或數(shù)據(jù)庫等多種形式。并提供基于云計算的大數(shù)據(jù)云采集解決方案，實現(xiàn)數(shù)據(jù)采集。是數(shù)據(jù)一鍵采集平臺。1.2

產(chǎn)品功能1.2.1采集全行業(yè)、全場景、全類型數(shù)據(jù)采集可存儲的任務(wù)數(shù)無上限，實現(xiàn)全行業(yè)、全場景、全類型的互聯(lián)網(wǎng)數(shù)據(jù)采集。全行業(yè)：電商、新聞、社交媒體、招投標(biāo)、金融、房產(chǎn)等全行業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)采集。行業(yè)網(wǎng)站已做好可用的模板。全場景：列表頁、詳情頁、搜索頁、瀑布流頁、登錄、多層點擊、下拉框、IP切換、驗證碼自動識別等場景采集。全類型：支持文字、鏈接、圖片、視頻、音頻、Html源碼、Json格式等多種數(shù)據(jù)類型的采集。1.2

產(chǎn)品功能1.2.2

高速采集大規(guī)模數(shù)據(jù)使用高性能的云服務(wù)集群，提供多節(jié)點高并發(fā)采集能力，能夠完成大規(guī)模數(shù)據(jù)的采集。高性能：企業(yè)版可使用獨立的、高性能的云服務(wù)集群，無需排隊即可開始數(shù)據(jù)采集。1.2.3

實時采集新增數(shù)據(jù)支持設(shè)置靈活的定時采集策略+多節(jié)點高并發(fā)采集+自動去重/條件觸發(fā)等功能，實時采集各個數(shù)據(jù)源的新增數(shù)據(jù)。1.2

產(chǎn)品功能1.2.4

提供API接口，采集結(jié)果同步提供高負(fù)載高吞吐的API接口，可將采集結(jié)果秒級同步到企業(yè)數(shù)據(jù)庫或內(nèi)部系統(tǒng)中。除了API外，提供自動入庫功能。1.2.5

支持SaaS版本與私有化部署版本提供線上SaaS版本的軟件服務(wù)，下載客戶端即可使用。同時支持將整套采集系統(tǒng)部署到企業(yè)本地，搭建企業(yè)自己的大數(shù)據(jù)采集系統(tǒng)二requests庫爬取網(wǎng)站數(shù)據(jù)2.1

網(wǎng)絡(luò)爬蟲的概念網(wǎng)絡(luò)爬蟲（WebCrawler）又稱為網(wǎng)絡(luò)蜘蛛（WebSpider）或網(wǎng)絡(luò)機器人（WebRobot），是模擬客戶端(瀏覽器)發(fā)送網(wǎng)絡(luò)請求、獲取響應(yīng)，并按照自定義的規(guī)則提取數(shù)據(jù)的程序，簡單來說，就是發(fā)送與瀏覽器一樣的請求，獲取與瀏覽器所獲取的一樣的數(shù)據(jù)。二requests庫爬取網(wǎng)站數(shù)據(jù)2.2網(wǎng)絡(luò)爬蟲的類型網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù)大致可以分為4種：通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層頁而爬蟲。2.2.1通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲，爬行對象由一批種子URL擴充至整個Web，主要為門戶站點、搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)，在互聯(lián)網(wǎng)中爬取目標(biāo)資源，爬取數(shù)據(jù)巨大。2.2.2

聚焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲又稱為主題網(wǎng)絡(luò)爬蟲，是指選擇性地爬取那些與預(yù)先定義好的主題相關(guān)的網(wǎng)絡(luò)爬蟲。主要應(yīng)用在對特定信息的爬取中，要為某一類特定的人群提供服務(wù)。2.2.3增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲是監(jiān)測網(wǎng)站數(shù)據(jù)的更新情況爬取其更新的數(shù)據(jù)，對于未發(fā)生內(nèi)容變化的網(wǎng)頁不會爬取。增量式網(wǎng)絡(luò)爬蟲在一定程度上能夠保證所爬取的頁面盡可能是新頁面。2.2.4深層頁面爬蟲Web頁面按存在方式分為表層網(wǎng)頁和深層網(wǎng)頁。表層網(wǎng)頁是傳統(tǒng)搜索引擎可以索引的頁面，是以超鏈接可以達(dá)到的靜態(tài)網(wǎng)頁為主的Web頁面。深層網(wǎng)頁是大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后、只有用戶提交一些關(guān)鍵詞才能獲得的Web頁面。例如，那些用戶注冊后內(nèi)容才可見的網(wǎng)頁就屬于深層頁面。2.3網(wǎng)絡(luò)爬蟲的用途網(wǎng)絡(luò)爬蟲的應(yīng)用十分廣泛，不僅應(yīng)用在搜索引擎上，用戶和企業(yè)等分析網(wǎng)站都離不開。比如，通過如圖3-3所示的百度新聞網(wǎng)站，可以通過搜索引擎搜索想獲取的信息。2.4網(wǎng)絡(luò)爬蟲法律規(guī)定本秩序還處于建設(shè)之中，從目前的實踐來看，如果抓取數(shù)據(jù)的行為用于個人學(xué)習(xí)使用，通常不存在問題；而如果數(shù)據(jù)用來轉(zhuǎn)載，則需要注意原創(chuàng)作品的版權(quán)問題。具體的法律法規(guī)見附錄。很多網(wǎng)站都會定義robots.txt文件，這可以讓爬蟲了解爬取該網(wǎng)站時存在哪些限制，下面的地址列出一些知名網(wǎng)站的robots.txt訪向地址。(1)https：///robots.txt。(2)https：///robots.txt.(3)https：///robots.txt。2.5爬蟲的基本流程用戶獲取網(wǎng)絡(luò)數(shù)據(jù)有兩種方式：一種是瀏覽器提交請求----下載網(wǎng)頁代碼----解析成頁面。另一種是模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼)----提取有用的數(shù)據(jù)---存放于數(shù)據(jù)庫或文件中。爬蟲一般是使用第二種方式。2.5.1發(fā)起請求在爬蟲過程中一般使用HTTP庫向目標(biāo)站點發(fā)送請求，即發(fā)送一個Request，該請求中包含請求頭和請求體。請求頭為user-agent：請求頭中如果沒有user-agent客戶端配置，則服務(wù)端可能當(dāng)作個非法用戶host；2.5.2

如果發(fā)送請求成功服務(wù)器能夠正常響應(yīng)，則會得到一個Response，包含HTMLJSON、圖片、視頻等。解析內(nèi)容響應(yīng)的內(nèi)容如果是HTML數(shù)據(jù)，則需要正則表達(dá)式(RE模塊)、第三方解析庫如Beautifulsoup、pyquery等解析。如果是JSON數(shù)據(jù)，需要使用JSON模塊連接續(xù)，如果是進(jìn)制文件，則需要以wb的方式寫人文件。在編寫爬蟲時，請求頭（HTTPHeaders）是一個非常重要的部分。它們不僅可以幫助你模擬正常的瀏覽器行為，還可以避免被目標(biāo)網(wǎng)站識別為爬蟲而遭到封禁。以下是一些常見的請求頭及其作用，以及如何編寫它們。常見的請求頭及其作用User-Agent作用：標(biāo)識發(fā)出請求的客戶端類型（如瀏覽器、操作系統(tǒng)等）。示例：Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.124Safari/537.36Accept作用：指定客戶端能夠處理的MIME類型。示例：text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8請求頭詳解及舉例Accept-Encoding作用：指定客戶端支持的編碼格式。示例：gzip,deflate,brAccept-Language作用：指定客戶端首選的語言。示例：en-US,en;q=0.9Connection作用：控制是否保持連接。示例：keep-aliveCookie作用：存儲會話信息，保持登錄狀態(tài)等。示例：session_id=abc123;user_id=xyz789Host作用：指定請求的目標(biāo)主機和端口。示例：:80Referer作用：標(biāo)識請求的來源頁面。示例：/importrequestsurl=''headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.124Safari/537.36','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding':'gzip,deflate,br','Accept-Language':'en-US,en;q=0.9','Connection':'keep-alive','Referer':'/','Cookie':'session_id=abc123;user_id=xyz789','Host':''}response=requests.get(url,headers=headers)print(response.text)2.6爬蟲的主要框架2.6.1

在Python中爬蟲框架爬蟲框架很多，常見的爬蟲框架主要有Scrapy框架、Pyspider框架和Cola框架。Scrapy框架是Python中最著名、最受歡迎的爬蟲框架。Scrapy框架是為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)面編寫的.Pyspider框架是國內(nèi)的程序員編寫的、用Python實現(xiàn)的、功能強大的網(wǎng)絡(luò)爬蟲系統(tǒng)，能在瀏覽器界面上進(jìn)行腳本的編寫、功能的調(diào)度和爬取結(jié)果的實時查詢。Cola框架是一個分布式的爬蟲框架，用戶只需編寫幾個特定的函數(shù)，而無需關(guān)注分布式運行的細(xì)節(jié)，任務(wù)會被自動分配到多臺機器上，整個過程對用戶是透明的。requests是python第三方的HTTP模塊庫。它基于urllib，又比urllib更加簡單高效。支持Get、Post、Put、Delete、Head、Options等HTTP請求。使用requests可以讓Python實現(xiàn)訪問網(wǎng)頁并獲得源代碼的功能。Requests不是Python的標(biāo)準(zhǔn)庫，需要安裝，可以在命令行中使用pip進(jìn)行安裝。安裝命令如下。------------>pipinstallrequests執(zhí)行上述命令即可安裝requests庫，安裝完成后，需要在Python的shell中導(dǎo)人requests庫。導(dǎo)入成功效果如下。-------------->importrequests2.6.2

requests庫請求方法在瀏覽器里面可以直接通過輸入網(wǎng)址訪問的頁面，就是使用了GET方法。使用GET方法獲取網(wǎng)頁源代碼的語法結(jié)構(gòu)為：html=requests.get(‘網(wǎng)址’)還有一些頁面只能通過從另一個頁面單擊某個鏈接或者某個按鈕以后跳過來，不能直接通過在瀏覽器中輸入網(wǎng)址訪問，這種網(wǎng)頁就是使用了POST方法。使用POST方法獲取源代碼的格式如下。----------------------------------------------------data=(key1':'value1key2:value2html_formdata=requests.post('網(wǎng)址’,data=data).content.decode()還有一些網(wǎng)址，提交的內(nèi)容需要是JSON格式的，requests可以自動將字典轉(zhuǎn)換為JSON字符串，示例代碼如下。----------------------------------------------------html_json=requests.post（‘網(wǎng)址’,json=data).content.decode（）#content.decode解碼。在requests庫中，當(dāng)你發(fā)送一個HTTP請求并接收到響應(yīng)時，響應(yīng)體（即服務(wù)器返回的內(nèi)容）通常是以字節(jié)（bytes）形式存在的。為了將這些字節(jié)轉(zhuǎn)換成字符串（str），你需要對它們進(jìn)行解碼。(3)響應(yīng)狀態(tài)碼響應(yīng)狀態(tài)碼是用來表示網(wǎng)頁服務(wù)器HTTP響應(yīng)狀態(tài)的3位數(shù)字代碼，可以使用response.status_code查看響應(yīng)狀態(tài)碼，示例代碼如下。---------------------------------------------------->response=requests.get('')>response.status_code#如200OK：請求成功，服務(wù)器正常返回請求的內(nèi)容。4xx（客戶端錯誤狀態(tài)碼）。(4)響應(yīng)內(nèi)容requests會自動解碼來自服務(wù)器的內(nèi)容。大多數(shù)unicode字符集都能被無縫地解碼。使用response.text命令可以查看文本內(nèi)容。示例代碼如下。---------------------------------------------------->importrequests>r=requests,get("https;//")>text(5)定制請求頭服務(wù)器通過該取請求頭部的代理信息來判斷這個請求是正常的瀏覽器還是爬蟲，因此在使用requests的過程中就可以為請求添加HTTP頭部來偽裝成正常的瀏覽器，只需要傳遞一個dict給neaders參數(shù)即可。示例代碼如下。---------------------------------------------------->url=''>headers={'User=Agent''Mozilla/5.0(WindowsNT100:WOW64)AppleWVebkit/537.36HML,likeGecko)Chrome/58.0.3029.110Safari/537.36SE2.XMetaSr1.0'}>r=requests.get(url，headers=headers)三業(yè)務(wù)系統(tǒng)日志采集技術(shù)

Flume是一個分布式、高可靠和高可用的海量日志采集、聚合及傳輸服務(wù)。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時，F(xiàn)lume提供了對數(shù)據(jù)進(jìn)行簡單處理，并寫到各種數(shù)據(jù)接收方（如文本、HDFS、HBase等）的功能。其設(shè)計原理是將數(shù)據(jù)流（如日志數(shù)據(jù)）從各種網(wǎng)站服務(wù)器中匯集起來，并存儲到HDFS、HBase等集中存儲器中。3.1

Flume簡介Flume運行的核心是Agent。Flume以Agent為最小的獨立運行單位，一個Agent就是一個Java虛擬機(JavavintualMachine、JVM)，它是一個完整的數(shù)據(jù)采集工具，包含三個核心組件，分別是數(shù)據(jù)源(Sounce)、數(shù)據(jù)通道(Channel)和數(shù)據(jù)槽(Sink)，如圖3-6所示。通過這些組件，“事件“可以從一個地方流向另一個地方。Agent是Flume數(shù)據(jù)流的基本單元和執(zhí)行實體。Agent負(fù)責(zé)數(shù)據(jù)的收集、暫存和傳輸，是Flume運行的核心組件。Web服務(wù)器SoureSink

AgentChannelHDFS3.1.1數(shù)據(jù)源的收集數(shù)據(jù)源是數(shù)據(jù)的收集端，負(fù)責(zé)將數(shù)據(jù)捕獲后進(jìn)行特殊的格式化，將數(shù)據(jù)封裝到事件(Event)里，然后將事件推入數(shù)據(jù)通道。3.1.2數(shù)據(jù)通道數(shù)據(jù)通道是連接數(shù)據(jù)源和數(shù)據(jù)槽的組件，可以將它看作數(shù)據(jù)的緩沖區(qū)(數(shù)據(jù)隊列)，它可以將事件暫存到內(nèi)存中，也可以將事件持久化到本地磁盤上，直到數(shù)據(jù)槽處理完該事件。3.1.3數(shù)據(jù)存儲數(shù)據(jù)槽取出數(shù)據(jù)通道中的數(shù)據(jù)，存儲到文件系統(tǒng)和數(shù)據(jù)庫，或者提交到遠(yuǎn)程服務(wù)器。Flume提供了大量內(nèi)置的數(shù)據(jù)源、數(shù)據(jù)通道和數(shù)據(jù)槽類型。不同類型的數(shù)據(jù)源、數(shù)據(jù)通道和數(shù)據(jù)槽可以自由組合。組合方式基于用戶設(shè)置的配置文件，非常靈活。例如，數(shù)據(jù)通道可以把事件暫存在內(nèi)存里，也可以將事件持久化到本地硬盤上；數(shù)據(jù)槽可以把日志寫人HDFS、HBase，甚至另外一個數(shù)據(jù)源。3.2

Flume的安裝3.2.1

Flume的安裝Flume的運行需要Java環(huán)境的支持，因此，需要在Windows操作系統(tǒng)中安裝JDK。Java開發(fā)工具包(JavaDevelopmentKit，JDK)是整個Java的核心，包括了Java運行環(huán)境(JavaintimeEnvironment)、Java工具和Java基礎(chǔ)類庫等。要想開發(fā)Java程序，就必須安裝JDK，因為JDK包含了各種Java工具；要想在計算機上運行使用Java開發(fā)的應(yīng)用程序，也必須安裝JDK。下載JDK安裝包并完成安裝。安裝完成后需要設(shè)置環(huán)境變量Path。右鍵單“計算機“，再單擊“屬性“→“高級系統(tǒng)設(shè)置“→“環(huán)境變量“，在彈出的對話框中選中用戶變量Path，然后單擊“編輯(E)…“按鈕，在“變量值“文本框中添加如下信息：C：\ProgramFiles\Java\jdk1.8.0_60\bin然后，用同樣的方法打開“環(huán)境變量“對話框，單擊“新建(W)…“。如圖3-7所示，新建系統(tǒng)變量JAVA_HOME，把“變量值“設(shè)置如下：打開cmd命令行窗口，輸人“java-version“命令測試是否安裝成功。如果安裝成功，則會返圖3-9所示信息3.2.2訪問Flume官網(wǎng)下載Flume安裝文件apache-fume-1.9.0-bin.tar.gz。把安裝文件解壓縮到Windows操作系統(tǒng)的“C：\“目錄下，然后執(zhí)行如下命令測試是否安裝成功：>cdc：\apache-flume-1.9.0-bin\bin>flume-ngversion如果能夠返回類似如下代碼的信息，則表示安裝成功：F1ume1.9.0sourcecoderepository：https：///repos/asf/flume.gitRevision：d4fcab4f501d41597bc616921329a4339f73585eCompiledbyfszaboonMonDec1720：45：25CET2018Fromsourcewithchecksum35db629a3bda49d23e9b3690c80737f9任務(wù)三數(shù)據(jù)采集技術(shù)實現(xiàn)（案例）02任務(wù)描述數(shù)據(jù)采集技術(shù)，是我們數(shù)據(jù)分析重要前提，同學(xué)們要會正確熟練使用采集工具。本節(jié)任務(wù)是使用八爪魚、requests、Flume技術(shù)進(jìn)行網(wǎng)頁數(shù)據(jù)采集，網(wǎng)站數(shù)據(jù)采集、日志采集和數(shù)據(jù)庫采集，進(jìn)行數(shù)據(jù)的采集。任務(wù)目標(biāo)1.熟悉數(shù)據(jù)采集技術(shù)的具體應(yīng)用。2.熟悉采集數(shù)據(jù)的導(dǎo)出。一八爪魚網(wǎng)絡(luò)爬蟲的安裝八爪魚是一種網(wǎng)絡(luò)爬蟲工具，可以幫助用戶快速獲取網(wǎng)頁上的數(shù)據(jù)。以下是使用八爪魚獲取數(shù)據(jù)的內(nèi)容和方法：確定目標(biāo)數(shù)據(jù)源：首先需要確定要獲取數(shù)據(jù)的網(wǎng)站或數(shù)據(jù)源.….了解網(wǎng)站的結(jié)構(gòu)、數(shù)據(jù)存儲方式以及是否存在反爬機制等信息。選擇合適的采集模板：八爪魚提供了多種采集模板，可以根據(jù)目標(biāo)數(shù)據(jù)源的結(jié)構(gòu)和數(shù)據(jù)特點選擇合適的模板，如列表頁采集、詳情頁采集等。配置采集規(guī)則：根據(jù)目標(biāo)數(shù)據(jù)源的特點和需求，配置相應(yīng)的采集規(guī)則，如提取鏈接、提取字段等。運行采集任務(wù)∶配置完成后，可以運行采集任務(wù)，八爪魚會自動按照配置的規(guī)則抓取數(shù)據(jù)。處理和導(dǎo)出數(shù)據(jù)：八爪魚支持將抓取的數(shù)據(jù)保存為多種格式(如Excel、CSV等)，可以根據(jù)需要選擇相應(yīng)的格式導(dǎo)出數(shù)據(jù)。優(yōu)化采集規(guī)則：在實際使用中，可能需要不斷調(diào)整和優(yōu)化采集規(guī)則，以獲取更準(zhǔn)確、更完整的數(shù)據(jù)。任務(wù)步驟：第一步：打開八爪魚官網(wǎng)，下載八爪魚采集器，如圖3-9所示。第二步：下載后解壓文件，雙擊“OctopusSetup8.6.7.exe"進(jìn)行安裝。第三步：安裝成功后打開該軟件，出現(xiàn)登錄界面，如圖3-10所示。第四步：輸入賬號，密碼進(jìn)行“登錄"，進(jìn)入八爪魚首頁，如圖3-11所示。第五步：觀看“八爪魚首頁”，左邊是“功能選項”，中間是“采集模板”，右邊主要是“教程與幫助”。初學(xué)者如果不清楚采集方法和流程，可以仔細(xì)看看教程與幫助，這里有許多采集方法。本文只介紹一種。第六步：選擇“新建"，進(jìn)入“自定義任務(wù)"命令，在“網(wǎng)址"文本框中輸入“https：//"，如圖3-12所示。第七步：單擊“保存設(shè)置"按鈕，開始爬取網(wǎng)站的數(shù)據(jù)，如圖3-13所示。第八步：單擊“不再自動識別”按鈕，打開“操作提示”窗口，如圖3-14所示。第九步：設(shè)置采集字段，選擇“數(shù)據(jù)瀏覽"下，“增加字段"流程，增加字段，我們事先準(zhǔn)備好字段，粘貼進(jìn)去，點擊“采集"。開始數(shù)據(jù)采集。如圖3-15所示。第十步：采集完成，根據(jù)提示，選擇文件類型，導(dǎo)出數(shù)據(jù)。如圖3-16所示。二requests庫爬取網(wǎng)站實現(xiàn)本任務(wù)的思路如下。1、使用requests庫獲取網(wǎng)頁源代碼。2、使用正則表達(dá)式獲取內(nèi)容。3、任務(wù)步驟第一步：打開網(wǎng)站，找到“警世通言"的位置，如圖3-15所示。第二步：使用requests獲取網(wǎng)頁源代碼。---------------------------------------------------- start_url="/files/old/2011/2512.html"defgetsource(url):獲取網(wǎng)頁源代碼。

''':paramurl:網(wǎng)址:return:網(wǎng)頁源代碼

'''html=requests.get(url)returnhtml.content.decode(gbk)#這個網(wǎng)頁需要使用gbk方式解碼才能讓中文正常顯示第三步：單擊鼠標(biāo)右鍵，在彈出的快捷菜單中選擇“查看網(wǎng)頁源代碼"命令，如圖3-18所示第四步：查看網(wǎng)頁源代碼。單擊之后效果如下所示。▼<tablewidth="98%"border="0"align="center"cellpadding=0"cel1spacing="0">▼<tbody>▼<tr><ahref="2512/73855.html">第五卷呂大郎還金完骨肉</a></td>▼<td>…</td>由于網(wǎng)址存在于<a>標(biāo)簽中，但<a>標(biāo)簽本身沒有特殊的標(biāo)識符來區(qū)分章節(jié)的鏈接和其他普通鏈接，因此需要使用先抓大再抓小的技巧。構(gòu)造正則表達(dá)式，先提取出包含每一章鏈接的一大塊內(nèi)容，再對這一大塊內(nèi)容使用正則表達(dá)式提取出網(wǎng)址。由于源代碼中的網(wǎng)址使用的是相對路徑，因此需要手動拼接為絕對路徑，代碼如下。defget_toc(html)：""""獲取每一童鏈接，儲存到一個列表中并返回。:paramhtml：目錄頁源代碼:return：每章鏈接""""toc_url_list=[]toc_block=re.findall('正文(.*?</tbody>',html,re.S)[0]toc_url=re.findall(href="(.*?)",toc_block,re.S)forurlintoc_url:toc_url_list.append(‘/files/old/2011/”+url)name=re.findall(‘<h2><b>(.*?)</b></h2>'.html,re.S)[0]returntoc_url_list,name第五步：單擊“第一卷“，查看源代碼，如下所示。▼<tablewidth="880"border="0"align="center"cellpadding="0">▼<tbody>▼<tr><br><br>"----------------------------------------------------以上是第一卷源代碼搜索源代碼中的<p>標(biāo)簽和</p>標(biāo)簽，發(fā)現(xiàn)它剛好有一對，正好包裹著正文。而正文中的<br/>標(biāo)簽沒有必要用正則表達(dá)式來去除，直接使用字符串的replace()方法把其替換為空即可。代碼如下。defget_article(url：)"""獲取每一卷的正文并返回卷名和正文：paramhtml：正文源代碼：return：卷名，正文"""html=requests.get(url).content.decode(‘gbk’)chapter_name=re.findall(‘tdwidth="880"height="60align="center"bgcolor="#FFFFFF"><h2><fontcolor="#dc143c">(.*?)</font>’，html，re.S)[0]text_block=re.findall(‘<p>(.*?)</p>’，html，re.S)[0]Text_block=text_block.replace('<br/>'，")returnchapter_name，text_block第六步：保存數(shù)據(jù)到本地，代碼如下。defsave(name，ChaptersAndSections，content)：f=open(‘./'+url[1]+/+ChaptersAndSections+‘.txt'，mode='a+')f.write(content)f.closel()第七步：編寫主函數(shù)，代碼如下。if_name_=='_main_’：html=get_source(start_url)url=get_toc(html)os.makedirs(‘./’+url[1))foriinurl[O]：text=get_article(i)save(url[1]，text[0]，text[1])第八步：運行項目，生成的文件如圖3-19所示。三

Flume系統(tǒng)日志采集使用Flume的核心是設(shè)置配置文件，在配置文件中，需要詳細(xì)定義Source、Sink和Channel的相關(guān)信息。這里通過兩個實例來介紹如何設(shè)置配置文件。3.1.1采集NetCat數(shù)據(jù)顯示到控制臺這里給出一個簡單的實例，假設(shè)Source為NetCat類型，使用Telnet連接Source寫入數(shù)據(jù)產(chǎn)生的目志數(shù)據(jù)輸出到控制臺(屏幕)。下面首先介紹在Windows7中的操作方法，然后介紹在Windows10中的操作方法。為了順利完成后面的操作，首先開啟Windows7的Telne服務(wù)。具體方法是、打開“控制面板“，單擊“程序“一“默認(rèn)程序“，在窗口左下角單擊“程序和功能“，再單擊左側(cè)頂部的打開或關(guān)閉“Windows功能“，會出現(xiàn)圖3-20所示的窗口。把“Telnet服務(wù)器“和“Telnet客戶端“都選然后單擊“確定“按鈕。在Flume安裝目錄的conf子目錄下，新建一個名稱為example.conf的配置文件，該文件的內(nèi)容如下：#設(shè)置Agent上的各個組件名稱al.sources=r1al.sinks=kla1.channels=c1#配置Sourcea1.sources.rl.type=netcata1.sources.rl.bind=localhosta1.sources.rl.port=44444#配置Sinka1.sinks.kl.type=logger#配置Channela1.channels.cl.type=memorya1.channels.c1.capacity=1000a1.channels.cl.transactionCapacity=100#把source和sink綁定到channel上a1.sources.rl.channels=cla1.sinks.k1.channel=cl配置文件設(shè)置了Sourse類型為NetCat，Channel類型為Memory，Sink類型為Logger。然后，新建一個cmd命令行窗口(這里稱為“Flume窗口“)，并執(zhí)行如下命令：>cdc:apache-flume-1,9,0-bin>.bin\flume-ngagent--conf.\conf--conf-file.\conf\example.conf--nameal--propertyflume.root.logger=INFO，console再新建一個cmd命令行窗口，并執(zhí)行如下命令：>telnetlocalhost44444這時就可以從鍵盤輸人一些英文單詞，如“HeloWord“，切換到Flume窗口，就可以看到屏幕上顯示了“HelloWorld“，如圖3-21所示。這說明Flume成功地接收到了信息。現(xiàn)在介紹Windows10中的操作方法在Windows10運行Flume的操作和Windows7一樣，不同的是Telnet操作。由于Telnet服務(wù)端的安全性問題、Windows10移除了1elnet服務(wù)端組件，也就是說，在Windows10中無法找到Telnet服務(wù)端組件，也就無法執(zhí)行“telnetlocalhost44444“命令，因此，操作方法不同于Windows7。為了能夠執(zhí)行“telnetlocalhost44444“命令，這里使用子系統(tǒng)的方法通過Linux的telnet命令進(jìn)行操作，噪作步驟如下。進(jìn)入Windows10自帶的“軟件商店“(MicrosofStore)，在軟件商店中搜索“Ubuntu“選擇第一個搜索結(jié)果進(jìn)行下載，如圖3-22所示。下載結(jié)束后，單擊“安裝“按鈕完成Ubuntu系統(tǒng)的安裝。安裝完成后，可以從“開始“菜單啟動Ubuntu、如圖5-6所示。初次啟動時需設(shè)置用戶名和密碼，設(shè)置以后就可以進(jìn)入Ubuntu的命令行窗口。在命令提示符后面輸人“telnetlocalhost44444“命令即可，如圖5-7所示。Ubuntu子系統(tǒng)和原系統(tǒng)Windows10的端口信息可以互通，效果等同于Windows7中的telnet命令。這時從鍵盤輸入一些英文單詞，如“HelloWorld“，切換到Windows10中的Flume窗口，就可以看到屏幕上顯示了“HelloWorld“，說明Flume成功地接收到了信息。3.1.2采集目錄下的數(shù)據(jù)顯示到控制臺假設(shè)Windows操作系統(tǒng)中有一個目錄“C：mylogs”，這個目錄下不斷有新的文件生成。使用Flume采集這個目錄下的文件，并把文件內(nèi)容顯示到控制臺(屏幕)。在Flume安裝目錄的conf子目錄下，新建一個名稱為examplel.conf的配置文件，該文件的內(nèi)容如下：#設(shè)置Agent上的各個組件名稱al.sources=rla1.channels=c1al.sinks=kl

#配置Sourcea1.sources.rl.type=spooldira1.sources.r1.spoolDir=C：/mylogs/

#配置channela1.channels.cl.type=memorya1.channels.c1.capacity=10000a1.channels.cl.transactionCapacity=100

#配置Sinkal.sinks.k1.type=logger106#把source和sink綁定到channel上al.sources.rl.channels=c1al.sinks.kl.channel=cl清空“C:\mylogs”目錄(即刪除該目錄下的所有內(nèi)容)，然后新建一個cmd命令行窗口(這里稱為“Flume窗口”

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

商務(wù)數(shù)據(jù)分析技術(shù) 課件項目三數(shù)據(jù)采集技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

商務(wù)數(shù)據(jù)分析技術(shù) 課件 項目三 數(shù)據(jù)采集技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

商務(wù)數(shù)據(jù)分析技術(shù) 課件項目三數(shù)據(jù)采集技術(shù)