版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
微博搜索關(guān)鍵詞采集【微博】搜索關(guān)鍵詞采集
在微博主頁登錄后,輸入關(guān)鍵詞搜索,采集得到的搜索結(jié)果列表數(shù)據(jù)。支持按【高級搜索】中設(shè)置的條件進搜索。?!疚⒉克阉麝P(guān)鍵詞采集在首頁搜索框輸入微博首頁網(wǎng)址然后點【開始采集】,八爪魚自動打開網(wǎng)頁。步驟1打開網(wǎng)頁【微博】搜索關(guān)鍵詞采集
1、打開瀏覽器模式點擊按鈕,打開瀏覽器模式。在瀏覽器模式中,點擊頁面的登錄按鈕,打開手機微博app掃碼登錄。步驟2微博登錄【微博】搜索關(guān)鍵詞采集2、使用Cookie登錄微博進入【打開網(wǎng)頁】設(shè)置界面,勾選【使用指定的Cookie】,點擊【獲取當(dāng)前頁面Cookie】并保存。這樣就獲取到了登錄后的Cookie,啟動時直接以登錄狀態(tài)打開網(wǎng)頁步驟2微博登錄【微博】搜索關(guān)鍵詞采集步驟三、在【高級搜索】中選擇搜索條件。
先在瀏覽器中測試一下。打開微博首頁,輸入關(guān)鍵詞【三體】,在【高級搜索】中選擇條件:【原創(chuàng)】【2023-03-0100時至2023-03-3000時】,得到網(wǎng)址:1、獲得帶有搜索關(guān)鍵詞和篩選條件的網(wǎng)址【微博】搜索關(guān)鍵詞采集步驟3:XPath軸翻頁。2、將1中的網(wǎng)址,輸入進八爪魚中在【打開網(wǎng)頁】后,增加一個步驟【打開網(wǎng)頁1】。雙擊進入【打開網(wǎng)頁1】設(shè)置頁面,輸入網(wǎng)址,然后保存,八爪魚自動打開這個網(wǎng)頁?!疚⒉克阉麝P(guān)鍵詞采集步驟四、使用自動識別,自動識別列表頁和翻頁1、使用自動識別,自動識別列表和翻頁網(wǎng)頁打開后,點擊【自動識別網(wǎng)頁內(nèi)容】,等待一段時間,成功識別了文章列表中的數(shù)據(jù)和翻頁。點擊【生成采集設(shè)置】,將自動識別出的列表數(shù)據(jù)和翻頁,生成為采集流程,方便我們使用和修改?!疚⒉克阉麝P(guān)鍵詞采集步驟四、使用自動識別,自動識別列表頁和翻頁2、修改【循環(huán)列表1】和【循環(huán)翻頁XPath自動識別生成【循環(huán)列表】和【循環(huán)翻頁】存在不通用的情況,需要手動修改。進入【循環(huán)翻頁】設(shè)置頁面,修改XPath為://li[@class='cur']/a/../following-sibling::li[1]/a,然后點擊【應(yīng)用】保存。進入【循環(huán)列表1】設(shè)置頁面,修改XPath為://div[@class="card-wrap"and@mid],然后點擊【應(yīng)用】保存?!疚⒉克阉麝P(guān)鍵詞采集
在【當(dāng)前頁面數(shù)據(jù)預(yù)覽】面板中,可刪除多余字段,修改字段名,移動字段順序等。步驟五、編輯字段【微博】搜索關(guān)鍵詞采集
1、改【博文內(nèi)容】字段XPath【博文內(nèi)容】字段默認的XPath,無法精準定位到展開后的全部博文,需修改XPath。點擊【提取列表數(shù)據(jù)】進入對應(yīng)的數(shù)據(jù)預(yù)覽界面,點擊【博文內(nèi)容】字段右上方的...按鈕,選擇【修改元素定位】,修改XPath為://div[@class="content"]//*[@class='txt'][last()],然后應(yīng)用步驟六、優(yōu)化字段【微博】搜索關(guān)鍵詞采集2、格式化字段【轉(zhuǎn)發(fā)數(shù)】、【評論數(shù)】和【點贊數(shù)】三個字段,默認會帶上轉(zhuǎn)發(fā)、評論、贊的文本。如果需要去掉文本,只保留數(shù)字,可以通過格式化實現(xiàn):點擊【轉(zhuǎn)發(fā)數(shù)】字段右上方的【...】按鈕,選擇【格式化數(shù)據(jù)】→【添加步驟】→【正則表達式匹配】,輸入正則表達式【\d+】后保存。【評論數(shù)】、【點贊數(shù)】的格式化數(shù)據(jù)過程相同。步驟六、優(yōu)化字段【微博】搜索關(guān)鍵詞采集1、單擊【采集】并【啟動本地采集】。啟動后八爪魚開始自動采集數(shù)據(jù)。步驟七、啟動采集【微博】搜索關(guān)鍵詞采集2、采集完成后,選擇合適的導(dǎo)出方式導(dǎo)出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆分院招聘廣東電信規(guī)劃設(shè)計院2026屆校招開啟(12人)備考核心試題附答案解析
- 2026年浙江省中醫(yī)院、浙江中醫(yī)藥大學(xué)附屬第一醫(yī)院招聘136人(第一批)備考筆試試題及答案解析
- 2025年同城配送司機合同協(xié)議
- 2025年通風(fēng)管道定期清潔合同協(xié)議
- 2025年體育活動監(jiān)督合同協(xié)議
- 2025宜春市人力資源服務(wù)有限責(zé)任公司招聘1人(宜春海關(guān))考試重點題庫及答案解析
- 2025年體檢中心設(shè)備服務(wù)合同協(xié)議
- 2025年普洱市思茅區(qū)醫(yī)療衛(wèi)生行業(yè)編制外人員招聘(22人 )筆試重點試題及答案解析
- 2025年濟寧醫(yī)學(xué)院附屬醫(yī)院公開招聘高級專業(yè)技術(shù)崗位和博士研究生人員(50人)參考筆試題庫附答案解析
- 2025湖南長沙市雨花區(qū)雨花亭街道社區(qū)衛(wèi)生服務(wù)中心招聘2人考試重點題庫及答案解析
- 日歷表2026年日歷 英文版 橫向排版 周一開始
- 2025版人教版高中物理精講精練必修1專題強化03:水平和傾斜傳送帶模型 原卷版
- 統(tǒng)編版四年級上冊語文期末專題復(fù)習(xí)課件2-6-文言文之超級訪問
- 湘少版英語-6年級上冊-單詞表(帶音標(biāo))
- 新概念英語第一冊隨堂練習(xí)-Lesson53~54 有答案
- 2020年智慧樹知道網(wǎng)課《非英語國家文化(山東聯(lián)盟)》課后章節(jié)測試滿分答案
- 壅水計算完整版本
- 07FJ02防空地下室建筑構(gòu)造
- 外研版(三起)(2024)三年級上冊英語Unit 2 My school things單元測試卷(含答案)
- 化工建設(shè)綜合項目審批作業(yè)流程圖
- 馬工程《經(jīng)濟法學(xué)》教學(xué)
評論
0/150
提交評論