火車頭采集器教程

上傳人：y*** IP屬地：廣東上傳時間：2020-09-14 格式：PPT 頁數(shù)：32 大?。?.61MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

1、火車頭采集器使用流程說明,打開火車頭軟件（LocoySpider.exe）界面如下圖：,二、新建站點,第一步：新建站點（如右圖）,二、新建站點,第二步：點擊“新建站點”后出現(xiàn)如下界面。填寫站點名和站點網(wǎng)址點擊“更新”,三、采集網(wǎng)址,新建好的站點會排列在窗口左側(cè)“站點&任務列表”中。右擊新建好的站點，點擊“從該站點新建任務”，出現(xiàn)如下界面。,以本列表為例：,點擊向?qū)砑雍蟪霈F(xiàn)如下界面：批量/多頁,三、采集網(wǎng)址,三、采集網(wǎng)址,單條網(wǎng)址選項下：,三、采集網(wǎng)址,填寫完成后，點擊“完成”。則出現(xiàn)以下界面：,注釋：1、在選擇目標站時，最好選擇文章更新快，文章質(zhì)量高（少廣告詞、圖片、鏈接、視頻、flash

2、等），內(nèi)容豐富并且在業(yè)界有一定權(quán)威性的站點。2、過于滯后的文章不要采集。（例如：08年、09年的文章）3、在選擇列表的過程中最好以站點為單位，不要以某個列表為單位，這樣采集效率會事半功倍。4、在選擇目標站時盡量不要選擇動態(tài)頁，多選擇可以用數(shù)字或字母（*）代替的靜態(tài)頁。5、在采集過程中遇到不需要采集的文章，可以通過“不得包含”功能將其過濾掉。,三、采集網(wǎng)址,完成采集網(wǎng)址步驟之后，點擊“開始測試網(wǎng)址采集”按鈕。會出現(xiàn)如下界面：,三、采集網(wǎng)址,在檢查采集連接無誤的情況下，點擊“返回修改設置”后，出現(xiàn)如下界面：,三、采集網(wǎng)址,選擇“第二步：采集內(nèi)容規(guī)則”后，出現(xiàn)如下界面。,四、采集內(nèi)容,四、采集內(nèi)容,

3、選擇“添加標簽”后，出現(xiàn)如下界面。,將“標題”、 “資訊內(nèi)容”、“內(nèi)容摘要”、“信息關鍵詞”、“meta關鍵詞”、“meta描述”、“責任編輯”、“信息來源”添加到標簽名中，將其他不需要的標簽名稱刪除，出現(xiàn)如下界面。,四、采集內(nèi)容,下面分別說明“標題”、“內(nèi)容摘要”、“信息關鍵詞”、“meta關鍵詞”、“meta描述”、“責任編輯”、“信息來源”、“資訊內(nèi)容”各個標簽的采集規(guī)則。,四、采集內(nèi)容,采集頁面以,第一、標題查看本頁面“源文件”搜索title代碼，找到文章內(nèi)容部分。如下圖：注釋：一般情況下檢索都可以采集到我們需要的標題標簽，但由于這篇文章此代碼中設計到其他網(wǎng)站logo及列表分類不確

4、定信息，所以選擇中內(nèi)容來代替。如果沒有合適字段，可利用“內(nèi)容排除”選項進行篩選。,雙擊上圖窗口中的“標題”標簽，將“源代碼”中對應的標題開始代碼和結(jié)束代碼分別輸入到開始字符段和結(jié)束字符段中，點擊確定，標題標簽設置完成。,四、采集內(nèi)容,第二、資訊內(nèi)容,四、采集內(nèi)容,查看本頁面“源文件”，找到文章內(nèi)容部分。如下圖：,1、雙擊上圖窗口中的“資訊內(nèi)容”標簽，將“源代碼”中對應的資訊內(nèi)容開始代碼和結(jié)束代碼分別輸入到開始字符段和結(jié)束字符段中。2、勾選“HTML標簽排除”中的“鏈接”、“層”、“Span”、“圖象”、“腳本”選項。3、選擇“內(nèi)容排除”中的添加項，將資訊內(nèi)容代碼中的無用代碼和文本添加在此選項

5、中，過濾廢物信息。4、點擊確定，資訊內(nèi)容標簽設置完成。如下圖：,四、采集內(nèi)容,四、采集內(nèi)容,四、采集內(nèi)容,注釋：在資訊內(nèi)容采集過程中最主要的是對垃圾信息的刪除，其中需要注意的有以下幾項： 1、廣告語（例如：2010年建材行業(yè)十大評選活動圓滿落幕，電話：01062298529） 2、特殊標簽（例如：標簽，大部分標簽會在“HTML標簽排除”中刪除。） 3、網(wǎng)站logo （例如：【慧聰建材網(wǎng)】） 4、文章中銘感文字（例如：點擊下一頁、點擊查看更多圖片、視頻、責任編輯、評論、【熱點導讀】、【相關新聞】等與文章正文無關的文字。）,四、采集內(nèi)容,第三、內(nèi)容描述、meta描述,查看本頁面“源文件”

6、搜索description代碼，找到文章描述部分。如下圖：,四、采集內(nèi)容,將“源代碼”中對應的描述開始代碼和結(jié)束代碼分別輸入到開始字符段和結(jié)束字符段中，點擊確定，內(nèi)容描述和meta描述標簽設置完成。,注釋：有些文章描述部分設有大量廣告語或與本文無關的內(nèi)容，這樣的文章描述我們不給予采集?？梢詫祟}的采集方法復制到描述采集中。,四、采集內(nèi)容,第四、信息關鍵詞、meta關鍵詞,查看本頁面“源文件” 搜索keywords代碼，找到文章關鍵詞部分。如下圖：,四、采集內(nèi)容,將“源代碼”中對應的關鍵詞開始代碼和結(jié)束代碼分別輸入到開始字符段和結(jié)束字符段中，點擊確定，信息關鍵詞和meta關鍵詞標簽設置完成。,

7、注釋：有些文章關鍵詞部分設有大量廣告語或與本文無關的內(nèi)容，這樣的文章關鍵詞我們不給予采集。可以將標題的采集方法復制到關鍵詞采集中。,四、采集內(nèi)容,第五、責任編輯,雙擊責任編輯標簽，選擇“自定義固定格式的數(shù)據(jù)”，在固定的字符串選項中填寫自己的名稱，點擊確定，責任編輯設定完成。,四、采集內(nèi)容,第六、信息來源,雙擊責任編輯標簽，選擇“自定義固定格式的數(shù)據(jù)”，在固定的字符串選項中填寫信息來源，點擊確定，信息來源設定完成。,四、采集內(nèi)容,第七、分頁,在“頁面內(nèi)容分頁區(qū)域/樣式設置”中將分頁部分代碼輸入其中，用（*）代替即可。如下圖：（注釋：各站的分頁代碼不同，需要具體分析，采集分頁的文章在我們后臺將成

8、為一篇通篇文章。建議少采集分頁多的文章，影響用戶體驗。）,四、采集內(nèi)容,規(guī)則填寫完成后，返回至第一步“測試網(wǎng)址采集”。雙擊所采集到的任一文章地址。則會自己彈出如下界面。（注釋：建議多測試幾篇文章，減少垃圾代碼出現(xiàn)。）,采集內(nèi)容階段完成，點擊進入發(fā)布內(nèi)容設置,五、發(fā)布內(nèi)容,1、啟動以下兩項，點擊“定義web在線發(fā)布到網(wǎng)站全局設置”。,五、發(fā)布內(nèi)容,2、點擊添加，選擇phpcms2008 新聞發(fā)布模塊 3、在“網(wǎng)站/cms根地址”：輸入http:/localhost/phpcms/ 4、點擊“在火車內(nèi)置瀏覽器中登錄”,五、發(fā)布內(nèi)容,12、在配置名中輸入要采集的欄目名稱，點擊保存配置。,13、設置完成后點擊保存。,發(fā)布內(nèi)容部分結(jié)束,六、任

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

火車頭采集器教程

文檔簡介

溫馨提示

最新文檔

評論

相關文檔