版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
什么是火車頭?我們翻開一個(gè)網(wǎng)站,看到有一篇文章很不錯(cuò),于是我們就將文章的標(biāo)題和內(nèi)容復(fù)制了一下,將這篇文章轉(zhuǎn)到我們的網(wǎng)站上.我們的這個(gè)過程,就可以稱作一個(gè)采集,將別人網(wǎng)站上對(duì)自己有用-修改-黏貼的過程產(chǎn)生的,所以信息采集很重要,也很普遍,我們平臺(tái)發(fā)到網(wǎng)站上的文章,多數(shù)也是這樣的一個(gè)過程;為什么很多人感覺聞更很麻煩,由于這個(gè)工作是重復(fù)的,枯燥乏味的,鋪張時(shí)間的;火件產(chǎn)品;現(xiàn)在是大數(shù)據(jù)時(shí)代,它可以快速、批量、海量的獵取到互聯(lián)網(wǎng)上的數(shù)據(jù),并依據(jù)我1000篇文章,你要用多久?5個(gè)小時(shí)?在有規(guī)章的狀況下,火車頭只5鐘就好了,但剛開頭學(xué)的時(shí)候會(huì)比較慢;名稱解釋與規(guī)章編寫流程n8.612步:建分組3步:右擊分組,建任務(wù),填寫任務(wù)名;4步:寫采集網(wǎng)址規(guī)章〔起始網(wǎng)址和多級(jí)網(wǎng)址獵取〕5步:寫采集內(nèi)容規(guī)章〔如標(biāo)題、內(nèi)容〕6步:公布內(nèi)容設(shè)置勾選啟用方式二(1)保存格式:一條記錄保存為一個(gè)txt;(2)保存位置自定義;文件模板不用動(dòng);文件名格式:點(diǎn)右邊的倒立筆型選[標(biāo)簽:標(biāo)題];文件編碼可以先選utf-8,假設(shè)測試時(shí)數(shù)據(jù)正常,但保存下來的數(shù)據(jù)有亂碼則選gb2312;7100;a.單任務(wù)采集內(nèi)容線程個(gè)數(shù):同時(shí)可以采集幾個(gè)網(wǎng)址;b.采集內(nèi)容間隔時(shí)間毫秒數(shù):兩個(gè)任務(wù)的間隔時(shí)間;c.單任務(wù)公布內(nèi)容線程個(gè)數(shù):一次保存多少條數(shù)據(jù);d.公布內(nèi)容間隔時(shí)間毫秒數(shù):兩次保存數(shù)據(jù)的時(shí)間間隔;〔一次頁面〕,則適當(dāng)調(diào)小a值和調(diào)大b的值;8步:保存、勾選并開頭任務(wù)〔假設(shè)是同一分組的,可以在分組上批量選中〕n〔如是采集同行A還是同行B〕,是在其哪個(gè)欄目下的〔如是產(chǎn)品信息還是聞信息〕,在這個(gè)欄目下有n標(biāo)題內(nèi)容復(fù)制下來,以此類推,然后同樣的流程我要執(zhí)行n遍;怎么轉(zhuǎn)換:怎么把這個(gè)流程轉(zhuǎn)化為軟件操作呢?我要預(yù)備n篇聞,這就說明要n個(gè)標(biāo)題+nn站的聞欄目有可能是很多頁,比方10頁,這個(gè)時(shí)候再從同行A的網(wǎng)站—欄目—內(nèi)頁;即〔確定好是采集聞還是產(chǎn)品〕,寫網(wǎng)址規(guī)章下來;采網(wǎng)址詳解-具體操作找到要采集網(wǎng)址的欄目頁,如聞欄目復(fù)制欄目的第一頁鏈接url,起始網(wǎng)址右側(cè)中點(diǎn)添加,在單條網(wǎng)址中黏貼欄目的第一頁鏈接后點(diǎn)添加,如用右邊的(*)199,2〔2頁的鏈接是,然后點(diǎn)添加-完成;1、點(diǎn)對(duì)應(yīng)右側(cè)的添加,然后如以下圖所示是例如,右側(cè)大圖是說明;2、點(diǎn)擊保存后點(diǎn)右下角的看看是否能采集到聞網(wǎng)址,成功;網(wǎng)址過濾可以自己觀看其對(duì)應(yīng)的規(guī)律;1、到采集內(nèi)容規(guī)章這里后,把作者、時(shí)間、出處都選中后刪掉,如右面第一張圖,由于這些標(biāo)簽正常狀況下都用不到;2、選中標(biāo)題標(biāo)簽點(diǎn)修改,或直接雙擊該標(biāo)簽,進(jìn)入編輯界面;3、進(jìn)入后標(biāo)簽名的“標(biāo)題”別改,改正后是要改對(duì)應(yīng)的模板的;4、下面的數(shù)據(jù)提取方式:前后截取和開頭完畢字符串,也盡量用默認(rèn)的,在不嫻熟的狀況下不要改;5、點(diǎn)擊下面數(shù)據(jù)處理的添加—內(nèi)容替換,如右圖;6、內(nèi)容替換將標(biāo)題后面的都替換為空,假設(shè)不替換的話采集的是頁面title,這時(shí)需要翻開兩個(gè)聞頁面,看看這兩個(gè)聞頁面的公共局部是什么,把公共局部替換掉例:如下面兩個(gè)標(biāo)題,“-”是公共局部,即把其替換為“空”;【圖文】你知道螺旋加料機(jī)的加工方法嗎螺旋加料機(jī)原理你了解嗎【圖文】氣動(dòng)式加料機(jī)的優(yōu)點(diǎn)是什么你知道粉末加料機(jī)工作原理嗎例:如下面的則需要把“-安康網(wǎng)”替換成“空”;例:如下面的則需要把“-安康網(wǎng)”替換成“空”;我寵愛吃西瓜-安康網(wǎng)蘋果好吃嗎?-安康網(wǎng)1、選中內(nèi)容點(diǎn)編輯,或直接雙擊進(jìn)入到內(nèi)容標(biāo)簽編輯界面,標(biāo)簽名千萬別改;2、寫開頭和完畢字符串,就是找能把全部聞都包裹起來的,在全部在全部聞頁面中都是聞頁面中都有的,且是唯一的一段字符串;即這個(gè)頁面模板中的唯一代碼串;n篇,如100篇,這個(gè)時(shí)代碼〔假設(shè)不唯一,軟件能知道從第幾個(gè)開頭嗎?〕,但又不是聞中的內(nèi)容,如<divid=“zoom”>,復(fù)制后在其次篇聞頁面源文件中搜一下看看有沒有,假設(shè)有,則可承受;同息,里面有可能有其他網(wǎng)站的資料,如公司名、聯(lián)系方式、品牌等信息,也可能有其他網(wǎng)站HTML標(biāo)簽過濾:滾動(dòng)軸橫向拉到最終,在全部標(biāo)簽前面打鉤后點(diǎn)確定;內(nèi)容替換:將這個(gè)〔拆分〕〔拆分〕、郵箱、公司地址〔拆分〕、品牌名、網(wǎng)址〔拆分〕;其中拆分的意思是對(duì)這個(gè)數(shù)據(jù)進(jìn)展拆解換干凈,可以多看一下他的聞中,可能會(huì)用什么樣的格式;好,有可能是為他人做嫁衣,所以肯定要認(rèn)真觀看,考慮全面,假設(shè)處理好了,采集下來的文章甚至可以直接就公布〔非自己企業(yè)站〕留意事項(xiàng)1、右擊分組:會(huì)消滅如以下圖菜單,正常都能用到;建任務(wù):在此分組上建任務(wù);運(yùn)行該分組下全部任務(wù):顧名思義;建任務(wù):在該分組下再建分組;編輯/刪除分組:編輯/刪除當(dāng)前分組;導(dǎo)入/導(dǎo)出分組規(guī)章:可以導(dǎo)出當(dāng)前分組下的全部任務(wù),并導(dǎo)入到同版本火車頭上;導(dǎo)入任務(wù)至該分組:將導(dǎo)出的單個(gè)任務(wù)導(dǎo)入到該分組下面;后的任務(wù)上進(jìn)展編輯即可;開頭任務(wù):和菜單欄上的開頭一樣;編輯任務(wù):編輯已經(jīng)寫好的任務(wù);導(dǎo)出任務(wù):6步-公布內(nèi)容設(shè)置,必需要重選/填一遍;復(fù)制任務(wù)到黏貼板:復(fù)制后,選擇一個(gè)任務(wù)分組并右擊,可以黏貼不同數(shù)量的任務(wù)到那個(gè)分組中,這樣就避開同一個(gè)任務(wù)屢次編寫了;清空任
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臉盆拆除施工方案(3篇)
- 草坪切邊施工方案(3篇)
- 西昌寫施工方案(3篇)
- 跨天施工方案(3篇)
- 酒館套購活動(dòng)策劃方案(3篇)
- 銅排鍍鋅施工方案(3篇)
- 防暴雨施工方案(3篇)
- 隧道拍攝施工方案(3篇)
- 風(fēng)干房施工方案(3篇)
- 員工宿舍火災(zāi)事故應(yīng)急演練方案
- 民航招飛pat測試題目及答案
- 2型糖尿病臨床路徑標(biāo)準(zhǔn)實(shí)施方案
- 2026年鄭州鐵路職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試題庫及參考答案詳解
- DB35-T 2278-2025 醫(yī)療保障監(jiān)測統(tǒng)計(jì)指標(biāo)規(guī)范
- 長沙股權(quán)激勵(lì)協(xié)議書
- 心源性腦卒中的防治課件
- 2025年浙江輔警協(xié)警招聘考試真題含答案詳解(新)
- 果園合伙經(jīng)營協(xié)議書
- 節(jié)能技術(shù)咨詢合同范本
- 物業(yè)管理經(jīng)理培訓(xùn)課件
- 員工解除競業(yè)協(xié)議通知書
評(píng)論
0/150
提交評(píng)論