數(shù)據(jù)采集、清洗與標注 第9章課后習題參考答案_第1頁
數(shù)據(jù)采集、清洗與標注 第9章課后習題參考答案_第2頁
數(shù)據(jù)采集、清洗與標注 第9章課后習題參考答案_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第9章課后習題參考答案1.京東商品評價爬?。ǖ?章4.2.4節(jié))??實施步驟??:??目標分析??:京東評價接口逆向工程(通常為異步加載)示例商品URL結構:product_url='/100012043978.html'??爬蟲構建??:importrequestsfrombs4importBeautifulSoupdefget_jd_reviews(product_id):api_url=f'/comment/productPageComments.action?productId={product_id}'headers={'Referer':f'/{product_id}.html','User-Agent':'Mozilla/5.0'}response=requests.get(api_url,headers=headers)returnresponse.json()['comments']??數(shù)據(jù)解析??:reviews=[]forcommentinget_jd_reviews('100012043978'):reviews.append({'user':comment['nickname'],'score':comment['score'],'content':comment['content']})??反爬對策??:IP代理輪換(參考圖4-6代理池架構)請求頻率控制(建議≥3秒/次)2.文本分詞技術(第6章6.1.2節(jié))??分詞方法對比??:方法原理適用場景示例??規(guī)則分詞??詞典匹配專業(yè)領域中科院計算所ICTCLAS??統(tǒng)計分詞??概率模型通用文本jieba分詞庫??混合分詞??規(guī)則+統(tǒng)計復雜需求HanLP??jieba實戰(zhàn)??:importjiebatext="自然語言處理技術真有趣"#精確模式seg_list=jieba.cut(text,cut_all=False)print("精確模式:"+"/".join(seg_list))#全模式seg_list=jieba.cut(text,cut_all=True)print("全模式:"+"/".join(seg_list))??專業(yè)技巧??:加載自定義詞典:jieba.load_userdict("mydict.txt")停用詞過濾(參考停用詞表)3.圖像數(shù)據(jù)增強(第6章6.2.3節(jié))??增強操作示例??:fromtorchvisionimporttransformstransform=transforms.Compose([transforms.RandomHorizontalFlip(p=0.5),transforms.RandomRotation(15),transforms.ColorJitter(brightness=0.2,contrast=0.2),transforms.RandomResizedCrop(224,scale=(0.8,1.0))])??效果對比??:操作類型參數(shù)設置適用場景幾何變換旋轉15°文字識別色彩調整±20%亮度低光增強遮擋增強隨機擦除魯棒性訓練4.MVS采集注意事項(第3章3.4.4節(jié))??關鍵操作要點??:??設備配置??:相機標定(內參矩陣校準)同步觸發(fā)設置(誤差<1ms)??環(huán)境控制??:光照均勻度(圖3-14布光方案)背景復雜度(建議純色背景)??采集參數(shù)??:參數(shù)推薦值說明分辨率不低于4K保證細節(jié)幀率30fps動態(tài)場景ISO≤800控制噪點??數(shù)據(jù)校驗??:實時預覽焦點清晰度定期檢查存儲完整性5.瑕疵檢測數(shù)據(jù)處理要點(第9章9.2節(jié))??質量提升策略??:??數(shù)據(jù)層面??:小樣本增強(GAN生成缺陷樣本)類別平衡(過采樣/欠采樣)??標注層面??:多級標注標準(圖9-5瑕疵分級)專家復核機制(二級校驗流程)??特征工程??:多尺度特征融合(金字塔結構)異常值檢測(3σ原則)??性能優(yōu)化公式??:

模型準確率提升ΔA與數(shù)據(jù)質量關系:ΔA=α*Q_data+β*Q_label+γ*Q_feature其中:Q_data:數(shù)據(jù)多樣性評分Q_label:標注一致性評分Q_feature:特征區(qū)分度評分??技術關聯(lián)圖譜??:graphTDA[數(shù)據(jù)采集]-->B[預處理]B-->C[特征工程]C-->D[模型訓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論