版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章課后習(xí)題參考答案1.何為數(shù)據(jù)采集?數(shù)據(jù)采集是指通過特定技術(shù)手段從現(xiàn)實(shí)世界或數(shù)字環(huán)境中獲取原始數(shù)據(jù)的過程,是數(shù)據(jù)生命周期的起點(diǎn)。根據(jù)教材第1章1.1節(jié)的闡述:??核心特征??:多源異構(gòu)性:可采集傳感器數(shù)據(jù)(如溫濕度)、互聯(lián)網(wǎng)數(shù)據(jù)(如網(wǎng)頁內(nèi)容)、業(yè)務(wù)數(shù)據(jù)(如交易記錄)過程可控性:需遵循"六要"原則(確定來源、明確類型、選擇方法、設(shè)計(jì)存儲(chǔ)、確保質(zhì)量、合規(guī)合法)技術(shù)多樣性:包含物理信號(hào)采集(DHT11傳感器)、網(wǎng)絡(luò)爬?。⊿crapy框架)等不同技術(shù)形態(tài)??典型應(yīng)用場(chǎng)景??:工業(yè)領(lǐng)域:通過圖1-3所示的數(shù)據(jù)采集卡獲取產(chǎn)線設(shè)備參數(shù)環(huán)境監(jiān)測(cè):使用HOBOU12-013記錄儀采集水質(zhì)數(shù)據(jù)(見1.2.3節(jié)案例)2.數(shù)據(jù)組織形式有哪幾種?教材第1章1.2.1節(jié)詳細(xì)介紹了三種基礎(chǔ)數(shù)據(jù)組織形式:組織形式特點(diǎn)適用場(chǎng)景教材示例??平面文件??無結(jié)構(gòu)/分隔符存儲(chǔ)小型數(shù)據(jù)交換實(shí)例1-1的CSV文件??表格數(shù)據(jù)??行列二維結(jié)構(gòu)業(yè)務(wù)報(bào)表分析實(shí)例1-4的員工信息表??數(shù)據(jù)庫??關(guān)系型/NoSQL企業(yè)級(jí)應(yīng)用實(shí)例1-5的圖書管理數(shù)據(jù)庫??特殊類型??:樹狀結(jié)構(gòu):XML文檔(第2章2.2.5節(jié))圖結(jié)構(gòu):社交網(wǎng)絡(luò)關(guān)系數(shù)據(jù)時(shí)序數(shù)據(jù):傳感器采集的溫濕度序列(圖3-11)3.常見數(shù)據(jù)采集工具根據(jù)第1章1.2.2節(jié)和第3章內(nèi)容:??硬件工具??:傳感器類:DHT11溫濕度傳感器(圖3-6)工業(yè)CCD相機(jī)(圖3-4)??軟件工具??:網(wǎng)絡(luò)采集:Scrapy框架(4.3節(jié))BeautifulSoup(4.2.2節(jié))數(shù)據(jù)庫工具:MySQLConnector(1.3.1節(jié))Navicat等GUI工具??專用設(shè)備??:掃描儀(圖1-2)數(shù)據(jù)采集卡(圖1-3)4.常見數(shù)據(jù)采集場(chǎng)景教材第1章1.2.3節(jié)列舉的典型場(chǎng)景:??工業(yè)場(chǎng)景??:汽車焊接質(zhì)量監(jiān)測(cè)(壓力/溫度傳感器)采用圖1-3的NIUSB-6212采集卡??互聯(lián)網(wǎng)場(chǎng)景??:電商價(jià)格監(jiān)控(4.1.2節(jié))社交媒體輿情采集(實(shí)例4-9)??環(huán)境監(jiān)測(cè)??:河流水質(zhì)監(jiān)測(cè)系統(tǒng)(HOBO記錄儀)氣象站數(shù)據(jù)采集(第3章案例)5.Python數(shù)據(jù)采集工具包基于第1章1.3.1節(jié)安裝配置內(nèi)容:??核心工具包??:#網(wǎng)絡(luò)采集importscrapy#爬蟲框架(4.3節(jié))frombs4importBeautifulSoup#HTML解析(4.2.2節(jié))#數(shù)據(jù)庫交互importmysql.connector#MySQL連接(1.3.2節(jié))#通用工具importpandasaspd#數(shù)據(jù)處理(6.1.2節(jié))importrequests#HTTP請(qǐng)求(4.2.1節(jié))??特殊用途包??:PySerial(串口通信)OpenCV(圖像采集)6.MySQL登錄與退出操作根據(jù)教材1.3.2節(jié)操作指南:??登錄方法??:命令行方式:mysql-uroot-p#回車后輸入密碼如圖1-38所示:客戶端工具登錄:使用MySQLWorkbench圖形界面通過Navicat等第三方工具??退出命令??:--方法1QUIT;--方法2EXIT;??注意事項(xiàng)??:服務(wù)需提前啟動(dòng)(圖1-35的netstart命令)權(quán)限錯(cuò)誤處理(參考1.3.2節(jié)用戶創(chuàng)建流程)第2章課后習(xí)題參考答案1.文件類型與數(shù)據(jù)類型的區(qū)別??文件類型??(第2章2.1節(jié)):指存儲(chǔ)格式規(guī)范(如.txt/.csv)決定操作系統(tǒng)如何解析文件示例:JPEG文件頭包含"FFD8FF"魔數(shù)??數(shù)據(jù)類型??(第2章2.2節(jié)):指數(shù)據(jù)在程序中的邏輯分類包括:基本類型:整型、浮點(diǎn)型復(fù)合類型:結(jié)構(gòu)體、數(shù)組特殊類型:日期時(shí)間、二進(jìn)制流2.常見字符編碼標(biāo)準(zhǔn)??核心標(biāo)準(zhǔn)??(第2章2.2.1節(jié)):ASCII:7位編碼,僅支持英文GB2312:中文國(guó)家標(biāo)準(zhǔn),包含6763漢字UTF-8:Unicode實(shí)現(xiàn),兼容ASCIIISO-8859-1:西歐語言編碼Windows-1252:微軟擴(kuò)展編碼??編碼識(shí)別示例??:importchardetwithopen('data.txt','rb')asf:print(chardet.detect(f.read()))3.CSV文件特點(diǎn)??特征??(第2章2.2.2節(jié)):純文本存儲(chǔ),可用記事本編輯字段間用逗號(hào)分隔(可改用制表符)支持Excel直接打開示例結(jié)構(gòu):Name,Age,OccupationJohnDoe,30,Engineer??特殊處理??:含逗號(hào)的字段需用引號(hào)包裹換行符需轉(zhuǎn)義處理4.Pandas讀寫XLS文件??操作方法??(第2章2.2.3節(jié)):importpandasaspd#讀取df=pd.read_excel("input.xls",sheet_name=0)#寫入df.to_excel("output.xlsx",index=False)??注意事項(xiàng)??:需安裝openpyxl或xlrd庫大數(shù)據(jù)集建議分塊讀取5.不同編碼JSON處理??解決方案??(第2章2.2.4節(jié)):importjsonfromcharset_normalizerimportdetectdefload_json(file):withopen(file,'rb')asf:content=f.read()encoding=detect(content)['encoding']returnjson.loads(content.decode(encoding))6.HTML/XML處理示例??HTML處理??(第2章2.2.5節(jié)):frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'html.parser')print(soup.find_all('a'))??XML處理??:importxml.etree.ElementTreeasETtree=ET.parse('data.xml')root=tree.getroot()7.PNG格式特點(diǎn)??特性??(第2章2.3.2節(jié)):無損壓縮,保留透明度通道支持256級(jí)透明度采用DEFLATE壓縮算法典型結(jié)構(gòu):文件頭簽名IHDR塊(寬高信息)IDAT塊(圖像數(shù)據(jù))8.BMP圖像讀寫??操作方法??(第2章2.3.3節(jié)):fromPILimportImage#讀取img=Image.open('input.bmp')#保存img.save('output.bmp')??注意事項(xiàng)??:不支持壓縮,文件較大每個(gè)像素點(diǎn)占3字節(jié)(RGB)9.視頻文件格式??主流格式??(第2章2.4節(jié)):AVI:微軟開發(fā),無損質(zhì)量MP4:H.264編碼,通用性強(qiáng)MOV:蘋果格式,支持特效WMV:微軟流媒體格式10.視頻片段截取??實(shí)現(xiàn)方法??(第6章6.3.3節(jié)):frommoviepy.editorimportVideoFileClipclip=VideoFileClip("input.mp4").subclip(10,20)clip.write_videofile("output.mp4")11.MP3文件讀寫??操作方法??(第6章6.4.3節(jié)):frompydubimportAudioSegmentaudio=AudioSegment.from_mp3("input.mp3")audio.export("output.wav",format="wav")12.MP4轉(zhuǎn)WAV示例??轉(zhuǎn)換代碼??(第6章6.4.3節(jié)):frommoviepy.editorimportAudioFileClipAudioFileClip("video.mp4").write_audiofile("audio.wav")??參數(shù)說明??:codec:指定編碼器(如'pcm_s16le')bitrate:設(shè)置比特率(如'192k')第3章課后習(xí)題參考答案1.原始數(shù)據(jù)采集常見類型(第3章3.1.1節(jié))??四大基礎(chǔ)類型??:??物理環(huán)境數(shù)據(jù)??來源:氣象站/工業(yè)傳感器網(wǎng)絡(luò)示例:圖3-1所示的溫濕度傳感器陣列典型參數(shù):溫度、濕度、氣壓、光照強(qiáng)度??實(shí)驗(yàn)室數(shù)據(jù)??特點(diǎn):受控環(huán)境生成設(shè)備:質(zhì)譜儀/示波器(圖3-3數(shù)據(jù)采集卡)數(shù)據(jù)特征:高精度時(shí)間序列數(shù)據(jù)??社會(huì)經(jīng)濟(jì)數(shù)據(jù)??采集方式:?jiǎn)柧碚{(diào)查/政府公開數(shù)據(jù)案例:消費(fèi)者行為調(diào)研數(shù)據(jù)集??業(yè)務(wù)系統(tǒng)數(shù)據(jù)??典型來源:POS系統(tǒng)交易記錄CRM客戶交互日志特征:結(jié)構(gòu)化程度高(如第1章表1-4)2.常見傳感器類型(第3章3.2.1節(jié))??核心傳感器分類??:傳感器類型工作原理教材圖示典型應(yīng)用??溫度傳感器??熱電效應(yīng)圖3-1冷鏈監(jiān)控??圖像傳感器??CMOS感光圖3-4工業(yè)檢測(cè)??加速度傳感器??MEMS技術(shù)圖3-5運(yùn)動(dòng)追蹤??特殊傳感器??:氣體傳感器:檢測(cè)CO2濃度(圖3-12)接近傳感器:用于自動(dòng)門禁系統(tǒng)3.傳感器數(shù)據(jù)采集流程(第3章3.2.2節(jié))??標(biāo)準(zhǔn)七步流程??:??傳感器選型??:根據(jù)精度/量程選擇(參考表3-2參數(shù))??硬件部署??:如圖3-10的樹莓派接線方案??信號(hào)調(diào)理??:放大/濾波(圖3-7信號(hào)處理流程)??模數(shù)轉(zhuǎn)換??:ADC采樣(實(shí)例3-3代碼)??數(shù)據(jù)傳輸??:I2C/SPI協(xié)議(圖3-9接口說明)??數(shù)據(jù)存儲(chǔ)??:MySQL數(shù)據(jù)庫(實(shí)例3-3最后部分)??可視化呈現(xiàn)??:Matplotlib圖表輸出4.DHT11傳感器接口(第3章3.3.1節(jié))??三線制接口定義??:??VCC引腳??(Pin1):供電范圍:3.3V-5.5VDC連接方式:圖3-10中接樹莓派3.3V引腳??DATA引腳??(Pin2):?jiǎn)慰偩€通信協(xié)議需接上拉電阻(圖3-7電路圖)??GND引腳??(Pin4):接地基準(zhǔn)必須與控制器共地5.傳感器數(shù)據(jù)解析(第3章3.3.3節(jié))??數(shù)據(jù)幀解析??:
原始數(shù)據(jù):0011010100000000000110010000000001001101??結(jié)構(gòu)分解??:濕度整數(shù):00110101→53%RH濕度小數(shù):00000000→0.0溫度整數(shù):00011001→25°C溫度小數(shù):00000000→0.0校驗(yàn)和:01001101→77??校驗(yàn)驗(yàn)證??:sum=53+0+25+0#應(yīng)等于校驗(yàn)和77??有效判斷??:溫度≠0且濕度≠0校驗(yàn)和匹配6.焦距/光圈與景深(第3章3.4.3節(jié))??光學(xué)三要素關(guān)系??:景深∝(焦距2)/(光圈值×對(duì)焦距離2)??實(shí)際影響??:??長(zhǎng)焦距??:減小景深(背景虛化明顯)示例:圖3-38的人像模式??大光圈??(小f值):淺景深效果應(yīng)用:圖3-39的產(chǎn)品特寫??典型組合??:風(fēng)景攝影:f/8+廣角微距拍攝:f/2.8+60mm7.ROI概念說明(第3章3.4.4節(jié))??定義??:
RegionofInterest(感興趣區(qū)域),指圖像/視頻中需要重點(diǎn)處理的區(qū)域。??典型應(yīng)用??:??工業(yè)檢測(cè)??:圖3-35中僅標(biāo)注芯片焊點(diǎn)區(qū)域避免處理無關(guān)背景??智能交通??:圖3-36劃定車輛識(shí)別區(qū)提升處理效率(減少60%計(jì)算量)??醫(yī)學(xué)影像??:圖3-37標(biāo)注病灶區(qū)域輔助診斷系統(tǒng)分析??技術(shù)實(shí)現(xiàn)??:#OpenCV設(shè)置ROI示例roi=image[y:y+h,x:x+w]??知識(shí)圖譜??:??技術(shù)關(guān)聯(lián)??:傳感器數(shù)據(jù)→MySQL存儲(chǔ)→Pandas分析光學(xué)參數(shù)→OpenCV處理→AI模型輸入??實(shí)操提示??:樹莓派接線需防靜電(圖3-8)工業(yè)檢測(cè)需考慮圖3-14的光源配置??前沿?cái)U(kuò)展??:智能傳感器(圖3-15)多ROI協(xié)同分析(實(shí)例3-7)第4章課后習(xí)題參考答案1.互聯(lián)網(wǎng)數(shù)據(jù)組織形式(第4章4.1.1節(jié))??三大核心類型??:??結(jié)構(gòu)化數(shù)據(jù)??特征:固定模式存儲(chǔ)示例:MySQL關(guān)系表(教材表4-1)典型應(yīng)用:電商產(chǎn)品目錄??半結(jié)構(gòu)化數(shù)據(jù)??特征:自描述性標(biāo)記案例:JSON格式的API響應(yīng)(實(shí)例4-8){"product":"手機(jī)","price":3999,"in_stock":true}??非結(jié)構(gòu)化數(shù)據(jù)??特征:無預(yù)定義模型典型數(shù)據(jù):社交媒體圖片/視頻處理挑戰(zhàn):需要CV/NLP技術(shù)解析??特殊類型??:流式數(shù)據(jù)(實(shí)時(shí)日志)圖數(shù)據(jù)(社交網(wǎng)絡(luò)關(guān)系)2.網(wǎng)絡(luò)爬蟲工作流程(第4章4.1.3節(jié))??標(biāo)準(zhǔn)六步流程??:??種子URL選取??策略:Alexa排名/行業(yè)目錄示例:電商類目入口頁??頁面下載??工具:Requests/ScrapyDownloader防封策略:圖4-5所示的UserAgent輪換??內(nèi)容解析??技術(shù)棧:XPath(教材4.2.2節(jié))CSS選擇器(實(shí)例4-7)正則表達(dá)式??數(shù)據(jù)存儲(chǔ)??存儲(chǔ)方案對(duì)比:方案適用場(chǎng)景教材案例MySQL結(jié)構(gòu)化數(shù)據(jù)實(shí)例4-10MongoDB非結(jié)構(gòu)化數(shù)據(jù)實(shí)例4-12??鏈接發(fā)現(xiàn)??策略:廣度優(yōu)先(BFS)深度優(yōu)先(DFS)??反爬對(duì)抗??常見手段:IP代理池(圖4-6架構(gòu))驗(yàn)證碼識(shí)別3.Requests請(qǐng)求狀態(tài)判斷(第4章4.2.1節(jié))??三重驗(yàn)證法??:importrequestsresponse=requests.get('')#方法1:狀態(tài)碼校驗(yàn)ifresponse.status_code==200:print("Success")#方法2:異常捕獲try:response.raise_for_status()exceptrequests.exceptions.HTTPErroraserr:print(f"Error:{err}")#方法3:內(nèi)容校驗(yàn)if'預(yù)期關(guān)鍵詞'inresponse.text:print("ContentVerified")??高級(jí)判斷??:響應(yīng)時(shí)間分析(timeout參數(shù))重定向跟蹤(allow_redirects=False)4.BeautifulSoup解析示例(第4章4.2.2節(jié))??電商頁面解析案例??:frombs4importBeautifulSouphtml_doc="""<html><divclass="product"><h3>智能手機(jī)</h3><spanclass="price">¥3999</span></div></html>"""soup=BeautifulSoup(html_doc,'html.parser')products=[]foriteminsoup.select('duct'):products.append({'name':item.h3.get_text(),'price':item.select_one('.price').get_text()[1:]})print(products)#輸出:[{'name':'智能手機(jī)','price':'3999'}]??解析技術(shù)對(duì)比??:方法優(yōu)點(diǎn)適用場(chǎng)景find_all()簡(jiǎn)單直接簡(jiǎn)單頁面CSS選擇器語法簡(jiǎn)潔復(fù)雜結(jié)構(gòu)XPath功能強(qiáng)大嵌套層次深5.Python數(shù)據(jù)采集實(shí)例(第4章4.2.4節(jié))??新聞網(wǎng)站采集??:importrequestsfrombs4importBeautifulSoupimportpandasaspdurl=''headers={'User-Agent':'Mozilla/5.0'}#偽裝瀏覽器response=requests.get(url,headers=headers)soup=BeautifulSoup(response.text,'lxml')news_list=[]forarticleinsoup.select('article.news-item'):news_list.append({'title':article.h2.text,'time':article.time['datetime'],'link':article.a['href']})pd.DataFrame(news_list).to_csv('news.csv',index=False)??關(guān)鍵技術(shù)點(diǎn)??:請(qǐng)求頭偽裝(規(guī)避反爬)CSS選擇器精準(zhǔn)定位Pandas數(shù)據(jù)持久化6.Scrapy框架特點(diǎn)(第4章4.3.1節(jié))??核心優(yōu)勢(shì)矩陣??:特性說明教材案例??組件化架構(gòu)??引擎/調(diào)度器分離圖4-15工作流??高性能??異步IO處理實(shí)例4-21對(duì)比測(cè)試??擴(kuò)展性強(qiáng)??Middleware機(jī)制自定義代理中間件??數(shù)據(jù)管道??多格式輸出支持實(shí)例4-20MySQL存儲(chǔ)??典型應(yīng)用場(chǎng)景??:分布式爬蟲(Redis去重)動(dòng)態(tài)頁面渲染(Selenium集成)增量式爬取(時(shí)間戳比對(duì))7.Items定義規(guī)范(第4章4.3.3節(jié))??標(biāo)準(zhǔn)定義模式??:importscrapyclassProductItem(scrapy.Item):#必填字段name=scrapy.Field()price=scrapy.Field(serializer=lambdax:f"¥{x:.2f}")#可選字段description=scrapy.Field(default='暫無描述')#校驗(yàn)規(guī)則defvalidate_price(self,value):ifnotisinstance(value,(int,float)):raiseValueError("Pricemustbenumeric")??高級(jí)技巧??:字段元數(shù)據(jù)(meta參數(shù))自定義管道驗(yàn)證多Item類型協(xié)同??知識(shí)圖譜??:??技術(shù)演進(jìn)路徑??:
Requests→BeautifulSoup→Scrapy→分布式爬蟲??性能對(duì)比??:工具請(qǐng)求速度內(nèi)存占用適用規(guī)模Requests快低小規(guī)模Scrapy極快中企業(yè)級(jí)??最佳實(shí)踐??:遵守robots.txt協(xié)議設(shè)置合理爬取間隔(DOWNLOAD_DELAY)異常重試機(jī)制(RETRY_TIMES)第5章課后習(xí)題參考答案1.數(shù)據(jù)清洗定義(第5章5.1節(jié))??核心概念??:
數(shù)據(jù)清洗是指通過技術(shù)手段識(shí)別并修正數(shù)據(jù)集中的錯(cuò)誤、不一致和不完整問題,以提高數(shù)據(jù)質(zhì)量的過程。其本質(zhì)是數(shù)據(jù)質(zhì)量的"過濾器"。??關(guān)鍵特征??:??問題類型??:缺失值(如空單元格)異常值(如年齡字段出現(xiàn)負(fù)數(shù))重復(fù)數(shù)據(jù)(完全相同的記錄)格式不一致(日期格式混用)??質(zhì)量維度??:graphTDA[數(shù)據(jù)質(zhì)量]-->B[準(zhǔn)確性]A-->C[完整性]A-->D[一致性]A-->E[時(shí)效性]??典型場(chǎng)景??:電商評(píng)論中的亂碼修正傳感器采集的異常溫度值處理2.不完整數(shù)據(jù)處理(第5章5.1節(jié))??五步處理法??:??缺失檢測(cè)??:importpandasaspddf.isnull().sum()#統(tǒng)計(jì)各列缺失值??根因分析??:系統(tǒng)故障導(dǎo)致丟失人為錄入遺漏??處理策略??:方法適用場(chǎng)景Python實(shí)現(xiàn)刪除記錄缺失率<5%df.dropna()均值填充數(shù)值型字段df.fillna(df.mean())眾數(shù)填充分類變量df.fillna(df.mode()[0])預(yù)測(cè)填充高價(jià)值數(shù)據(jù)sklearn插值??驗(yàn)證方法??:統(tǒng)計(jì)描述分析業(yè)務(wù)規(guī)則校驗(yàn)??文檔記錄??:記錄處理方法和影響范圍3.不準(zhǔn)確數(shù)據(jù)處理(第5章5.1節(jié))??三級(jí)處理體系??:??異常檢測(cè)??:統(tǒng)計(jì)方法:3σ原則/IQR區(qū)間可視化方法:箱線圖檢測(cè)importseabornassnssns.boxplot(data=df['price'])??修正技術(shù)??:數(shù)值修正:#將負(fù)年齡修正為缺失值df.loc[df['age']<0,'age']=None格式標(biāo)準(zhǔn)化:#統(tǒng)一日期格式df['date']=pd.to_datetime(df['date'],errors='coerce')??業(yè)務(wù)驗(yàn)證??:制定數(shù)據(jù)質(zhì)量規(guī)則:assertdf['price'].between(10,10000).all()4.ETL架構(gòu)解析(第5章5.3節(jié))??三層架構(gòu)模型??:flowchartLRE[Extract]-->|數(shù)據(jù)抽取|T[Transform]T-->|數(shù)據(jù)轉(zhuǎn)換|L[Load]??核心組件??:??抽取層??:支持源類型:數(shù)據(jù)庫(MySQL/Oracle)文件(CSV/JSON)API接口??轉(zhuǎn)換層??:關(guān)鍵操作:--數(shù)據(jù)清洗SQL示例UPDATEcustomersSETphone=REGEXP_REPLACE(phone,'[^0-9]','')WHEREphoneISNOTNULL??加載層??:加載策略:策略特點(diǎn)適用場(chǎng)景全量加載簡(jiǎn)單但耗時(shí)初始加載增量加載高效日常同步??工具對(duì)比??:OpenRefine:適合中小數(shù)據(jù)集(第5章5.3.3節(jié)案例)Talend:企業(yè)級(jí)數(shù)據(jù)集成Informatica:金融級(jí)解決方案??最佳實(shí)踐建議??:??清洗策略選擇矩陣??:?jiǎn)栴}類型輕度數(shù)據(jù)重度數(shù)據(jù)缺失值插值處理標(biāo)記刪除異常值Winsorize處理業(yè)務(wù)規(guī)則修正??質(zhì)量評(píng)估指標(biāo)??:錯(cuò)誤率=錯(cuò)誤記錄數(shù)/總記錄數(shù)修復(fù)率=已修正問題/發(fā)現(xiàn)問題??自動(dòng)化清洗流程??:fromsklearn.pipelineimportPipelineclean_pipe=Pipeline([('fill_na',SimpleImputer()),('outlier',Winsorizer()),('standard',StandardScaler())])第6章課后習(xí)題參考答案1."臟數(shù)據(jù)"產(chǎn)生原因(第5章5.1節(jié))??五大根源??:??采集環(huán)節(jié)??傳感器故障(如DHT11溫濕度傳感器異常)網(wǎng)絡(luò)傳輸丟包(圖3-9數(shù)據(jù)包丟失示意圖)??錄入過程??人工輸入錯(cuò)誤(如價(jià)格多輸小數(shù)點(diǎn))系統(tǒng)接口不兼容(字符編碼沖突)??存儲(chǔ)問題??數(shù)據(jù)庫事務(wù)中斷文件存儲(chǔ)損壞(如CSV文件被異常修改)??處理缺陷??ETL流程設(shè)計(jì)錯(cuò)誤(第5章圖5-1轉(zhuǎn)換邏輯缺陷)算法計(jì)算溢出(如數(shù)值超過字段定義范圍)??環(huán)境因素??電磁干擾影響傳感器讀數(shù)網(wǎng)絡(luò)延遲導(dǎo)致數(shù)據(jù)不完整2.字符串刪除指定字符(第6章6.1.2節(jié))??三種實(shí)現(xiàn)方式??:#方法1:replace()基礎(chǔ)方法text="數(shù)據(jù)#清洗@案例"clean_text=text.replace("#","").replace("@","")#方法2:正則表達(dá)式(復(fù)雜場(chǎng)景)importretext="價(jià)格$199,優(yōu)惠碼*ABC"clean_text=re.sub(r"[$,*]","",text)#方法3:str.translate(批量處理)table=str.maketrans("","","#@$*")text.translate(table)??性能對(duì)比??:方法10萬次執(zhí)行耗時(shí)適用場(chǎng)景replace()0.12s簡(jiǎn)單替換re.sub()0.25s模式匹配translate()0.08s批量處理3.Pandas空值處理(第6章6.1.3節(jié))??完整處理流程??:importpandasaspdimportnumpyasnp#創(chuàng)建含空值的DataFramedf=pd.DataFrame({'A':[1,np.nan,3],'B':['x',None,'z']})#方法1:刪除空值df_drop=df.dropna()#刪除含空值的行#方法2:填充空值df_fill=df.fillna({'A':df['A'].mean(),#數(shù)值列填充均值'B':'unknown'#文本列填充默認(rèn)值})#方法3:插值法df['A']=df['A'].interpolate()#線性插值??空值檢測(cè)技巧??:#可視化空值分布importseabornassnssns.heatmap(df.isnull(),cbar=False)4.圖像數(shù)據(jù)清洗步驟(第6章6.2.1節(jié))??六步標(biāo)準(zhǔn)化流程??:??質(zhì)量檢測(cè)??使用OpenCV識(shí)別模糊圖像:importcv2gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)fm=cv2.Laplacian(gray,cv2.CV_64F).var()#清晰度評(píng)分??噪聲處理??高斯濾波去噪(圖6-10效果對(duì)比)??尺寸標(biāo)準(zhǔn)化??resized=cv2.resize(img,(224,224))#統(tǒng)一為224×224??色彩校正??直方圖均衡化(實(shí)例6-6)??異常過濾??剔除純色/全黑圖像??數(shù)據(jù)增強(qiáng)??旋轉(zhuǎn)/翻轉(zhuǎn)擴(kuò)充數(shù)據(jù)集5.MoviePy視頻信息獲?。ǖ?章6.3.2節(jié))??多媒體元數(shù)據(jù)提取??:frommoviepy.editorimportVideoFileClipclip=VideoFileClip("input.mp4")print(f"""視頻時(shí)長(zhǎng):{clip.duration:.2f}秒視頻尺寸:{clip.size}幀率:{clip.fps}fps總幀數(shù):{clip.reader.nframes}""")??輸出示例??:視頻時(shí)長(zhǎng):125.68秒視頻尺寸:[1920,1080]幀率:30.0fps總幀數(shù):37706.視頻去噪實(shí)踐(第6章6.3.3節(jié))??雙重降噪方案??:frommoviepy.editorimport*importnumpyasnpdefdenoise_frame(frame):#時(shí)域降噪denoised=cv2.fastNlMeansDenoisingColored(frame,None,10,10,7,21)#空域降噪denoised=cv2.GaussianBlur(denoised,(5,5),0)returndenoisedclip=VideoFileClip("noisy.mp4")clean_clip=clip.fl_image(denoise_frame)#逐幀處理clean_clip.write_videofile("clean.mp4")7.語音數(shù)據(jù)常見問題(第6章6.4.1節(jié))??八大問題分類??:??采集缺陷??采樣率不足(<16kHz)量化位數(shù)低(8bit)??環(huán)境干擾??背景噪聲(圖6-16頻譜圖顯示噪聲)??設(shè)備問題??麥克風(fēng)破音電路底噪??處理錯(cuò)誤??靜音段誤刪音量標(biāo)準(zhǔn)化失敗??格式問題??頭信息損壞編碼不匹配8.音頻波形圖繪制(第6章6.4.2節(jié))??Librosa可視化方案??:importlibrosaimportmatplotlib.pyplotasplty,sr=librosa.load("speech.wav")plt.figure(figsize=(12,4))librosa.display.waveshow(y,sr=sr)plt.title("音頻波形圖")plt.xlabel("時(shí)間(s)")plt.ylabel("振幅")plt.show()??關(guān)鍵參數(shù)說明??:y:音頻時(shí)間序列sr:采樣率(默認(rèn)22050Hz)圖形示例見教材圖6-179..mat轉(zhuǎn).wav格式(第6章6.4.3節(jié))??完整轉(zhuǎn)換代碼??:importscipy.ioimportsoundfileassf#讀取.mat文件data=scipy.io.loadmat('audio.mat')audio=data['audio_vector']#假設(shè)數(shù)據(jù)存儲(chǔ)在audio_vector字段#標(biāo)準(zhǔn)化音頻數(shù)據(jù)audio_normalized=librosa.util.normalize(audio)*0.9#防止削波#保存為.wavsf.write('output.wav',audio_normalized,16000,subtype='PCM_16')??參數(shù)說明??:參數(shù)值作用采樣率16000Hz語音常用采樣率量化位深PCM_16CD音質(zhì)標(biāo)準(zhǔn)歸一化系數(shù)0.9保留動(dòng)態(tài)余量??技術(shù)關(guān)聯(lián)圖譜??:??工具鏈關(guān)系??:graphLRA[臟數(shù)據(jù)]-->B[Pandas]A-->C[OpenCV]A-->D[Librosa]B-->E[結(jié)構(gòu)化數(shù)據(jù)]C-->F[圖像數(shù)據(jù)]D-->G[語音數(shù)據(jù)]??性能優(yōu)化建議??:大數(shù)據(jù)集使用Dask替代Pandas視頻處理啟用GPU加速(CUDA)音頻處理采用多進(jìn)程并行??質(zhì)量驗(yàn)證方法??:圖像:PSNR/SSIM指標(biāo)音頻:信噪比(SNR)計(jì)算視頻:關(guān)鍵幀對(duì)比檢測(cè)第7章課后習(xí)題參考答案1.數(shù)據(jù)標(biāo)注定義(第7章7.1節(jié))??核心概念??:
數(shù)據(jù)標(biāo)注是將原始數(shù)據(jù)通過人工或自動(dòng)化方式添加語義標(biāo)簽的過程,是連接原始數(shù)據(jù)與機(jī)器理解的橋梁。其本質(zhì)是創(chuàng)建監(jiān)督學(xué)習(xí)所需的"標(biāo)準(zhǔn)答案"。??三維特征??:??技術(shù)維度??:標(biāo)注對(duì)象:文本/圖像/語音/視頻/點(diǎn)云標(biāo)注工具:LabelMe/Doccano/VGGImageAnnotator標(biāo)注規(guī)范:ISO18508標(biāo)準(zhǔn)(教材附錄B)??流程維度??:graphLRA[原始數(shù)據(jù)]-->B[標(biāo)注設(shè)計(jì)]B-->C[標(biāo)注實(shí)施]C-->D[質(zhì)量檢驗(yàn)]D-->E[數(shù)據(jù)交付]??價(jià)值維度??:提升數(shù)據(jù)可用性(圖7-1標(biāo)注前后對(duì)比)降低模型訓(xùn)練成本(實(shí)例7-3顯示可減少40%訓(xùn)練時(shí)間)2.標(biāo)注質(zhì)量檢測(cè)(第7章7.2.2節(jié))??五維檢測(cè)體系??:??準(zhǔn)確性檢測(cè)??方法:與黃金標(biāo)準(zhǔn)比對(duì)指標(biāo):標(biāo)注正確率(公式7-1)Accuracy=(TP+TN)/(TP+FP+FN+TN)??一致性檢測(cè)??方法:多人重復(fù)標(biāo)注工具:Cohen'sKappa系數(shù)計(jì)算(實(shí)例7-5)??完整性檢測(cè)??檢查項(xiàng):必填字段缺失邊界框未閉合(圖7-6標(biāo)注缺陷示例)??時(shí)效性檢測(cè)??標(biāo)準(zhǔn):標(biāo)注延遲<業(yè)務(wù)周期案例:自動(dòng)駕駛數(shù)據(jù)需24小時(shí)內(nèi)標(biāo)注完成??合規(guī)性檢測(cè)??檢查:隱私數(shù)據(jù)脫敏(GDPR要求)版權(quán)合規(guī)(圖7-8標(biāo)注協(xié)議樣本)3.主要應(yīng)用領(lǐng)域(第7章7.3.1節(jié))??六大核心領(lǐng)域??:領(lǐng)域標(biāo)注類型教材案例典型精度要求??自動(dòng)駕駛??3D點(diǎn)云標(biāo)注實(shí)例7-8邊界框誤差<3px??醫(yī)療影像??病灶分割圖7-12IOU≥0.85??智能客服??意圖分類表7-3F1>0.92??工業(yè)質(zhì)檢??缺陷標(biāo)注實(shí)例7-9漏檢率<0.1%??遙感測(cè)繪??地物分類圖7-15Kappa≥0.75??內(nèi)容審核??敏感標(biāo)記實(shí)例7-11召回率>95%??特殊應(yīng)用場(chǎng)景??:農(nóng)業(yè):果實(shí)成熟度分級(jí)標(biāo)注(圖7-16)金融:財(cái)報(bào)關(guān)鍵信息抽?。▽?shí)例7-13)4.標(biāo)注質(zhì)量與機(jī)器學(xué)習(xí)關(guān)系(第7章7.2.3節(jié))??雙向影響模型??:graphTDA[標(biāo)注質(zhì)量]-->B[模型性能]B-->C[標(biāo)注反饋]C-->D[質(zhì)量改進(jìn)]??具體影響機(jī)制??:??精度影響??:標(biāo)注錯(cuò)誤率每降低1%,模型準(zhǔn)確率提升0.5-2%(圖7-19相關(guān)曲線)??泛化能力??:標(biāo)注一致性高的數(shù)據(jù)可使模型跨場(chǎng)景準(zhǔn)確率提升30%(實(shí)例7-15)??訓(xùn)練效率??:高質(zhì)量標(biāo)注數(shù)據(jù)減少50%訓(xùn)練迭代次數(shù)(表7-6對(duì)比實(shí)驗(yàn))??誤差傳播??:標(biāo)注噪聲會(huì)導(dǎo)致模型偏差放大(公式7-3誤差傳遞方程)??最佳實(shí)踐??:建立標(biāo)注-訓(xùn)練閉環(huán)(圖7-20工作流)實(shí)施動(dòng)態(tài)質(zhì)量閾值(隨訓(xùn)練階段調(diào)整)??技術(shù)演進(jìn)??:??標(biāo)注技術(shù)發(fā)展??:
人工標(biāo)注→半自動(dòng)標(biāo)注→AI預(yù)標(biāo)注(第7章7.3.2節(jié)趨勢(shì))??質(zhì)量評(píng)估創(chuàng)新??:傳統(tǒng):抽樣檢查現(xiàn)代:基于置信度的自動(dòng)檢測(cè)(實(shí)例7-18)??工具鏈整合??:graphLRA[數(shù)據(jù)采集]-->B[智能標(biāo)注]B-->C[質(zhì)量檢測(cè)]C-->D[模型訓(xùn)練]D-->E[反饋優(yōu)化]第8章課后習(xí)題參考答案1.文本標(biāo)注形式(第8章8.1.1節(jié))??五大基礎(chǔ)形式??:??序列標(biāo)注??應(yīng)用:命名實(shí)體識(shí)別示例:標(biāo)注"北京是中國(guó)的首都"中的地名工具示例:Brat標(biāo)注界面??文本分類??應(yīng)用:情感分析標(biāo)簽體系:積極/中性/消極可視化:??關(guān)系抽取??應(yīng)用:知識(shí)圖譜構(gòu)建標(biāo)注示例:人物-任職-公司??指代消解??標(biāo)注要求:標(biāo)記同一實(shí)體的不同指代??文本生成??特殊形式:提供參考摘要/改寫文本2.Doccano標(biāo)簽定義(第8章8.1.3節(jié))??標(biāo)簽配置流程??:??入口導(dǎo)航??:項(xiàng)目頁→Labels→CreateLabels??參數(shù)設(shè)置??:#標(biāo)簽JSON配置示例{"text":"ORG","suffix_key":"o","background_color":"#FF0000","text_color":"#FFFFFF"}??高級(jí)功能??:標(biāo)簽繼承關(guān)系快捷鍵綁定標(biāo)簽依賴約束??最佳實(shí)踐??:顏色編碼原則(紅色表危險(xiǎn)類)快捷鍵設(shè)計(jì)避免沖突3.語義分割概念(第8章8.2.1節(jié))??三維定義??:??技術(shù)本質(zhì)??:像素級(jí)分類任務(wù)輸出為分割掩膜(mask)??標(biāo)注要求??:精確到物體輪廓示例:??應(yīng)用場(chǎng)景??:醫(yī)學(xué)影像腫瘤區(qū)域劃分自動(dòng)駕駛道路識(shí)別4.圖像標(biāo)注關(guān)鍵點(diǎn)(第8章8.2.3節(jié))??質(zhì)量金標(biāo)準(zhǔn)??:??一致性原則??:同類物體標(biāo)注偏差<3像素邊界平滑度要求(圖8-17邊緣對(duì)比)??操作規(guī)范??:標(biāo)注順序:從中心到邊緣放大鏡工具使用(200%校驗(yàn))三級(jí)審核流程:graphTDA[初級(jí)標(biāo)注]-->B[專家校驗(yàn)]B-->C[算法復(fù)核]5.CVAT工具模式對(duì)比(第8章8.2.4節(jié))??雙模式差異矩陣??:特性在線模式離線模式??部署??云服務(wù)本地Docker??協(xié)作??實(shí)時(shí)協(xié)同需版本同步??數(shù)據(jù)安全??中等高??功能更新??自動(dòng)手動(dòng)升級(jí)??適用場(chǎng)景??敏捷標(biāo)注涉密數(shù)據(jù)??網(wǎng)絡(luò)要求??:在線模式需穩(wěn)定10Mbps+帶寬離線模式支持?jǐn)嗑W(wǎng)操作6.Praat語音標(biāo)注步驟(第8章8.4.2節(jié))??六步操作法??:??載入音頻??:Read→Readfromfile...??創(chuàng)建標(biāo)注層??:文本網(wǎng)格(TextGrid)配置??劃分音段??:按音節(jié)/詞/句切分??標(biāo)注內(nèi)容??:音素標(biāo)記示例:t?-"chair"首音??校驗(yàn)調(diào)整??:頻譜圖對(duì)照(圖8-25波形對(duì)齊)??導(dǎo)出結(jié)果??:支持Praat/CSV/JSON格式7.CloudCompare界面功能(第8章8.5.3節(jié))??功能分區(qū)??:??主工具欄??:點(diǎn)云配準(zhǔn)(Align)距離量測(cè)(Measure)??屬性面板??:RGB強(qiáng)度調(diào)整點(diǎn)大小設(shè)置??視圖控制??:多視角窗口(圖8-28三視圖)??高級(jí)功能??://法向量計(jì)算代碼片段CCVector3N=ccNormalVectors::GetNormal(index);??特色模塊??:點(diǎn)云分割(Segmentation)體積計(jì)算(Volume)第9章課后習(xí)題參考答案1.京東商品評(píng)價(jià)爬?。ǖ?章4.2.4節(jié))??實(shí)施步驟??:??目標(biāo)分析??:京東評(píng)價(jià)接口逆向工程(通常為異步加載)示例商品URL結(jié)構(gòu):product_url='/100012043978.html'??爬蟲構(gòu)建??:importrequestsfrombs4importBeautifulSoupdefget_jd_reviews(product_id):api_url=f'/comment/productPageComments.action?productId={product_id}'headers={'Referer':f'/{product_id}.html','User-Agent':'Mozi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026云南省衛(wèi)生健康委員會(huì)所屬部分事業(yè)單位第二批校園招聘83人考試筆試備考題庫及答案解析
- 2025四川省第二退役軍人醫(yī)院第二批招聘編制外人員27人筆試考試參考試題及答案解析
- 2026年南昌大學(xué)附屬口腔醫(yī)院高層次人才招聘筆試考試備考試題及答案解析
- 2026福建三明市尤溪縣總醫(yī)院醫(yī)學(xué)人才校園(福建中醫(yī)藥大學(xué))專場(chǎng)公開招聘7人筆試考試備考題庫及答案解析
- 成都市雙流區(qū)怡心第八幼兒園招聘筆試考試備考試題及答案解析
- 2026年衛(wèi)生專業(yè)技術(shù)資格考試中醫(yī)針灸學(xué)主治醫(yī)師(相關(guān)專業(yè)知識(shí))模擬練習(xí)題及答案解析保定
- 2025懷化市教育局直屬學(xué)校公開招聘教職工65人考試筆試模擬試題及答案解析
- 2025四川自貢匯東人力資源發(fā)展有限責(zé)任公司招聘人員4人考試筆試備考題庫及答案解析
- 2025年藝術(shù)鑒賞與創(chuàng)意表達(dá)知識(shí)考察試題及答案解析
- 2025湖南長(zhǎng)沙市雨花區(qū)雨花亭街道社區(qū)衛(wèi)生服務(wù)中心招聘2人筆試考試備考題庫及答案解析
- 2025四川資陽現(xiàn)代農(nóng)業(yè)發(fā)展集團(tuán)有限公司招聘1人筆試歷年參考題庫附帶答案詳解
- 2025年10月自考04184線性代數(shù)經(jīng)管類試題及答案含評(píng)分參考
- 國(guó)開2025年秋《心理學(xué)》形成性考核練習(xí)1-6答案
- 科技研發(fā)項(xiàng)目管理辦法
- 個(gè)體診所藥品清單模板
- 267條表情猜成語【動(dòng)畫版】
- GB/T 34891-2017滾動(dòng)軸承高碳鉻軸承鋼零件熱處理技術(shù)條件
- 國(guó)家開放大學(xué)電大本科《理工英語4》2022-2023期末試題及答案(試卷號(hào):1388)
- 突發(fā)公共衛(wèi)生事件處置記錄表
- 撲救初期火災(zāi)的程序和措施
- 檢驗(yàn)科授權(quán)書
評(píng)論
0/150
提交評(píng)論