數(shù)據(jù)采集、清洗與標(biāo)注 第2章課后習(xí)題參考答案_第1頁(yè)
數(shù)據(jù)采集、清洗與標(biāo)注 第2章課后習(xí)題參考答案_第2頁(yè)
數(shù)據(jù)采集、清洗與標(biāo)注 第2章課后習(xí)題參考答案_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章課后習(xí)題參考答案1.文件類型與數(shù)據(jù)類型的區(qū)別??文件類型??(第2章2.1節(jié)):指存儲(chǔ)格式規(guī)范(如.txt/.csv)決定操作系統(tǒng)如何解析文件示例:JPEG文件頭包含"FFD8FF"魔數(shù)??數(shù)據(jù)類型??(第2章2.2節(jié)):指數(shù)據(jù)在程序中的邏輯分類包括:基本類型:整型、浮點(diǎn)型復(fù)合類型:結(jié)構(gòu)體、數(shù)組特殊類型:日期時(shí)間、二進(jìn)制流2.常見(jiàn)字符編碼標(biāo)準(zhǔn)??核心標(biāo)準(zhǔn)??(第2章2.2.1節(jié)):ASCII:7位編碼,僅支持英文GB2312:中文國(guó)家標(biāo)準(zhǔn),包含6763漢字UTF-8:Unicode實(shí)現(xiàn),兼容ASCIIISO-8859-1:西歐語(yǔ)言編碼Windows-1252:微軟擴(kuò)展編碼??編碼識(shí)別示例??:importchardetwithopen('data.txt','rb')asf:print(chardet.detect(f.read()))3.CSV文件特點(diǎn)??特征??(第2章2.2.2節(jié)):純文本存儲(chǔ),可用記事本編輯字段間用逗號(hào)分隔(可改用制表符)支持Excel直接打開(kāi)示例結(jié)構(gòu):Name,Age,OccupationJohnDoe,30,Engineer??特殊處理??:含逗號(hào)的字段需用引號(hào)包裹換行符需轉(zhuǎn)義處理4.Pandas讀寫XLS文件??操作方法??(第2章2.2.3節(jié)):importpandasaspd#讀取df=pd.read_excel("input.xls",sheet_name=0)#寫入df.to_excel("output.xlsx",index=False)??注意事項(xiàng)??:需安裝openpyxl或xlrd庫(kù)大數(shù)據(jù)集建議分塊讀取5.不同編碼JSON處理??解決方案??(第2章2.2.4節(jié)):importjsonfromcharset_normalizerimportdetectdefload_json(file):withopen(file,'rb')asf:content=f.read()encoding=detect(content)['encoding']returnjson.loads(content.decode(encoding))6.HTML/XML處理示例??HTML處理??(第2章2.2.5節(jié)):frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'html.parser')print(soup.find_all('a'))??XML處理??:importxml.etree.ElementTreeasETtree=ET.parse('data.xml')root=tree.getroot()7.PNG格式特點(diǎn)??特性??(第2章2.3.2節(jié)):無(wú)損壓縮,保留透明度通道支持256級(jí)透明度采用DEFLATE壓縮算法典型結(jié)構(gòu):文件頭簽名IHDR塊(寬高信息)IDAT塊(圖像數(shù)據(jù))8.BMP圖像讀寫??操作方法??(第2章2.3.3節(jié)):fromPILimportImage#讀取img=Image.open('input.bmp')#保存img.save('output.bmp')??注意事項(xiàng)??:不支持壓縮,文件較大每個(gè)像素點(diǎn)占3字節(jié)(RGB)9.視頻文件格式??主流格式??(第2章2.4節(jié)):AVI:微軟開(kāi)發(fā),無(wú)損質(zhì)量MP4:H.264編碼,通用性強(qiáng)MOV:蘋果格式,支持特效WMV:微軟流媒體格式10.視頻片段截取??實(shí)現(xiàn)方法??(第6章6.3.3節(jié)):frommoviepy.editorimportVideoFileClipclip=VideoFileClip("input.mp4").subclip(10,20)clip.write_videofile("output.mp4")11.MP3文件讀寫??操作方法??(第6章6.4.3節(jié)):frompydubimportAudioSegmentaudio=AudioSegment.from_mp3("input.mp3")audio.export("output.wav",format="wav")12.MP4轉(zhuǎn)WAV示例??轉(zhuǎn)換代碼??(第6章6.4.3節(jié)):frommoviepy.editorimportAudioFileClipAudioFileCli

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論