版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
01目錄CONTENTS數(shù)據(jù)讀取02數(shù)據(jù)預(yù)處理03數(shù)據(jù)劃分04數(shù)據(jù)升維與特征值選取數(shù)據(jù)讀取1Part1.pandas設(shè)置數(shù)據(jù)顯示格式本案例中使用pandas加載數(shù)據(jù),pandas也可以設(shè)置數(shù)據(jù)的顯示格式2.pandas讀取數(shù)據(jù)數(shù)據(jù)讀取數(shù)據(jù)讀取1.
pandas設(shè)置數(shù)據(jù)顯示格式01行:設(shè)置顯示表格列中數(shù)據(jù)最?顯?寬度為100002行:設(shè)置表格中數(shù)據(jù)顯示的最大行數(shù)為50003行:設(shè)置表格中數(shù)據(jù)顯示的最大列數(shù)為50004行:設(shè)置表格中數(shù)據(jù)顯示的最大寬度為1000數(shù)據(jù)讀取2.pandas讀取數(shù)據(jù)01行:使用pandas的read_csv()函數(shù)讀取訓(xùn)練集02行:使用pandas的read_csv()函數(shù)讀取測(cè)試集數(shù)據(jù)預(yù)處理2PartMinimalistwindAI計(jì)算機(jī)準(zhǔn)確地理解數(shù)據(jù)需要以標(biāo)準(zhǔn)化方式提供數(shù)據(jù),并且要求數(shù)據(jù)不包含異常值、噪聲數(shù)據(jù)、部分特征值缺少的條目。反之,系統(tǒng)將做出與數(shù)據(jù)不符的假設(shè)則模型訓(xùn)練的速度就會(huì)變慢,并且由于數(shù)據(jù)解釋的失誤導(dǎo)致結(jié)果的不準(zhǔn)確。數(shù)據(jù)預(yù)處理1.缺失數(shù)據(jù)處理數(shù)據(jù)預(yù)處理處理的數(shù)據(jù)包括處理異常值數(shù)據(jù)、處理噪聲數(shù)據(jù)和處理缺失數(shù)據(jù)。2.異常值處理數(shù)據(jù)預(yù)處理MinimalistwindAI僅一部分特征有值的數(shù)據(jù),或者缺少有意義特征值的數(shù)據(jù)都被視為缺失數(shù)據(jù)。數(shù)據(jù)預(yù)處理紅色方框和箭頭標(biāo)注數(shù)據(jù)特征值多數(shù)為0.00,特征值無(wú)意義,即可認(rèn)為是缺失數(shù)據(jù)。1.刪除缺失數(shù)據(jù)處理缺失數(shù)據(jù)時(shí),一般方法是刪除該值或者使用其他數(shù)值來(lái)替換。2.均值代入3.回歸代入數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理1.本案例缺失值處理缺失值篩選:使用pandas的過(guò)濾功能篩選出數(shù)據(jù)中為0的數(shù)據(jù),數(shù)據(jù)為0即可認(rèn)為特征數(shù)據(jù)缺失。缺失值預(yù)測(cè)填充:發(fā)電量預(yù)測(cè)時(shí)將缺失數(shù)據(jù)的預(yù)測(cè)量使用特定值0.379993053填充。1.刪除異常值異常值指的是遠(yuǎn)離均值的值。如果一個(gè)屬性的值遵循高斯分布,異常值則是位于尾部的值。2.閾值判斷+分配新值數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理1.本案例異常值處理-定義刪除異常值函數(shù)01行:定義drop_all_outlier函數(shù)。02行:使用pandas中DataFrame的方法drop_duplicates去除數(shù)據(jù)中的重復(fù)值03-11行:調(diào)用pandas的drop的方法去除不符合要求的數(shù)據(jù);電壓值在(500,800)區(qū)間,現(xiàn)場(chǎng)溫度在(-30,30)之間,轉(zhuǎn)換效率小于100,風(fēng)向和風(fēng)速在合理范圍內(nèi)數(shù)據(jù)預(yù)處理1.本案例異常值處理-刪除異常值01、03行:調(diào)用數(shù)據(jù)復(fù)制方法,拷貝數(shù)據(jù)02、04行:調(diào)用方法去除訓(xùn)練集、測(cè)試集的異常數(shù)據(jù)05行:獲取cleaned_sub_data的'ID'賦給cleaned_sub_data_ID變量1.查找異常值的行索引閾值判斷+分配新值分為以下四步:2.使用閾值法確定該行中異常值3.取距離該異常值最近的兩個(gè)正常值的平均數(shù)數(shù)據(jù)預(yù)處理4.使用該平均數(shù)代替異常值數(shù)據(jù)預(yù)處理2.本案例異常值處理-“閾值判斷+分配新值”01行:使用pandas的concat方法拼接數(shù)據(jù),sort_values按照ID給數(shù)據(jù)重新排序,reset_index()方法對(duì)數(shù)據(jù)重置索引,drop(['index'],axis=1)刪除原來(lái)的索引列。03行:按照列索引遍歷數(shù)據(jù),篩選并刪除異常值。04行:按照03行搜索到的索引查詢數(shù)據(jù)并按照ID升序排序。數(shù)據(jù)預(yù)處理2.本案例異常值處理-“閾值判斷+分配新值”01行:iterrows()遍歷異常數(shù)據(jù);02行:獲取每行的‘ID’特征值;03行:找出有異常數(shù)據(jù)的行中異常的值的列索引;04行:獲得當(dāng)前數(shù)據(jù)的行號(hào)。05-10行:取距該異常值最近的上下正常值的行偏移值;11行:取相鄰最近的上下兩個(gè)正常值的平均值。12行:使用平均值代替異常值。數(shù)據(jù)劃分3PartMinimalistwindAI訓(xùn)練集用于訓(xùn)練不同的模型,驗(yàn)證集用于調(diào)整每個(gè)模型的超參數(shù)以選擇一個(gè)最優(yōu)的超參數(shù)組合,而測(cè)試集可以用來(lái)比較模型,目的是對(duì)最終模型進(jìn)行無(wú)偏評(píng)估。在有些項(xiàng)目中,數(shù)據(jù)集劃分僅劃分為訓(xùn)練集和測(cè)試集,沒有驗(yàn)證集。數(shù)據(jù)劃分?jǐn)?shù)據(jù)集訓(xùn)練集驗(yàn)證集測(cè)試集MinimalistwindAItrain_test_split是數(shù)據(jù)劃分函數(shù),從樣本中隨機(jī)的按比例選取traindata和testdata人工智能助力芯片制造train_data:所要?jiǎng)澐值臉颖咎卣骷碭train_target:所要?jiǎng)澐值臉颖窘Y(jié)果,即ytest_size:測(cè)試集占比,案例中為0.2,即訓(xùn)練集和測(cè)試集的抽取比例為8:2random_state:是隨機(jī)數(shù)的種子數(shù)據(jù)升維與特征值選取4Part數(shù)據(jù)升維與特征值選取1.數(shù)據(jù)升維數(shù)據(jù)集的特征不足的情況,需要對(duì)數(shù)據(jù)集的特征擴(kuò)充。交互式特征式在原始數(shù)據(jù)中添加交互項(xiàng),使特征數(shù)量增加。01行導(dǎo)入相關(guān)庫(kù)和方法03行:使用該方法訓(xùn)練數(shù)據(jù),訓(xùn)練完成后,數(shù)據(jù)的特征數(shù)量增加02行使用PolynomialFeatures給數(shù)據(jù)集添加特征:degree:度數(shù),決定多項(xiàng)式的次數(shù);interaction_only:默認(rèn)為False,True表示只能交叉相乘,不能有a^2。1.單一變量法2.迭代式特征選擇法3.基于模型的特征選擇數(shù)據(jù)預(yù)處理2.特征值選取數(shù)據(jù)升維與特征值選取2.特征值選取本案例是SelectFromModel結(jié)合Gr
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 外籍專家合同范本
- 發(fā)表文章協(xié)議書
- 原合同三方協(xié)議
- 買房月供協(xié)議書
- 地下水管合同范本
- 吳亦凡協(xié)議書模板
- 外派培訓(xùn)合同協(xié)議
- 買狗文字協(xié)議書
- 反省后寫協(xié)議書
- 散伙沒協(xié)議沒合同
- MOOC 物理與藝術(shù)-南京航空航天大學(xué) 中國(guó)大學(xué)慕課答案
- 銀行案件復(fù)盤分析報(bào)告
- 分析方法轉(zhuǎn)移方案課件
- 無(wú)創(chuàng)呼吸機(jī)面部壓瘡預(yù)防措施
- 全國(guó)高校黃大年式教師團(tuán)隊(duì)推薦匯總表
- 員工管理規(guī)章制度實(shí)施細(xì)則
- 社會(huì)心理學(xué)(西安交通大學(xué))知到章節(jié)答案智慧樹2023年
- 《安井食品價(jià)值鏈成本控制研究案例(論文)9000字》
- GB/T 4135-2016銀錠
- GB/T 33084-2016大型合金結(jié)構(gòu)鋼鍛件技術(shù)條件
- 關(guān)節(jié)鏡肘關(guān)節(jié)檢查法
評(píng)論
0/150
提交評(píng)論