版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《任務(wù)3.2數(shù)據(jù)準(zhǔn)備》教案課程名稱人工智能應(yīng)用基礎(chǔ)課題任務(wù)3.2數(shù)據(jù)準(zhǔn)備班級(jí):授課時(shí)間2025.3.1授課時(shí)數(shù)1課時(shí)地點(diǎn):教材分析內(nèi)容分析本課時(shí)將重點(diǎn)介紹數(shù)據(jù)準(zhǔn)備的基本概念和方法,包括數(shù)據(jù)集的選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分。通過(guò)這些內(nèi)容的學(xué)習(xí),幫助學(xué)生理解數(shù)據(jù)準(zhǔn)備的重要性,掌握數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的具體步驟。課程內(nèi)容涵蓋了數(shù)據(jù)集的選擇方法、數(shù)據(jù)預(yù)處理的各種技術(shù)(如數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約)以及數(shù)據(jù)集劃分的策略和方法。通過(guò)具體的案例和實(shí)踐操作,幫助學(xué)生掌握數(shù)據(jù)準(zhǔn)備的基本技能。學(xué)情分析學(xué)生對(duì)機(jī)器學(xué)習(xí)的基本概念和流程有一定的了解,但對(duì)數(shù)據(jù)準(zhǔn)備的具體方法還不夠熟悉。學(xué)生對(duì)編程有較高的興趣,但需要通過(guò)更多的互動(dòng)和實(shí)踐來(lái)鞏固所學(xué)知識(shí)。本課時(shí)將通過(guò)豐富的代碼示例和互動(dòng)練習(xí),幫助學(xué)生深入理解數(shù)據(jù)準(zhǔn)備的基本概念和方法。課時(shí)教學(xué)目標(biāo)知識(shí)目標(biāo)1.了解數(shù)據(jù)準(zhǔn)備的基本概念和重要性。2.掌握數(shù)據(jù)集的選擇方法。3.掌握數(shù)據(jù)預(yù)處理的各種技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。4.掌握數(shù)據(jù)集劃分的策略和方法。能力目標(biāo)1.能夠選擇合適的數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)。2.能夠進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。3.能夠進(jìn)行數(shù)據(jù)集劃分,包括訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分。4.能夠編寫(xiě)符合編程風(fēng)格規(guī)范的代碼。素質(zhì)目標(biāo)1.培養(yǎng)學(xué)生對(duì)編程的興趣和好奇心。2.提升學(xué)生的邏輯思維能力和問(wèn)題解決能力。思政目標(biāo)1.培養(yǎng)學(xué)生的社會(huì)責(zé)任感,了解數(shù)據(jù)準(zhǔn)備對(duì)社會(huì)經(jīng)濟(jì)發(fā)展的影響。2.引導(dǎo)學(xué)生關(guān)注科技進(jìn)步對(duì)就業(yè)和社會(huì)生活的影響。教學(xué)重點(diǎn)、難點(diǎn)教學(xué)重點(diǎn)1.數(shù)據(jù)準(zhǔn)備的基本概念和重要性。2.數(shù)據(jù)集的選擇方法。3.數(shù)據(jù)預(yù)處理的各種技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。4.數(shù)據(jù)集劃分的策略和方法。教學(xué)難點(diǎn)1.如何選擇合適的數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)。2.如何進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。3.如何進(jìn)行數(shù)據(jù)集劃分,包括訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分。4.如何編寫(xiě)符合編程風(fēng)格規(guī)范的代碼。教學(xué)策略設(shè)計(jì)思路1.通過(guò)案例分析和互動(dòng)練習(xí),幫助學(xué)生理解數(shù)據(jù)準(zhǔn)備的基本概念和方法。2.采用議題式教學(xué)法,引導(dǎo)學(xué)生探討數(shù)據(jù)準(zhǔn)備的重要性和具體步驟。3.利用多媒體教學(xué)資源,增強(qiáng)學(xué)生的直觀感受和理解。4.通過(guò)小組合作學(xué)習(xí),培養(yǎng)學(xué)生的團(tuán)隊(duì)合作能力和創(chuàng)新思維。5.設(shè)計(jì)實(shí)踐活動(dòng),讓學(xué)生親身體驗(yàn)數(shù)據(jù)準(zhǔn)備的具體步驟。6.通過(guò)即時(shí)評(píng)價(jià)反饋,及時(shí)調(diào)整教學(xué)策略,確保教學(xué)效果。教學(xué)過(guò)程設(shè)計(jì)教學(xué)環(huán)節(jié)教師活動(dòng)學(xué)生活動(dòng)設(shè)計(jì)意圖教學(xué)與信息化手段課前預(yù)習(xí)任務(wù)1.發(fā)布預(yù)習(xí)資料,包括數(shù)據(jù)準(zhǔn)備的基本概念、數(shù)據(jù)集選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的方法。2.布置預(yù)習(xí)任務(wù),要求學(xué)生閱讀相關(guān)資料并思考數(shù)據(jù)準(zhǔn)備的重要性和具體步驟。3.提供預(yù)習(xí)指南,指導(dǎo)學(xué)生如何進(jìn)行有效的預(yù)習(xí)。1.閱讀預(yù)習(xí)資料,了解數(shù)據(jù)準(zhǔn)備的基本概念、數(shù)據(jù)集選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的方法。2.思考數(shù)據(jù)準(zhǔn)備的重要性和具體步驟。3.完成預(yù)習(xí)任務(wù),準(zhǔn)備課堂討論。幫助學(xué)生提前了解課程內(nèi)容,為課堂學(xué)習(xí)做好準(zhǔn)備。預(yù)習(xí)資料、在線閱讀平臺(tái)課前調(diào)查1.設(shè)計(jì)問(wèn)卷,調(diào)查學(xué)生對(duì)數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)集選擇的了解程度。2.收集問(wèn)卷數(shù)據(jù),分析學(xué)生的學(xué)習(xí)起點(diǎn)。3.根據(jù)調(diào)查結(jié)果調(diào)整教學(xué)策略。1.完成問(wèn)卷調(diào)查,反饋對(duì)數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)集選擇的了解情況。2.反饋調(diào)查結(jié)果,提出自己的疑問(wèn)。了解學(xué)生的學(xué)習(xí)起點(diǎn),為課堂教學(xué)提供依據(jù)。在線問(wèn)卷調(diào)查工具課中導(dǎo)入新課1.通過(guò)一段視頻或案例,引出數(shù)據(jù)準(zhǔn)備的概念。2.提出問(wèn)題,引導(dǎo)學(xué)生思考數(shù)據(jù)準(zhǔn)備的重要性和應(yīng)用場(chǎng)景。3.簡(jiǎn)要介紹本課時(shí)的學(xué)習(xí)目標(biāo)和內(nèi)容。1.觀看視頻或案例,初步了解數(shù)據(jù)準(zhǔn)備的概念。2.回答教師提出的問(wèn)題,積極參與討論。3.明確本課時(shí)的學(xué)習(xí)目標(biāo)和內(nèi)容。激發(fā)學(xué)生的學(xué)習(xí)興趣,明確學(xué)習(xí)目標(biāo)。視頻播放設(shè)備、PPT講解數(shù)據(jù)準(zhǔn)備概念1.詳細(xì)講解數(shù)據(jù)準(zhǔn)備的基本概念和重要性,包括數(shù)據(jù)準(zhǔn)備的目標(biāo)和意義。2.通過(guò)實(shí)例,說(shuō)明數(shù)據(jù)準(zhǔn)備在機(jī)器學(xué)習(xí)中的作用和應(yīng)用場(chǎng)景。3.引導(dǎo)學(xué)生總結(jié)數(shù)據(jù)準(zhǔn)備的基本特點(diǎn)和應(yīng)用場(chǎng)景。1.認(rèn)真聽(tīng)講,做好筆記。2.觀看實(shí)例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)準(zhǔn)備的基本特點(diǎn)和應(yīng)用場(chǎng)景。幫助學(xué)生系統(tǒng)地了解數(shù)據(jù)準(zhǔn)備的基本概念和重要性。PPT、案例視頻講解數(shù)據(jù)集選擇1.詳細(xì)講解數(shù)據(jù)集選擇的方法和策略,包括常用的數(shù)據(jù)集來(lái)源和選擇標(biāo)準(zhǔn)。2.通過(guò)實(shí)例,說(shuō)明如何選擇合適的數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)。3.引導(dǎo)學(xué)生總結(jié)數(shù)據(jù)集選擇的方法和策略。1.認(rèn)真聽(tīng)講,做好筆記。2.觀看實(shí)例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)集選擇的方法和策略。幫助學(xué)生系統(tǒng)地了解數(shù)據(jù)集選擇的方法和策略。PPT、案例視頻講解數(shù)據(jù)預(yù)處理1.詳細(xì)講解數(shù)據(jù)預(yù)處理的各種技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。2.通過(guò)實(shí)例,說(shuō)明數(shù)據(jù)預(yù)處理的具體步驟和注意事項(xiàng)。3.引導(dǎo)學(xué)生總結(jié)數(shù)據(jù)預(yù)處理的各種技術(shù)和具體步驟。1.認(rèn)真聽(tīng)講,做好筆記。2.觀看實(shí)例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)預(yù)處理的各種技術(shù)和具體步驟。幫助學(xué)生系統(tǒng)地了解數(shù)據(jù)預(yù)處理的各種技術(shù)和具體步驟。PPT、案例視頻講解數(shù)據(jù)集劃分1.詳細(xì)講解數(shù)據(jù)集劃分的策略和方法,包括訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分。2.通過(guò)實(shí)例,說(shuō)明數(shù)據(jù)集劃分的具體步驟和注意事項(xiàng)。3.引導(dǎo)學(xué)生總結(jié)數(shù)據(jù)集劃分的策略和方法。1.認(rèn)真聽(tīng)講,做好筆記。2.觀看實(shí)例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)集劃分的策略和方法。幫助學(xué)生系統(tǒng)地了解數(shù)據(jù)集劃分的策略和方法。PPT、案例視頻實(shí)踐操作1.逐步演示如何在Python環(huán)境中進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分。2.解釋每一步的注意事項(xiàng)和可能遇到的問(wèn)題。3.提供常見(jiàn)錯(cuò)誤的解決方案和示例。4.引導(dǎo)學(xué)生記錄實(shí)踐操作中的問(wèn)題與解決方法。5.討論實(shí)踐操作時(shí)可能的安全設(shè)置。1.跟隨教師演示,嘗試在自己的Python環(huán)境中進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分。2.記錄實(shí)踐操作中遇到的問(wèn)題,準(zhǔn)備提問(wèn)。3.互相幫助,分享實(shí)踐操作經(jīng)驗(yàn)。4.在教師講解時(shí)做筆記,記錄關(guān)鍵步驟。5.參與討論,發(fā)表對(duì)實(shí)踐操作步驟的理解。6.嘗試解決自己遇到的問(wèn)題,進(jìn)行探索。幫助學(xué)生掌握數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的具體步驟。Python環(huán)境、JupyterNotebook總結(jié)與反饋1.匯總本課時(shí)的主要內(nèi)容,強(qiáng)調(diào)重點(diǎn)和難點(diǎn)。2.對(duì)學(xué)生的課堂表現(xiàn)進(jìn)行評(píng)價(jià),指出優(yōu)點(diǎn)和不足。3.布置課后作業(yè),鞏固所學(xué)知識(shí)。4.預(yù)告下節(jié)課的內(nèi)容,激發(fā)學(xué)生的學(xué)習(xí)興趣。1.認(rèn)真聽(tīng)講,回顧本課時(shí)的主要內(nèi)容。2.接受教師的評(píng)價(jià),反思自己的表現(xiàn)。3.記錄課后作業(yè),準(zhǔn)備完成。4.了解下節(jié)課的內(nèi)容,做好預(yù)習(xí)。通過(guò)總結(jié)與反饋,幫助學(xué)生鞏固所學(xué)知識(shí),明確下一步的學(xué)習(xí)方向。PPT、課后作業(yè)課后課后作業(yè)1.寫(xiě)一篇關(guān)于數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)集選擇的小論文。2.選擇一個(gè)數(shù)據(jù)集,進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的實(shí)踐操作。3.完成課后練習(xí)題,鞏固所學(xué)知識(shí)。1.完成課后作業(yè),認(rèn)真撰寫(xiě)小論文。2.選擇一個(gè)數(shù)據(jù)集,進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的實(shí)踐操作。3.完成課后練習(xí)題,鞏固所學(xué)知識(shí)。通過(guò)課后作業(yè),幫助學(xué)生鞏固所學(xué)知識(shí),提高寫(xiě)作和實(shí)踐能力。課后作業(yè)資料、代碼編輯器復(fù)習(xí)與預(yù)習(xí)1.提供復(fù)習(xí)資料,幫助學(xué)生鞏固本課時(shí)的知識(shí)。2.布置預(yù)習(xí)任務(wù),要求學(xué)生閱讀下節(jié)課的預(yù)習(xí)資料。3.提供預(yù)習(xí)指南,指導(dǎo)學(xué)生如何進(jìn)行有效的預(yù)習(xí)。1.認(rèn)真復(fù)習(xí)本課時(shí)的知識(shí),完成復(fù)習(xí)資料。2.閱讀下節(jié)課的預(yù)習(xí)資料,做好預(yù)習(xí)。3.按照預(yù)習(xí)指南,進(jìn)行有效的預(yù)習(xí)。通過(guò)復(fù)習(xí)與預(yù)習(xí),幫助學(xué)生鞏固所學(xué)知識(shí),為下節(jié)課的學(xué)習(xí)做好準(zhǔn)備。復(fù)習(xí)資料、預(yù)習(xí)資料板書(shū)設(shè)計(jì)一、數(shù)據(jù)準(zhǔn)備的重要性數(shù)據(jù)的預(yù)處理是機(jī)器學(xué)習(xí)流程中的第一步,決定了后續(xù)建模的質(zhì)量和可靠性。數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)集劃分、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約等步驟,通過(guò)這些步驟可以使數(shù)據(jù)變得更加豐富、準(zhǔn)確、完整、一致和可用,從而提高機(jī)器學(xué)習(xí)的結(jié)果。首先,數(shù)據(jù)的預(yù)處理可以幫助我們清洗數(shù)據(jù)。在實(shí)際應(yīng)用中,數(shù)據(jù)往往存在缺失值、異常值和重復(fù)值等問(wèn)題。這些問(wèn)題會(huì)對(duì)建模的結(jié)果產(chǎn)生負(fù)面影響。通過(guò)數(shù)據(jù)清洗,我們可以去除或填補(bǔ)缺失值,修正異常值,刪除重復(fù)值,從而使數(shù)據(jù)更加干凈和可靠。其次,數(shù)據(jù)的預(yù)處理可以幫助我們集成數(shù)據(jù)。在實(shí)際應(yīng)用中,數(shù)據(jù)往往來(lái)自不同的來(lái)源,以不同的格式存儲(chǔ),具有不同的結(jié)構(gòu)和語(yǔ)義。數(shù)據(jù)集成可以將不同來(lái)源的數(shù)據(jù)整合在一起,形成一個(gè)一致的數(shù)據(jù)集。這樣做可以避免數(shù)據(jù)重復(fù)和冗余,提高數(shù)據(jù)的可用性和可靠性。第三,數(shù)據(jù)的預(yù)處理可以幫助我們轉(zhuǎn)換數(shù)據(jù)。在實(shí)際應(yīng)用中,數(shù)據(jù)往往以不同的形式和單位進(jìn)行表示。數(shù)據(jù)轉(zhuǎn)換可以將數(shù)據(jù)轉(zhuǎn)換為適合分析和建模的形式。例如,可以進(jìn)行數(shù)值化、標(biāo)準(zhǔn)化、歸一化、離散化等操作,使得數(shù)據(jù)更加易于處理和比較。最后,數(shù)據(jù)的預(yù)處理可以幫助我們規(guī)約數(shù)據(jù)。在實(shí)際應(yīng)用中,數(shù)據(jù)往往具有很高的維度和冗余。數(shù)據(jù)規(guī)約可以通過(guò)選擇、投影、聚類等方法減少數(shù)據(jù)的維度和冗余,從而提高分析和建模的效率和準(zhǔn)確性。二、數(shù)據(jù)集選擇1)Kaggle數(shù)據(jù)集網(wǎng)址:http:///datasets每個(gè)數(shù)據(jù)集都有對(duì)應(yīng)的一個(gè)小型社區(qū),你可以在其中討論數(shù)據(jù)、查找公共代碼或在內(nèi)核中創(chuàng)建自己的項(xiàng)目。該網(wǎng)站包含大量形狀、大小、格式各異的真實(shí)數(shù)據(jù)集。你還可以看到與每個(gè)數(shù)據(jù)集相關(guān)的“內(nèi)核”,其中許多不同的數(shù)據(jù)科學(xué)家提供了筆記來(lái)分析數(shù)據(jù)集。2)亞馬遜數(shù)據(jù)集網(wǎng)址:https://registry.opendata.aws該數(shù)據(jù)源包含多個(gè)不同領(lǐng)域的數(shù)據(jù)集,如:公共交通、生態(tài)資源、衛(wèi)星圖像等。它也有一個(gè)搜索框來(lái)幫助你找到你正在尋找的數(shù)據(jù)集,另外它還有數(shù)據(jù)集描述和使用示例,這是非常簡(jiǎn)單、實(shí)用的!3)UCI機(jī)器學(xué)習(xí)庫(kù)網(wǎng)址:https:///ml/datasets.html圖3.10UCI機(jī)器學(xué)習(xí)庫(kù)圖3.10所示是加州大學(xué)信息與計(jì)算機(jī)科學(xué)學(xué)院的一個(gè)數(shù)據(jù)庫(kù),包含了100多個(gè)數(shù)據(jù)集。它根據(jù)機(jī)器學(xué)習(xí)問(wèn)題的類型對(duì)數(shù)據(jù)集進(jìn)行分類。你可以找到單變量、多變量、分類、回歸或者是推薦系統(tǒng)的數(shù)據(jù)集。4)谷歌的數(shù)據(jù)集搜索引擎網(wǎng)址:https:///datasetsearch圖3.11谷歌的數(shù)據(jù)集圖3.11所示是一個(gè)可以按名稱搜索數(shù)據(jù)集的工具箱。谷歌的目標(biāo)是統(tǒng)一成千上萬(wàn)個(gè)不同的數(shù)據(jù)集。5)微軟數(shù)據(jù)集網(wǎng)址:https://2018年7月,微軟與外部研究社區(qū)共同宣布推出“微軟研究開(kāi)放數(shù)據(jù)”。它在公共云中包含一個(gè)數(shù)據(jù)存儲(chǔ)庫(kù),用于促進(jìn)全球研究社區(qū)之間的協(xié)作。另外它還提供了一組在已發(fā)表的研究中使用的、經(jīng)過(guò)整理的數(shù)據(jù)集。6)Awesome公共數(shù)據(jù)集網(wǎng)址:https:///awesomedata/awesome.public.datasets這是一個(gè)按照主題分類的,由社區(qū)公開(kāi)維護(hù)的一系列數(shù)據(jù)集清單,比如生物學(xué)、經(jīng)濟(jì)學(xué)、教育學(xué)等。這里列出的大多數(shù)數(shù)據(jù)集都是免費(fèi)的,但是在使用任何數(shù)據(jù)集之前,你應(yīng)該檢查相應(yīng)的許可要求。7)政府?dāng)?shù)據(jù)集政府的相關(guān)數(shù)據(jù)集也很容易找到。許多國(guó)家為了提高知名度,向公眾分享了各種數(shù)據(jù)集。例如:歐盟開(kāi)放數(shù)據(jù)門戶:歐洲政府?dāng)?shù)據(jù)集。新西蘭政府?dāng)?shù)據(jù)集。印度政府?dāng)?shù)據(jù)集。8)計(jì)算機(jī)視覺(jué)數(shù)據(jù)集網(wǎng)址:https://www.visualdata.io對(duì)于從事圖像處理、計(jì)算機(jī)視覺(jué)或者是深度學(xué)習(xí)的研究人員,這應(yīng)該是你的實(shí)驗(yàn)獲取數(shù)據(jù)的重要來(lái)源之一。該數(shù)據(jù)集包含一些可以用來(lái)構(gòu)建計(jì)算機(jī)視覺(jué)(CV)模型的大型數(shù)據(jù)集。你可以通過(guò)特定的CV主題查找特定的數(shù)據(jù)集,如語(yǔ)義分割、圖像標(biāo)題、圖像生成,甚至可以通過(guò)解決方案(自動(dòng)駕駛汽車數(shù)據(jù)集)查找特定的數(shù)據(jù)集。三、數(shù)據(jù)預(yù)處理1.數(shù)據(jù)清洗1)sklearn庫(kù)中處理缺失值的類是SimpleImputer,這個(gè)類的相關(guān)參數(shù)見(jiàn)表3.5。表3.5SimpleImputer類參數(shù)2)統(tǒng)計(jì)數(shù)據(jù)缺失值總數(shù)X.isnull().sum()2.特征工程特征工程的主要有三個(gè)任務(wù)(見(jiàn)圖3.12)。圖3.12特征工程主要任務(wù)應(yīng)用機(jī)器學(xué)習(xí)的前提是構(gòu)建結(jié)構(gòu)化訓(xùn)練數(shù)據(jù),如果機(jī)器學(xué)習(xí)的對(duì)象是圖像(見(jiàn)圖2.12),結(jié)構(gòu)化訓(xùn)練數(shù)據(jù)該如何構(gòu)造呢?需要把圖像轉(zhuǎn)換為表3.6形式,這個(gè)轉(zhuǎn)換過(guò)程稱為特征工程。圖3.13鳶尾花數(shù)據(jù)表3.6鳶尾花結(jié)構(gòu)化訓(xùn)練數(shù)據(jù)Sepal.LengthSepal.WidthPetal.LengthPetal.Widthclass0.2setosa4.931.40.2setosaversicolor1.5versicolor6.33.362.5virginica1.9virginica6.535.82.2?1.3?其中,每列的表頭名Sepal.Length等是特征,最后一列class是輸出的類別信息,每一行是一個(gè)樣本,表2.6中數(shù)值就是特征值。特征工程是機(jī)器學(xué)習(xí)的基礎(chǔ),好的特征允許你選擇不復(fù)雜的模型,同時(shí)運(yùn)行速度也更快,也更容易理解和維護(hù)。特征工程說(shuō)起來(lái)容易,做起來(lái)真的不易,想要對(duì)實(shí)際問(wèn)題進(jìn)行模型分析,幾乎大部分時(shí)間都花在了特征工程上。3.數(shù)據(jù)規(guī)約(1)數(shù)據(jù)歸一化歸一化通常意味著將數(shù)據(jù)縮放到[0,1]的范圍內(nèi),或者使得所有數(shù)據(jù)的范圍都在[.1,1]之間。可以使用Scikit.learn的MinMaxScaler來(lái)實(shí)現(xiàn)。X=np.arange(30).reshape(5,6)scaler=MinMaxScaler()X_normalized=scaler.fit_transform(X)(2)數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化則是將數(shù)據(jù)縮放,使得它們的均值為0,標(biāo)準(zhǔn)差為1。這可以通過(guò)Scikit.learn的StandardScaler來(lái)實(shí)現(xiàn)。X=np.arange(30).reshape(5,6)scaler=StandardScaler()X_standardized=scaler.fit_transform(X)四、數(shù)據(jù)集劃分1.訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分2.Scikit.learn數(shù)據(jù)集劃分Scikit.learn提供了train_test_split函數(shù)來(lái)幫助完成這一任務(wù)。fromsklearn.model_selectionimporttrain_test_split#假設(shè)X是特征,y是目
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 升壓站綠色施工方案及記錄
- 職工食堂年終工作總結(jié)
- 呼吸內(nèi)科中重癥患者的護(hù)理總結(jié)
- 2025年藥房年度工作總結(jié)個(gè)人總結(jié)
- 升壓站倒送電試驗(yàn)方案
- 建設(shè)工程施工合同糾紛要素式起訴狀模板法律依據(jù)清晰標(biāo)注
- 2026 年官方化離婚協(xié)議書(shū)權(quán)威版
- 2026中學(xué)關(guān)于課外讀物12條負(fù)面清單清方案(終稿)
- 創(chuàng)文明校園的自查報(bào)告
- 攝影測(cè)量學(xué)地質(zhì)大學(xué)考試題庫(kù)及答案
- 樹(shù)木修剪合同協(xié)議書(shū)
- 月相變化高中地理人教版(2019)必修一
- 2025至2030中國(guó)鋰電池硬碳(HC)負(fù)極材料市場(chǎng)趨勢(shì)預(yù)判與投融資發(fā)展?fàn)顩r報(bào)告
- 口腔潔牙護(hù)士年終總結(jié)
- 加氣站氣瓶充裝質(zhì)量保證體系手冊(cè)2024版
- GB/T 18109-2024凍魚(yú)
- 腎性骨病的治療與護(hù)理
- 建筑與小區(qū)管道直飲水系統(tǒng)技術(shù)規(guī)程
- 消防應(yīng)急預(yù)案電子版
- 年產(chǎn)30萬(wàn)噸木薯燃料乙醇項(xiàng)目一期工程(年產(chǎn)15萬(wàn)噸)可行性研究報(bào)告
- 肺炎性假瘤誤診為肺癌的HRCT表現(xiàn)及淺析
評(píng)論
0/150
提交評(píng)論