版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第六章人工智能與機器學(xué)習(xí)6.1人工智能基礎(chǔ)6.1.1人工智能簡介引例
蘋果siriAI及其研究內(nèi)容AI簡史6.1.2機器學(xué)習(xí)基礎(chǔ)定義分類監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)機器學(xué)習(xí)過程6.1.3scikit-learn簡介236.1.1人工智能簡介|引例
蘋果siriHey,Siri1.問:“When’sthenextNBAgame?”Siri:HerearethescoresfromtheNBAlastSaturday.2.問:“WhowonSaturday'sNBAgame?”
Siri:TheHeatovercametheCelticsbyascoreof101to88lastSaturday.TheCelticsareoutoftheplayoffs(季后賽).3.問:Who'stallerKobeBryant(科比)orLebronJames?Siri:Ifyousquint,youcanseethatLeBronJamesisslightlytaller.4.問:HowaretheDodgersdoingthisseason?Siri:OK,theDodgersappeartobeinfirstplaceintheNLWestrightnow.人機對話語音識別自然語言理解信息檢索、歸納、概況語音合成……4人形機器人Ameca需要兩大核心技術(shù):人工制作的精細化的肢體(artificialbody)人工智能算法(artificialintelligence)“人工智能”(AI,ArtificialIntelligence)目標是通過機器來模擬人類認知能力(如學(xué)習(xí)、推理等)。尼爾森定義,“人工智能是關(guān)于知識的科學(xué)”,所謂“知識的科學(xué)”就是研究知識的表示、知識的獲取和知識的運用。研究領(lǐng)域包括知識表示、自動推理和搜索方法,機器學(xué)習(xí),自然語言理解,計算機視覺,智能機器人,自動程序設(shè)計等。發(fā)展歷程“AI”最初在1956年Dartmouth會上提出。
會議組織者McCarthy經(jīng)過機器推理、專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)等多個發(fā)展階段?,F(xiàn)階段引領(lǐng)性的戰(zhàn)略性技術(shù)和新一輪產(chǎn)業(yè)變革的核心驅(qū)動力。應(yīng)用領(lǐng)域遍布互聯(lián)網(wǎng)、汽車、智能家居、機器人、交通、醫(yī)療……主要途徑通過機器學(xué)習(xí),獲得預(yù)測和決策的能力;人類專家知識形成規(guī)則,用于邏輯推理。56.1.1人工智能簡介|AI及其研究內(nèi)容主流McCarthy(麥卡錫)66.1.1人工智能簡介|簡史TuringTest(圖靈測試)Turing(圖靈)機器學(xué)習(xí)(MachineLearning)是人工智能一個分支,ML算法是一種能從數(shù)據(jù)中學(xué)習(xí)的算法。
Mitchell(1997)定義:“對于某任務(wù)T和性能度量P,一個計算機程序被認為可以從經(jīng)驗E中學(xué)習(xí)是指,通過經(jīng)驗E改進后,它在任務(wù)T上由性能度量P衡量的性能有所提升。研究的主要內(nèi)容是能夠利用“數(shù)據(jù)”訓(xùn)練出“模型”的算法,然后使用模型進行預(yù)測。ML應(yīng)用于數(shù)據(jù)科學(xué)領(lǐng)域。因此有觀點把機器學(xué)習(xí)看作是一種數(shù)學(xué)建模?!澳P汀狈褐笍臄?shù)據(jù)中學(xué)得的結(jié)果。76.1.2機器學(xué)習(xí)基礎(chǔ)|定義數(shù)據(jù)是原材料,機器學(xué)習(xí)算法是加工工具,模型是產(chǎn)品。86.1.2機器學(xué)習(xí)基礎(chǔ)|機器學(xué)習(xí)分類監(jiān)督學(xué)習(xí):利用歷史數(shù)據(jù)(稱為訓(xùn)練數(shù)據(jù)),學(xué)習(xí)表示事物的模型;然后利用模型預(yù)測未知的數(shù)據(jù)。要求訓(xùn)練數(shù)據(jù)預(yù)先標記出目標變量(即待預(yù)測的變量)的真實值。分類任務(wù),判斷新數(shù)據(jù)所屬類別或標簽(離散的量)
如,
郵政編碼分類。回歸任務(wù),預(yù)測新數(shù)據(jù)在目標變量上的值(連續(xù)的量)
如,股票價格預(yù)測。96.1.2機器學(xué)習(xí)基礎(chǔ)|監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí):
傾向于對事物本身特征的分析。數(shù)據(jù)中不含待預(yù)測量的真實值。聚類,將數(shù)據(jù)集中類似的數(shù)據(jù)分為一組(稱為簇)
如
客戶分群降維,從高維數(shù)據(jù)中檢測、識別低緯數(shù)據(jù)結(jié)構(gòu)。106.1.2機器學(xué)習(xí)基礎(chǔ)|無監(jiān)督學(xué)習(xí)每次平均消費金額過去一年的購買次數(shù)圖a客戶分群圖b降維116.1.2機器學(xué)習(xí)基礎(chǔ)|機器學(xué)習(xí)過程setosa
模型
訓(xùn)練
特征提取學(xué)習(xí)算法模型預(yù)測訓(xùn)練數(shù)據(jù)數(shù)據(jù)準備
→
特征選擇和變換
→
模型訓(xùn)練和測試
→
模型性能評估和優(yōu)化
→模型使用sepallengthsepalwidthpetallengthpetalwidthclass5.13.51.40.2setosa7.03.24.71.4Versicolor……………?未知數(shù)據(jù)[5.2,3.4,1.00.4]Scikit-learn(簡為sklearn)是最流行的Python機器學(xué)習(xí)包之一提供
“分類、回歸、聚類、維數(shù)約簡、模型選擇和預(yù)處理”六大類工具。Scikit-learn基于NumPy、SciPy和matplotlib開發(fā);官方文檔:/stable/index.htmlScikit-learn本身不支持深度學(xué)習(xí)與GPU加速深度學(xué)習(xí)方法需要使用Tensorflow、Keras、PyTorch等Python開源框架Anaconda集成開發(fā)環(huán)境:集成了Scikit-learn、以及NumPy、SciPy、matplotlib、pandas等;導(dǎo)入即可使用。126.1.3scikit-learn簡介數(shù)據(jù)表
數(shù)據(jù)表就是二維網(wǎng)格數(shù)據(jù),其中每一行表示數(shù)據(jù)集中的一個樣本,列表示構(gòu)成樣本的相關(guān)特征或類標簽。
如鳶尾花數(shù)據(jù)集136.1.3scikit-learn簡介|Scikit-Learn的數(shù)據(jù)表示每行數(shù)據(jù)表示一朵鳶尾花。行數(shù)表示數(shù)據(jù)集中記錄的鳶尾花總數(shù)。矩陣的行稱為樣本。樣本數(shù)記為n。每列數(shù)據(jù)表示每個樣本某特征的量化值。矩陣的列稱為特征。特征數(shù)記為m。樣本的類標簽特征矩陣(X)和目標數(shù)組(y)訓(xùn)練模型前,輸入的數(shù)據(jù)集要拆分成兩部分:樣本的特征信息、待預(yù)測的量特征矩陣(X)
數(shù)據(jù)表的特征信息,以二維數(shù)組或矩陣表示,稱為特征矩陣,簡記為X。X是[n,m]二維矩陣,常用NumPy數(shù)組或Pandas的DataFrame對象表示。樣本(即每一行)是指數(shù)據(jù)集中的每個對象,如一朵花、一篇文章、一幅圖像等。
特征(即每一列)是指每個樣本都具有的某種量化觀測值。特征值一般是實數(shù),有時可能取布爾類型或離散值。146.1.3scikit-learn簡介|Scikit-Learn的數(shù)據(jù)表示Sepal_lengthSepal_widthPetal_lengthPetal_widthspecies15.13.51.40.2Setosa24.93.01.40.2Setosa…506.43.54.51.2Versicolor…1505.93.05.01.8Virginica樣本(實例,示例,觀測)特征(屬性)類標簽(目標)特征矩陣目標數(shù)組(y)待預(yù)測的量,以一個標簽或目標數(shù)組表示,常記為y。y是一維數(shù)組,長度是樣本總數(shù)n,常用一維的NumPy數(shù)組或Pandas的Serie對象表示。目標數(shù)組可以是連續(xù)的數(shù)值類型,也可以是離散的類型/標簽。
如,iris數(shù)據(jù)集中待預(yù)測的花的品種(species)。species列就是目標數(shù)組。156.1.3scikit-learn簡介|Scikit-Learn的數(shù)據(jù)表示Sepal_lengthSepal_widthPetal_lengthPetal_widthspecies15.13.51.40.2Setosa24.93.01.40.2Setosa…506.43.54.51.2Versicolor…1505.93.05.01.8Virginica樣本(實例,示例,觀測)特征(屬性)類標簽(目標)目標數(shù)組Setosa:山鳶尾
versicolor:變色鳶尾
virginica:維吉尼亞鳶尾(1)獲取數(shù)據(jù)集方法一:讀取iris.csv文件
存入一個DataFrame對象中;然后拆分數(shù)據(jù)集,取其中特征信息存入特征矩陣X,取其中標簽信息存入目標數(shù)組y中。166.1.3scikit-learn簡介|例6.1iris數(shù)據(jù)集(1)運行結(jié)果【例6-1】鳶尾花數(shù)據(jù)集獲?。ùa:chapter6-1-iris.ipynb)iris數(shù)據(jù)集:共有150個樣本,分屬3個類別,每類50個樣本。每個樣本有4個特征,均為正實數(shù)。17抽取特征矩陣X代碼獲取目標數(shù)組y代碼課堂練習(xí)思考:還有其他方法嗎?(2)獲取數(shù)據(jù)集方法二:利用sklearn的數(shù)據(jù)加載函數(shù)利用sklearn.datasets包中的load_iris()函數(shù)獲取iris數(shù)據(jù)集,進而得到特征矩陣X和目標數(shù)組y。186.1.3scikit-learn簡介|例6.1iris數(shù)據(jù)集(2)iris數(shù)據(jù)已內(nèi)置入sklearn,通過load_iris()函數(shù)來獲得。語法如下:load_iris(return_X_y=False)參數(shù):
return_X_y:默認為False,返回一個bunch對象。若為True,則返回(X,y)元組。bunch對象,是一個類似字典的數(shù)據(jù)對象。主要屬性有:“data”,待學(xué)習(xí)的數(shù)據(jù),即特征矩陣。NumPy數(shù)組,二維“target”,類標簽,即目標數(shù)組。NumPy數(shù)組,一維“target_names”,標簽的涵義?!癴eature_names”,特征的涵義。“DESCR”,數(shù)據(jù)集的完整描述。19利用load_iris()獲取iris數(shù)據(jù)20對數(shù)據(jù)可視化seaborn.set()可以用來設(shè)置背景,調(diào)色板等Seaborn在Matplotlib的基礎(chǔ)上開發(fā)了一套API,為默認的圖形樣式和顏色設(shè)置提供了理智的選擇,為常用的統(tǒng)計圖形定義了許多簡單的高級函數(shù),并與pandasDataFrame的功能有機結(jié)合。21用seaborn對數(shù)據(jù)可視化Bunch類型將鍵作為屬性公開的容器類型。通過允許由鍵訪問值bunch[“value_key”]或由屬性訪問值bunch.value_key來擴展字典。Bunch對象常用作函數(shù)和方法的輸出。226.1.3scikit-learn簡介|sklearn.utils.BunchScikit-learn中為每類ML模型提供了一種評估器,并提供了統(tǒng)一的接口。Scikit-learn評估器(即模型類)的常用步驟如下:通過從Scikit-learn中導(dǎo)入適當?shù)脑u估器類,選擇模型類。選擇模型類用合適的數(shù)值對模型類進行實例化,配置模型超參數(shù)。實例化模型整理數(shù)據(jù),獲取特征矩陣和目標數(shù)組。整理數(shù)據(jù)調(diào)用模型實例的fit()方法對數(shù)據(jù)進行擬合。訓(xùn)練模型對新數(shù)據(jù)應(yīng)用模型:應(yīng)用模型在監(jiān)督學(xué)習(xí)模型中,通常使用predict()方法預(yù)測新數(shù)據(jù)的標簽;在無監(jiān)督學(xué)習(xí)模型中,通常使用transform()或predict()方法轉(zhuǎn)換或推斷數(shù)據(jù)的性質(zhì)。232.1人工智能中的機器學(xué)習(xí)|Scikit-learn簡介|評估器API超參數(shù):是一些重要的必須在選擇模型時確定好的參數(shù),
即在模型擬合數(shù)據(jù)之前必須被確定的參數(shù)。(3)如何為前面的鳶尾花數(shù)據(jù)集建立分類模型?
用所有數(shù)據(jù)來訓(xùn)練模型,可以嗎?
先用一部分數(shù)據(jù)進行訓(xùn)練,再用模型預(yù)測出其他樣本的標簽。246.1.3scikit-learn簡介|分類評估器使用|例6.1iris數(shù)據(jù)集(3)本例使用高斯樸素貝葉斯(Gaussianna?veBayes)方法。該方法假設(shè)每個特征中屬于每一類的觀測值都服從高斯分布。速度快,無需選擇超參數(shù),適合作為初步分類手段。sklearn.naive_bayes中的GaussianNB評估器類。使用前先導(dǎo)入,語法:fromsklearn.naive_bayesimportGaussianNB?怎樣測試模型?劃分數(shù)據(jù)集25Sklearn.model_selection提供了train_test_split()函數(shù),可將原數(shù)據(jù)集隨機劃分成訓(xùn)練子集和測試子集,語法:train_test_split(X,y,test_size=0.25,random_state=None)初始化模型前,使用該函數(shù)劃分原始數(shù)據(jù)集。使用前先導(dǎo)入,導(dǎo)入語法:fromsklearn.model_selectionimporttrain_test_split參數(shù)X:array;待擬合的特征矩陣y:array;目標向量(監(jiān)督學(xué)習(xí))
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年潮玩品牌運營策略培訓(xùn)
- 2026年水利工程中的智能化監(jiān)測技術(shù)
- 2025年財務(wù)副職競聘筆試題及答案
- 2025年延長石油秋招筆試及答案
- 2025年大學(xué)競選干部筆試題目及答案
- 2025年網(wǎng)易3d角色制作筆試及答案
- 2026新疆中閩(哈密)能源有限公司招聘3人考試備考試題及答案解析
- 2025年永州網(wǎng)人事考試及答案
- 2025年幼教筆試重點歸納知識點及答案
- 2026湖南智谷投資發(fā)展集團有限公司招聘補充筆試備考題庫及答案解析
- 2026年江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試模擬測試卷必考題
- 2026年中藥材生產(chǎn)質(zhì)量管理規(guī)范理論考試題含答案
- 北京市東城區(qū)2025-2026年高三上期末地理試卷(含答案)
- 鎮(zhèn)海區(qū)國資系統(tǒng)招聘筆試題庫2026
- 2025至2030中國高壓套管行業(yè)調(diào)研及市場前景預(yù)測評估報告
- 2026秋招:國家電投面試題及答案
- 智能機械與機器人全套課件
- 《2025年CSCO前列腺癌診療指南》更新要點解讀
- 膿毒癥診斷與治療臨床規(guī)范指南(2025年版)
- 國有企業(yè)財務(wù)管理制度
- 河南省鄭州市第六十二中學(xué)2025-2026學(xué)年九年級上學(xué)期第二次月考語文試題(含答案)
評論
0/150
提交評論