如何在人工智能機器學習中實現(xiàn)分類_第1頁
如何在人工智能機器學習中實現(xiàn)分類_第2頁
如何在人工智能機器學習中實現(xiàn)分類_第3頁
如何在人工智能機器學習中實現(xiàn)分類_第4頁
如何在人工智能機器學習中實現(xiàn)分類_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

什么是機器學習中的分類分類是將給定數(shù)據(jù)集分類的過程,可以對結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行。該過程從預測給定數(shù)據(jù)點的類別開始。這些類通常稱為目標、標簽或類別。分類預測建模是近似從輸入變量到離散輸出變量的映射函數(shù)的任務(wù)。主要目標是確定新數(shù)據(jù)將屬于哪個類/類別。讓我們嘗試用一個簡單的例子來理解這一點。心臟病檢測可以被識別為一個分類問題,這是一個二元分類,因為只能有兩個類別,即有心臟病或沒有心臟病。在這種情況下,分類器需要訓練數(shù)據(jù)來理解給定的輸入變量與類別的關(guān)系。一旦分類器經(jīng)過準確訓練,它就可以用來檢測特定患者是否患有心臟病。由于分類是監(jiān)督學習的一種,因此即使是目標也提供了輸入數(shù)據(jù)。讓我們熟悉一下機器學習術(shù)語中的分類。機器學習中的分類術(shù)語分類器

–它是一種用于將輸入數(shù)據(jù)映射到特定類別的算法。分類模型

-該模型對為訓練給出的輸入數(shù)據(jù)進行預測或得出結(jié)論,它將預測數(shù)據(jù)的類別或類別。特征——特征是所觀察到的現(xiàn)象的單個可測量的屬性。二元分類——這是一種具有兩種結(jié)果的分類類型,例如——要么是真,要么是假。多類分類——具有兩個以上類別的分類,在多類分類中,每個樣本被分配給一個且僅一個標簽或目標。多標簽分類

——這是一種分類類型,其中每個樣本都分配給一組標簽或目標。初始化

——分配用于分類器的分類器訓練分類器–sci-kitlearn中的每個分類器都使用fit(X,y)方法來擬合用于訓練訓練X和訓練標簽y的模型。預測目標

–對于未標記的觀測值X,predict(X)方法返回預測標簽y。評估——這基本上意味著模型的評估,即分類報告、準確性得分等。分類中的學習者類型惰性學習器–惰性學習器只需存儲訓練數(shù)據(jù)并等待測試數(shù)據(jù)出現(xiàn)。使用存儲的訓練數(shù)據(jù)中最相關(guān)的數(shù)據(jù)來完成分類。與熱切的學習者相比,他們有更多的預測時間。例如–k最近鄰,基于案例的推理。熱切學習者–熱切學習者在獲取預測數(shù)據(jù)之前根據(jù)給定的訓練數(shù)據(jù)構(gòu)建分類模型。它必須能夠致力于適用于整個空間的單一假設(shè)。因此,他們花費大量時間進行訓練,而花費更少的時間進行預測。例如——決策樹、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)。分類算法在機器學習中,分類是一個監(jiān)督學習概念,它基本上將一組數(shù)據(jù)分類為類別。最常見的分類問題是——語音識別、人臉檢測、手寫識別、文檔分類等。它可以是二元分類問題,也可以是多類問題。機器學習中有很多用于分類的機器學習算法。讓我們看一下機器學習中的那些分類算法。邏輯回歸它是機器學習中的一種分類算法,使用一個或多個自變量來確定結(jié)果。結(jié)果是用二分變量來衡量的,這意味著它只有兩種可能的結(jié)果。邏輯回歸的目標是找到因變量和一組自變量之間的最佳擬合關(guān)系。它比其他二元分類算法(例如最近鄰)更好,因為它定量地解釋了導致分類的因素。?的優(yōu)點和缺點邏輯回歸專門用于分類,它有助于理解一組自變量如何影響因變量的結(jié)果。邏輯回歸算法的主要缺點是它僅在預測變量為二元時才有效,它假設(shè)數(shù)據(jù)不存在缺失值并假設(shè)預測變量彼此獨立。用例識別疾病的危險因素詞分類天氣預報投票應(yīng)用程序

樸素貝葉斯分類器它是一種基于貝葉斯定理的分類算法,該定理給出了預測變量之間獨立性的假設(shè)。簡而言之,樸素貝葉斯分類器假設(shè)類中特定特征的存在與任何其他特征的存在無關(guān)。即使這些特征相互依賴,所有這些屬性也會獨立地影響概率。樸素貝葉斯模型很容易制作,對于相對較大的數(shù)據(jù)集特別有用。即使采用簡單的方法,樸素貝葉斯也優(yōu)于機器學習中的大多數(shù)分類方法。以下是實現(xiàn)樸素貝葉斯定理的貝葉斯定理。?的優(yōu)點和缺點樸素貝葉斯分類器需要少量的訓練數(shù)據(jù)來估計必要的參數(shù)以獲得結(jié)果。與其他分類器相比,它們本質(zhì)上非???。唯一的缺點是他們被認為是一個糟糕的估計者。用例疾病預測文件分類垃圾郵件過濾器情緒分析隨機梯度下降這是一種非常有效且簡單的擬合線性模型的方法。當樣本數(shù)據(jù)較多時,隨機梯度下降特別有用。它支持不同的損失函數(shù)和分類懲罰。?編輯隨機梯度下降是指計算每個訓練數(shù)據(jù)實例的導數(shù)并立即計算更新。的優(yōu)點和缺點唯一的優(yōu)點是易于實現(xiàn)和效率,而隨機梯度下降的主要缺點是它需要許多超參數(shù)并且對特征縮放敏感。用例物聯(lián)網(wǎng)更新參數(shù),例如神經(jīng)網(wǎng)絡(luò)中的權(quán)重或線性回歸中的系數(shù)K-最近鄰它是一種惰性學習算法,將訓練數(shù)據(jù)對應(yīng)的所有實例存儲在n維空間中。它是一種惰性學習算法,因為它不專注于構(gòu)建通用內(nèi)部模型,而是致力于存儲訓練數(shù)據(jù)的實例。?

k個最近鄰的簡單多數(shù)投票來計算的。它受到監(jiān)督并獲取一堆標記點并使用它們來標記其他點。為了標記新點,它會查看最接近該新點的標記點(也稱為其最近鄰居)。它讓這些鄰居投票,因此大多數(shù)鄰居擁有的標簽就是新點的標簽。“k”是它檢查的鄰居的數(shù)量。的優(yōu)點和缺點該算法的實現(xiàn)非常簡單,并且對噪聲訓練數(shù)據(jù)具有魯棒性。即使訓練數(shù)據(jù)很大,效率也相當高。KNN算法的唯一缺點是不需要確定K的值,并且與其他算法相比計算成本相當高。用例工業(yè)應(yīng)用程序?qū)ふ遗c其他任務(wù)相似的任務(wù)手寫檢測應(yīng)用圖像識別視頻識別庫存分析決策樹決策樹算法以樹結(jié)構(gòu)的形式構(gòu)建分類模型。它利用if-then規(guī)則,這些規(guī)則在分類上同樣詳盡且互斥。該過程繼續(xù)將數(shù)據(jù)分解為更小的結(jié)構(gòu),并最終將其與增量決策樹相關(guān)聯(lián)。最終的結(jié)構(gòu)看起來像一棵有節(jié)點和葉子的樹。一次使用一個訓練數(shù)據(jù)按順序?qū)W習規(guī)則。每次學習規(guī)則時,覆蓋該規(guī)則的元組都會被刪除。該過程在訓練集上繼續(xù),直到達到終止點。?該樹是通過自頂向下遞歸分治方法構(gòu)建的。決策節(jié)點將具有兩個或多個分支,葉子代表分類或決策。決策樹中與最佳預測變量相對應(yīng)的最頂層節(jié)點稱為根節(jié)點,決策樹的最佳之處在于它可以處理分類數(shù)據(jù)和數(shù)值數(shù)據(jù)。的優(yōu)點和缺點決策樹具有易于理解和可視化的優(yōu)點,而且只需要很少的數(shù)據(jù)準備。決策樹的缺點是它可以創(chuàng)建復雜的樹,從而可以有效地進行機器人分類。它們可能非常不穩(wěn)定,因為即使數(shù)據(jù)的簡單更改也會阻礙決策樹的整個結(jié)構(gòu)。用例數(shù)據(jù)探索模式識別金融中的期權(quán)定價識別疾病和風險威脅隨機森林隨機決策樹或隨機森林是一種用于分類、回歸等的集成學習方法。

它通過在訓練時構(gòu)建多個決策樹進行操作,并輸出類,即類的模式或分類或平均預測(回歸)個別的樹木。?

隨機森林是一種元估計器,它在數(shù)據(jù)集的各個子樣本上擬合許多樹,然后使用平均值來提高模型預測性質(zhì)的準確性。子樣本大小始終與原始輸入大小相同,但樣本通常是通過替換來抽取的。的優(yōu)點和缺點隨機森林的優(yōu)點是由于減少了過擬合,因此比決策樹更準確。隨機森林分類器的唯一缺點是它的實現(xiàn)非常復雜并且實時預測非常慢。用例工業(yè)應(yīng)用,例如確定貸款申請人是高風險還是低風險用于預測汽車發(fā)動機機械部件的故障預測社交媒體分享分數(shù)表現(xiàn)分數(shù)人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)由分層排列的神經(jīng)元組成,它們獲取一些輸入向量并將其轉(zhuǎn)換為輸出。該過程涉及每個神經(jīng)元獲取輸入并向其應(yīng)用一個函數(shù)(通常是非線性函數(shù)),然后將輸出傳遞到下一層。?一般來說,網(wǎng)絡(luò)應(yīng)該是前饋的,這意味著單元或神經(jīng)元將輸出饋送到下一層,但不涉及到前一層的任何反饋。權(quán)重應(yīng)用于從一層傳遞到另一層的信號,這些權(quán)重在訓練階段進行調(diào)整,以使神經(jīng)網(wǎng)絡(luò)適應(yīng)任何問題陳述。的優(yōu)點和缺點它對噪聲數(shù)據(jù)具有很高的容忍度,并且能夠?qū)ξ唇?jīng)訓練的模式進行分類,在連續(xù)值的輸入和輸出上表現(xiàn)更好。人工神經(jīng)網(wǎng)絡(luò)的缺點是與其他模型相比,它的解釋能力較差。用例筆跡分析黑白圖像的著色計算機視覺流程根據(jù)面部特征為照片添加字幕支持向量機支持向量機是一種分類器,它將訓練數(shù)據(jù)表示為空間中的點,這些點按盡可能寬的間隙分為不同的類別。然后通過預測新點屬于哪個類別以及它們將屬于哪個空間來將它們添加到空間中。?的優(yōu)點和缺點它在決策函數(shù)中使用訓練點的子集,這使得它具有高效的內(nèi)存并且在高維空間中非常有效。支持向量機的唯一缺點是該算法不直接提供概率估計。用例用于比較股票在一段時間內(nèi)的表現(xiàn)的業(yè)務(wù)應(yīng)用程序投資建議需要準確性和效率的應(yīng)用分類在此處了解有關(guān)python支持向量機的更多信息分類器評估任何分類器完成后最重要的部分是評估以檢查其準確性和效率。我們可以通過很多方法來評估分類器。讓我們看看下面列出的這些方法。堅持法這是評估分類器的最常見方法。在該方法中,給定的數(shù)據(jù)集被分為兩部分作為測試集和訓練集,分別為20%和80%。訓練集用于訓練數(shù)據(jù),未見過的測試集用于測試其預測能力。交叉驗證過度擬合是大多數(shù)機器學習模型中最常見的問題。可以進行K折交叉驗證來驗證模型是否過度擬合。?在該方法中,數(shù)據(jù)集被隨機劃分為k個互斥的

子集,每個子集的大小相同。其中,一個用于測試,其他用于訓練模型。所有k次折疊都會發(fā)生相同的過程。分類報告分類報告將給出以下結(jié)果,它是使用cancer_data數(shù)據(jù)集的SVM分類器的示例分類報告。?準確性準確度是正確預測的觀測值與總觀測值的比率真陽性:正確預測事件為陽性的數(shù)量。TrueNegative:正確預測事件是否定的次數(shù)。F1-分數(shù)它是精確率和召回率的加權(quán)平均值準確率和召回率準確率是檢索到的實例中相關(guān)實例的比例,而召回率是已檢索到的相關(guān)實例占實例總數(shù)的比例。它們基本上用作相關(guān)性的度量。ROC曲線接受者操作特征或ROC曲線用于分類模型的直觀比較,它顯示了真陽性率和假陽性率之間的關(guān)系。ROC曲線下的面積是模型準確性的度量。算法選擇?除了上述方法之外,我們還可以按照以下步驟為模型使用最佳算法讀取數(shù)據(jù)根據(jù)我們的依賴和獨立特征創(chuàng)建依賴和獨立數(shù)據(jù)集將數(shù)據(jù)分為訓練集和測試集使用不同的算法訓練模型,例如KNN、決策樹、SVM等評估分類器選擇最準確的分類器。盡管選擇最適合您模型的最佳算法可能需要花費更多時間,但準確性是提高模型效率的最佳方法。讓我們看一下MNIST數(shù)據(jù)集,我們將使用兩種不同的算法來檢查哪一種最適合模型。使用案例什么是MNIST?它是一組70,000張小手寫圖像,并標有它們所代表的相應(yīng)數(shù)字。每張圖像有近784個特征,一個特征簡單地代表像素的密度,每張圖像是28×28像素。我們將在不同分類器的幫助下使用MNIST數(shù)據(jù)集制作數(shù)字預測器。加載MNIST數(shù)據(jù)集fromsklearn.datasetsimportfetch_openmlmnist=fetch_openml('mnist_784')print(mnist)?輸出:探索數(shù)據(jù)集importmatplotlibimportmatplotlib.pyplotaspltX,y=mnist['data'],mnist['target']random_digit=X[4800]random_digit_image=random_digit.reshape(28,28)plt.imshow(random_digit_image,cmap=matplotlib.cm.binary,interpolation="nearest")?輸出:分割數(shù)據(jù)我們使用前6000個條目作為訓練數(shù)據(jù),數(shù)據(jù)集多達70000個條目。您可以使用X和y的形狀進行檢查。因此,為了使我們的模型內(nèi)存高效,我們僅采用6000個條目作為訓練集,1000個條目作為測試集。x_train,x_test=X[:6000],X[6000:7000]y_train,y_test=y[:6000],y[6000:7000]洗牌數(shù)據(jù)為了避免不必要的錯誤,我們使用numpy數(shù)組對數(shù)據(jù)進行混洗。從根本上提高了模型的效率。importnumpyasnpshuffle_index=np.random.permutation(6000)x_train,y_train=x_train[shuffle_index],y_train[shuffle_index]使用邏輯回歸創(chuàng)建數(shù)字預測器y_train=y_train.astype(8)y_test=y_test.astype(8)y_train_2=(y_train==2)y_test_2=(y_test==2)print(y_test_2)輸出

:fromsklearn.linear_modelimportLogisticRegressionclf=LogisticRegression(tol=0.1)clf.fit(x_train,y_train_2)clf.predict([random_digit])?輸出:交叉驗證fromsklearn.model_selectionimportcross_val_scorea=cross_val_score(clf,x_train,y_train_2,cv=3,scoring="accuracy")a.mean()?輸出:使用支持向量機創(chuàng)建預測器fromsklearnimportsvmcls=svm.SVC()cls.fit(x_train,y_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論