深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法

上傳人：追*** IP屬地：河北上傳時(shí)間：2025-10-07 格式：DOCX 頁(yè)數(shù)：25 大小：16.64KB 積分：7.19 舉報(bào) 版權(quán)申訴

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法_第2頁(yè)

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法_第3頁(yè)

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法_第4頁(yè)

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法_第5頁(yè)

已閱讀5頁(yè)，還剩20頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法一、概述

深度神經(jīng)網(wǎng)絡(luò)（DNN）的訓(xùn)練集和測(cè)試集劃分是模型開(kāi)發(fā)過(guò)程中的關(guān)鍵環(huán)節(jié)，直接影響模型的泛化能力和評(píng)估準(zhǔn)確性。合理的劃分方法能夠幫助數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師有效評(píng)估模型性能，避免過(guò)擬合，并優(yōu)化模型參數(shù)。本指南將詳細(xì)介紹DNN訓(xùn)練集和測(cè)試集的劃分方法，包括基本概念、常用策略、步驟及注意事項(xiàng)。

二、基本概念

在DNN訓(xùn)練過(guò)程中，數(shù)據(jù)集通常被劃分為三個(gè)主要部分：

（一）訓(xùn)練集（TrainingSet）

-用于模型參數(shù)的學(xué)習(xí)和調(diào)整。

-包含大部分?jǐn)?shù)據(jù)（通常占60%-80%）。

（二）驗(yàn)證集（ValidationSet）

-用于調(diào)整超參數(shù)（如學(xué)習(xí)率、網(wǎng)絡(luò)層數(shù)）和模型選擇。

-占比通常為10%-20%。

（三）測(cè)試集（TestSet）

-用于最終模型評(píng)估，提供無(wú)偏的性能指標(biāo)。

-占比通常為10%-20%。

三、常用劃分方法

（一）隨機(jī)劃分法

1.原理：隨機(jī)將數(shù)據(jù)分成訓(xùn)練集、驗(yàn)證集和測(cè)試集，確保數(shù)據(jù)分布均勻。

2.步驟：

(1)混洗數(shù)據(jù)集，確保樣本順序隨機(jī)。

(2)按比例分配數(shù)據(jù)，如70%訓(xùn)練、15%驗(yàn)證、15%測(cè)試。

3.優(yōu)點(diǎn)：簡(jiǎn)單易行，計(jì)算效率高。

4.缺點(diǎn)：可能因隨機(jī)性導(dǎo)致數(shù)據(jù)分布不均，尤其樣本量較小時(shí)有風(fēng)險(xiǎn)。

（二）分層抽樣法（StratifiedSampling）

1.原理：保持各標(biāo)簽類別的比例一致，避免某一類別樣本在某個(gè)集合中過(guò)度集中。

2.步驟：

(1)統(tǒng)計(jì)數(shù)據(jù)集中各標(biāo)簽的分布比例。

(2)在隨機(jī)劃分時(shí)，確保每個(gè)集合中各類別樣本比例與總體一致。

3.適用場(chǎng)景：類別不平衡的數(shù)據(jù)集。

（三）交叉驗(yàn)證法（Cross-Validation）

1.原理：將數(shù)據(jù)集分成K個(gè)子集，輪流使用K-1個(gè)子集訓(xùn)練，剩余1個(gè)子集驗(yàn)證，重復(fù)K次并取平均值。

2.常用類型：

(1)K折交叉驗(yàn)證（K-FoldCV）：如K=5或10，常用方法為5折。

(2)留一法（Leave-One-Out）：每個(gè)樣本單獨(dú)作為驗(yàn)證集，適用于數(shù)據(jù)量較小的情況。

3.優(yōu)點(diǎn)：充分利用數(shù)據(jù)，評(píng)估更穩(wěn)定。

4.缺點(diǎn)：計(jì)算成本高，尤其K值較大時(shí)。

四、具體實(shí)施步驟

（一）數(shù)據(jù)預(yù)處理

1.清洗數(shù)據(jù)：去除缺失值、異常值。

2.標(biāo)準(zhǔn)化/歸一化：如使用Min-Max或Z-Score標(biāo)準(zhǔn)化。

3.編碼類別特征：如One-Hot或LabelEncoding。

（二）劃分?jǐn)?shù)據(jù)集

1.使用工具：Python中可利用`sklearn.model_selection.train_test_split`或`KFold`實(shí)現(xiàn)。

2.示例代碼（Python）：

```python

fromsklearn.model_selectionimporttrain_test_split,StratifiedKFold

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,stratify=y)

```

（三）驗(yàn)證與調(diào)整

1.記錄各集合指標(biāo)（如準(zhǔn)確率、損失值）。

2.如發(fā)現(xiàn)驗(yàn)證集性能顯著低于訓(xùn)練集，可能存在過(guò)擬合，需調(diào)整模型（如增加正則化）。

五、注意事項(xiàng)

1.數(shù)據(jù)量不足時(shí)：

-可采用數(shù)據(jù)增強(qiáng)（如旋轉(zhuǎn)、翻轉(zhuǎn)圖像）擴(kuò)充訓(xùn)練集。

-使用更大的K值（如10折）降低單次驗(yàn)證偏差。

2.類別不平衡時(shí)：

-調(diào)整樣本權(quán)重，或使用過(guò)采樣/欠采樣技術(shù)。

3.多任務(wù)學(xué)習(xí)場(chǎng)景：

-確保各任務(wù)的數(shù)據(jù)分布一致，避免單一任務(wù)主導(dǎo)驗(yàn)證結(jié)果。

六、總結(jié)

合理的訓(xùn)練集和測(cè)試集劃分是DNN模型開(kāi)發(fā)的基礎(chǔ)，選擇合適的劃分方法需結(jié)合數(shù)據(jù)特性、計(jì)算資源和評(píng)估目標(biāo)。常用方法包括隨機(jī)劃分、分層抽樣和交叉驗(yàn)證，實(shí)際應(yīng)用中可組合使用以提升評(píng)估效果。通過(guò)科學(xué)的劃分策略，能夠有效優(yōu)化模型性能，確保模型具備良好的泛化能力。

---

（續(xù)）深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法

五、注意事項(xiàng)（續(xù)）

1.數(shù)據(jù)量不足時(shí)：

(1)數(shù)據(jù)增強(qiáng)（DataAugmentation）：

-適用場(chǎng)景：圖像、文本、音頻等數(shù)據(jù)類型，尤其是當(dāng)原始數(shù)據(jù)量較小，難以支撐復(fù)雜模型時(shí)。

-具體操作：

-圖像數(shù)據(jù)：

-幾何變換：隨機(jī)旋轉(zhuǎn)（如±15度）、平移（如±10%）、縮放（如0.9到1.1倍）、翻轉(zhuǎn)（水平或垂直）、裁剪（隨機(jī)選擇區(qū)域）。這些操作需確保變換后的圖像仍具有實(shí)際意義。

-顏色變換：調(diào)整亮度、對(duì)比度、飽和度、色調(diào)（Hue）。避免過(guò)度調(diào)整導(dǎo)致圖像失真。

-文本數(shù)據(jù)：

-同義詞替換：隨機(jī)選擇部分詞語(yǔ)，用其同義詞替換。

-隨機(jī)插入/刪除：隨機(jī)插入無(wú)關(guān)詞語(yǔ)或刪除部分詞語(yǔ)，但需控制比例以保持句子基本結(jié)構(gòu)。

-回譯（Back-Translation）：將文本翻譯到另一種語(yǔ)言再翻譯回原文，可產(chǎn)生新的表達(dá)方式（適用于多語(yǔ)言文本）。

-音頻數(shù)據(jù)：

-添加噪聲：加入少量白噪聲或特定頻段的噪聲。

-時(shí)間扭曲/伸縮：輕微改變音頻的播放速度或時(shí)長(zhǎng)，前提是仍需保持語(yǔ)義或節(jié)奏感。

-注意事項(xiàng)：數(shù)據(jù)增強(qiáng)應(yīng)模擬真實(shí)世界數(shù)據(jù)可能出現(xiàn)的變異，避免引入完全無(wú)關(guān)的噪聲。增強(qiáng)后的數(shù)據(jù)仍需進(jìn)行與原始數(shù)據(jù)相同的預(yù)處理步驟（如歸一化）?？赏ㄟ^(guò)可視化或聽(tīng)覺(jué)檢查初步篩選效果不佳的增強(qiáng)樣本。

(2)合成數(shù)據(jù)生成（SyntheticDataGeneration）：

-適用場(chǎng)景：當(dāng)物理上難以獲取更多真實(shí)數(shù)據(jù)時(shí)，如特定罕見(jiàn)事件、專業(yè)領(lǐng)域數(shù)據(jù)。

-具體方法：

-基于模型生成：使用現(xiàn)有模型（如GANs）生成符合數(shù)據(jù)分布的新樣本。

-基于規(guī)則/物理模型生成：在理解數(shù)據(jù)生成機(jī)制的基礎(chǔ)上，根據(jù)規(guī)則或物理方程創(chuàng)建新數(shù)據(jù)。

-插值/組合：對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行合理的插值或特征組合，生成新樣本。

-注意事項(xiàng)：合成數(shù)據(jù)的質(zhì)量至關(guān)重要，需確保其統(tǒng)計(jì)特性與真實(shí)數(shù)據(jù)接近。必須對(duì)合成數(shù)據(jù)進(jìn)行嚴(yán)格驗(yàn)證，確保其不會(huì)引入偏差或錯(cuò)誤的關(guān)聯(lián)性。合成數(shù)據(jù)通常用于擴(kuò)充訓(xùn)練集。

2.類別不平衡時(shí)（續(xù)）：

(1)調(diào)整樣本權(quán)重（ClassWeighting）：

-原理：在損失函數(shù)中為不同類別分配不同權(quán)重，使得模型更關(guān)注少數(shù)類別的預(yù)測(cè)。

-具體操作：

-計(jì)算每個(gè)類別的樣本數(shù)，確定權(quán)重比例（如少數(shù)類權(quán)重設(shè)為多數(shù)類的N倍）。

-在模型訓(xùn)練框架（如TensorFlow,PyTorch）中設(shè)置`class_weight`參數(shù)。

-優(yōu)點(diǎn)：簡(jiǎn)單易實(shí)現(xiàn)，無(wú)需改變數(shù)據(jù)本身。

-缺點(diǎn)：權(quán)重設(shè)置具有一定主觀性，可能影響模型對(duì)多數(shù)類的性能。

(2)過(guò)采樣（Oversampling）：

-原理：增加少數(shù)類樣本的副本，使其數(shù)量接近多數(shù)類。

-具體方法：

-隨機(jī)過(guò)采樣：簡(jiǎn)單復(fù)制少數(shù)類樣本，可能導(dǎo)致模型過(guò)擬合該類別特征。

-SMOTE（SyntheticMinorityOver-samplingTechnique）：不僅復(fù)制樣本，還通過(guò)在少數(shù)類樣本的最近鄰之間插值生成新的合成樣本。這是更常用的方法。

-注意事項(xiàng)：過(guò)采樣可能導(dǎo)致模型對(duì)多數(shù)類樣本的泛化能力下降，增加計(jì)算成本。

(3)欠采樣（Undersampling）：

-原理：減少多數(shù)類樣本的數(shù)量，使其與少數(shù)類數(shù)量相當(dāng)。

-具體方法：

-隨機(jī)欠采樣：隨機(jī)刪除多數(shù)類樣本。

-聚類中心欠采樣：基于多數(shù)類樣本的聚類中心，只保留距離中心最遠(yuǎn)的樣本。

-EditedNearestNeighbors(ENN)：刪除多數(shù)類中與少數(shù)類最近鄰距離近的樣本。

-優(yōu)點(diǎn)：減少計(jì)算量，避免模型偏向多數(shù)類。

-缺點(diǎn)：可能丟失多數(shù)類中的重要信息，導(dǎo)致模型性能下降。

3.多任務(wù)學(xué)習(xí)場(chǎng)景（續(xù)）：

(1)數(shù)據(jù)分布一致性：

-核心要求：確保參與不同任務(wù)的樣本在劃分訓(xùn)練/驗(yàn)證/測(cè)試集時(shí)，其內(nèi)在的關(guān)聯(lián)性和分布特征得到保留。

-具體操作：

-如果任務(wù)間存在強(qiáng)關(guān)聯(lián)（如同一圖像分割不同區(qū)域），應(yīng)采用聯(lián)合劃分，確保同一原始樣本的不同任務(wù)標(biāo)簽被分配到同一集合（訓(xùn)練/驗(yàn)證/測(cè)試）。

-如果任務(wù)間關(guān)聯(lián)較弱，但仍需考慮整體分布，可先按任務(wù)分別劃分，再確保各任務(wù)集合內(nèi)部的基本統(tǒng)計(jì)特性（如類別比例）與整體數(shù)據(jù)集保持一致（可結(jié)合分層抽樣）。

(2)損失函數(shù)設(shè)計(jì)：

-在多任務(wù)模型中，損失函數(shù)的權(quán)重分配也會(huì)影響評(píng)估。確保測(cè)試集評(píng)估時(shí)使用的損失權(quán)重與訓(xùn)練/驗(yàn)證時(shí)一致。

(3)評(píng)估指標(biāo)選擇：

-針對(duì)多任務(wù)模型，需為每個(gè)任務(wù)選擇合適的評(píng)估指標(biāo)（如準(zhǔn)確率、F1分?jǐn)?shù)、AUC等），并綜合考慮所有任務(wù)的性能，或根據(jù)業(yè)務(wù)需求設(shè)定權(quán)重。

六、高級(jí)劃分策略與工具

（一）動(dòng)態(tài)數(shù)據(jù)集劃分

1.概念：不一次性劃分所有數(shù)據(jù)，而是在訓(xùn)練過(guò)程中動(dòng)態(tài)地將部分驗(yàn)證集樣本納入訓(xùn)練集，或根據(jù)模型性能動(dòng)態(tài)調(diào)整驗(yàn)證集。

2.應(yīng)用場(chǎng)景：在線學(xué)習(xí)、持續(xù)學(xué)習(xí)或數(shù)據(jù)流場(chǎng)景，數(shù)據(jù)不斷到來(lái)。

3.具體方法：

-在線驗(yàn)證（OnlineValidation）：模型每處理一個(gè)新批次數(shù)據(jù)后，使用最新的幾個(gè)批次作為臨時(shí)驗(yàn)證集評(píng)估性能。

-影子模型（ShadowModel）：運(yùn)行兩個(gè)幾乎相同的模型，一個(gè)用當(dāng)前數(shù)據(jù)訓(xùn)練，一個(gè)用最新的數(shù)據(jù)（不更新參數(shù)）驗(yàn)證。

（二）使用專業(yè)工具

1.Scikit-learn：

-`train_test_split`：最常用的基礎(chǔ)劃分函數(shù)，支持隨機(jī)種子設(shè)置、分層劃分。

-`StratifiedKFold`,`KFold`：支持交叉驗(yàn)證。

-`GroupShuffleSplit`：按組進(jìn)行隨機(jī)劃分，確保同一組樣本不同時(shí)出現(xiàn)在訓(xùn)練和驗(yàn)證集。

2.Keras(TensorFlow)：

-`tf.keras.preprocessing.image_dataset_from_directory`：加載圖像數(shù)據(jù)時(shí)可直接按文件夾結(jié)構(gòu)進(jìn)行訓(xùn)練/驗(yàn)證/測(cè)試集劃分，并支持標(biāo)簽自動(dòng)解析和批量加載。

-`tf.data`API：提供更靈活的數(shù)據(jù)管道構(gòu)建方式，可實(shí)現(xiàn)自定義的動(dòng)態(tài)劃分邏輯。

3.PyTorch：

-`torch.utils.data.random_split`：對(duì)Dataset對(duì)象進(jìn)行隨機(jī)分割。

-`torch.utils.data.Subset`：從Dataset中選取特定索引子集，常用于結(jié)合`torch.utils.data.KFOLD`實(shí)現(xiàn)交叉驗(yàn)證。

-`torch.utils.data.DataLoader`：配合`Subset`實(shí)現(xiàn)訓(xùn)練/驗(yàn)證集的并行加載。

七、實(shí)施案例：圖像分類任務(wù)

假設(shè)我們有一個(gè)包含1000張圖像的數(shù)據(jù)集，分為貓（500張）和狗（500張）兩類，需劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。

（一）準(zhǔn)備工作

1.數(shù)據(jù)加載與預(yù)處理：

-將圖像加載到內(nèi)存或文件系統(tǒng)。

-統(tǒng)一圖像尺寸（如Resize到224x224）。

-執(zhí)行歸一化（如像素值除以255）。

2.確定劃分比例：

-訓(xùn)練集：80%(800張)

-驗(yàn)證集：10%(100張)

-測(cè)試集：10%(100張)

（二）劃分步驟（使用Scikit-learn）

1.導(dǎo)入庫(kù)：

```python

importnumpyasnp

fromsklearn.model_selectionimporttrain_test_split

fromtensorflow.keras.preprocessingimportimage_dataset_from_directory

```

2.方法一：使用`train_test_split`（適用于索引或已加載為NumPy數(shù)組的標(biāo)簽）

-假設(shè)已有圖像路徑列表`image_paths`和對(duì)應(yīng)標(biāo)簽`labels`：

```python

假設(shè)數(shù)據(jù)已加載為X（圖像數(shù)據(jù)）和y（標(biāo)簽）

X_train,X_temp,y_train,y_temp=train_test_split(

X,y,test_size=0.2,random_state=42,stratify=y)

X_val,X_test,y_val,y_test=train_test_split(

X_temp,y_temp,test_size=0.5,random_state=42,stratify=y_temp)

```

3.方法二：使用`image_dataset_from_directory`（直接從文件夾結(jié)構(gòu)劃分）

-確保數(shù)據(jù)組織為：

```

dataset/

├──train/

│├──cats/

│└──dogs/

└──validation/

├──cats/

└──dogs/

```

-代碼：

```python

train_ds=image_dataset_from_directory(

'dataset/train',

validation_split=0.2,

subset="training",

seed=42,

image_size=(224,224),

batch_size=32,

label_mode='categorical')對(duì)于多類分類

val_ds=image_dataset_from_directory(

'dataset/train',

validation_split=0.2,

subset="validation",

seed=42,

image_size=(224,224),

batch_size=32,

label_mode='categorical')

```

（三）后續(xù)處理

-對(duì)劃分好的數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)（如對(duì)`train_ds`應(yīng)用）。

-使用模型訓(xùn)練，交替在`train_ds`和`val_ds`上進(jìn)行訓(xùn)練和驗(yàn)證。

-訓(xùn)練完成后，使用`X_test`,`y_test`評(píng)估最終模型性能。

八、總結(jié)（續(xù)）

深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集和測(cè)試集劃分是模型開(kāi)發(fā)流程中不可或缺的一環(huán)，其合理性直接關(guān)系到模型的泛化能力和最終效果。本指南詳細(xì)介紹了從基礎(chǔ)概念到高級(jí)策略的多種劃分方法，包括隨機(jī)劃分、分層抽樣、交叉驗(yàn)證以及針對(duì)特定數(shù)據(jù)場(chǎng)景（如數(shù)據(jù)量不足、類別不平衡、多任務(wù)學(xué)習(xí)）的優(yōu)化策略。同時(shí)，也提供了實(shí)用的工具選擇和具體的實(shí)施案例。在實(shí)際應(yīng)用中，應(yīng)根據(jù)具體的數(shù)據(jù)特點(diǎn)、業(yè)務(wù)需求和計(jì)算資源，靈活選擇和組合不同的劃分策略，并通過(guò)細(xì)致的評(píng)估和調(diào)整，確保模型能夠有效地學(xué)習(xí)和泛化。良好的數(shù)據(jù)劃分實(shí)踐是構(gòu)建高性能深度神經(jīng)網(wǎng)絡(luò)模型的關(guān)鍵一步。

---

一、概述

二、基本概念

在DNN訓(xùn)練過(guò)程中，數(shù)據(jù)集通常被劃分為三個(gè)主要部分：

（一）訓(xùn)練集（TrainingSet）

-用于模型參數(shù)的學(xué)習(xí)和調(diào)整。

-包含大部分?jǐn)?shù)據(jù)（通常占60%-80%）。

（二）驗(yàn)證集（ValidationSet）

-用于調(diào)整超參數(shù)（如學(xué)習(xí)率、網(wǎng)絡(luò)層數(shù)）和模型選擇。

-占比通常為10%-20%。

（三）測(cè)試集（TestSet）

-用于最終模型評(píng)估，提供無(wú)偏的性能指標(biāo)。

-占比通常為10%-20%。

三、常用劃分方法

（一）隨機(jī)劃分法

1.原理：隨機(jī)將數(shù)據(jù)分成訓(xùn)練集、驗(yàn)證集和測(cè)試集，確保數(shù)據(jù)分布均勻。

2.步驟：

(1)混洗數(shù)據(jù)集，確保樣本順序隨機(jī)。

(2)按比例分配數(shù)據(jù)，如70%訓(xùn)練、15%驗(yàn)證、15%測(cè)試。

3.優(yōu)點(diǎn)：簡(jiǎn)單易行，計(jì)算效率高。

4.缺點(diǎn)：可能因隨機(jī)性導(dǎo)致數(shù)據(jù)分布不均，尤其樣本量較小時(shí)有風(fēng)險(xiǎn)。

（二）分層抽樣法（StratifiedSampling）

1.原理：保持各標(biāo)簽類別的比例一致，避免某一類別樣本在某個(gè)集合中過(guò)度集中。

2.步驟：

(1)統(tǒng)計(jì)數(shù)據(jù)集中各標(biāo)簽的分布比例。

(2)在隨機(jī)劃分時(shí)，確保每個(gè)集合中各類別樣本比例與總體一致。

3.適用場(chǎng)景：類別不平衡的數(shù)據(jù)集。

（三）交叉驗(yàn)證法（Cross-Validation）

1.原理：將數(shù)據(jù)集分成K個(gè)子集，輪流使用K-1個(gè)子集訓(xùn)練，剩余1個(gè)子集驗(yàn)證，重復(fù)K次并取平均值。

2.常用類型：

(1)K折交叉驗(yàn)證（K-FoldCV）：如K=5或10，常用方法為5折。

(2)留一法（Leave-One-Out）：每個(gè)樣本單獨(dú)作為驗(yàn)證集，適用于數(shù)據(jù)量較小的情況。

3.優(yōu)點(diǎn)：充分利用數(shù)據(jù)，評(píng)估更穩(wěn)定。

4.缺點(diǎn)：計(jì)算成本高，尤其K值較大時(shí)。

四、具體實(shí)施步驟

（一）數(shù)據(jù)預(yù)處理

1.清洗數(shù)據(jù)：去除缺失值、異常值。

2.標(biāo)準(zhǔn)化/歸一化：如使用Min-Max或Z-Score標(biāo)準(zhǔn)化。

3.編碼類別特征：如One-Hot或LabelEncoding。

（二）劃分?jǐn)?shù)據(jù)集

1.使用工具：Python中可利用`sklearn.model_selection.train_test_split`或`KFold`實(shí)現(xiàn)。

2.示例代碼（Python）：

```python

fromsklearn.model_selectionimporttrain_test_split,StratifiedKFold

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,stratify=y)

```

（三）驗(yàn)證與調(diào)整

1.記錄各集合指標(biāo)（如準(zhǔn)確率、損失值）。

2.如發(fā)現(xiàn)驗(yàn)證集性能顯著低于訓(xùn)練集，可能存在過(guò)擬合，需調(diào)整模型（如增加正則化）。

五、注意事項(xiàng)

1.數(shù)據(jù)量不足時(shí)：

-可采用數(shù)據(jù)增強(qiáng)（如旋轉(zhuǎn)、翻轉(zhuǎn)圖像）擴(kuò)充訓(xùn)練集。

-使用更大的K值（如10折）降低單次驗(yàn)證偏差。

2.類別不平衡時(shí)：

-調(diào)整樣本權(quán)重，或使用過(guò)采樣/欠采樣技術(shù)。

3.多任務(wù)學(xué)習(xí)場(chǎng)景：

-確保各任務(wù)的數(shù)據(jù)分布一致，避免單一任務(wù)主導(dǎo)驗(yàn)證結(jié)果。

六、總結(jié)

---

（續(xù)）深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法

五、注意事項(xiàng)（續(xù)）

1.數(shù)據(jù)量不足時(shí)：

(1)數(shù)據(jù)增強(qiáng)（DataAugmentation）：

-適用場(chǎng)景：圖像、文本、音頻等數(shù)據(jù)類型，尤其是當(dāng)原始數(shù)據(jù)量較小，難以支撐復(fù)雜模型時(shí)。

-具體操作：

-圖像數(shù)據(jù)：

-顏色變換：調(diào)整亮度、對(duì)比度、飽和度、色調(diào)（Hue）。避免過(guò)度調(diào)整導(dǎo)致圖像失真。

-文本數(shù)據(jù)：

-同義詞替換：隨機(jī)選擇部分詞語(yǔ)，用其同義詞替換。

-隨機(jī)插入/刪除：隨機(jī)插入無(wú)關(guān)詞語(yǔ)或刪除部分詞語(yǔ)，但需控制比例以保持句子基本結(jié)構(gòu)。

-回譯（Back-Translation）：將文本翻譯到另一種語(yǔ)言再翻譯回原文，可產(chǎn)生新的表達(dá)方式（適用于多語(yǔ)言文本）。

-音頻數(shù)據(jù)：

-添加噪聲：加入少量白噪聲或特定頻段的噪聲。

-時(shí)間扭曲/伸縮：輕微改變音頻的播放速度或時(shí)長(zhǎng)，前提是仍需保持語(yǔ)義或節(jié)奏感。

(2)合成數(shù)據(jù)生成（SyntheticDataGeneration）：

-適用場(chǎng)景：當(dāng)物理上難以獲取更多真實(shí)數(shù)據(jù)時(shí)，如特定罕見(jiàn)事件、專業(yè)領(lǐng)域數(shù)據(jù)。

-具體方法：

-基于模型生成：使用現(xiàn)有模型（如GANs）生成符合數(shù)據(jù)分布的新樣本。

-基于規(guī)則/物理模型生成：在理解數(shù)據(jù)生成機(jī)制的基礎(chǔ)上，根據(jù)規(guī)則或物理方程創(chuàng)建新數(shù)據(jù)。

-插值/組合：對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行合理的插值或特征組合，生成新樣本。

2.類別不平衡時(shí)（續(xù)）：

(1)調(diào)整樣本權(quán)重（ClassWeighting）：

-原理：在損失函數(shù)中為不同類別分配不同權(quán)重，使得模型更關(guān)注少數(shù)類別的預(yù)測(cè)。

-具體操作：

-計(jì)算每個(gè)類別的樣本數(shù)，確定權(quán)重比例（如少數(shù)類權(quán)重設(shè)為多數(shù)類的N倍）。

-在模型訓(xùn)練框架（如TensorFlow,PyTorch）中設(shè)置`class_weight`參數(shù)。

-優(yōu)點(diǎn)：簡(jiǎn)單易實(shí)現(xiàn)，無(wú)需改變數(shù)據(jù)本身。

-缺點(diǎn)：權(quán)重設(shè)置具有一定主觀性，可能影響模型對(duì)多數(shù)類的性能。

(2)過(guò)采樣（Oversampling）：

-原理：增加少數(shù)類樣本的副本，使其數(shù)量接近多數(shù)類。

-具體方法：

-隨機(jī)過(guò)采樣：簡(jiǎn)單復(fù)制少數(shù)類樣本，可能導(dǎo)致模型過(guò)擬合該類別特征。

-SMOTE（SyntheticMinorityOver-samplingTechnique）：不僅復(fù)制樣本，還通過(guò)在少數(shù)類樣本的最近鄰之間插值生成新的合成樣本。這是更常用的方法。

-注意事項(xiàng)：過(guò)采樣可能導(dǎo)致模型對(duì)多數(shù)類樣本的泛化能力下降，增加計(jì)算成本。

(3)欠采樣（Undersampling）：

-原理：減少多數(shù)類樣本的數(shù)量，使其與少數(shù)類數(shù)量相當(dāng)。

-具體方法：

-隨機(jī)欠采樣：隨機(jī)刪除多數(shù)類樣本。

-聚類中心欠采樣：基于多數(shù)類樣本的聚類中心，只保留距離中心最遠(yuǎn)的樣本。

-EditedNearestNeighbors(ENN)：刪除多數(shù)類中與少數(shù)類最近鄰距離近的樣本。

-優(yōu)點(diǎn)：減少計(jì)算量，避免模型偏向多數(shù)類。

-缺點(diǎn)：可能丟失多數(shù)類中的重要信息，導(dǎo)致模型性能下降。

3.多任務(wù)學(xué)習(xí)場(chǎng)景（續(xù)）：

(1)數(shù)據(jù)分布一致性：

-核心要求：確保參與不同任務(wù)的樣本在劃分訓(xùn)練/驗(yàn)證/測(cè)試集時(shí)，其內(nèi)在的關(guān)聯(lián)性和分布特征得到保留。

-具體操作：

(2)損失函數(shù)設(shè)計(jì)：

(3)評(píng)估指標(biāo)選擇：

六、高級(jí)劃分策略與工具

（一）動(dòng)態(tài)數(shù)據(jù)集劃分

2.應(yīng)用場(chǎng)景：在線學(xué)習(xí)、持續(xù)學(xué)習(xí)或數(shù)據(jù)流場(chǎng)景，數(shù)據(jù)不斷到來(lái)。

3.具體方法：

-在線驗(yàn)證（OnlineValidation）：模型每處理一個(gè)新批次數(shù)據(jù)后，使用最新的幾個(gè)批次作為臨時(shí)驗(yàn)證集評(píng)估性能。

（二）使用專業(yè)工具

1.Scikit-learn：

-`train_test_split`：最常用的基礎(chǔ)劃分函數(shù)，支持隨機(jī)種子設(shè)置、分層劃分。

-`StratifiedKFold`,`KFold`：支持交叉驗(yàn)證。

-`GroupShuffleSplit`：按組進(jìn)行隨機(jī)劃分，確保同一組樣本不同時(shí)出現(xiàn)在訓(xùn)練和驗(yàn)證集。

2.Keras(TensorFlow)：

-`tf.data`API：提供更靈活的數(shù)據(jù)管道構(gòu)建方式，可實(shí)現(xiàn)自定義的動(dòng)態(tài)劃分邏輯。

3.PyTorch：

-`torch.utils.data.random_split`：對(duì)Dataset對(duì)象進(jìn)行隨機(jī)分割。

-`torch.utils.data.Subset`：從Dataset中選取特定索引子集，常用于結(jié)合`torch.utils.data.KFOLD`實(shí)現(xiàn)交叉驗(yàn)證。

-`torch.utils.data.DataLoader`：配合`Subset`實(shí)現(xiàn)訓(xùn)練/驗(yàn)證集的并行加載。

七、實(shí)施案例：圖像分類任務(wù)

假設(shè)我們有一個(gè)包含1000張圖像的數(shù)據(jù)集，分為貓（500張）和狗（500張）兩類，需劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。

（一）準(zhǔn)備工作

1.數(shù)據(jù)加載與預(yù)處理：

-將圖像加載到內(nèi)存或文件系統(tǒng)。

-統(tǒng)一圖像尺寸（如Resize到224x224）。

-執(zhí)行歸一化（如像素值除以255）。

2.確定劃分比例：

-訓(xùn)練集：80%(800張)

-驗(yàn)證集：10%(100張)

-測(cè)試集：10%(100張)

（二）劃分步驟（使用Scikit-learn）

1.導(dǎo)入庫(kù)：

```python

importnumpyasnp

fromsklearn.model_selectionimporttrain_test_split

fromtensorflow.keras.preprocessingimportimage_dataset_from_directory

```

2.方法一：使用`train_test_split`（適用于索引或已加載為NumPy數(shù)組的標(biāo)簽）

-假設(shè)已有圖像路徑列表`ima

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 規(guī)章制度

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集測(cè)試集劃分方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔