版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
任務(wù)3-4數(shù)據(jù)從無到有的魔法:數(shù)據(jù)增廣4知識(shí)&技能圖譜數(shù)據(jù)增廣是現(xiàn)代數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)。無論是在機(jī)器學(xué)習(xí)的模型訓(xùn)練中,還是在大數(shù)據(jù)分析的過程中,數(shù)據(jù)的豐富性和多樣性都至關(guān)重要。然而,真實(shí)世界中的數(shù)據(jù)往往有限,不足以滿足各種算法的需求。因此,我們需要通過數(shù)據(jù)增廣技術(shù)來擴(kuò)展數(shù)據(jù)集,以提供更加全面和準(zhǔn)確的信息。本任務(wù)將提供5張圖像,5段文本,利用python,完成圖像和文本數(shù)據(jù)的增廣。部分?jǐn)?shù)據(jù)集如圖所示。實(shí)驗(yàn)圖像實(shí)驗(yàn)圖像
文本數(shù)據(jù):今天天氣不錯(cuò),出去走走吧。明天早上的會(huì)議,記得提前做好準(zhǔn)備。我在超市買蘋果,順便帶瓶果汁回家。新買的裙子真合身,穿上它心情都好了。她說電影很好看,推薦你也去看看。實(shí)驗(yàn)圖像同義詞組:不錯(cuò)很好很棒真好
出去出門出發(fā)出走走走散步運(yùn)動(dòng)放松
早上早晨清晨上午順便趁便趁機(jī)順帶
提前提早預(yù)先趁早合身稱身合適適合
推薦引薦介紹推舉實(shí)驗(yàn)圖像3.4.1數(shù)據(jù)增廣的定義數(shù)據(jù)增廣(DataAugmentation)是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中一種重要的技術(shù),它通過對(duì)原始數(shù)據(jù)進(jìn)行多樣化的變換和處理,生成新的數(shù)據(jù)樣本,以擴(kuò)充訓(xùn)練數(shù)據(jù)集的方法。數(shù)據(jù)增廣旨在提高模型的泛化能力、改善性能,并降低過擬合的風(fēng)險(xiǎn),尤其對(duì)于數(shù)據(jù)量有限的情況下尤為重要。數(shù)據(jù)增廣3.4.1數(shù)據(jù)增廣的定義數(shù)據(jù)增廣技術(shù)可以分為圖像數(shù)據(jù)增廣和文本數(shù)據(jù)增廣兩大類,針對(duì)不同類型的數(shù)據(jù)有各自特定的方法。數(shù)據(jù)增廣3.4.2.數(shù)據(jù)增廣的應(yīng)用場景數(shù)據(jù)增廣在具有廣泛的應(yīng)用場景,包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理以及大數(shù)據(jù)分析等。在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)增廣能夠顯著增強(qiáng)模型的泛化能力。尤其是在處理圖像、音頻等復(fù)雜數(shù)據(jù)時(shí),通過數(shù)據(jù)增廣技術(shù)生成更多的訓(xùn)練樣本,模型能夠?qū)W習(xí)到更多樣化的數(shù)據(jù)分布,從而在面對(duì)未知數(shù)據(jù)時(shí)表現(xiàn)更加穩(wěn)健。數(shù)據(jù)增廣3.4.2.數(shù)據(jù)增廣的應(yīng)用場景在計(jì)算機(jī)視覺領(lǐng)域,數(shù)據(jù)增廣對(duì)于圖像識(shí)別、目標(biāo)檢測等任務(wù)至關(guān)重要。通過旋轉(zhuǎn)、縮放、裁剪等圖像變換手段,數(shù)據(jù)增廣能夠擴(kuò)充圖像數(shù)據(jù)集,提升模型對(duì)于不同角度、不同尺度的目標(biāo)的識(shí)別能力。數(shù)據(jù)增廣3.4.2.數(shù)據(jù)增廣的應(yīng)用場景在自然語言處理領(lǐng)域,數(shù)據(jù)增廣同樣發(fā)揮著重要作用。通過同義詞替換、隨機(jī)插入、隨機(jī)刪除等文本變換方法,數(shù)據(jù)增廣能夠生成更多樣的文本數(shù)據(jù),幫助模型更好地理解和處理語言信息。數(shù)據(jù)增廣3.4.2.數(shù)據(jù)增廣的應(yīng)用場景在大數(shù)據(jù)分析領(lǐng)域,數(shù)據(jù)增廣也能夠幫助我們挖掘更多隱藏在數(shù)據(jù)中的信息和規(guī)律。通過擴(kuò)展數(shù)據(jù)集,我們可以運(yùn)用更復(fù)雜的算法和模型來揭示數(shù)據(jù)之間的關(guān)聯(lián)和趨勢,為決策提供更有力的支持。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法數(shù)據(jù)增廣是擴(kuò)展數(shù)據(jù)集、提升模型性能的重要方法。在圖像處理中,可以通過旋轉(zhuǎn)、縮放、裁剪等幾何變換,以及添加噪聲等方式,生成新的圖像樣本。在自然語言處理領(lǐng)域,同義詞替換、句子重組等操作也能有效增廣文本數(shù)據(jù)。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法此外還有數(shù)據(jù)混合、使用外部數(shù)據(jù)源等方法。這些方法可以單獨(dú)或組合使用,根據(jù)具體任務(wù)和數(shù)據(jù)集特點(diǎn)選擇合適的方法,以增強(qiáng)模型的泛化能力。但需注意,增廣過程中可能引入噪聲或偏差,需權(quán)衡使用。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法1圖像數(shù)據(jù)增廣圖像數(shù)據(jù)增廣是指通過對(duì)原始圖像進(jìn)行一系列變換和處理,生成具有多樣性的新圖像樣本。圖像數(shù)據(jù)增廣可以有效改善模型在圖像識(shí)別、檢測、分割等任務(wù)中的性能,是深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域中的常用策略之一。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法圖像數(shù)據(jù)增廣包括:(1)幾何變換:幾何變換是圖像數(shù)據(jù)增廣中常用的方式之一,包括旋轉(zhuǎn)、翻轉(zhuǎn)、縮放和平移等操作。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法旋轉(zhuǎn)操作圍繞圖像中心點(diǎn)進(jìn)行旋轉(zhuǎn),這有助于讓模型學(xué)習(xí)不同角度下的物體特征,提高旋轉(zhuǎn)不變性。翻轉(zhuǎn)操作則可以水平或垂直翻轉(zhuǎn)圖像,幫助模型學(xué)習(xí)對(duì)稱性和不同視角下的物體識(shí)別??s放操作調(diào)整圖像大小,包括放大和縮小,使模型能夠適應(yīng)不同尺度的輸入。而平移操作將圖像沿水平或垂直方向進(jìn)行平移,有助于模型學(xué)習(xí)物體在不同位置的外觀特征。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法(2)顏色變換:主要關(guān)注圖像的色彩屬性,通過調(diào)整圖像的亮度、對(duì)比度、飽和度和色調(diào)等,可以生成色彩變化豐富的圖像樣本。這種變換有助于模型學(xué)習(xí)對(duì)光照條件、拍攝設(shè)備等因素的變化具有魯棒性。改變亮度是通過增加或減少圖像的亮度來使模型更魯棒地應(yīng)對(duì)光照變化,從而提高模型的泛化能力。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法對(duì)比度調(diào)整則可以調(diào)整圖像中像素之間的對(duì)比度,有助于突出圖像中的細(xì)節(jié)信息,進(jìn)而提升模型對(duì)圖像細(xì)節(jié)的識(shí)別能力。飽和度調(diào)整涉及增加或降低圖像的飽和度,從而改變圖像的色彩鮮艷程度,增加圖像樣本的多樣性。此外,應(yīng)用濾鏡如模糊、銳化等效果也能增加圖像的多樣性,并提高模型的泛化能力。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法(3)裁剪和填充:圖像數(shù)據(jù)增廣中常用的技術(shù)手段,能夠有效地?cái)U(kuò)展訓(xùn)練數(shù)據(jù)集,提高模型的泛化能力和魯棒性。裁剪操作可以隨機(jī)或規(guī)則地裁剪圖像的一部分,從而模擬不同尺度下物體出現(xiàn)的情況,幫助模型適應(yīng)不同尺寸的輸入。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法隨機(jī)裁剪可以在訓(xùn)練過程中多次對(duì)圖像進(jìn)行隨機(jī)裁剪,使模型能夠?qū)W習(xí)到物體在不同位置的特征,增加模型對(duì)物體位置變化的適應(yīng)能力。規(guī)則裁剪則可以按照固定的比例或位置裁剪圖像,以生成特定尺寸或比例的訓(xùn)練樣本,有助于訓(xùn)練模型在特定場景下取得更好的效果。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法填充操作則是在圖像周圍填充像素,用來擴(kuò)展圖像的大小或調(diào)整圖像的長寬比例。填充操作可以根據(jù)需要在圖像的邊緣或周圍填充像素值,使得輸入圖像尺寸統(tǒng)一,有利于模型的訓(xùn)練和推理。填充還可以用來調(diào)整圖像的長寬比例,使得模型能夠處理不同長寬比例的輸入圖像,增加模型的適應(yīng)性。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法(4)添加噪聲:噪聲是指在圖像或信號(hào)中的隨機(jī)擾動(dòng),它可以由多種因素引起,如傳感器本身的噪聲、信號(hào)傳輸過程中的干擾、環(huán)境因素等。在圖像處理領(lǐng)域,噪聲通常表現(xiàn)為使圖像出現(xiàn)不希望的、隨機(jī)分布的像素值變化,從而影響了圖像的質(zhì)量和信息內(nèi)容。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法添加噪聲是圖像數(shù)據(jù)增廣中常用的一種技術(shù)手段,它有助于提高模型的魯棒性,使其更好地適應(yīng)真實(shí)世界中的噪聲環(huán)境。通過添加高斯噪聲、椒鹽噪聲或者其他的噪聲,可以使模型更好地適應(yīng)復(fù)雜的真實(shí)場景,提高其對(duì)噪聲的容忍度和抗干擾能力,從而在實(shí)際應(yīng)用中表現(xiàn)更加穩(wěn)定和可靠。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法2文本數(shù)據(jù)增廣文本數(shù)據(jù)增廣是指通過多種方式對(duì)原始文本數(shù)據(jù)進(jìn)行變換和擴(kuò)展,以生成更多樣化、更豐富的訓(xùn)練數(shù)據(jù),意義在于擴(kuò)大訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,幫助模型更好地學(xué)習(xí)數(shù)據(jù)的特征和模式,提高模型在真實(shí)場景下的性能表現(xiàn)。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法通過應(yīng)用適當(dāng)?shù)奈谋緮?shù)據(jù)增廣技術(shù),可以有效改善模型的表現(xiàn),并且降低過擬合的風(fēng)險(xiǎn),從而提升模型的泛化能力和應(yīng)用效果。文本數(shù)據(jù)增廣技術(shù)常用的方式包括:同義詞替換:同義詞是指在特定語境中具有相同或非常相似含義的詞語,它們可以互換使用而不改變句子的意思。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法換句話說,同義詞是在表達(dá)概念或含義上相近或相似的詞語。這些詞語之間可能存在一定的差異,例如在語氣、情感色彩或使用場景上有所區(qū)別,但總體而言它們可以替代彼此,并在語言表達(dá)中起到類似的作用。同義詞的存在豐富了語言的表達(dá)方式,同時(shí)也為文本理解和信息處理提供了更多的選擇和靈活性。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法(2)句子重組:句子重組也是一種文本數(shù)據(jù)增廣技術(shù),其通過對(duì)句子中的詞語順序進(jìn)行隨機(jī)調(diào)整,生成新的句子變體,從而擴(kuò)充數(shù)據(jù)集。這一方法旨在增加訓(xùn)練樣本的多樣性,幫助模型更好地理解不同詞語之間的關(guān)聯(lián)和語境,提高其泛化能力和性能表現(xiàn)。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法在句子重組過程中,詞語的順序被打亂,但句子的語義信息仍然得以保留。這種方式可以有效地引入新的句子結(jié)構(gòu)和表達(dá)形式,讓模型更好地適應(yīng)各種語言組織方式,提升其對(duì)句子結(jié)構(gòu)和語法規(guī)則的理解能力。同時(shí),句子重組也有助于模型學(xué)習(xí)更廣泛的語言模式,從而提高其在自然語言處理任務(wù)中的魯棒性和表現(xiàn)效果。數(shù)據(jù)增廣3.4.3.數(shù)據(jù)增廣的方法(3)添加噪音:在文本數(shù)據(jù)處理中,噪音可以表現(xiàn)為各種形式的干擾或錯(cuò)誤,包括但不限于拼寫錯(cuò)誤、打字錯(cuò)誤、語法錯(cuò)誤、標(biāo)點(diǎn)符號(hào)錯(cuò)誤等。這些噪音可以在文本數(shù)據(jù)中引入不同程度的混亂和變異,反映了實(shí)際場景中文本數(shù)據(jù)的多樣性和復(fù)雜性。數(shù)據(jù)增廣64班級(jí):組別:姓名:掌握程度:任務(wù)名稱基于opencv和jieba的圖像和文本數(shù)據(jù)增廣任務(wù)目標(biāo)生成與原數(shù)據(jù)不同的圖像和文本數(shù)據(jù)操作系統(tǒng)Win10、Win11工具清單Python,pycharm,opencv,jieba操作步驟圖像數(shù)據(jù)增廣環(huán)境準(zhǔn)備導(dǎo)入數(shù)據(jù)圖像幾何變換圖像顏色變換圖像裁剪文本數(shù)據(jù)增廣環(huán)境準(zhǔn)備導(dǎo)入數(shù)據(jù)文本同義詞替換文本句子重組考核標(biāo)準(zhǔn)生成與原圖相關(guān)的圖像和文本數(shù)據(jù)圖像數(shù)據(jù)增廣步驟一環(huán)境準(zhǔn)備64SUGGESTION11、下載并安裝好Pycharm和Anaconda,激活LabelStudio虛擬環(huán)境。12642、在虛擬環(huán)境中下載圖像增廣項(xiàng)目所依賴的python第三方庫:openCV,在Anaconda命令行操作圖窗中通過以下命令pipinstallopencv-python在label-studio虛擬環(huán)境中安裝openCV庫,如左圖所示。12641步驟二導(dǎo)入數(shù)據(jù)1、準(zhǔn)備好環(huán)境之后,在Pycharm中使用準(zhǔn)備好的Anaconda虛擬環(huán)境,并在當(dāng)前的工程目錄下,創(chuàng)建data文件夾用于存放圖像增廣項(xiàng)目需要用到的圖像數(shù)據(jù),將要處理的圖像數(shù)據(jù)保存到data文件夾,并依次命名為img(1)、img(2)、img(3)、img(4)、img(5)。如下圖所示。1264SUGGESTION12、在Pycharm當(dāng)前的工程目錄下創(chuàng)建tuxiangzengguang.py文件,然后導(dǎo)入需要用到的opencv庫和os庫。具體代碼為以下兩句:importcv2importos3、使用os和opencv庫嘗試讀取data文件夾下的所有圖像并依次展示。首先獲取文件夾下面所有后綴名為.jpg、.png、.jpeg的文件名:1264SUGGESTION14、循環(huán)每個(gè)圖像文件,使用opencv庫讀取并展示,等待指定的鍵盤點(diǎn)擊事件展示下一張或者退出展示:1264步驟三圖像幾何變換使用os和OpenCV讀取指定文件夾下的所有圖像,并對(duì)每張圖像進(jìn)行幾何變換(例如旋轉(zhuǎn)),然后將增廣后的圖像保存回同一文件夾。1、導(dǎo)入必要的庫并設(shè)置工作目錄首先導(dǎo)入OpenCV庫(cv2)和操作系統(tǒng)庫(os),用于圖像處理和文件操作。接著,定義目標(biāo)文件夾路徑,確保腳本知道從哪里讀取圖像以及將處理后的圖像保存在哪里。1264SUGGESTION12、遍歷文件夾中的所有圖像文件通過os.listdir()函數(shù)列出指定文件夾下的所有文件名,然后通過循環(huán)遍歷這些文件名,篩選出需要處理的圖像文件。1264SUGGESTION13、讀取圖像并獲取其尺寸使用OpenCV的cv2.imread()函數(shù)讀取每個(gè)圖像文件,并通過.shape屬性獲取圖像的高度和寬度,這些信息對(duì)于后續(xù)的圖像處理操作至關(guān)重要。1264SUGGESTION14、執(zhí)行圖像幾何變換(以旋轉(zhuǎn)為例)使用OpenCV對(duì)圖像進(jìn)行旋轉(zhuǎn)處理。首先,計(jì)算旋轉(zhuǎn)中心點(diǎn),然后基于該點(diǎn)和指定的角度生成旋轉(zhuǎn)矩陣,最后使用cv2.warpAffine()函數(shù)應(yīng)用旋轉(zhuǎn)。1264SUGGESTION15、保存變換后的圖像最后,為每張變換后的圖像創(chuàng)建一個(gè)新的文件名,并使用cv2.imwrite()函數(shù)將其保存回原始文件夾中。新文件名通過添加前綴來區(qū)分于原圖。1264SUGGESTION16、最終增廣的數(shù)據(jù)如圖所示。1264步驟四圖像顏色變換1、導(dǎo)入必要的庫并設(shè)置工作目錄,代碼與圖一致。2、遍歷文件夾中的圖像文件使用os.listdir()獲取文件夾中的所有文件名,并篩選出圖像文件進(jìn)行處理。將處理后的圖像保存在哪里。126413、讀取圖像并進(jìn)行顏色空間變換這里以將圖像轉(zhuǎn)換為灰度(GRAY)為例進(jìn)行顏色空間變換,可以選擇其他顏色空間變換,如HSV、YCrCb等。126414、保存變換后的圖像為變換后的圖像創(chuàng)建新的文件名,并保存回原文件夾。126415、最終增廣的數(shù)據(jù)如圖。12641步驟五圖像裁剪1、導(dǎo)入必要的庫并設(shè)置工作目錄,代碼與圖一致。2、定義裁剪區(qū)域這個(gè)步驟需要決定如何裁剪圖像。這通常涉及到定義裁剪的起始點(diǎn)(x,y坐標(biāo))以及裁剪區(qū)域的寬度和高度。我們定義從圖像的左上角開始,裁剪出圖像的一半寬度和一半高度,但這可以根據(jù)需要調(diào)整。1264SUGGESTION13、遍歷文件夾中的圖像文件使用os.listdir()遍歷指定文件夾中的所有文件,篩選出需要處理的圖像文件,并逐個(gè)讀取、裁剪、保存。1264SUGGESTION14、最終增廣的數(shù)據(jù)如圖:61文本數(shù)據(jù)增廣步驟一環(huán)境準(zhǔn)備1、下載并安裝好Pycharm和Anaconda,激活LabelStudio虛擬環(huán)境。2、在虛擬環(huán)境中安裝jieba和gensim庫,這兩個(gè)庫分別是自然語言處理領(lǐng)域中廣泛使用的庫,這里用于同義詞替換和潛在的句子重組任務(wù),在Anaconda命令行操作圖窗中通過pipinstallgensimjieba命令在label-studio虛擬環(huán)境中安裝jieba和gensim庫,如圖所示。61步驟二導(dǎo)入數(shù)據(jù)1、準(zhǔn)備好環(huán)境之后,在Pycharm中使用準(zhǔn)備好的Anaconda虛擬環(huán)境,并在當(dāng)前的工程目錄下,創(chuàng)建txt_data文件夾用于存放文本增廣項(xiàng)目需要用到的txt文件,將要處理的txt文件保存到txt_data文件夾。如圖所示。12、在Pycharm當(dāng)前的工程目錄下創(chuàng)建wenbenzengguang.py文件,然后導(dǎo)入需要用到的jieba庫,gensim庫,numpy庫和scikit-learn庫。12641步驟三同義詞替換1、讀取sentence.txt里的5個(gè)句子,保存到列表里用于后續(xù)數(shù)據(jù)增廣操作。其中,withopen('./txt_data/sentence.txt','r',encoding='utf-8')asfile這句代碼使用with語句以只讀模式('r')和UTF-8編碼打開位于./txt_data/目錄下的sentence.txt文件。這樣可以確保文件在操作完成后會(huì)被正確關(guān)閉,即使在讀取過程中發(fā)生異常也是如此。split()方法可以按照指定字符分割字符串,默認(rèn)為空格。126412、讀取synonym.txt里的所有同義詞組,保存到列表里用于后續(xù)數(shù)據(jù)增廣操作。126413、遍歷句子列表和同義詞組列表,針對(duì)每個(gè)輸入句子,先進(jìn)行分詞處理,然后查找每個(gè)詞語在預(yù)定義的同義詞列表中的同義詞,并生成該句子的所有可能的同義詞替換版本。最終,所有這些增強(qiáng)后的句子被收集起來,保存在列表用于后續(xù)進(jìn)一步操作。其中,phrase=jieba.lcut(sentence)使用jieba庫對(duì)句子進(jìn)行分詞,生成詞語列表phrase126414、定義函數(shù)preprocess(sentences)用于對(duì)原始文本進(jìn)行分詞處理。利用jieba分詞庫將每個(gè)句子切分成單詞列表。126415、定義函數(shù)sentence_vector(model,words)用于計(jì)算給定單詞列表(代表一個(gè)句子)的向量表示。首先篩選出模型中已知的單詞,然后對(duì)這些單詞的詞向量求平均,得到句子向量。如果模型中沒有句子中的任何單詞,則返回一個(gè)零向量,這種方法簡單直觀。126416、調(diào)用preprocess(contents)函數(shù)對(duì)原始文本內(nèi)容contents進(jìn)行分詞處理,得到分詞后的句子列表tokenized_sentences。7、使用Gensim的Word2Vec類訓(xùn)練一個(gè)詞向量模型。參數(shù)包括sentences=tokenized_sentences指定訓(xùn)練數(shù)據(jù),window=5設(shè)置上下文窗口大小,min_count=1表示最小詞頻,workers=4指定并行計(jì)算的線程數(shù)。此步驟旨在學(xué)習(xí)單詞間的上下文關(guān)系,生成高質(zhì)量的詞向量。126418、計(jì)算相似度并篩選輸出,先開啟一個(gè)文件寫入流,準(zhǔn)備將結(jié)果寫入到augmentation_sentence.txt文件中。對(duì)于contents中的每個(gè)句子sentence_1,首先寫入原句。遍歷與之對(duì)應(yīng)的增強(qiáng)數(shù)據(jù)augmented_data[id]中的每個(gè)句子sentence_2,計(jì)算這兩個(gè)句子的向量表示,并使用cosine_similarity()函數(shù)計(jì)算它們的余弦相似度。如果相似度大于等于0.8(設(shè)定的閾值),則將sentence_2寫入文件。這個(gè)過程是為了篩選出與原始句子相似度高的增強(qiáng)句子,可能用于數(shù)據(jù)增強(qiáng)、相似內(nèi)容識(shí)別等目的。6步驟四句子重組1、讀取sentence.txt里的5個(gè)句子,保存到列表里用于后續(xù)數(shù)據(jù)增廣操作。如圖3-4-22所示。2、定義一個(gè)名為reverse_from_comma_and_remove_period的函數(shù),其主要目的是對(duì)輸入的字符串執(zhí)行特定的操作:找到第一個(gè)逗號(hào)的位置,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 深度解析(2026)《GBT 25633-2010電火花加工機(jī)床 電磁兼容性試驗(yàn)規(guī)范》(2026年)深度解析
- 2025重慶酉陽自治縣城區(qū)事業(yè)單位公開遴選34人備考考試試題及答案解析
- 2025福建福州市鼓樓區(qū)城投集團(tuán)招聘5人參考筆試題庫附答案解析
- 2025年12月廣東深圳市大鵬新區(qū)葵涌辦事處招聘編外人員3人備考考試試題及答案解析
- 2025山東青島市市南區(qū)城市發(fā)展有限公司附全資子公司招聘10人參考筆試題庫附答案解析
- 2025湖南長沙市天心區(qū)龍灣小學(xué)教師招聘2人備考考試試題及答案解析
- 2025山東陽昇甄選產(chǎn)業(yè)運(yùn)營有限公司公開選聘工作人員(7人)備考筆試題庫及答案解析
- 《菱形的性質(zhì)與判定》數(shù)學(xué)課件教案
- “青苗筑基 浙里建證”浙江省建設(shè)投資集團(tuán)2026屆管培生招聘30人備考筆試題庫及答案解析
- 2026河南許昌市襄城縣兵役登記參考筆試題庫附答案解析
- Cuk斬波完整版本
- GB/T 3521-2023石墨化學(xué)分析方法
- 一年級(jí)數(shù)學(xué)重疊問題練習(xí)題
- 三維動(dòng)畫及特效制作智慧樹知到課后章節(jié)答案2023年下吉林電子信息職業(yè)技術(shù)學(xué)院
- 胰腺囊腫的護(hù)理查房
- 臨床醫(yī)學(xué)概論常見癥狀課件
- 知識(shí)圖譜與自然語言處理的深度融合
- 物業(yè)管理理論實(shí)務(wù)教材
- 仁川國際機(jī)場
- 全檢員考試試題
- 光刻和刻蝕工藝
評(píng)論
0/150
提交評(píng)論