版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章
數(shù)據(jù)挖掘緒論Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結(jié)1.4數(shù)據(jù)存儲(chǔ)-生活中的數(shù)據(jù)數(shù)據(jù)源多樣數(shù)據(jù)存儲(chǔ)-生活中的數(shù)據(jù)數(shù)據(jù)的收集和存儲(chǔ)以巨大的速度進(jìn)行(GB/小時(shí))微信每天發(fā)送消息450億條,超過4億次音視頻呼叫。微博內(nèi)容存量己超過千億Facebook每天發(fā)送20多億條消息。Twitter每天產(chǎn)生5800萬條微博YouTube用戶數(shù)達(dá)到13.25億,每分鐘上傳視頻的總時(shí)長達(dá)到300小時(shí),每天的視頻播放量達(dá)49.5億次,每月的視頻播放總時(shí)長達(dá)32.5億小時(shí)2020年,抖音僅由大學(xué)生發(fā)布的視頻播放量累計(jì)超過300萬億次,分享量27億次2021年我國醫(yī)學(xué)影像掃描量增長至29.33億次,2022年掃描量進(jìn)一步增長至31.15億次左右80x增加的數(shù)據(jù)數(shù)據(jù)存儲(chǔ)-生活中的數(shù)據(jù)數(shù)據(jù)類型數(shù)據(jù)計(jì)算IDC機(jī)房冷卻裝置有數(shù)據(jù)難利用數(shù)據(jù)分析師發(fā)現(xiàn)一條有用信息需要數(shù)周的時(shí)間因此,大量信息從來沒有被分析過,出現(xiàn)“數(shù)據(jù)豐富,知識(shí)匱乏”現(xiàn)象Totalnewdisk(TB)since1995Numberofanalysts數(shù)據(jù)鴻溝挖掘?倉儲(chǔ)?1.1.1數(shù)據(jù)挖掘的定義1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(DataMining)是通過特定算法對(duì)大量數(shù)據(jù)進(jìn)行處理和分析以發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢(shì)或關(guān)聯(lián)性的過程數(shù)據(jù)挖掘技術(shù)利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)方法,從海量、不完整、受噪聲干擾的數(shù)據(jù)中提取出先前未知的、潛在有用的隱含信息,并將其轉(zhuǎn)化為可理解的知識(shí)數(shù)據(jù)挖掘也被稱作知識(shí)發(fā)現(xiàn)1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的過程可以大致分為四個(gè)階段:問題分析:了解業(yè)務(wù)背景和數(shù)據(jù)來源,分析數(shù)據(jù)的特點(diǎn)和分布,明確任務(wù)目標(biāo)和需求。數(shù)據(jù)預(yù)處理:數(shù)據(jù)挖掘中非常重要的一步,涉及數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換與規(guī)范化、數(shù)據(jù)規(guī)約和特征提取等步驟。數(shù)據(jù)挖掘:整個(gè)過程中最核心的部分,研究者需要根據(jù)業(yè)務(wù)需求和數(shù)據(jù)特點(diǎn),建模合適的算法模型,并進(jìn)行模型訓(xùn)練和參數(shù)調(diào)優(yōu)。結(jié)果評(píng)估:旨在評(píng)估數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性和可靠性。在這個(gè)階段,需要使用一些評(píng)估指標(biāo)對(duì)挖掘結(jié)果進(jìn)行評(píng)估。還需要對(duì)挖掘結(jié)果進(jìn)行解釋和可視化以幫助業(yè)務(wù)人員更好地理解挖掘結(jié)果。1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘技術(shù)面臨著新的挑戰(zhàn)和機(jī)遇一方面,隨著數(shù)據(jù)規(guī)模急劇增長、數(shù)據(jù)類型越發(fā)豐富,使得傳統(tǒng)計(jì)算資源和數(shù)據(jù)挖掘算法已經(jīng)難以滿足大數(shù)據(jù)處理和分析的需求。另一方面,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的結(jié)合將為知識(shí)發(fā)現(xiàn)帶來更大的發(fā)展空間。未來,數(shù)據(jù)挖掘?qū)⒃诟鱾€(gè)領(lǐng)域發(fā)揮更加重要的作用,為人類社會(huì)的發(fā)展和進(jìn)步帶來更多的機(jī)遇。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域商業(yè)領(lǐng)域:在市場營銷中,數(shù)據(jù)挖掘可以幫助企業(yè)識(shí)別目標(biāo)客戶群體,制定個(gè)性化的營銷策略。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域醫(yī)療領(lǐng)域:在疾病診斷中,數(shù)據(jù)挖掘可以幫助醫(yī)生分析患者的醫(yī)療記錄和癥狀,提高診斷的準(zhǔn)確性和效率。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域金融領(lǐng)域:在風(fēng)險(xiǎn)管理中,數(shù)據(jù)挖掘可以幫助銀行和風(fēng)投機(jī)構(gòu)評(píng)估貸款申請(qǐng)人的信用風(fēng)險(xiǎn)和投資收益。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域政府領(lǐng)域:在城市規(guī)劃中,數(shù)據(jù)挖掘可以分析人口、交通、環(huán)境等數(shù)據(jù),為城市規(guī)劃提供科學(xué)依據(jù)。1.1.3數(shù)據(jù)挖掘的基本任務(wù)數(shù)據(jù)挖掘的基本任務(wù)主要可以分為以下幾類:分類與預(yù)測(cè):根據(jù)已知的數(shù)據(jù)特征,將數(shù)據(jù)項(xiàng)劃分到預(yù)先定義的類別中。聚類分析:將數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)按照其相似性進(jìn)行分組的過程。聚類的目標(biāo)是在沒有預(yù)先定義類別的情況下,發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)和關(guān)系。關(guān)聯(lián)規(guī)則挖掘:主要用于發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的有趣關(guān)系。序列模式挖掘:發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的時(shí)間序列關(guān)系的過程。異常檢測(cè):數(shù)據(jù)挖掘中用于發(fā)現(xiàn)與大多數(shù)數(shù)據(jù)項(xiàng)顯著不同的數(shù)據(jù)項(xiàng)的過程。這些異常數(shù)據(jù)項(xiàng)可能表示錯(cuò)誤、欺詐或其他特殊情況。1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源學(xué)術(shù)資源:CCF-A類通常包括國際上公認(rèn)的頂級(jí)會(huì)議和頂級(jí)期刊CCF-A推薦會(huì)議:ACMConferenceonManagementofData(SIGMOD)ACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining(KDD)IEEEInternationalConferenceonDataMining(ICDM)InternationalConferenceonDataEngineering(ICDE)InternationalConferenceonMachineLearning(ICML)InternationalConferenceonVeryLargeDataBases(VLDB)InternationalJointConferenceonArtificialIntelligence(IJCAI)AssociationfortheAdvancementofArtificialIntelligence(AAAI)1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源CCF-A推薦期刊:JournalofMachineLearningResearch(JMLR)IEEETransactionsonKnowledgeandDataEngineering(TKDE)ACMTransactionsonDatabaseSystems(TODS)ACMTransactionsonInformationSystems(TOIS)TheVLDBJournal1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源XindongWuZhihuaZhouJiaweiHanJianPeiQiangYangChih-JenLinHangLiChangshuiZhang1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源數(shù)據(jù)挖掘比賽資源阿里天池:/Kaggle:/滴滴:/1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源數(shù)據(jù)集下載資源UCI數(shù)據(jù)集:/CMU數(shù)據(jù)集:/datasets//afs//project/theo-20/www/data/時(shí)序數(shù)據(jù)集:/~reinsel/bjr-data/金融數(shù)據(jù)集:http://lisp.vse.cz/pkdd99/Challenge/chall.htm癌癥基因數(shù)據(jù)集:/cgi-bin/cancer/datasets.cgi綜合數(shù)據(jù)集:/~roweis/data.html數(shù)據(jù)集列表:/datasets/index.html美國政府開放數(shù)據(jù):中國地方政府開放數(shù)據(jù):北京/上海1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源在線學(xué)習(xí)平臺(tái)Coursera:提供眾多數(shù)據(jù)挖掘和數(shù)據(jù)科學(xué)相關(guān)的在線課程,由世界頂尖大學(xué)和機(jī)構(gòu)講授。/edX:提供包括數(shù)據(jù)挖掘在內(nèi)的數(shù)據(jù)科學(xué)課程,同樣來自世界著名大學(xué)。/Udemy:提供廣泛的實(shí)踐導(dǎo)向的數(shù)據(jù)挖掘課程,適合自學(xué)者。/1.1.5數(shù)據(jù)挖掘的常用工具Python語言易用性、靈活性、擁有大量的第三方庫和工具包廣泛用于數(shù)據(jù)分析和數(shù)據(jù)挖掘。R語言擁有大量的統(tǒng)計(jì)和數(shù)據(jù)挖掘包在生物信息學(xué)、金融分析等領(lǐng)域廣泛應(yīng)用Weka開源的數(shù)據(jù)挖掘工具豐富的數(shù)據(jù)挖掘算法和可視化界面Weka易于使用,適用于初學(xué)者和專業(yè)用戶1.1.5數(shù)據(jù)挖掘的常用工具RapidMiner支持?jǐn)?shù)據(jù)挖掘的整個(gè)流程適用于各種規(guī)模和復(fù)雜度的數(shù)據(jù)挖掘項(xiàng)目Orange支持?jǐn)?shù)據(jù)預(yù)處理、聚類分析、分類等多種數(shù)據(jù)挖掘任務(wù)提供數(shù)據(jù)可視化、交互式數(shù)據(jù)探索等功能適用于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的初學(xué)者和專業(yè)用戶IBMSPSS綜合性的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘軟件直觀的圖形用戶界面適用于研究人員、數(shù)據(jù)分析師、市場研究人員、政策制定者等專業(yè)人士1.1.6數(shù)據(jù)挖掘的主要算法數(shù)據(jù)挖掘十大經(jīng)典算法決策樹分類器C4.5(分類算法):C4.5算法可以處理數(shù)值屬性和缺失值,并且能夠從數(shù)據(jù)中生成規(guī)則。此外,C4.5還支持不完整的數(shù)據(jù)集,并且能夠處理連續(xù)屬性。k-均值算法(聚類算法):k-均值(k-Means)算法是一種聚類算法,用于將數(shù)據(jù)劃分為k個(gè)簇。k-Means簡單高效,但需要預(yù)先指定k值,并且對(duì)初始簇中心的選擇敏感。支持向量機(jī)(分類算法):支持向量機(jī)(SupportVectorMachine,SVM)是一種強(qiáng)大的分類算法,它通過找到數(shù)據(jù)點(diǎn)之間的最大邊界來區(qū)分不同的類別。SVM在小樣本情況下表現(xiàn)良好,并且可以應(yīng)用于回歸問題。1.1.6數(shù)據(jù)挖掘的主要算法Apriori算法(頻繁模式分析算法):Apriori算法是一種頻繁項(xiàng)集挖掘算法,主要用于關(guān)聯(lián)規(guī)則學(xué)習(xí)。它基于先驗(yàn)原則,即如果一個(gè)項(xiàng)集頻繁出現(xiàn),那么它的所有子集也必然頻繁出現(xiàn)。最大期望估計(jì)算法(聚類算法):期望最大化(Expectation-Maximization)算法是一種用于估計(jì)概率模型參數(shù)的迭代算法。它特別適用于存在缺失數(shù)據(jù)的情況。PageRank算法(排序算法):PageRank是由Google創(chuàng)始人開發(fā)的算法,用于網(wǎng)頁排名。它基于網(wǎng)頁之間的鏈接關(guān)系,認(rèn)為一個(gè)網(wǎng)頁的重要性由指向它的網(wǎng)頁的數(shù)量和質(zhì)量決定。PageRank算法通過迭代計(jì)算每個(gè)網(wǎng)頁的排名值,直到收斂。AdaBoost算法(集成弱分類器):AdaBoost是一種集成學(xué)習(xí)方法,通過結(jié)合多個(gè)弱分類器來構(gòu)建一個(gè)強(qiáng)分類器。1.1.6數(shù)據(jù)挖掘的主要算法k-近鄰分類算法(分類算法):k-近鄰(k-NearestNeighbors)分類算法是一種基于實(shí)例的學(xué)習(xí)算法,它通過查找測(cè)試數(shù)據(jù)點(diǎn)的k個(gè)最近鄰居來進(jìn)行分類或回歸。kNN簡單直觀,但計(jì)算成本較高,因?yàn)樾枰獙?duì)每個(gè)測(cè)試數(shù)據(jù)點(diǎn)進(jìn)行距離計(jì)算。樸素貝葉斯算法(分類算法):樸素貝葉斯(NaiveBayes)是一種基于貝葉斯定理的分類算法,它假設(shè)所有特征都是相互獨(dú)立的。分類與回歸樹算法(聚類算法):分類與回歸樹(ClassificationandRegressionTrees,CART)算法是一種基于決策樹的分類算法,既可以用于分類也可以用于回歸。CART可以處理數(shù)值和類別屬性,并且可以生成易于理解的模型。Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結(jié)1.41.2數(shù)據(jù)獲取端到端機(jī)器學(xué)習(xí)的大部分時(shí)間都花費(fèi)在數(shù)據(jù)準(zhǔn)備工作之上,包括獲取、清洗、分析、可視化和特征工程等。數(shù)據(jù)獲取不僅是簡單地收集數(shù)據(jù),而是一個(gè)綜合考量數(shù)據(jù)源選擇、數(shù)據(jù)采集方法、數(shù)據(jù)質(zhì)量保證以及合規(guī)性等多方面因素的復(fù)雜過程。Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲(chǔ)與管理1.2.5數(shù)據(jù)質(zhì)量與評(píng)估1.2.1數(shù)據(jù)類型與來源數(shù)據(jù)類型可以根據(jù)數(shù)據(jù)的結(jié)構(gòu)化程度分為結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)idnamegender1張三female2王二male3李四female結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)1.2.1數(shù)據(jù)類型與來源數(shù)據(jù)來源往往是多種多樣的,包括但不限于以下幾類:內(nèi)部數(shù)據(jù)源:企業(yè)或組織內(nèi)部生成的數(shù)據(jù)。公共數(shù)據(jù)集:由政府、非營利組織或研究機(jī)構(gòu)發(fā)布的數(shù)據(jù)集?;ヂ?lián)網(wǎng)數(shù)據(jù):從網(wǎng)站、社交媒體平臺(tái)和其他在線資源獲取的數(shù)據(jù)。傳感器數(shù)據(jù):通過各種傳感器和監(jiān)測(cè)設(shè)備收集的數(shù)據(jù)。商業(yè)數(shù)據(jù):咨詢或數(shù)據(jù)服務(wù)公司發(fā)布的數(shù)據(jù)。眾包數(shù)據(jù):通過大量用戶的參與和貢獻(xiàn)收集的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲:使用自動(dòng)化工具從互聯(lián)網(wǎng)上抓取和提取數(shù)據(jù)。Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲(chǔ)與管理1.2.5數(shù)據(jù)質(zhì)量與評(píng)估數(shù)據(jù)采集旨在找到可用于訓(xùn)練模型的數(shù)據(jù)集數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關(guān)數(shù)據(jù)集的過程。數(shù)據(jù)增強(qiáng):通過在原始數(shù)據(jù)集上應(yīng)用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構(gòu)建或自動(dòng)化構(gòu)建方法構(gòu)建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術(shù)數(shù)據(jù)發(fā)現(xiàn)通常包括以下幾個(gè)步驟:需求分析:與利益相關(guān)者進(jìn)行深入溝通,以明確數(shù)據(jù)需求和業(yè)務(wù)目標(biāo)。數(shù)據(jù)檢索:從更廣泛的數(shù)據(jù)資源中尋找特定的數(shù)據(jù)集或信息。精確地定位到數(shù)據(jù)源。數(shù)據(jù)預(yù)覽:查看數(shù)據(jù)樣本以評(píng)估數(shù)據(jù)的質(zhì)量和相關(guān)性。數(shù)據(jù)訪問:下載數(shù)據(jù)、使用API調(diào)用或通過數(shù)據(jù)集成工具將數(shù)據(jù)導(dǎo)入到分析平臺(tái)。數(shù)據(jù)發(fā)現(xiàn)需求分析需求分析的核心是與利益相關(guān)者進(jìn)行深入溝通,以明確他們的數(shù)據(jù)需求和業(yè)務(wù)目標(biāo),理解用戶對(duì)數(shù)據(jù)的期望和使用場景。這一階段的目的是確保數(shù)據(jù)發(fā)現(xiàn)工作與數(shù)據(jù)挖掘目標(biāo)保持一致,并為后續(xù)步驟提供清晰的指導(dǎo)。數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)檢索互聯(lián)網(wǎng)分布大量結(jié)構(gòu)化數(shù)據(jù),基于Web的檢索方法自動(dòng)提取有用的數(shù)據(jù)集例如,WebTables提取所有維基百科信息,GoogleDatasetSearch服務(wù)能夠搜索Web上數(shù)以千計(jì)的數(shù)據(jù)存儲(chǔ)庫。GoogleImageSearchDragandDrop數(shù)據(jù)檢索和數(shù)據(jù)共享之間存在密切關(guān)系數(shù)據(jù)共享平臺(tái):GitHub、Datahub、Kaggle、GoogleFusion這些平臺(tái)為用戶提供了一個(gè)集中、整理和共享數(shù)據(jù)的平臺(tái),用戶可以直接獲取并開始分析和應(yīng)用數(shù)據(jù)。數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)預(yù)覽數(shù)據(jù)樣本查看評(píng)估數(shù)據(jù)的質(zhì)量和相關(guān)性樣本記錄檢查檢查數(shù)據(jù)的結(jié)構(gòu)和字段目的確保數(shù)據(jù)集滿足分析需求評(píng)估數(shù)據(jù)的完整性、準(zhǔn)確性和一致性識(shí)別缺失值、異常值和重復(fù)記錄數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)訪問數(shù)據(jù)訪問關(guān)鍵考慮因素?cái)?shù)據(jù)安全性與合規(guī)性處理數(shù)據(jù)的版權(quán)和隱私問題存儲(chǔ)格式與轉(zhuǎn)換需求確保數(shù)據(jù)可以被分析工具有效處理數(shù)據(jù)采集旨在找到可用于訓(xùn)練模型的數(shù)據(jù)集,主要包括三種技術(shù)數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關(guān)數(shù)據(jù)集的過程。數(shù)據(jù)增強(qiáng):通過在原始數(shù)據(jù)集上應(yīng)用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構(gòu)建或自動(dòng)化構(gòu)建方法構(gòu)建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術(shù)常見數(shù)據(jù)增強(qiáng)方法:幾何變換翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪等操作顏色變換調(diào)整圖像亮度、對(duì)比度、飽和度等屬性噪聲注入添加高斯噪聲、椒鹽噪聲等Mixup和CutMix通過線性插值混合樣本或部分樣本生成新數(shù)據(jù)點(diǎn)推導(dǎo)潛在語義利用外部工具給數(shù)據(jù)增加細(xì)粒度標(biāo)簽或Caption數(shù)據(jù)集成整合多個(gè)來源或變種的數(shù)據(jù),擴(kuò)展和豐富數(shù)據(jù)集數(shù)據(jù)增強(qiáng)數(shù)據(jù)增強(qiáng)圖1.幾何變換圖4.顏色變換圖3.Mix圖2.噪聲注入數(shù)據(jù)采集旨在找到可用于訓(xùn)練模型的數(shù)據(jù)集數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關(guān)數(shù)據(jù)集的過程。數(shù)據(jù)增強(qiáng):通過在原始數(shù)據(jù)集上應(yīng)用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構(gòu)建或自動(dòng)化構(gòu)建方法構(gòu)建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術(shù)數(shù)據(jù)生成數(shù)據(jù)生成方法人工構(gòu)建眾包:通過收集和預(yù)處理數(shù)據(jù)生成新數(shù)據(jù)集數(shù)據(jù)收集:在眾包平臺(tái)發(fā)布任務(wù),招募志愿者完成數(shù)據(jù)收集數(shù)據(jù)預(yù)處理:管理、解析、連接數(shù)據(jù)集等操作自動(dòng)化構(gòu)建數(shù)據(jù)合成:利用算法生成新的合成數(shù)據(jù)數(shù)據(jù)生成自動(dòng)化合成數(shù)據(jù)和標(biāo)簽:低成本和靈活性
生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,
GANs)面向特定應(yīng)用程序的自動(dòng)化生成技術(shù)GANs旨在訓(xùn)練兩個(gè)相互競爭的神經(jīng)網(wǎng)絡(luò):生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)生成網(wǎng)絡(luò)學(xué)習(xí)從潛在空間映射到數(shù)據(jù)分布,判別網(wǎng)絡(luò)從生成網(wǎng)絡(luò)產(chǎn)生的候選者中區(qū)分真實(shí)分布MEDGAN基于真實(shí)患者記錄信息生成具有高維離散變量特征的合成患者記錄數(shù)據(jù)生成面向特定應(yīng)用的生成技術(shù)合成圖像的自動(dòng)生成合成文本數(shù)據(jù)的自動(dòng)生成使用人類定義的策略對(duì)原始數(shù)據(jù)進(jìn)行變換自動(dòng)合成的新數(shù)據(jù)Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲(chǔ)與管理1.2.5數(shù)據(jù)質(zhì)量與評(píng)估1.2.3數(shù)據(jù)標(biāo)注技術(shù)數(shù)據(jù)標(biāo)注的目的在于標(biāo)記單個(gè)示例,主要包括:利用現(xiàn)有標(biāo)簽:利用任何已經(jīng)存在的標(biāo)簽基于眾包技術(shù):使用眾包技術(shù)標(biāo)記單個(gè)示例弱監(jiān)督學(xué)習(xí)方法:在較低成本的前提下生成弱標(biāo)簽利用現(xiàn)有標(biāo)簽少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)分類算法:模型為每個(gè)樣本返回一個(gè)或多個(gè)潛在的類別標(biāo)簽。回歸算法:模型為每個(gè)樣本返回對(duì)應(yīng)某個(gè)類別的概率值?;趫D標(biāo)簽傳播的算法:從有限標(biāo)記示例數(shù)據(jù)集開始,在圖結(jié)構(gòu)中基于示例的相似性推斷剩余示例的標(biāo)簽。預(yù)測(cè)結(jié)果分類模型Label1Label2Label3回歸模型…0.90.8DogCat樣本數(shù)據(jù)基于眾包技術(shù)眾包標(biāo)注方法定義標(biāo)注說明提供詳細(xì)的標(biāo)注任務(wù)說明任務(wù)分發(fā)通過網(wǎng)絡(luò)平臺(tái)將任務(wù)分發(fā)給標(biāo)注工人數(shù)據(jù)標(biāo)注員數(shù)據(jù)標(biāo)注發(fā)布者客戶端人工質(zhì)檢員客戶端機(jī)器質(zhì)檢員客戶端基于眾包技術(shù)主動(dòng)學(xué)習(xí)定義選擇最有益于模型訓(xùn)練的數(shù)據(jù)樣本的策略工作流程選擇數(shù)據(jù)樣本分發(fā)給眾包工人進(jìn)行標(biāo)注弱監(jiān)督學(xué)習(xí)方法背景需要大量數(shù)據(jù)標(biāo)注,但人工成本高昂定義通過多種弱監(jiān)督信號(hào)滿足數(shù)據(jù)標(biāo)注任務(wù)需求Snorkel結(jié)合多種弱監(jiān)督信號(hào),生成更準(zhǔn)確的標(biāo)簽Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲(chǔ)與管理1.2.5數(shù)據(jù)質(zhì)量與評(píng)估1.2.4數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)備份創(chuàng)建數(shù)據(jù)副本。數(shù)據(jù)安全保護(hù)數(shù)據(jù)免受未授權(quán)訪問、數(shù)據(jù)泄露、篡改和破壞的一系列措施。數(shù)據(jù)調(diào)用從存儲(chǔ)介質(zhì)或數(shù)據(jù)倉庫中檢索特定數(shù)據(jù)或信息。數(shù)據(jù)備份備份類型本地備份遠(yuǎn)程備份云存儲(chǔ)備份策略的重要性確保數(shù)據(jù)在災(zāi)難性事件中的保護(hù)與恢復(fù)防范數(shù)據(jù)丟失和損壞的風(fēng)險(xiǎn)數(shù)據(jù)安全加密技術(shù)保護(hù)數(shù)據(jù)在存儲(chǔ)和傳輸中的安全性訪問控制限制對(duì)敏感數(shù)據(jù)的訪問權(quán)限網(wǎng)絡(luò)安全措施防止黑客攻擊和病毒感染數(shù)據(jù)調(diào)用性能優(yōu)化和查詢優(yōu)化:高效的數(shù)據(jù)存儲(chǔ)和索引策略快速響應(yīng)用戶的查詢請(qǐng)求實(shí)時(shí)數(shù)據(jù)處理ApacheKafka、ApacheFlink等數(shù)據(jù)安全和隱私保護(hù)確保數(shù)據(jù)在調(diào)用過程中的安全性和隱私保護(hù)集成和自動(dòng)化與其他系統(tǒng)集成,實(shí)現(xiàn)數(shù)據(jù)的獲取和整合提高數(shù)據(jù)調(diào)用系統(tǒng)的效率和自動(dòng)化程度Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲(chǔ)與管理1.2.5數(shù)據(jù)質(zhì)量與評(píng)估1.2.5數(shù)據(jù)質(zhì)量評(píng)估從數(shù)據(jù)質(zhì)量維度進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估主要涉及準(zhǔn)確性(Accuracy)數(shù)據(jù)是否正確反映了現(xiàn)實(shí)世界的事實(shí)。完整性(Completeness)數(shù)據(jù)集是否包含了所有必需的數(shù)據(jù)項(xiàng)。一致性(Consistency)數(shù)據(jù)在不同時(shí)間、空間和系統(tǒng)中的一致性。及時(shí)性(Timeliness)數(shù)據(jù)從產(chǎn)生到可用的時(shí)間??杀刃裕–omparability)數(shù)據(jù)在不同情況下的可比性。適用性(Relevance)數(shù)據(jù)是否滿足用戶的需求??色@得性(Accessibility)用戶獲取數(shù)據(jù)的難易程度。經(jīng)濟(jì)性(Cost-Effectiveness)數(shù)據(jù)的生產(chǎn)成本與效益之比。Contents數(shù)據(jù)挖掘概述1.1數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國宮燈藍(lán)牙音樂集成師認(rèn)證考試題庫附答案
- 2025年福州科技職業(yè)技術(shù)學(xué)院輔導(dǎo)員招聘考試筆試參考題庫附答案
- 雨水收集設(shè)施設(shè)計(jì)標(biāo)準(zhǔn)方案
- 建筑垃圾處理成本控制方案
- 2025至2030中國抗多囊卵巢綜合征藥物行業(yè)現(xiàn)狀及投資風(fēng)險(xiǎn)評(píng)估報(bào)告
- 城市排水系統(tǒng)運(yùn)行效率提升方案
- 養(yǎng)生旅行活動(dòng)策劃方案(3篇)
- 噴淋口施工方案(3篇)
- 開業(yè)家電活動(dòng)策劃方案(3篇)
- 施工方案備案流程(3篇)
- 高校區(qū)域技術(shù)轉(zhuǎn)移轉(zhuǎn)化中心(福建)光電顯示、海洋氫能分中心主任招聘2人備考題庫及答案詳解(考點(diǎn)梳理)
- 航空安保審計(jì)培訓(xùn)課件
- 2026四川成都錦江投資發(fā)展集團(tuán)有限責(zé)任公司招聘18人備考題庫有答案詳解
- 高層建筑滅火器配置專項(xiàng)施工方案
- 2023-2024學(xué)年廣東深圳紅嶺中學(xué)高二(上)學(xué)段一數(shù)學(xué)試題含答案
- 2025年全國職業(yè)院校技能大賽中職組(母嬰照護(hù)賽項(xiàng))考試題庫(含答案)
- 2026江蘇鹽城市阜寧縣科技成果轉(zhuǎn)化服務(wù)中心選調(diào)10人考試參考題庫及答案解析
- 托管機(jī)構(gòu)客戶投訴處理流程規(guī)范
- 2026年及未來5年中國建筑用腳手架行業(yè)發(fā)展?jié)摿Ψ治黾巴顿Y方向研究報(bào)告
- 銀行客戶信息安全課件
- (2025)70周歲以上老年人換長久駕照三力測(cè)試題庫(附答案)
評(píng)論
0/150
提交評(píng)論