版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
資料采礦與統(tǒng)計機(jī)器學(xué)習(xí)之未來發(fā)展
TrendofBusinessIntelligence&
StatisticalMachineLearning
謝邦昌
中華資料采礦協(xié)會
理事長輔仁大學(xué)統(tǒng)計資訊學(xué)系教授鄭宇庭政治大學(xué)統(tǒng)計學(xué)系教授資料采礦與統(tǒng)計機(jī)器學(xué)習(xí)之未來發(fā)展
TrendofBusi為什么要學(xué)統(tǒng)計??為什么要學(xué)統(tǒng)計??會計
快快忘記經(jīng)濟(jì)經(jīng)常忘記統(tǒng)計通通忘記會計快快忘記老婆:你在作什么?。繉W(xué)統(tǒng)計的老公:沒作什么。
老婆:沒作什么?你看著我們的結(jié)婚證書,足足有一小時了。
。
老婆:你在作什么?。繉W(xué)統(tǒng)計的老公:我在尋找它的有效日期是到什么時候?qū)W統(tǒng)計的老公:大綱數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去
1.人工智能2.機(jī)器學(xué)習(xí)3.統(tǒng)計學(xué)門4.統(tǒng)計學(xué)習(xí)數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今
1.改進(jìn)尋找特征的能力
2.依賴人工的參數(shù)選擇
3.人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正
4.統(tǒng)計學(xué)習(xí)新趨勢-SVM向量支持器
5.解決現(xiàn)今企業(yè)的問題-數(shù)據(jù)倉儲與數(shù)據(jù)采礦技術(shù)的重視
6.探討與改善人類疾病的問題-生物統(tǒng)計學(xué)
7.數(shù)據(jù)的文字處理-語言意義的學(xué)習(xí)
8.統(tǒng)計學(xué)近40年的走勢
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的未來
1.改善機(jī)器學(xué)習(xí)問題
2.語言意義的學(xué)習(xí)改進(jìn)-人類以后不需再介入
3.人機(jī)界面-更進(jìn)一步的計算能力
4.我國未來的發(fā)展-學(xué)習(xí)再學(xué)習(xí)大綱數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去數(shù)據(jù)挖掘與
人工智能統(tǒng)計學(xué)習(xí)
機(jī)器學(xué)習(xí)統(tǒng)計學(xué)門
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去人工智能統(tǒng)計學(xué)習(xí)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過
人工智能(AI)一個具有智慧的機(jī)器,和一位的人類,放在一個布幕里面。布幕里面的人分別和機(jī)器以及人類交談,如果分不出哪一個是機(jī)器,哪一個是人類的話,那部機(jī)器就有人工智能了。機(jī)器學(xué)習(xí)把AI劃分成WeakAI和StrongAI。WeakAI的可以由機(jī)器學(xué)習(xí)來代表。只要給定問題的范圍,訓(xùn)練的數(shù)據(jù),就可以由數(shù)據(jù)中選擇特征,然后建構(gòu)數(shù)據(jù)的模型,最后把這個模型當(dāng)成學(xué)習(xí)的成果,拿來做預(yù)測。人工智能(AI)機(jī)器學(xué)習(xí)統(tǒng)計學(xué)門統(tǒng)計學(xué)的初衷是作為政府以及管理階層的工具,但統(tǒng)計背后牽涉到更多數(shù)學(xué)導(dǎo)向的領(lǐng)域。今日的世界里統(tǒng)計已經(jīng)被使用在不僅僅是國家或政府的事務(wù),更延伸到商業(yè),自然以及社會科學(xué),醫(yī)療等甚至更多方面。統(tǒng)計學(xué)習(xí)統(tǒng)計學(xué)習(xí)理論是研究利用經(jīng)驗數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的一種一般理論,屬于計算機(jī)科學(xué)、模式識別和應(yīng)用統(tǒng)計學(xué)相交叉與結(jié)合的范疇,與傳統(tǒng)統(tǒng)計學(xué)理論相比有更好的實用性。統(tǒng)計學(xué)門統(tǒng)計學(xué)習(xí)機(jī)器學(xué)習(xí)運用經(jīng)驗自動改善計算機(jī)系統(tǒng)性能
thecomputersystemsthatautomaticallyimprovewithexperience把握普遍存在于學(xué)習(xí)之旅中的基本規(guī)律
thefundamentallawsthatgovernalllearningprocess.-----------TomMitchell2006年6月經(jīng)驗理論機(jī)器學(xué)習(xí)運用經(jīng)驗自動改善計算機(jī)系統(tǒng)性能經(jīng)驗理論學(xué)習(xí)之旅
方法:從有限到無限,從部分到整體選擇:哪些或哪個關(guān)系是合適的?困惑:
關(guān)系的數(shù)量是無窮多的學(xué)習(xí)之旅方法:從有限到無限,從部分到整體選擇:哪些或哪個關(guān)典型應(yīng)用圖像識別:手寫體、指紋、人像識別語音識別:詞、句、發(fā)音、身份識別搜索引擎:Google,文本挖掘,信息提取金融:投資組合和風(fēng)險管理電信:網(wǎng)絡(luò)流量分布數(shù)據(jù)挖掘:大規(guī)模數(shù)據(jù)的模式提取生物醫(yī)學(xué)……太空、宇宙……典型應(yīng)用圖像識別:手寫體、指紋、人像識別與統(tǒng)計機(jī)器學(xué)習(xí)的相關(guān)學(xué)科人工智能(ArtificialIntelligence)信息論(informationtheory)統(tǒng)計學(xué)(Statistics)數(shù)據(jù)挖掘(DataMining)心理學(xué)(發(fā)展認(rèn)知學(xué))(psychology)神經(jīng)生物學(xué)(Neuobiology)語言學(xué)(Linguistics)生理學(xué)(Physiolophy)數(shù)值最優(yōu)化(NumericalOptimization)統(tǒng)計機(jī)器學(xué)習(xí)與統(tǒng)計機(jī)器學(xué)習(xí)的相關(guān)學(xué)科人工智能信息論統(tǒng)計學(xué)數(shù)據(jù)挖掘心理學(xué)(
應(yīng)用舉例:網(wǎng)上零售[McCallumetal‘2005]應(yīng)用舉例:網(wǎng)上零售[McCallumetal‘2統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧1950s-70sSamuel’scheckerplayerNeuralnetworks:PerceptronPatternrecognitionLearninginthelimittheoryMinskyandPapertprovelimitationsofPerceptronSymbolicconceptinductionWinston’sarchlearnerExpertsystemsandtheknowledgeacquisitionbottleneckQuinlan’sID3Michalski’sAQandsoybeandiagnosisScientificdiscoverywithBACONMathematicaldiscoverywithAM1980s:AdvanceddecisiontreeandrulelearningExplanation-basedLearning(EBL)LearningandplanningandproblemsolvingCognitivearchitecturesResurgenceofneuralnetworks(connectionism,backpropagation)Valiant’sPACLearningTheoryFocusonexperimentalmethodology統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧1950s-70s統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧(2)1990sDataminingAdaptivesoftwareagentsandwebapplicationsTextlearningReinforcementlearning(RL)InductiveLogicProgramming(ILP)Ensembles:Bagging,Boosting,andStackingBayesNetlearning2000s--SupportvectormachinesKernelmethodsGraphicalmodelsStatisticalrelationallearningTransferlearningSequencelabelingCollectiveclassificationandstructuredoutputsComputerSystemsApplicationsCompilersDebuggingGraphicsSecurity(intrusion,virus,andwormdetection)E mailmanagementPersonalizedassistantsthatlearnLearninginroboticsandvision統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧(2)1990s典型問題:預(yù)測/分類
輸出變數(shù)預(yù)測變量,輸入變量目標(biāo)線性模型損失函數(shù)風(fēng)險:最優(yōu)解典型問題:預(yù)測/分類輸出變數(shù)目前統(tǒng)計機(jī)器學(xué)習(xí)的幾個熱點問題集成學(xué)習(xí)(ensemblelearning)Bagging;Boosting;模型選擇(modelselection)Supervisedlearning:Subsetselection,LassoUnsupervisedlearning:penalizedclustering主動學(xué)習(xí)(activelearning)數(shù)據(jù)流學(xué)習(xí)(data-streamlearning)目前統(tǒng)計機(jī)器學(xué)習(xí)的幾個熱點問題集成學(xué)習(xí)(ensemblel模型選擇的基本問題當(dāng)我們有很多變量,特別是當(dāng)變量數(shù)可能多于樣本數(shù)(存在交互作用)時,很難找到一個好的模型。需要精練模型和自動尋找到影響最為顯著的變量。哪些交互作用應(yīng)合理保留?模型選擇旨在建立模型的同時選擇輸入變量。模型選擇的基本問題當(dāng)我們有很多變量,特別是當(dāng)變量數(shù)可能多于樣應(yīng)用舉例Penalizedclustering應(yīng)用舉例Penalizedclustering統(tǒng)計機(jī)器學(xué)習(xí)的進(jìn)展數(shù)據(jù)源于MSN2006統(tǒng)計機(jī)器學(xué)習(xí)的進(jìn)展數(shù)據(jù)源于MSN2006數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)復(fù)雜的應(yīng)用呼喚新的自動學(xué)習(xí)方法---數(shù)據(jù)驅(qū)動的自動學(xué)習(xí):人類很多的思考與判斷看似簡單,然而給出一個解決問題的明確且通用的規(guī)則或程序,卻是很難的。但是如果有訓(xùn)練數(shù)據(jù),則可能通過不斷選擇逐漸優(yōu)化一個學(xué)習(xí)過程,從而提升學(xué)習(xí)能力,加速學(xué)習(xí)任務(wù)的完成.應(yīng)用領(lǐng)域需要智能系統(tǒng)能越來越貼近使用者的個性特點,以機(jī)器學(xué)習(xí)為設(shè)計核心的軟件才可能更高效率地實現(xiàn)服務(wù)的個性化.數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)復(fù)雜的應(yīng)用呼喚新的自動學(xué)習(xí)方法---數(shù)據(jù)驅(qū)統(tǒng)計機(jī)器學(xué)習(xí)是計算機(jī)科學(xué)的重要組成部分,也是統(tǒng)計學(xué)的重要組成部分統(tǒng)計機(jī)器學(xué)習(xí)在挑戰(zhàn)計算機(jī)算法自我監(jiān)控、自我診斷和自我修復(fù)等方面的貢獻(xiàn)使機(jī)器學(xué)習(xí)成為計算機(jī)科學(xué)的重要組成部分。同時,統(tǒng)計機(jī)器學(xué)習(xí)賦予了統(tǒng)計推斷過程的新理念:生命不止,學(xué)習(xí)不息!統(tǒng)計機(jī)器學(xué)習(xí)是計算機(jī)科學(xué)的重要組成部分,也是統(tǒng)計學(xué)的重要組成“Itisacapitalmistaketotheorizebeforeonehasdata.”ArthurConanDoyle的名言從1891年至今天仍然正確。不可否認(rèn),在過去短短的十幾年內(nèi),統(tǒng)計機(jī)器學(xué)習(xí)在理論和應(yīng)用兩個領(lǐng)域都取得了令人注目的成就。在通向應(yīng)用的道路上,新的問題和挑戰(zhàn)不斷出現(xiàn),有相當(dāng)長的路要走,這既是科學(xué)規(guī)律,也是新理論和新技術(shù)孕育和誕生之旅,需要更多來自實踐的共同探索與經(jīng)驗積累?!癐tisacapitalmistaketoth
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今數(shù)據(jù)挖掘與數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今
改進(jìn)尋找特征的能力
人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正統(tǒng)計學(xué)習(xí)新趨勢
-SVM向量支持器依賴人工的參數(shù)選擇解決現(xiàn)今企業(yè)的問題-數(shù)據(jù)倉儲與數(shù)據(jù)采礦技術(shù)的重視探討與改善人類疾病的問題-生物統(tǒng)計學(xué)數(shù)據(jù)的文字處理-語言意義的學(xué)習(xí)統(tǒng)計學(xué)近40年的走勢數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今改進(jìn)尋找特征的能力人工智能與機(jī)器改進(jìn)尋找特征的能力人類目前有一些能力,如「抽象化」,機(jī)器還沒有辦法達(dá)成。抽象化又牽涉到特征
(feature)的擷取。依賴人工的參數(shù)選擇另外一個需要人類參與的,就是模型里面的參數(shù)。有些參數(shù)是要從數(shù)據(jù)里面學(xué)習(xí)出來。有些參數(shù)可以用人為來調(diào)整。改進(jìn)尋找特征的能力依賴人工的參數(shù)選擇人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正目前機(jī)器學(xué)習(xí)的方法,除了基本的統(tǒng)計分析以外,尚有人工智能的類神經(jīng)網(wǎng)絡(luò)、規(guī)則式(rule-based)系統(tǒng)及應(yīng)用貝式定理。統(tǒng)計學(xué)習(xí)新趨勢-SVM向量支持器是專門針對有限樣本情況,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值。解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題。特殊性質(zhì)能保證機(jī)器有較好的推廣能力,同時巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無關(guān)。人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正統(tǒng)計學(xué)習(xí)新趨勢解決現(xiàn)今企業(yè)的問題-數(shù)據(jù)倉儲與數(shù)據(jù)采礦技術(shù)的重視若將DataWarehousing比喻作礦坑,DataMining就是深入礦坑采礦的工作。數(shù)據(jù)倉儲的目標(biāo)是在組織中、在正確的時間,將正確的數(shù)據(jù)交給正確的人。DataMining幫助企業(yè)找尋隱藏在數(shù)據(jù)中的訊息,如趨勢、特征及相關(guān)性的過程,也就是從數(shù)據(jù)中發(fā)掘信息或知識。探討與改善人類疾病的問題-生物統(tǒng)計學(xué)分子生物學(xué)已進(jìn)化到信息科學(xué),出現(xiàn)了新學(xué)科ComputationalBiology,或Bioinformatics.解決現(xiàn)今企業(yè)的問題-探討與改善人類疾病的問題-生物統(tǒng)計學(xué)數(shù)據(jù)的文字處理-語言意義的學(xué)習(xí)知識挖掘(整合數(shù)據(jù)挖掘與文本挖掘)與商業(yè)智能的發(fā)展逐漸成為重要的工具,只要一些簡單的算法,就可以從一些極為粗糙的工作中,得到不錯的結(jié)果以及從文章中建立出摘要,進(jìn)而進(jìn)行結(jié)果評估,定義未來的目標(biāo)及目的。統(tǒng)計學(xué)近40年的走勢20世紀(jì)60年代是穩(wěn)健統(tǒng)計盛行的時代。70年代早期,JohnTukey提出探索性資料分析(EDA),70年代后期,廣義線性模型研究。80年代以后,由于計算機(jī)的引入,數(shù)據(jù)模擬和非參數(shù)統(tǒng)計方法得到很大的發(fā)展,80年代后期在非參數(shù)領(lǐng)域中。90年代,推動了統(tǒng)計技術(shù)的研究。數(shù)據(jù)的文字處理統(tǒng)計學(xué)近40年的走勢
應(yīng)用舉例:生物統(tǒng)計[臺大臨床醫(yī)學(xué)研究部,張啟仁]目前在國外各大學(xué)醫(yī)學(xué)院及教學(xué)醫(yī)院中,有關(guān)生物統(tǒng)計研究服務(wù)
(biostatisticalresearchservices)的概念逐漸成型。生物統(tǒng)計咨詢
(biostatisticalconsultation)的研究服務(wù)也早已根深蒂固的深植于各個主要研究者之中。一個標(biāo)準(zhǔn)的生物醫(yī)學(xué)研究計劃,從其設(shè)計執(zhí)行到資料分析及文章發(fā)表,到處都可以看到生物統(tǒng)計學(xué)家的積極介入。也因此生物統(tǒng)計學(xué)家及其所屬的生物統(tǒng)計咨詢及數(shù)據(jù)處理中心
(BiostatisticalConsultingandDataCoordinatingCenter)已是評鑒一所醫(yī)學(xué)院與醫(yī)院的重要指標(biāo)。生物統(tǒng)計在醫(yī)學(xué)上的另一重要的貢獻(xiàn),即是在遺傳統(tǒng)計學(xué)上,正如前面所述,染色體基因的定序及其部份功能的確認(rèn),遺傳科學(xué)家即致力于基因與疾病之間的相關(guān)性
(association)研究,傳統(tǒng)的基礎(chǔ)生物統(tǒng)計理論已無法滿足這些有家族性相連的數(shù)據(jù)
(pedigreedata)。許多新的生物統(tǒng)計理論及其方法也相繼的被開發(fā)與應(yīng)用出來。因此遺傳統(tǒng)計學(xué)家
(geneticstatisticians)在疾病與基因相關(guān)之研究的需求也相對地增加。應(yīng)用舉例:生物統(tǒng)計[臺大臨床醫(yī)學(xué)研究部,張啟仁]目前在
應(yīng)用舉例:用機(jī)器對紐約時報采礦[2006,byNateAnderson]文字采礦(textmining)的訓(xùn)練(discipline)最近又更進(jìn)一步,一個來自于加州大學(xué)
Irvine分校的團(tuán)隊使用一種稱為
"topicmodeling"(話題塑模
)計算機(jī)會將新聞依照話題(topic)排序
--不需要任何人來訓(xùn)練或世界路。計算機(jī)在理解大范圍無特定結(jié)構(gòu)的文字時,如果沒有引導(dǎo)會有麻煩,但是這個新的進(jìn)程(approach)讓它們能夠從事某些沒有支持的學(xué)習(xí),這可以馬上在學(xué)術(shù)界、公司以及政府安全計劃等等之中獲得龐大的紅利。這就是為何文字?jǐn)?shù)據(jù)采礦軟件會流行。像數(shù)據(jù)挖掘(datamining),其對計算機(jī)而言較容易處理,文字采礦被證明是更棘手的東西。較舊的辦法需要冗長的訓(xùn)練,但新文字采礦技術(shù)的優(yōu)點是計算機(jī)可以理解文件,甚至是包含它們未曾見過的信息。應(yīng)用舉例:用機(jī)器對紐約時報采礦[2006,byNa
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的未來數(shù)據(jù)挖掘與
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的未來
改善機(jī)器學(xué)習(xí)問題人機(jī)界面
-更進(jìn)一步的計算能力我國未來的發(fā)展
-學(xué)習(xí)再學(xué)習(xí)數(shù)據(jù)挖掘與人機(jī)界改善機(jī)器學(xué)習(xí)問題機(jī)器學(xué)習(xí)長久來看,會有一些困難發(fā)生:(1)在不同的問題領(lǐng)域,要如何選擇適當(dāng)?shù)奶卣鱽韺W(xué)習(xí),也就是featureselection的問題。(2)問題范圍變大以后,如何調(diào)整原來的學(xué)習(xí)方法,取得具有代表性的數(shù)據(jù)。(3)有些問題不管參數(shù)怎么調(diào)整,現(xiàn)有的模型總是無法達(dá)到100%的正確率。語言意義的學(xué)習(xí)改進(jìn)-人類以后不需再介入機(jī)器學(xué)習(xí)或是人工智能學(xué)習(xí)方法里面,大部分是用數(shù)字來表示一項數(shù)據(jù),未來希望語言意義的學(xué)習(xí)能改進(jìn),人類以后不需再介入。改善機(jī)器學(xué)習(xí)問題語言意義的學(xué)習(xí)改進(jìn)人機(jī)界面-更進(jìn)一步的計算能力目前的人機(jī)接口大部分是給身體無法移動的病患。希望在未來,計算機(jī)也可以運用人類抽象化的能力,這個人機(jī)接口,如果可以互相表達(dá)「抽象化」等認(rèn)知功能,就可以讓人腦和計算機(jī)互補(bǔ),也是研究計算神經(jīng)的長期目標(biāo)!我國未來的發(fā)展-學(xué)習(xí)再學(xué)習(xí)及時學(xué)習(xí)掌握有關(guān)理論,開展有效的研究工作,使我們在這一有著重要意義的領(lǐng)域中能夠盡快趕上國際先進(jìn)水平。人機(jī)界面我國未來的發(fā)展
應(yīng)用舉例:未來面對金融海嘯沖擊[Microsoft]百年一見的金融海嘯來襲,企業(yè)面臨了前所未見的險惡局勢。此時如何運用商業(yè)智慧技術(shù)『開源節(jié)流』,就成為創(chuàng)造企業(yè)逆勢成長競爭力的重要關(guān)鍵。運用商業(yè)智慧「交叉銷售」技術(shù),在不景氣中爭取到最大銷售,為企業(yè)開創(chuàng)經(jīng)濟(jì)來源。另一方面運用商業(yè)智慧「風(fēng)險管理」技術(shù)即早發(fā)掘問題,避免企業(yè)營運損失。除此之外,商業(yè)智能更可透過企業(yè)規(guī)劃解決方案展現(xiàn)企業(yè)的營運績效,協(xié)助企業(yè)進(jìn)行最佳決策。善用企業(yè)既用投資及資產(chǎn)是企業(yè)成長之重要關(guān)鍵,導(dǎo)入商業(yè)智慧不只可以利用過去的資料分析過去,更能利用過去的數(shù)據(jù)預(yù)測未來,提升企業(yè)的即戰(zhàn)力及成長力。HOLA特力和樂導(dǎo)入商業(yè)智能數(shù)據(jù)采礦技術(shù),讓型錄響應(yīng)率從原先之11.4%,提升至38.9%。同時縮減型錄成本達(dá)20%,降低庫存成本達(dá)3%,整個系統(tǒng)的建置投資在第一年的ROI超過100%。應(yīng)用舉例:未來面對金融海嘯沖擊[Microsoft]百結(jié)語魚要有水,統(tǒng)計要數(shù)據(jù)。水若污染,魚會死,因為它改變自己不夠快。統(tǒng)計要能存活,或者,一個統(tǒng)計人想要存活,不要只守著一畝三分地,只做自己或者別人方法論的推廣,更不能甚么問題都套上同樣的三斧頭??茖W(xué)的發(fā)展,使得現(xiàn)在更是一個充滿數(shù)據(jù)的時代。搜集它們都有一點目的,有些數(shù)據(jù)來之不易,成本甚高,他們背后的目的更大。數(shù)據(jù)是時代的大河,千里而來,出海而去,泛濫后的土更為肥沃。統(tǒng)計的長遠(yuǎn)發(fā)展,要建立在這樣的基礎(chǔ)上結(jié)語魚要有水,統(tǒng)計要數(shù)據(jù)。水若污染,魚會死,因為它改變自己不
~TheEnd~
Q&A~TheEnd~Q&A資料采礦與統(tǒng)計機(jī)器學(xué)習(xí)之未來發(fā)展
TrendofBusinessIntelligence&
StatisticalMachineLearning
謝邦昌
中華資料采礦協(xié)會
理事長輔仁大學(xué)統(tǒng)計資訊學(xué)系教授鄭宇庭政治大學(xué)統(tǒng)計學(xué)系教授資料采礦與統(tǒng)計機(jī)器學(xué)習(xí)之未來發(fā)展
TrendofBusi為什么要學(xué)統(tǒng)計??為什么要學(xué)統(tǒng)計??會計
快快忘記經(jīng)濟(jì)經(jīng)常忘記統(tǒng)計通通忘記會計快快忘記老婆:你在作什么???學(xué)統(tǒng)計的老公:沒作什么。
老婆:沒作什么?你看著我們的結(jié)婚證書,足足有一小時了。
。
老婆:你在作什么???學(xué)統(tǒng)計的老公:我在尋找它的有效日期是到什么時候?qū)W統(tǒng)計的老公:大綱數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去
1.人工智能2.機(jī)器學(xué)習(xí)3.統(tǒng)計學(xué)門4.統(tǒng)計學(xué)習(xí)數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今
1.改進(jìn)尋找特征的能力
2.依賴人工的參數(shù)選擇
3.人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正
4.統(tǒng)計學(xué)習(xí)新趨勢-SVM向量支持器
5.解決現(xiàn)今企業(yè)的問題-數(shù)據(jù)倉儲與數(shù)據(jù)采礦技術(shù)的重視
6.探討與改善人類疾病的問題-生物統(tǒng)計學(xué)
7.數(shù)據(jù)的文字處理-語言意義的學(xué)習(xí)
8.統(tǒng)計學(xué)近40年的走勢
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的未來
1.改善機(jī)器學(xué)習(xí)問題
2.語言意義的學(xué)習(xí)改進(jìn)-人類以后不需再介入
3.人機(jī)界面-更進(jìn)一步的計算能力
4.我國未來的發(fā)展-學(xué)習(xí)再學(xué)習(xí)大綱數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去數(shù)據(jù)挖掘與
人工智能統(tǒng)計學(xué)習(xí)
機(jī)器學(xué)習(xí)統(tǒng)計學(xué)門
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過去人工智能統(tǒng)計學(xué)習(xí)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的過
人工智能(AI)一個具有智慧的機(jī)器,和一位的人類,放在一個布幕里面。布幕里面的人分別和機(jī)器以及人類交談,如果分不出哪一個是機(jī)器,哪一個是人類的話,那部機(jī)器就有人工智能了。機(jī)器學(xué)習(xí)把AI劃分成WeakAI和StrongAI。WeakAI的可以由機(jī)器學(xué)習(xí)來代表。只要給定問題的范圍,訓(xùn)練的數(shù)據(jù),就可以由數(shù)據(jù)中選擇特征,然后建構(gòu)數(shù)據(jù)的模型,最后把這個模型當(dāng)成學(xué)習(xí)的成果,拿來做預(yù)測。人工智能(AI)機(jī)器學(xué)習(xí)統(tǒng)計學(xué)門統(tǒng)計學(xué)的初衷是作為政府以及管理階層的工具,但統(tǒng)計背后牽涉到更多數(shù)學(xué)導(dǎo)向的領(lǐng)域。今日的世界里統(tǒng)計已經(jīng)被使用在不僅僅是國家或政府的事務(wù),更延伸到商業(yè),自然以及社會科學(xué),醫(yī)療等甚至更多方面。統(tǒng)計學(xué)習(xí)統(tǒng)計學(xué)習(xí)理論是研究利用經(jīng)驗數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的一種一般理論,屬于計算機(jī)科學(xué)、模式識別和應(yīng)用統(tǒng)計學(xué)相交叉與結(jié)合的范疇,與傳統(tǒng)統(tǒng)計學(xué)理論相比有更好的實用性。統(tǒng)計學(xué)門統(tǒng)計學(xué)習(xí)機(jī)器學(xué)習(xí)運用經(jīng)驗自動改善計算機(jī)系統(tǒng)性能
thecomputersystemsthatautomaticallyimprovewithexperience把握普遍存在于學(xué)習(xí)之旅中的基本規(guī)律
thefundamentallawsthatgovernalllearningprocess.-----------TomMitchell2006年6月經(jīng)驗理論機(jī)器學(xué)習(xí)運用經(jīng)驗自動改善計算機(jī)系統(tǒng)性能經(jīng)驗理論學(xué)習(xí)之旅
方法:從有限到無限,從部分到整體選擇:哪些或哪個關(guān)系是合適的?困惑:
關(guān)系的數(shù)量是無窮多的學(xué)習(xí)之旅方法:從有限到無限,從部分到整體選擇:哪些或哪個關(guān)典型應(yīng)用圖像識別:手寫體、指紋、人像識別語音識別:詞、句、發(fā)音、身份識別搜索引擎:Google,文本挖掘,信息提取金融:投資組合和風(fēng)險管理電信:網(wǎng)絡(luò)流量分布數(shù)據(jù)挖掘:大規(guī)模數(shù)據(jù)的模式提取生物醫(yī)學(xué)……太空、宇宙……典型應(yīng)用圖像識別:手寫體、指紋、人像識別與統(tǒng)計機(jī)器學(xué)習(xí)的相關(guān)學(xué)科人工智能(ArtificialIntelligence)信息論(informationtheory)統(tǒng)計學(xué)(Statistics)數(shù)據(jù)挖掘(DataMining)心理學(xué)(發(fā)展認(rèn)知學(xué))(psychology)神經(jīng)生物學(xué)(Neuobiology)語言學(xué)(Linguistics)生理學(xué)(Physiolophy)數(shù)值最優(yōu)化(NumericalOptimization)統(tǒng)計機(jī)器學(xué)習(xí)與統(tǒng)計機(jī)器學(xué)習(xí)的相關(guān)學(xué)科人工智能信息論統(tǒng)計學(xué)數(shù)據(jù)挖掘心理學(xué)(
應(yīng)用舉例:網(wǎng)上零售[McCallumetal‘2005]應(yīng)用舉例:網(wǎng)上零售[McCallumetal‘2統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧1950s-70sSamuel’scheckerplayerNeuralnetworks:PerceptronPatternrecognitionLearninginthelimittheoryMinskyandPapertprovelimitationsofPerceptronSymbolicconceptinductionWinston’sarchlearnerExpertsystemsandtheknowledgeacquisitionbottleneckQuinlan’sID3Michalski’sAQandsoybeandiagnosisScientificdiscoverywithBACONMathematicaldiscoverywithAM1980s:AdvanceddecisiontreeandrulelearningExplanation-basedLearning(EBL)LearningandplanningandproblemsolvingCognitivearchitecturesResurgenceofneuralnetworks(connectionism,backpropagation)Valiant’sPACLearningTheoryFocusonexperimentalmethodology統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧1950s-70s統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧(2)1990sDataminingAdaptivesoftwareagentsandwebapplicationsTextlearningReinforcementlearning(RL)InductiveLogicProgramming(ILP)Ensembles:Bagging,Boosting,andStackingBayesNetlearning2000s--SupportvectormachinesKernelmethodsGraphicalmodelsStatisticalrelationallearningTransferlearningSequencelabelingCollectiveclassificationandstructuredoutputsComputerSystemsApplicationsCompilersDebuggingGraphicsSecurity(intrusion,virus,andwormdetection)E mailmanagementPersonalizedassistantsthatlearnLearninginroboticsandvision統(tǒng)計機(jī)器學(xué)習(xí)簡要歷史回顧(2)1990s典型問題:預(yù)測/分類
輸出變數(shù)預(yù)測變量,輸入變量目標(biāo)線性模型損失函數(shù)風(fēng)險:最優(yōu)解典型問題:預(yù)測/分類輸出變數(shù)目前統(tǒng)計機(jī)器學(xué)習(xí)的幾個熱點問題集成學(xué)習(xí)(ensemblelearning)Bagging;Boosting;模型選擇(modelselection)Supervisedlearning:Subsetselection,LassoUnsupervisedlearning:penalizedclustering主動學(xué)習(xí)(activelearning)數(shù)據(jù)流學(xué)習(xí)(data-streamlearning)目前統(tǒng)計機(jī)器學(xué)習(xí)的幾個熱點問題集成學(xué)習(xí)(ensemblel模型選擇的基本問題當(dāng)我們有很多變量,特別是當(dāng)變量數(shù)可能多于樣本數(shù)(存在交互作用)時,很難找到一個好的模型。需要精練模型和自動尋找到影響最為顯著的變量。哪些交互作用應(yīng)合理保留?模型選擇旨在建立模型的同時選擇輸入變量。模型選擇的基本問題當(dāng)我們有很多變量,特別是當(dāng)變量數(shù)可能多于樣應(yīng)用舉例Penalizedclustering應(yīng)用舉例Penalizedclustering統(tǒng)計機(jī)器學(xué)習(xí)的進(jìn)展數(shù)據(jù)源于MSN2006統(tǒng)計機(jī)器學(xué)習(xí)的進(jìn)展數(shù)據(jù)源于MSN2006數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)復(fù)雜的應(yīng)用呼喚新的自動學(xué)習(xí)方法---數(shù)據(jù)驅(qū)動的自動學(xué)習(xí):人類很多的思考與判斷看似簡單,然而給出一個解決問題的明確且通用的規(guī)則或程序,卻是很難的。但是如果有訓(xùn)練數(shù)據(jù),則可能通過不斷選擇逐漸優(yōu)化一個學(xué)習(xí)過程,從而提升學(xué)習(xí)能力,加速學(xué)習(xí)任務(wù)的完成.應(yīng)用領(lǐng)域需要智能系統(tǒng)能越來越貼近使用者的個性特點,以機(jī)器學(xué)習(xí)為設(shè)計核心的軟件才可能更高效率地實現(xiàn)服務(wù)的個性化.數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)復(fù)雜的應(yīng)用呼喚新的自動學(xué)習(xí)方法---數(shù)據(jù)驅(qū)統(tǒng)計機(jī)器學(xué)習(xí)是計算機(jī)科學(xué)的重要組成部分,也是統(tǒng)計學(xué)的重要組成部分統(tǒng)計機(jī)器學(xué)習(xí)在挑戰(zhàn)計算機(jī)算法自我監(jiān)控、自我診斷和自我修復(fù)等方面的貢獻(xiàn)使機(jī)器學(xué)習(xí)成為計算機(jī)科學(xué)的重要組成部分。同時,統(tǒng)計機(jī)器學(xué)習(xí)賦予了統(tǒng)計推斷過程的新理念:生命不止,學(xué)習(xí)不息!統(tǒng)計機(jī)器學(xué)習(xí)是計算機(jī)科學(xué)的重要組成部分,也是統(tǒng)計學(xué)的重要組成“Itisacapitalmistaketotheorizebeforeonehasdata.”ArthurConanDoyle的名言從1891年至今天仍然正確。不可否認(rèn),在過去短短的十幾年內(nèi),統(tǒng)計機(jī)器學(xué)習(xí)在理論和應(yīng)用兩個領(lǐng)域都取得了令人注目的成就。在通向應(yīng)用的道路上,新的問題和挑戰(zhàn)不斷出現(xiàn),有相當(dāng)長的路要走,這既是科學(xué)規(guī)律,也是新理論和新技術(shù)孕育和誕生之旅,需要更多來自實踐的共同探索與經(jīng)驗積累?!癐tisacapitalmistaketoth
數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今數(shù)據(jù)挖掘與數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今
改進(jìn)尋找特征的能力
人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正統(tǒng)計學(xué)習(xí)新趨勢
-SVM向量支持器依賴人工的參數(shù)選擇解決現(xiàn)今企業(yè)的問題-數(shù)據(jù)倉儲與數(shù)據(jù)采礦技術(shù)的重視探討與改善人類疾病的問題-生物統(tǒng)計學(xué)數(shù)據(jù)的文字處理-語言意義的學(xué)習(xí)統(tǒng)計學(xué)近40年的走勢數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)的現(xiàn)今改進(jìn)尋找特征的能力人工智能與機(jī)器改進(jìn)尋找特征的能力人類目前有一些能力,如「抽象化」,機(jī)器還沒有辦法達(dá)成。抽象化又牽涉到特征
(feature)的擷取。依賴人工的參數(shù)選擇另外一個需要人類參與的,就是模型里面的參數(shù)。有些參數(shù)是要從數(shù)據(jù)里面學(xué)習(xí)出來。有些參數(shù)可以用人為來調(diào)整。改進(jìn)尋找特征的能力依賴人工的參數(shù)選擇人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正目前機(jī)器學(xué)習(xí)的方法,除了基本的統(tǒng)計分析以外,尚有人工智能的類神經(jīng)網(wǎng)絡(luò)、規(guī)則式(rule-based)系統(tǒng)及應(yīng)用貝式定理。統(tǒng)計學(xué)習(xí)新趨勢-SVM向量支持器是專門針對有限樣本情況,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值。解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題。特殊性質(zhì)能保證機(jī)器有較好的推廣能力,同時巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無關(guān)。人工智能與機(jī)器學(xué)習(xí)的整合與統(tǒng)計修正統(tǒng)計學(xué)習(xí)新趨勢解決現(xiàn)今企業(yè)的問題-數(shù)據(jù)倉儲與數(shù)據(jù)采礦技術(shù)的重視若將DataWarehousing比喻作礦坑,DataMining就是深入礦坑采礦的工作。數(shù)據(jù)倉儲的目標(biāo)是在組織中、在正確的時間,將正確的數(shù)據(jù)交給正確的人。DataMining幫助企業(yè)找尋隱藏在數(shù)據(jù)中的訊息,如趨勢、特征及相關(guān)性的過程,也就是從數(shù)據(jù)中發(fā)掘信息或知識。探討與改善人類疾病的問題-生物統(tǒng)計學(xué)分子生物學(xué)已進(jìn)化到信息科學(xué),出現(xiàn)了新學(xué)科ComputationalBiology,或Bioinformatics.解決現(xiàn)今企業(yè)的問題-探討與改善人類疾病的問題-生物統(tǒng)計學(xué)數(shù)據(jù)的文字處理-語言意義的學(xué)習(xí)知識挖掘(整合數(shù)據(jù)挖掘與文本挖掘)與商業(yè)智能的發(fā)展逐漸成為重要的工具,只要一些簡單的算法,就可以從一些極為粗糙的工作中,得到不錯的結(jié)果以及從文章中建立出摘要,進(jìn)而進(jìn)行結(jié)果評估,定義未來的目標(biāo)及目的。統(tǒng)計學(xué)近40年的走勢20世紀(jì)60年代是穩(wěn)健統(tǒng)計盛行的時代。70年代早期,JohnTukey提出探索性資料分析(EDA),70年代后期,廣義線性模型研究。80年代以后,由于計算機(jī)的引入,數(shù)據(jù)模擬和非參數(shù)統(tǒng)計方法得到很大的發(fā)展,80年代后期在非參數(shù)領(lǐng)域中。90年代,推動了統(tǒng)計技術(shù)的研究。數(shù)據(jù)的文字處理統(tǒng)計學(xué)近40年的走勢
應(yīng)用舉例:生物統(tǒng)計[臺大臨床醫(yī)學(xué)研究部,張啟仁]目前在國外各大學(xué)醫(yī)學(xué)院及教學(xué)醫(yī)院中,有關(guān)生物統(tǒng)計研究服務(wù)
(biostatisticalresearchservices)的概念逐漸成型。生物統(tǒng)計咨詢
(biostatisticalconsultation)的研究服務(wù)也早已根深蒂固的深植于各個主要研究者之中。一個標(biāo)準(zhǔn)的生物醫(yī)學(xué)研究計劃,從其設(shè)計執(zhí)行到資料分析及文章發(fā)表,到處都可以看到生物統(tǒng)計學(xué)家的積極介入。也因此生物統(tǒng)計學(xué)家及其所屬的生物統(tǒng)計咨詢及數(shù)據(jù)處理中心
(BiostatisticalConsultingandDataCoordinatingCenter)已是評鑒一所醫(yī)學(xué)院與醫(yī)院的重要指標(biāo)。生物統(tǒng)計在醫(yī)學(xué)上的另一重要的貢獻(xiàn),即是在遺傳統(tǒng)計學(xué)上,正如前面所述,染色體基因的定序及其部份功能的確認(rèn),遺傳科學(xué)家即致力于基因與疾病之間的相關(guān)性
(association)研究,傳統(tǒng)的基礎(chǔ)生物統(tǒng)計理論已無法滿足這些有家族性相連的數(shù)據(jù)
(pedigreedata)。許多新的生物統(tǒng)計理論及其方法也相繼的被開發(fā)與應(yīng)用出來。因此遺傳統(tǒng)計學(xué)家
(geneticstatisticians)在疾病與基因相關(guān)之研究的需求也相對地增加。應(yīng)用舉例:生物統(tǒng)計[臺大臨床醫(yī)學(xué)研究部,張啟仁]目前在
應(yīng)用舉例:用機(jī)器對紐約時報采礦[2006,byNateAnderson]文字采礦(textmining)的訓(xùn)練(discipline)最近又更進(jìn)一步,一個來自于加州大學(xué)
Irvine分校的團(tuán)隊使用一種稱為
"topicmodeling"(話
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)大一(數(shù)字媒體技術(shù))數(shù)字媒體交互產(chǎn)品設(shè)計階段測試題及答案
- 2025年高職新材料(再生資源應(yīng)用)試題及答案
- 多組學(xué)技術(shù)在環(huán)境危險因素識別中的應(yīng)用
- 2025年中職機(jī)械制造與自動化(機(jī)械自動化操作)試題及答案
- 2025年高職(農(nóng)業(yè)技術(shù))土壤肥料應(yīng)用試題及答案
- 2026年汽車銷售(成交轉(zhuǎn)化)試題及答案
- 2025年高職印刷媒體技術(shù)(排版工藝)試題及答案
- 2025年大學(xué)(生物工程專業(yè))酶工程試題及答案
- 2025年大學(xué)本科(動物醫(yī)學(xué))動物傳染病防控試題及答案
- 2025年大學(xué)大二(設(shè)計學(xué))設(shè)計方法學(xué)基礎(chǔ)理論測試題及答案
- 送貨單格式模板
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、異丙醇和正丁醇檢驗
- 關(guān)于地方儲備糧輪換業(yè)務(wù)會計核算處理辦法的探討
- 上海農(nóng)貿(mào)場病媒生物防制工作標(biāo)準(zhǔn)
- YY 0334-2002硅橡膠外科植入物通用要求
- GB/T 1773-2008片狀銀粉
- (完整版)北京全套安全資料表格
- 辦公室危險源清單辦公室
- 碼頭工程混凝土結(jié)構(gòu)防腐涂料施工方案
- 動遷房房屋買賣合同
- 計算機(jī)網(wǎng)絡(luò)技術(shù)基礎(chǔ)課程標(biāo)準(zhǔn)
評論
0/150
提交評論