數(shù)據(jù)挖掘(第2版) 第2章 數(shù)據(jù)特征分析與預(yù)處理習(xí)題答案_第1頁
數(shù)據(jù)挖掘(第2版) 第2章 數(shù)據(jù)特征分析與預(yù)處理習(xí)題答案_第2頁
數(shù)據(jù)挖掘(第2版) 第2章 數(shù)據(jù)特征分析與預(yù)處理習(xí)題答案_第3頁
數(shù)據(jù)挖掘(第2版) 第2章 數(shù)據(jù)特征分析與預(yù)處理習(xí)題答案_第4頁
數(shù)據(jù)挖掘(第2版) 第2章 數(shù)據(jù)特征分析與預(yù)處理習(xí)題答案_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?答案僅供參考:數(shù)據(jù)如果能滿足其應(yīng)用要求,那么它肯定是高質(zhì)量的。數(shù)據(jù)質(zhì)量涉及許多因素,包括準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和可解釋性原始業(yè)務(wù)數(shù)據(jù)來自多個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù),減少算法的計(jì)算量,提高挖掘效率和準(zhǔn)確程度。簡述數(shù)據(jù)清洗的基本內(nèi)容。答案僅供參考:數(shù)據(jù)清洗階段的主要任務(wù)就是通過填寫缺失值,光滑噪聲數(shù)據(jù)、刪除離群點(diǎn)和解決屬性的不一致性等手段來清洗數(shù)據(jù)。數(shù)據(jù)清洗階段的主要任務(wù)就是通過填寫缺失值,光滑噪聲數(shù)據(jù)、刪除離群點(diǎn)和解決屬性的不一致性等手段來清洗數(shù)據(jù)。簡述數(shù)據(jù)預(yù)處理的方法和內(nèi)容。答案僅供參考:數(shù)據(jù)預(yù)處里包括以下四個(gè)階段:(1)數(shù)據(jù)清洗:包括填充空缺值,識(shí)別孤立點(diǎn),去掉噪聲和無關(guān)數(shù)據(jù)。(2)數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。(3)數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對(duì)數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。(4)數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。簡述數(shù)據(jù)空缺值的處理方法。答案僅供參考:處理缺失值的方法有三種:(1)忽略元組:也就是將含有缺失屬性值的對(duì)象(元組,記錄)直接刪除,從而得到一個(gè)完備的信息表。(2)數(shù)據(jù)補(bǔ)齊:使用一定的值對(duì)缺失屬性進(jìn)行填充補(bǔ)齊,從而使信息表完備化。數(shù)據(jù)補(bǔ)齊的具體實(shí)行方法較多:人工填寫、特殊值填充、平均值填充、使用最有可能的值填充。(3)不處理:有很多數(shù)據(jù)挖掘方法在屬性值缺失方面具有良好的魯棒性,直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。這類方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)約簡的方法有哪些?答案僅供參考:數(shù)據(jù)約簡的策略主要包括維規(guī)約和數(shù)量規(guī)約。維規(guī)約減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù),主要方法有小波變換、主成分分析和屬性子集選擇,通過這些方法可以把原始數(shù)據(jù)變換或投影到較小的空間,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測(cè)或刪除。數(shù)量規(guī)約是用替代的、較小的數(shù)據(jù)表示形式換原始數(shù)據(jù)。這些技術(shù)可以是參數(shù)或者非參數(shù)的。對(duì)于參數(shù)方法而言,使用模型估計(jì)數(shù)據(jù),使得一般只需要存放模型參數(shù)而不是實(shí)際數(shù)據(jù)(離群點(diǎn)需存放)。非參數(shù)方法包括:直方圖、聚類、抽樣和數(shù)據(jù)立方體聚類。什么是數(shù)據(jù)規(guī)范化?規(guī)范化的常用方法有哪些?寫出對(duì)應(yīng)的變換公式。答案僅供參考:數(shù)據(jù)規(guī)范化又稱標(biāo)準(zhǔn)化(standardization),通過將屬性的取值范圍進(jìn)行統(tǒng)一,避免不同的屬性在數(shù)據(jù)分析的過程中具有不平等的地位。常用方法有:最小-最大規(guī)范化、z-score規(guī)范化、按小數(shù)定標(biāo)規(guī)范化、獨(dú)熱編碼處理標(biāo)稱屬性數(shù)據(jù)?!臼纠?-10】種的數(shù)據(jù)[3、22、8、22、9、11、32、93、12],試用等寬分箱法完成數(shù)據(jù)平滑。解答:使用等寬(寬度為10)分箱發(fā)進(jìn)行平滑。原始數(shù)據(jù)3、22、8、22、9、11、32、93、12排序后3、8、9、11、12、22、22、32、93等寬分箱3、8、9、11、1222、22、3299均值平滑8.8325.3399均值平滑后8.83、8.83、8.83、8.83、8.83、25.33、25.33、25.33、99中值平滑92299中值平滑后9、9、9、9、9、22、22、22、99邊界值平滑3、9、9、12、1222、22、3299邊界值平滑后3、9、9、12、12、22、22、32、99下列數(shù)據(jù)是對(duì)鳶尾花進(jìn)行頻率統(tǒng)計(jì)后的部分?jǐn)?shù)據(jù),在此基礎(chǔ)上,用ChiMerge方法完成數(shù)據(jù)離散化。sepal_length0類1類2類和4.310014.430034.510014.640044.720024.850054.941165820105.181095.231045.31015.451065.525075.605165.725185.813375.90213參考答案:步驟:第一步:初始化根據(jù)要離散的屬性對(duì)實(shí)例進(jìn)行排序:每個(gè)實(shí)例屬于一個(gè)區(qū)間。上表中已按照sepal_length列排序。第二步:合并區(qū)間,又包括兩步驟:計(jì)算每一對(duì)相鄰區(qū)間的卡方值卡方的計(jì)算公式:參數(shù)說明:m=2,每次比較兩個(gè)相鄰區(qū)間,2個(gè)區(qū)間比較k=類別的數(shù)量Aij=第i區(qū)間第j類的實(shí)例數(shù)量Ri=第i區(qū)間的實(shí)例數(shù)量將卡方值最小的一對(duì)區(qū)間合并預(yù)先設(shè)定一個(gè)卡方的閾值,在閾值之下的區(qū)間都合并,閾值之上的區(qū)間保持分區(qū)間??ǚ介撝档拇_定:先選擇顯著性水平,再由公式得到對(duì)應(yīng)的卡方值。得到卡方值需要指定自由度,自由度比類別數(shù)量小1。例如,有3類,自由度為2,則90%置信度(10%顯著性水平)下,卡方的值為4.6。閾值的意義在于,類別和屬性獨(dú)立時(shí),有90%的可能性,計(jì)算得到的卡方值會(huì)小于4.6,這樣,大于閾值的卡方值就說明屬性和類不是相互獨(dú)立的,不能合并。如果閾值選的大,區(qū)間合并就會(huì)進(jìn)行很多次,離散后的區(qū)間數(shù)量少、區(qū)間大。用戶可以不考慮卡方閾值,此時(shí),用戶可以考慮這兩個(gè)參數(shù):最小區(qū)間數(shù),最大區(qū)間數(shù)。用戶指定區(qū)間數(shù)量的上限和下限,最多幾個(gè)區(qū)間,最少幾個(gè)區(qū)間。下面舉例說明期望值和卡方值的計(jì)算方法。:區(qū)間類別1類別2類別3i行的總數(shù)[4.3,4.5]1001[4.6,4.9]0123j列的總數(shù)1124區(qū)間類別1類別2類別3[4.3,4.5]1*1/4=0.251*1/4=0.251*2/4=0.5[4.6,4.9]1*3/4=0.751*3/4=0.752*3/4=1.5根據(jù)以上兩個(gè)表來計(jì)算某兩個(gè)區(qū)間的chi值:chi=(1-0.25)^2/0.25+(0-0.25)^2/0.25+(0-0.5)^2/0.5+(0-0.75)^2/0.75+(1-0.25)^2/0.25+(2-1.5)^2/1.5參考代碼:importsklearn.datasetsasirisdataimportnumpyasnpclassChiMerge:def__init__(self,data,min_section_num):self.min_section_num=min_section_numself.dat=data@staticmethoddefmerge_section(index_list,observe_list):"""合并區(qū)間:paramobserve_list:原來的區(qū)間集合:paramindex_list:要合并的位置:return:新的區(qū)間集合"""#print(observe_list)number=int(len(index_list)/2)foriinrange(number):first_section=observe_list[index_list[2*i]]#要合并的第一部分second_section=observe_list[index_list[2*i+1]]#要合并的第二部分new_section=[]#合并后的區(qū)間min_value=float(first_section[0].split("-")[0])max_value=float(second_section[0].split("-")[1])first_class=first_section[1]+second_section[1]second_class=first_section[2]+second_section[2]third_class=first_section[3]+second_section[3]new_section.append(str(min_value)+"-"+str(max_value))new_section.append(first_class)new_section.append(second_class)new_section.append(third_class)#print(new_section)observe_list[index_list[2*i]]=new_sectionobserve_list[index_list[2*i+1]]="no"foriinrange(number):observe_list.remove("no")returnobserve_list#foriinrange@staticmethoddefcomp_chi(observe_list):"""根據(jù)observe列表計(jì)算每個(gè)區(qū)間的卡方:paramobserve_list:排好的observe列表:return:最小chi所在的索引列表"""min_chi=float('inf')#記錄最小的chi#print(min_chi)index_list=[]foriinrange(int(len(observe_list)/2)):chi=0a1=observe_list[2*i][1]#第一個(gè)區(qū)間的信息b1=observe_list[2*i][2]c1=observe_list[2*i][3]d1=observe_list[2*i+1][1]#第二個(gè)區(qū)間的信息e1=observe_list[2*i+1][2]f1=observe_list[2*i+1][3]n=a1+b1+c1+d1+e1+f1a2=(a1+b1+c1)*(a1+d1)/nb2=(a1+b1+c1)*(b1+e1)/nc2=(a1+b1+c1)*(c1+f1)/nd2=(a2+b2+c2)*(a1+d1)/ne2=(a2+b2+c2)*(b1+e1)/nf2=(a2+b2+c2)*(c1+f1)/nifa2!=0:chi+=(a1-a2)**2/a2ifb2!=0:chi+=(b1-b2)**2/b2ifc2!=0:chi+=(c1-c2)**2/c2ifd2!=0:chi+=(d1-d2)**2/d2ife2!=0:chi+=(e1-e2)**2/e2iff2!=0:chi+=(f1-f2)**2/f2ifchi<min_chi:index_list.clear()index_list.append(2*i)index_list.append(2*i+1)min_chi=chicontinueifchi==min_chi:index_list.append(2*i)index_list.append(2*i+1)#print(min_chi)#print(index_list)returnindex_list@staticmethoddefinit_observe(sort_data):#sort_data為按屬性排好的數(shù)據(jù),格式為list套list"""對(duì)observe列表進(jìn)行初始化:paramsort_data::return:"""observe_list=[]foriinrange(len(sort_data)):#每個(gè)sort_data[i]代表每個(gè)區(qū)間max_value=0#存放每個(gè)區(qū)間的最大值和最小值min_value=0section_name=str(sort_data[i][0]).split("-")iflen(section_name)>1:min_value=float(section_name[0])max_value=float(section_name[1])else:min_value=max_value=float(section_name[0])first_class=0second_class=0third_class=0ifmin_value<=sort_data[i][0]<=max_value:ifsort_data[i][1]==0:first_class+=1ifsort_data[i][1]==1:second_class+=1ifsort_data[i][1]==2:third_class+=1section_list=[str(min_value)+"-"+str(max_value),first_class,second_class,third_class]observe_list.append(section_list)#print(observe_list)returnobserve_list@staticmethoddefcomp_observe(sort_data):#sort_data為按屬性排好的數(shù)據(jù),格式為list套list"""計(jì)算observe列表(除了初始化之外):paramsort_data::return:"""observe_list=[]foriinrange(len(sort_data)):#每個(gè)sort_data[i]代表每個(gè)區(qū)間max_value=0#存放每個(gè)區(qū)間的最大值和最小值min_value=0section_name=str(sort_data[i][0]).split("-")iflen(section_name)>1:min_value=float(section_name[0])max_value=float(section_name[1])else:min_value=max_value=float(section_name[0])first_class=0second_class=0third_class=0forjinrange(len(sort_data)):ifmin_value<=sort_data[j][0]<=max_value:ifsort_data[j][1]==0:first_class+=1ifsort_data[j][1]==1:second_class+=1ifsort_data[j][1]==2:third_class+=1section_list=[str(min_value)+"-"+str(max_value),first_class,second_class,third_class]print(section_list)defchi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論