《數(shù)據(jù)挖掘》A卷文檔_第1頁
《數(shù)據(jù)挖掘》A卷文檔_第2頁
《數(shù)據(jù)挖掘》A卷文檔_第3頁
《數(shù)據(jù)挖掘》A卷文檔_第4頁
《數(shù)據(jù)挖掘》A卷文檔_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PAGE1PAGE14一、填空題:(每題6分,共30分)1.數(shù)據(jù)挖掘的主要問題包括:。2.數(shù)據(jù)挖掘的性能問題包括:。3.數(shù)據(jù)挖掘的分類方法有。4.數(shù)據(jù)挖掘的聚類方法有。5.數(shù)據(jù)挖掘的基本步驟是。二、問答題:(每題6分,共30分)1.對于類特征化,基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。2.數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有那些相似之處?3.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。4.試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法,而不愿使用查詢驅(qū)動的方法。5.為什么說強關(guān)聯(lián)規(guī)則不一定都是有趣的,舉例說明。三、證明題(10分)證明頻繁集的所有非空子集必須也是頻繁的。2.Apriori的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分為個不重疊的部分。證明在D中是頻繁的任何項集至少在D中的一個部分中是頻繁的。四、算法分析與擴展(15分)1.描述判定樹算法的思想。2.寫出比較易懂的算法偽代碼3.指出算法的不足之處,應(yīng)該從哪些方面增強算法的功能和性能。五、計算題(15分)給定兩個對象,分別用元組(22,1,42,10),(20,0,36,8)表示。計算兩個對象之間的歐幾里德距離;計算兩個對象之間的蔓哈坦距離;給定年齡變量的如下度量值18,22,25,42,28,43,33,35,56,28計算age的平均絕對偏差。填空題:(每題6分,共30分)1.數(shù)據(jù)挖掘是一個多學科領(lǐng)域,這些學科包括:數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學、機器學習、可視化、信息科學。2.數(shù)據(jù)挖掘的功能有特征化和區(qū)分、關(guān)聯(lián)分析、分類和預測、聚類分析、孤立點分析、演變分析。3.數(shù)據(jù)挖掘的分類方法有判定樹算法,貝葉斯方法,神經(jīng)網(wǎng)絡(luò),K-最近鄰分類,基于案例的推理,遺傳算法,粗糙集方法,模糊集方法等。4.數(shù)據(jù)挖掘的聚類方法有劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。5.多媒體數(shù)據(jù)挖掘主要有多媒體數(shù)據(jù)相似性搜索、多媒體數(shù)據(jù)多維分析、多媒體數(shù)據(jù)的分類與預測分析多媒體數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘。二、問答題:(每題6分,共30分)1.數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù).它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合.2.試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法,而不愿使用查詢驅(qū)動的方法。答:因為對于多個異種信息源的集成,查詢驅(qū)動方法需要復雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理,另外,還支持復雜的多維查詢。 當異種數(shù)據(jù)源上的數(shù)據(jù)格式一致或者轉(zhuǎn)換比較容易,并且所要求的查詢比較簡單,不需要復雜的多維查詢時,查詢驅(qū)動方法可能更受歡迎。3.多維數(shù)據(jù)模型上的OLAP操作有那些?答:上卷,下鉆,切片,切快,旋轉(zhuǎn)4.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的方法。答:1)忽略元組2)人工填寫空缺值3)使用一個全局常量填充空缺值4)使用屬性的平均值填充空缺值5)使用與給定元組屬同一類的所有樣本的平均值6)使用最可能的值填充空缺值其中,方法3到6使數(shù)據(jù)傾斜,填入的值可能不正確。不過,方法6是最常用的方法5.簡略比較雪花模式、事實星座、星型網(wǎng)查詢模型概念,用例子解釋你的觀點星型模式:最常見的模型范例,其中數(shù)據(jù)倉庫包括一個答的包含大批數(shù)據(jù)和不含冗余的中心標(事實表),一組小的屬性表。這種模式圖很像星星爆發(fā),維表圍繞中心表顯示在射線上。三、證明題(每題5分,共10分)1.證明頻繁集的所有非空子集必須也是頻繁的。反證法。根據(jù)定義,如果項集滿足最小支持度閾值,則不是頻繁的,即。如果項A添加到,則結(jié)果項集間(即)不可能比更頻繁出現(xiàn)。因此,也不是頻繁的,即P()<min_sup。矛盾。2.給定頻繁項集和的子集,證明規(guī)則“”的置信度不可能大于“”的置信度。其中,是的子集。根據(jù)定義,規(guī)則的置信度為:表示項集A出現(xiàn)的次數(shù)規(guī)則的置信度為:規(guī)則的置信度同理可得:,又因為是的子集,,所以規(guī)則“”的置信度不可能大于“”的置信度四、算法分析與擴展(15分)1.描述判定樹算法的思想。樹以代表訓練樣本的單個節(jié)點開始(步驟1)如果樣本都在同一個類,則該節(jié)點成為樹葉,并用該類標記(步驟2和3)否則,算法使用稱為信息增益的基于滴的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性(步驟6)。該屬性成為該節(jié)點的“測試”或“判定”屬性(步驟7)。在算法的這個版本中,所有的屬性都是分類的,即取離散值的。連續(xù)值的屬性必須離散化。對測試屬性的每個已知的值,創(chuàng)建一個分枝,并據(jù)此劃分樣本(步驟8-10)。算法使用同樣的過程,遞歸地形成每個劃分上的樣本判定樹。一旦一個屬性出現(xiàn)在一個節(jié)點上,就不必考慮該節(jié)點的任何后代上(步驟13)。遞歸劃分步驟僅當下列條件之一成立時停止:(a)給定節(jié)點的所有樣本屬于同一類(步驟2和3)。(b))沒有剩余屬性可以用來進一步劃分樣本(步驟4)。在此情況下,使用多數(shù)表決(步驟5)。這涉及將給定的節(jié)點轉(zhuǎn)換成樹葉,并用samples中的多數(shù)所在的類標記它。換一種方式,可以存放節(jié)點樣本的類分布。(c)分枝testattribute=a;沒有樣本(步驟11)。在這種情況下,以samPles中的多數(shù)類創(chuàng)建一個樹葉(步驟12)。2.寫出比較易懂的算法偽代碼偽碼:算法:GenerateAecisionjree由給定的訓練數(shù)據(jù)產(chǎn)生一棵判定樹。輸入:訓練樣本samples,由離散值屬性表示;候選屬性的集合attributMlist。輸出:一棵判定樹。方法:O)創(chuàng)建節(jié)點N;(2)ifsamples都在同一個類Cthen(3)返回N作為葉節(jié)點,以類C標記(4)Ifattributlist為空then(5)返回N作為葉節(jié)點,標記為samples中最普通的類;//多數(shù)表決(6)選擇attribute_list中具有最高信息增益的屬性test_attribute;(7)標記節(jié)點N為lest_attribute;(8)foreachtest_attribute中的已知值ai(9)由節(jié)點N長出一個條件為test_attribute=ai的分支(10)設(shè)S是Samples中test_attribute=ai的樣本的集合(11)ifsi為空then(12)加上一個樹葉,標記為samples中的最普通的類(13)else加上一個由Fenerate_decision_tree返回的節(jié)點3.指出算法的不足之處,應(yīng)該從哪些方面增強算法的功能和性能。信息增益度量有傾斜,它傾向于適合具有許多值的屬性。不能、處理空缺值,此算法還可能面對碎片,重復和復制的問題。對追加樣本的學習不方便,算法的可伸縮性不強等。五、計算題(15分)給定兩個對象,分別用元組(22,1,42,10),(20,0,36,8)表示。計算兩個對象之間的歐幾里德距離;計算兩個對象之間的蔓哈坦距離;計算兩個對象之間的明考斯基距離,q=3。距離公式:歐幾里德距離公式:曼哈坦距離公式:明考斯基距離公式:二、問答題:

1.對于類特征化,基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。

2.數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有那些相似之處?

3.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。

4.試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法,而不愿使用查詢驅(qū)動的方法。

5.為什么說強關(guān)聯(lián)規(guī)則不一定都是有趣的,舉例說明。

三、證明題

1.證明頻繁集的所有非空子集必須也是頻繁的。

2.Apriori的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分為個不重疊的部分。證明在D中是頻繁的任何項集至少在D中的一個部分中是頻繁的。

四、算法分析與擴展

1.描述判定樹算法的思想。

2.寫出比較易懂的算法偽代碼

3.指出算法的不足之處,應(yīng)該從哪些方面增強算法的功能和性能。

五、計算題

給定兩個對象,分別用元組(22,1,42,10),(20,0,36,8)表示。

1.

計算兩個對象之間的歐幾里德距離;

2.

計算兩個對象之間的蔓哈坦距離;一、選擇題1.企業(yè)要建立預測模型,需準備建模數(shù)據(jù)集,以下四條描述建模數(shù)據(jù)集正確的是(B)。A數(shù)據(jù)越多越好B盡可能多的適合的數(shù)據(jù)C得分集數(shù)據(jù)是建模集數(shù)據(jù)的一部分D以上三條都正確2.數(shù)據(jù)挖掘算法以(D)形式來組織數(shù)據(jù)。A行B列C記錄D表格3.企業(yè)成功實施數(shù)據(jù)挖掘,需要以下(B)知識或技術(shù)A預先的規(guī)劃B對商業(yè)文體的理解 C綜合商業(yè)知識和技能D都需要4.有關(guān)數(shù)據(jù)集市的說法正確的是(B)A.是大型的、針對特定目標且建設(shè)成本較低的一種數(shù)據(jù)倉庫B.實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相同C.獨立的數(shù)據(jù)集市是根據(jù)中央數(shù)據(jù)倉庫派生出來的D.非獨立的數(shù)據(jù)集市是根據(jù)操作數(shù)據(jù)形成的5.在超市所從事的信息中介活動中,哪項屬于挖掘序列模式(B)A.針對匿名客戶,記錄其購買某種商品時,與該商品有關(guān)的優(yōu)惠B.針對注冊客戶,分析他們的購買,向他們設(shè)定下次可能購買的優(yōu)惠規(guī)則C.針對所有客戶,對其貨藍子里的商品進行分析D.針對注冊客戶,進行客戶分類,確定重要客戶以及服務(wù)對策6.如果對簡單線性回歸模型進行顯著性檢驗的結(jié)果是不能拒絕H0,這就意味著:(D)A該模型有應(yīng)用價值 B該模型無應(yīng)用價值C該模型求錯了 DX與Y之間毫無關(guān)系7.進行回歸分析時,需要對回歸分析結(jié)果進行檢驗,對回歸系數(shù)顯著性進行檢驗時,使用(AB)統(tǒng)計量At BF CD.W. D以上都不是8.在利用D.W.檢驗回歸自相關(guān)性時,下列敘述正確的是(D)A當時,如果,認為存在正自相關(guān)B時,如果,認為存在負自相關(guān)C當時,如果,認為存在負自相關(guān);如果,認為存在正自相關(guān)D當D.W.值在2左右時,模型不存在一階自相關(guān)9.下列說法錯誤的是(D)A,則A和B是獨立的項,它表示對產(chǎn)品A的購買和產(chǎn)品B的購買是兩個獨立的事件B,則A和B是負相關(guān)的,它表示如果一個顧客購買A,則他也購買B的可能性不大C,則A和B沒有任何關(guān)聯(lián)D,表示當A為真時,B的概率會下降10.下列說法正確的是(B)AEM聚類屬于硬聚類Bk-means屬于分割聚類Ck-means屬于軟聚類DEM聚類屬于層次聚類二、填空題1.數(shù)據(jù)挖掘的三大支柱分別是(數(shù)據(jù)挖掘技術(shù)與算法)(無所不在的數(shù)據(jù))(建立有效的預測模型)2.數(shù)據(jù)倉庫的優(yōu)點是(數(shù)據(jù)倉庫是從一個點上觀察整個企業(yè),而不是許多小定義的“地下倉庫”的拼湊集合)和(數(shù)據(jù)挖掘記錄的是最令人感興趣的詳細的數(shù)據(jù))3.在利用SQLSERVER2005進行數(shù)據(jù)挖掘時,數(shù)據(jù)挖掘的任務(wù)中,(時序分析)可以沒有輸入4.根據(jù)下表資料完成表中指標的計算并回答問題。某年某地區(qū)按人口年齡分組的某疾病資料年齡人口數(shù)患者數(shù)新發(fā)病例數(shù)死亡數(shù)死亡百分比%患病率‰發(fā)病率‰死亡率‰病死率%0~2082920488170912.335.892.050.111.8420~40366394511521723.2912.314.150.463.7740~60281612731332230.149.694.720.788.0660以上9370110462534.2511.744.912.6722.73合計157090132250173100.0039.6315.834.0236.40(1)患者中以(0~20)歲組為最多,占(36.91)%。(2)患病率以(20~40)歲組為最高,達到(12.31)‰。(3)發(fā)病率以(60以上)歲組為最高,達到(4.91)‰。(4)死亡率以(60以上)歲組為最高,達到(2.67)‰。(5)病死率以(60以上)歲組為最高,達到(22.73)‰。5.時間序列分析方法就其發(fā)展的歷史階段和使用的方法來看,可以分為(確定性時間序列分析方法)和(隨機時間序列分析方法)6.人腦中的神經(jīng)網(wǎng)絡(luò)是一種高度(并行)的非線性信息處理系統(tǒng)7.神經(jīng)網(wǎng)絡(luò)的能力特征包括(自適應(yīng)性)(自學習)(自組織)8.生物神經(jīng)元在結(jié)構(gòu)上由(細胞體(Cellbody))(樹突(Dendrite))(軸突(Axon))(突觸(Synapse))四部分組成9.BP學習算法中,各層權(quán)值調(diào)整公式形式上都是一樣的,均由3個因素決定,即(學習率)(本層輸出的誤差信號)和本層輸入信號10.{發(fā)燒,上呼吸道感染}是(2)項集11.在利用SQLSERVER2005進行關(guān)聯(lián)規(guī)則挖掘的時候,常常通過(最小支持度)(最小項集大?。êY選項集)來控制項集的顯示三、問答題(答案略)1.簡述數(shù)據(jù)挖掘與機器學習、統(tǒng)計學之間的區(qū)別與聯(lián)系。2.討論下列每項活動是否是數(shù)據(jù)挖掘任務(wù):(a)

根據(jù)性別劃分公司的顧客。(b)

根據(jù)可贏利性劃分公司的顧客。(c)

計算公司的總銷售額。(d)

按學生的標識號對學生數(shù)據(jù)庫排序。(e)

預測擲一對骰子的結(jié)果。(f)

使用歷史記錄預測某公司未來的股票價格。(g)

監(jiān)視病人心率的異常變化。(h)

監(jiān)視地震活動的地震波。(i)

提取聲波的頻率。3.企業(yè)面對海量數(shù)據(jù),應(yīng)如何具體實施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果/模型?4.數(shù)據(jù)倉庫和數(shù)據(jù)集市有什么區(qū)別?5.簡述數(shù)據(jù)分類的兩步過程?6.直線回歸分析中應(yīng)注意哪些問題?7.如何評價所建立的多元線性回歸方程的優(yōu)劣?殘差分析有何作用?8.指數(shù)平滑方法中有哪幾個重要的參數(shù)?它們的幾何意義是什么?9.什么是人工神經(jīng)網(wǎng)絡(luò)?10.簡述Apriori算法的基本原理11.什么是聚類分析?聚類方法有幾種?其距離計算有哪幾種方法?12.聚類分析的統(tǒng)計量包括哪兩種?13.簡述EM聚類的基本步驟四、分析計算題(答案略)1.假定你作為一個數(shù)據(jù)挖掘顧問,受雇于一家保健品銷售公司。通過特定的例子說明如何使用諸如聚類、分類、關(guān)聯(lián)規(guī)則挖掘和異常檢測等技術(shù),數(shù)據(jù)挖掘可以為公司提供幫助。2.證明頻繁集的所有非空子集必須也是頻繁的。3.考慮有四個與某疾病有關(guān)的因素與該病的患病率資料如下:用excel建庫,并對其進行多重回歸和相關(guān)分析。某疾病的患病率與四個影響變量x1x2x3x4y(患病率%)x1x2x3x4y(患病率%)1725142656.92547630115.8456243887.4242244282.6842122765.412661214120.3113294888.51067913108.875273496.272666078.511581024109.2129155274.3467156103.31256921102.2234204682462372578.8120185698.74.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:1)使用按箱平均值平滑對以上數(shù)據(jù)進行平滑,箱的深度是3。解釋你的步驟。2)對于數(shù)據(jù)平滑,還有哪些其他方法?5.某地10名一年級女大學生的胸圍(cm)與肺活量(L)數(shù)據(jù)如下表所示。試建立肺活量Y與胸圍X的回歸方程,并估計胸圍為75厘米時相應(yīng)肺活量均數(shù)的95%可信區(qū)間以及個體值的95%預測區(qū)間。10名一年級女大學生的胸圍(cm)與肺活量(L)學生編號12345678910胸圍X72.583.978.388.477.181.778.374.873.779.4肺活量Y2.513.111.913.282.832.863.161.912.983.286.有學者認為,血清中低密度脂蛋白增高和高密度脂蛋白降低是引起動脈硬化的一個重要原因。現(xiàn)測量了30名被懷疑患有動脈硬化的就診患者的載脂蛋白AⅠ、載脂蛋白B、載脂蛋白E、載脂蛋白C、低密度脂蛋白中的膽固醇、高密度脂蛋白中的膽固醇含量,資料如下表所示:30名就診患者血清中低、高密度脂蛋白中的膽固醇含量及載脂蛋白的測量結(jié)果序號i載脂蛋白AⅠ載脂蛋白B載脂蛋白E載脂蛋白C低密度脂蛋白高密度脂蛋白(mg/dl)(mg/dl)(mg/dl)(mg/dl)(mg/dl)(mg/dl)X1X2X3X4Y1Y211731067.014.71376221391326.417.81624331981126.916.71348141181387.115.7188395139948.613.613851617516012.120.321565713115411.221.51714081581419.729.61484291581377.418.219756101321517.517.211337111621106.015.9145701214411310.142.88141131621377.220.718556141691298.516.715758151291386.310.1197471616614811.533.415649171851186.017.515669181551216.120.415457191751114.127.214474201361109.426.09039211531338.516.921565221101499.524.71844023160865.310.811857241121238.016.612734251471108.518.413754262041226.121.012672271311026.613.413051281701278.424.713562291731238.719.0188853013213113.829.212238用相關(guān)軟件完成:(1)試分別求Y1,Y2對X1,X2,X3,X4的線性回歸方程,并作分析。(2)用向前法、向后法和逐步回歸法選擇自變量,看結(jié)果是否一致。(3)作Y2/Y1對X1,X2,X3,X4的逐步回歸分析,并與前面的分析結(jié)果進行比較。(4)進一步作殘差分析,看是否滿足回歸分析的條件和有無離群值。(5)根據(jù)上面的分析,從專業(yè)上用文字扼要地敘述最后的分析結(jié)果。7.下表收集了某地1993年~2000年的傳染病的發(fā)病率,試用二次曲線擬合發(fā)病率的變化趨勢,并對2001年~2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論