版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、填空題(15分)1. 數(shù)據(jù)倉庫的特點分別是面向主題、集成、相對穩(wěn)定、反映歷史變化。2. 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。根據(jù)元數(shù)據(jù)用途的不同可將元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務元數(shù)據(jù)兩類。3.0LAP技術(shù)多維分析過程中,多維分析操作包括切片、切塊、鉆取、旋轉(zhuǎn)等。4.基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲的數(shù)據(jù)倉庫體系結(jié)構(gòu)常常被稱為“中心和輻射”架構(gòu),其中 企業(yè)級數(shù)據(jù)倉庫 是中心,源數(shù)據(jù)系統(tǒng)和數(shù)據(jù)集市在輸 入和輸出范圍的兩端。5.0DS實際上是一個集成的、面向主題的、可更新的、 當前值的、 企業(yè)級的、詳細的數(shù)據(jù)庫,也叫運營數(shù)據(jù)存儲。二、多項選擇題(10分)6. 在數(shù)據(jù)挖掘的分析方法中,直
2、接數(shù)據(jù)挖掘包括(ACD )A分類 B 關(guān)聯(lián) C 估值 D 預言7. 數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括(ABC)A數(shù)據(jù)抽取 B 數(shù)據(jù)轉(zhuǎn)換C 數(shù)據(jù)加載 D數(shù)據(jù)稽核8. 數(shù)據(jù)分類的評價準則包括(ABCD )A精確度 B查全率和查準率C F-Measure D 幾何均值9. 層次聚類方法包括(BC )A劃分聚類方法B凝聚型層次聚類方法 C分解型層次聚類方法 D 基于密 度聚類方法10. 貝葉斯網(wǎng)絡由兩部分組成,分別是( A D )A網(wǎng)絡結(jié)構(gòu) B 先驗概率 C后驗概率 D 條件概率表三、 計算題(30分)11. 個食品連鎖店每周的事務記錄如下表所示,其中每一條事務表示在一項收款機業(yè)務
3、中賣出的項目,假定 supmin=40% confmin=40%使用AprioN 算法計算 生成的關(guān)聯(lián)規(guī)則,標明每趟數(shù)據(jù)庫掃描時的候選集和大項目集。(15分)事務項目事務項目T1面包、果凍、花生醬T4啤酒、面包T2面包、花生醬T5啤酒、牛奶T3面包、牛奶、花生醬解:(1)由1=面包、果凍、花生醬、牛奶、啤酒的所有項目直接產(chǎn)生1-候選G,計算其支持度,取出支持度小于 supmin的項集,形成1-頻繁集L1,如下表所示:項集G支持度項集L1支持度面包4/5面包4/5花生醬3/5花生醬3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5(2) 組合連接Li中的各項目,產(chǎn)生2-候選集C2,計算其支持度,取出
4、支持度小于supmin的項集,形成2-頻繁集L2,如下表所示:項集G支持度項集L2支持度面包、花生醬3/5面包、花生醬3/5至此,所有頻繁集都被找到,算法結(jié)束,所以,confidence (面包 花生醬) = (4/5 ) / (3/5 ) =4/3> conf mincon fide nee (花生醬 面包) = (3/5 ) / (4/5 ) =3/4> conf min所以,關(guān)聯(lián)規(guī)則面包花生醬、花生醬 面包均是強關(guān)聯(lián)規(guī)則。12. 給定以下數(shù)據(jù)集(2,4,10,12,15, 3, 21),進行K-Means聚類,設定聚類數(shù)為2個,相似度按照歐式距離計算。(15分)解:(1)從數(shù)
5、據(jù)集X中隨機地選擇k個數(shù)據(jù)樣本作為聚類的出示代表點,每一個代表點表示一個類別,由題可知 k=2,則可設m=2,m=4:(2)對于X中的任意數(shù)據(jù)樣本Xm( 1<xm<total ),計算它與k個初始代表點的距 離,并且將它劃分到距離最近的初始代表點所表示的類別中:當m=2時,樣本(2,4,10,12,15, 3, 21)距離該代表點的距離分別為 2,8,10,13,1,19。當m=4時,樣本(2 , 4, 10, 12, 15, 3, 21)距離該代表點的距離分別為-2 ,6, 8, 11, -1 , 17。最小距離是1或者-1將該元素放入m=2的聚類中,則該聚類為(2, 3),另一
6、個 聚類 m2=4 為(4,10,12,15,21)。(3)完成數(shù)據(jù)樣本的劃分之后,對于每一個聚類,計算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點,由此得到k個均值代表點:m=2.5 , m=12:(4)對于 X 中的任意數(shù)據(jù)樣本 xm(1<xm<total ),計算它與 k 個初始代表點的 距離,并且將它劃分到距離最近的初始代表點所表示的類別中:當m1=2.5 時,樣本(2 ,4,10,12,15,3,21)距離該代表點的距離分別為 -0.5 ,0.5 ,1.5 ,7.5 ,9.5 ,12.5 ,18.5。當m=12時,樣本(2,4, 10,12, 15, 3, 21
7、)距離該代表點的距離分別為-10,-9 , -8 , 2, 3, 9。最小距離是 1.5 將該元素放入 m1=2.5 的聚類中,則該聚類為( 2, 3, 4),另一 個聚類 m=12為(10, 12, 15, 21)。( 5)完成數(shù)據(jù)樣本的劃分之后,對于每一個聚類,計算其中所有數(shù)據(jù)樣本的均 值,并且將其作為該聚類的新的代表點,由此得到 k 個均值代表點: m1=3, m2=14.5:( 6)對于 X 中的任意數(shù)據(jù)樣本 xm( 1<xm<total ),計算它與 k 個初始代表點的 距離,并且將它劃分到距離最近的初始代表點所表示的類別中:當m1=3 時,樣本(2 , 4, 10, 1
8、2, 15, 3, 21)距離該代表點的距離分別為 -1 , 1, 7, 9, 12, 18 ,。當 m2=14.5 時,樣本( 2 , 4, 10, 12, 15, 3, 21)距離該代表點的距離分別為-12.58 , -11.5 , -10.5 , -4.5 , -2.5 , 0.5, 6.5。最小距離是0.5將該元素放入m=3的聚類中,則該聚類為(2, 3, 4),另一個聚類 02=14.5 為(10,12,15,21)。至此,各個聚類不再發(fā)生變化為止,即誤差平方和準則函數(shù)的值達到最優(yōu)。四設計題(45分)13. 按照題目給定的3個數(shù)據(jù)文件,任選一個建立數(shù)據(jù)流圖,要求至少包括記錄選項、字段
9、選項、圖形結(jié)點各一個。任選關(guān)聯(lián)規(guī)則Apriori算法、貝葉斯網(wǎng)絡、K-Means聚類、決策樹C5.0 (C4.5)算法、神經(jīng)網(wǎng)絡中的一個進行挖掘,并給出數(shù)據(jù)流圖。(10分)churncmurn對以上數(shù)據(jù)流圖中使用的每個結(jié)點做一簡短說明。(10分) 選擇:age>25.過濾:過濾后的字段。Regio n, te nure,age,marital,churn.宇段類型值厭失檢查方可regiontenureFIEJFl_F1BJ rm im tm +巳直+B F F F1 SJ70.1【叩】14. 給出以上數(shù)據(jù)流圖中模型的執(zhí)行結(jié)果 (生成模型完全展開后的數(shù)據(jù)),對于執(zhí)行結(jié)果太多的,可節(jié)選部分結(jié)
10、果。(10分)過濾:過濾后的字段。Regio n, te nure,age,marital,churn.過濾:過濾后的字段。Regio n, te nure,age,marital,churn.Jipe*=Ft=H1 走亠1151 -I 2 F 日 HLFTzz4占殲 m 口iW < 4 0丁曰 a > 4-1r-r-isirit&l C O_4S >亠卜 Jfn re q I o> ri a 1 O O 5<> 頁磚孝±_壬 O "F TL-T*t0P0< dNb曰 N >"p* r-Fisrl1r&
11、;l < 0.0 > 葉1于"T-=i |r-| ILJ r& < 3 衛(wèi) T 3 曰 > a l oi m一 -1 OO<tMS.>l=j- -erg!玉住凸二 & e Fwmt中m a © < o. 3&S > 匸口占= itmmiriitmj f 匚i ” 口二 i-3*-?-J r& < 3 坷.5 Y 才 >Str-E*o* on <1 一 q 口口耳 Qim < -< 3-1 Iri "?- >r¥f F n >FF>
12、;"* " J *=* < r=S!l 4 hF=E >亠廠戶 b n> m < -i =- -i n n 7»>鼻 i_-5S3 <Z®> IFC Ft15. 對以上模型生成的結(jié)果做一簡要的分析,包括算法采用的基本原理、數(shù)學模型、算法步驟等。(15分)答: k-means聚類算法基本原理:將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為 該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)劃分為不同的類別,使得評價聚集類性能的準則函數(shù)達到最優(yōu),從而使生成的每個聚集類的緊湊,類間 獨立。操作步驟:輸入:數(shù)據(jù)集 , 其中的數(shù)據(jù)樣本只包含描述屬性,不包含類別屬性。聚類個數(shù) K輸出:(1)從數(shù)據(jù)集X中隨機地選擇k個數(shù)據(jù)樣本作為聚類的出示代表點,每一個代表點表示一個類別( 2)對于 X 中的任意數(shù)據(jù)樣本 xm( 1<xm<total ),計算它與 k 個初始代表點的 距離,并且將它劃分到距離最近的初始代表點所表示的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 胃腸減壓的護理質(zhì)量評價
- 分級診療服務技術(shù)方案
- 跨行業(yè)的企業(yè)資源管理模板
- 分類培訓課程
- 分析檢驗技術(shù)課件
- 色彩肌膚護理與季節(jié)變化
- 航模飛行原理
- 上肢血管分布
- 2026年遼寧錦州事業(yè)單位招聘考試新變化易考易錯模擬試題(共500題)試卷后附參考答案
- 2026年贛州崇義縣林業(yè)局招考縣專業(yè)森林消防隊員(10人)易考易錯模擬試題(共500題)試卷后附參考答案
- 北京市公路挖掘及路產(chǎn)損壞賠償指導標準2025
- 北京市通州區(qū)2024-2025學年八年級下學期學業(yè)質(zhì)量檢測生物考試題目及答案
- 雅詩蘭黛新人培訓
- 2025年高考(甘肅卷)地理真題(學生版+解析版)
- 中醫(yī)男科學理論知識考核試題及答案
- 中移動薪酬管理辦法
- GB/T 45758-2025室內(nèi)照明環(huán)境下光催化材料細菌減少率的測定半干法估算實際環(huán)境細菌污染表面抗菌活性
- 護理教學如何融入思政
- 宮腔鏡手術(shù)并發(fā)癥的預防與處理
- 放療患者的飲食指導及護理
- 工程投標工作匯報
評論
0/150
提交評論