版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1Chapter 13 案例探討_圖書借閱2內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)3簡介以圖書借閱數(shù)據(jù)為例,說明數(shù)據(jù)探勘的處理過程:數(shù)據(jù)取得、需求分析、資料整理、資料倉儲建立、資料探勘、結(jié)果分析。探討問題:探討不同科系是否借閱不同類別的書?不同年級學(xué)生是否借閱不同類別的書?大學(xué)部與研究生是否有不同的借閱習(xí)慣?圖書分類是否有改進(jìn)的地方?借閱紀(jì)錄是否隱藏不易發(fā)掘而且重要的信息 ?實例解說資料探勘過程,了解數(shù)據(jù)探勘的過程,建立具體的印象與觀念,注重過程,而非結(jié)果。4內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)5原始數(shù)據(jù)源根據(jù)需求分析,只考慮書籍、系所部門、讀者、借閱
2、數(shù)據(jù) 四個數(shù)據(jù)表數(shù)據(jù)表名稱原始資料總筆數(shù)字段個數(shù)Book36429922Department3239Reader3731831History (借閱歷史資料)113264836內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)7第一階段數(shù)據(jù)前置處理(1)原始數(shù)據(jù)利用數(shù)據(jù)轉(zhuǎn)換匯入SQL Server將 Reader與 Department 數(shù)據(jù)表合成新的 Reader 數(shù)據(jù)表 。在Reader 數(shù)據(jù)表內(nèi):增加college字段,建立:系所學(xué)院 概念階層。 依學(xué)號分類,新增grade字段,記錄用戶年級,區(qū)分為freshman、sophomore、junior、senior、postgrad
3、uate、candidate for PhD、teacher等七個類別。 只保留 rno(讀者id)、dept_code、dept_name、college_name、grade 字段,其余字段全部刪除。 8第一階段數(shù)據(jù)前置處理(2)在Book 數(shù)據(jù)表內(nèi)的:根據(jù)中西文圖書分類,在索書號上新增sub_class及class屬性,建立書籍種類的概念階層 。將language字段重新分類,保留最多的中文、英文、日文三類,將其余語言歸類為other。建立publsih_interval字段,出版年以五年為一區(qū)間,作為出版年代的概念階層之用。僅留下marc_id(書籍id)、title、author、p
4、ublisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。9第一階段數(shù)據(jù)前置處理(3)利用中西文圖書分類檢表,將書分為4大類,大類再細(xì)分成子項目。10第一階段數(shù)據(jù)前置處理(4)在History 數(shù)據(jù)表內(nèi):將借閱日期拆成三個字段:借閱年、借閱月、借閱日,作為將來時間的概念階層。加入amount 字段,代表借書的本數(shù),一般都為 1,作為事實數(shù)據(jù)表的量值。僅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其中amou
5、nt字段為量值。11第二階段數(shù)據(jù)前置處理(1)在 Reader 數(shù)據(jù)表,分析對象為正常學(xué)制學(xué)生,刪除外校人士、行政人員、在職專班、轉(zhuǎn)系、大五、大六、系所空白者、身分無法辨認(rèn)者。在 Book 數(shù)據(jù)表內(nèi),刪除索書號不完全者;刪除期刊數(shù)據(jù)及校內(nèi)論文、不能外借之書籍(如當(dāng)期雜志)、視聽資料(如CD、LD、tape)等。在 History 數(shù)據(jù)表內(nèi),刪除索書號不完整之紀(jì)錄;刪除rno(user id)無法在整理過的Reader 數(shù)據(jù)表找到之紀(jì)錄;刪除索書號無法在整理過的Book 數(shù)據(jù)表找到之紀(jì)錄。12第二階段數(shù)據(jù)前置處理(2)資料整理前后數(shù)據(jù)表內(nèi)容變化比較數(shù)據(jù)表名稱原始資料總筆數(shù)資料整理后的總筆數(shù)原始字
6、段個數(shù)整理過后字段個數(shù)Book364299752142211Reader373188587315History 11326486120753613內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)14數(shù)據(jù)倉儲設(shè)計(1)事實數(shù)據(jù)表:History 為事實數(shù)據(jù)表,amount 量值。維度:Reader、Book與Time三個維度。15數(shù)據(jù)倉儲設(shè)計(2)在Reader 維度數(shù)據(jù)表內(nèi)找到兩種概念階層:年級:rno grade學(xué)院系所:rno dept_name college_name在Book 維度數(shù)據(jù)表內(nèi)找到三種概念階層:語言:title language主題分類:title sub_cl
7、ass class出版年:publish_year publish_interval在 Time 維度找到一種概念階層:借閱日期:borrow_dateborrow_monthborrow_year16數(shù)據(jù)倉儲設(shè)計(3)星狀式架構(gòu)的資料倉儲17內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)18判定樹資料探勘分析預(yù) 測 項 目書籍、學(xué)生、語言類別百 分 比(預(yù)測借書類別)人文社會學(xué)院博士班學(xué)生Art 13.56%General1.69%Geography/History1.69%Language/Literature1.69%Natural Sciences59.32%Philoso
8、phy/Psychology6.78%Religion1.69%Social Sciences11.86%Missing1.69%(預(yù)測借閱讀者的身分)心理哲學(xué)方面的英文書Candidate for PhD11.08%Freshman7.06%Junior16.67%Postgraduate34.58%Senior15.59%Sophomore14.25%Teacher0.75%Missing0.03%(預(yù)測借閱書籍的語言)語言文學(xué)方面被借的書籍Chinese66.58%English33.32%Japan0.09%Others0.01%Missing0.00%19分群資料探勘分析(1)群組一
9、:不同時間借書比例Cluster 1 總計3064.04100.00%2001/Dec242.447.91%2001/Apr236.857.73%2002/Apr225.347.35%2002/May223.597.30%2002/Mar220.517.20%2001/Nov218.387.13%2001/Oct198.856.49%2002/Jan196.186.40%2001/Mar190.566.22%2001/May188.306.15%2002/Feb173.925.68%2001/Feb169.105.52%2001/Jun146.564.78%2001/Sep145.134.74
10、%2001/Jan118.293.86%2001/Aug90.892.97%2001/Jul79.152.58%Missing00.00%群組二:不同時間借書比例Cluster 2 總計2951.87100.00%2002/May318.2110.78%2001/Dec225.627.64%2001/Jan221.287.50%2002/Apr203.856.91%2001/Nov197.876.70%2001/Feb190.026.44%2002/Jan184.676.26%2002/Mar180.36.11%2001/May179.826.09%2001/Oct179.096.07%200
11、1/Mar174.695.92%2001/Apr154.055.22%2001/Jun150.355.09%2002/Feb141.994.81%2001/Sep127.514.32%2001/Jul69.082.34%2001/Aug53.461.81%Missing00.00%20分群資料探勘分析(2)群組一:不同年級、類別借書比例Cluster 1 總計3064.04100.00%Postgraduate 1347.7543.99%Candidate for PhD 427.3713.95%Sophomore 375.9612.27%Junior318.1110.38%Freshman
12、300.599.81%Senior287.559.38%Teacher6.720.22%Missing00.00%群組二:不同年級、類別借書比例Cluster 2 總計2951.87100.00%Postgraduate 1322.5644.80%Freshman 489.1216.57%Candidate for PhD 427.7714.49%Sophomore 339.0911.49%Junior217.247.36%Senior139.524.73%Teacher16.570.56%Missing00.00%21分群資料探勘分析(3)群組一:不同類別書籍被借比例Cluster 1 總計
13、3064.04100.00%Natural Sciences 1611.5152.59%Language/Literature 411.5513.43%Social Sciences 352.2311.50%General240.927.86%Art178.235.82%Geography/History 142.674.66%Philosophy/ Psychology108.163.53%Religion18.760.61%Missing00.00%群組二:不同類別書籍被借比例Cluster 2 總計2951.87100.00%Natural Sciences 1864.7663.17%L
14、anguage/Literature 355.0212.03%Social Sciences 275.099.32%General155.555.27%Geography/History 119.214.04%Art104.283.53%Philosophy/Psychology61.622.09%Religion16.340.55%Missing00.00%22關(guān)連法則資料探勘分析(1)項次學(xué) 生 類 別Imply書籍類別支持度 (%)信賴度 (%)1College = Electrical Engineering and Computer Science ANDPeople = Candi
15、date for PhD.Natural Science12.290.02College =Electrical Engineering and Computer Science ANDPeople = PostgraduateNatural Science23.896.23College = Engineering ANDPeople = PostgraduateNatural Science12.796.24College = Science ANDPeople = PostgraduateNatural Science10.885.75College = Electrical Engin
16、eering AND Computer ScienceNatural Science40.592.76College = EngineeringNatural Science22.593.37College = ScienceNaturalScience21.278.98People = Candidate for PhD.NaturalScience26.291.09People = PostgraduateNatural Science48.589.823結(jié)果分析 發(fā)現(xiàn)借閱率較高的書,大多是1988年到1999年,建議多購新版的書,或者調(diào)查新書流動率不高的原因。每個系所借閱書籍的種類,和所學(xué)科系有相關(guān),建議借閱方式可以更彈性。例如,提高電子系學(xué)生借閱電子類別書目的冊數(shù),以方便學(xué)生閱讀與研究。書籍 subject字段(表示書的類別),此類別為人工手動建置,n所以字段格式并不統(tǒng)一,例如:有Computer Language Mak
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026上海造幣有限公司招聘3人備考題庫及答案詳解(易錯題)
- 2026山東濟(jì)寧市鄒城市教體系統(tǒng)急需緊缺人才招聘70人備考題庫及1套參考答案詳解
- 2026四川省革命傷殘軍人休養(yǎng)院(四川省第一退役軍人醫(yī)院)第一批招聘編外人員11人備考題庫完整參考答案詳解
- 2026年合肥市包河區(qū)外國語第一實驗小學(xué)招聘備考題庫及1套完整答案詳解
- 2026上半年貴州事業(yè)單位聯(lián)考貴州農(nóng)業(yè)職業(yè)學(xué)院招聘19人備考題庫及一套參考答案詳解
- 2026上半年云南事業(yè)單位聯(lián)考玉溪市市直選調(diào)15人備考題庫有完整答案詳解
- 2026云南高黎貢山國家級自然保護(hù)區(qū)保山管護(hù)局招聘公益性崗位人員1人備考題庫及答案詳解(考點(diǎn)梳理)
- 2026四川樂山市峨眉山旅游股份有限公司招聘專業(yè)人才4人備考題庫有答案詳解
- 2026安徽宿州職業(yè)技術(shù)學(xué)院招聘36人備考題庫及一套參考答案詳解
- 2026四川德陽市旌陽區(qū)孝感社區(qū)衛(wèi)生服務(wù)中心招聘護(hù)士2人備考題庫完整答案詳解
- GB/T 44828-2024葡萄糖氧化酶活性檢測方法
- 青海省西寧市2023-2024學(xué)年高一上學(xué)期物理期末試卷(含答案)
- 科大訊飛招聘在線測評題
- 醫(yī)療護(hù)具租賃合同模板
- 兒童性格發(fā)展與個性獨(dú)立性的培養(yǎng)
- 2024常壓儲罐檢驗人員能力評價導(dǎo)則
- 物流管理概論王勇1
- 大學(xué)生預(yù)征對象登記表模板
- 胸外科-胸部創(chuàng)傷
- 2023版設(shè)備管理體系標(biāo)準(zhǔn)
- 劍橋英語PET真題校園版
評論
0/150
提交評論