Chapter 13案例探討-圖書借閱_第1頁
Chapter 13案例探討-圖書借閱_第2頁
Chapter 13案例探討-圖書借閱_第3頁
Chapter 13案例探討-圖書借閱_第4頁
Chapter 13案例探討-圖書借閱_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1Chapter 13 案例探討_圖書借閱2內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)3簡介以圖書借閱數(shù)據(jù)為例,說明數(shù)據(jù)探勘的處理過程:數(shù)據(jù)取得、需求分析、資料整理、資料倉儲建立、資料探勘、結(jié)果分析。探討問題:探討不同科系是否借閱不同類別的書?不同年級學(xué)生是否借閱不同類別的書?大學(xué)部與研究生是否有不同的借閱習(xí)慣?圖書分類是否有改進(jìn)的地方?借閱紀(jì)錄是否隱藏不易發(fā)掘而且重要的信息 ?實例解說資料探勘過程,了解數(shù)據(jù)探勘的過程,建立具體的印象與觀念,注重過程,而非結(jié)果。4內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)5原始數(shù)據(jù)源根據(jù)需求分析,只考慮書籍、系所部門、讀者、借閱

2、數(shù)據(jù) 四個數(shù)據(jù)表數(shù)據(jù)表名稱原始資料總筆數(shù)字段個數(shù)Book36429922Department3239Reader3731831History (借閱歷史資料)113264836內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)7第一階段數(shù)據(jù)前置處理(1)原始數(shù)據(jù)利用數(shù)據(jù)轉(zhuǎn)換匯入SQL Server將 Reader與 Department 數(shù)據(jù)表合成新的 Reader 數(shù)據(jù)表 。在Reader 數(shù)據(jù)表內(nèi):增加college字段,建立:系所學(xué)院 概念階層。 依學(xué)號分類,新增grade字段,記錄用戶年級,區(qū)分為freshman、sophomore、junior、senior、postgrad

3、uate、candidate for PhD、teacher等七個類別。 只保留 rno(讀者id)、dept_code、dept_name、college_name、grade 字段,其余字段全部刪除。 8第一階段數(shù)據(jù)前置處理(2)在Book 數(shù)據(jù)表內(nèi)的:根據(jù)中西文圖書分類,在索書號上新增sub_class及class屬性,建立書籍種類的概念階層 。將language字段重新分類,保留最多的中文、英文、日文三類,將其余語言歸類為other。建立publsih_interval字段,出版年以五年為一區(qū)間,作為出版年代的概念階層之用。僅留下marc_id(書籍id)、title、author、p

4、ublisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。9第一階段數(shù)據(jù)前置處理(3)利用中西文圖書分類檢表,將書分為4大類,大類再細(xì)分成子項目。10第一階段數(shù)據(jù)前置處理(4)在History 數(shù)據(jù)表內(nèi):將借閱日期拆成三個字段:借閱年、借閱月、借閱日,作為將來時間的概念階層。加入amount 字段,代表借書的本數(shù),一般都為 1,作為事實數(shù)據(jù)表的量值。僅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其中amou

5、nt字段為量值。11第二階段數(shù)據(jù)前置處理(1)在 Reader 數(shù)據(jù)表,分析對象為正常學(xué)制學(xué)生,刪除外校人士、行政人員、在職專班、轉(zhuǎn)系、大五、大六、系所空白者、身分無法辨認(rèn)者。在 Book 數(shù)據(jù)表內(nèi),刪除索書號不完全者;刪除期刊數(shù)據(jù)及校內(nèi)論文、不能外借之書籍(如當(dāng)期雜志)、視聽資料(如CD、LD、tape)等。在 History 數(shù)據(jù)表內(nèi),刪除索書號不完整之紀(jì)錄;刪除rno(user id)無法在整理過的Reader 數(shù)據(jù)表找到之紀(jì)錄;刪除索書號無法在整理過的Book 數(shù)據(jù)表找到之紀(jì)錄。12第二階段數(shù)據(jù)前置處理(2)資料整理前后數(shù)據(jù)表內(nèi)容變化比較數(shù)據(jù)表名稱原始資料總筆數(shù)資料整理后的總筆數(shù)原始字

6、段個數(shù)整理過后字段個數(shù)Book364299752142211Reader373188587315History 11326486120753613內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)14數(shù)據(jù)倉儲設(shè)計(1)事實數(shù)據(jù)表:History 為事實數(shù)據(jù)表,amount 量值。維度:Reader、Book與Time三個維度。15數(shù)據(jù)倉儲設(shè)計(2)在Reader 維度數(shù)據(jù)表內(nèi)找到兩種概念階層:年級:rno grade學(xué)院系所:rno dept_name college_name在Book 維度數(shù)據(jù)表內(nèi)找到三種概念階層:語言:title language主題分類:title sub_cl

7、ass class出版年:publish_year publish_interval在 Time 維度找到一種概念階層:借閱日期:borrow_dateborrow_monthborrow_year16數(shù)據(jù)倉儲設(shè)計(3)星狀式架構(gòu)的資料倉儲17內(nèi)容簡介原始數(shù)據(jù)源資料前置處理資料倉儲設(shè)計資料探勘結(jié)果總結(jié)18判定樹資料探勘分析預(yù) 測 項 目書籍、學(xué)生、語言類別百 分 比(預(yù)測借書類別)人文社會學(xué)院博士班學(xué)生Art 13.56%General1.69%Geography/History1.69%Language/Literature1.69%Natural Sciences59.32%Philoso

8、phy/Psychology6.78%Religion1.69%Social Sciences11.86%Missing1.69%(預(yù)測借閱讀者的身分)心理哲學(xué)方面的英文書Candidate for PhD11.08%Freshman7.06%Junior16.67%Postgraduate34.58%Senior15.59%Sophomore14.25%Teacher0.75%Missing0.03%(預(yù)測借閱書籍的語言)語言文學(xué)方面被借的書籍Chinese66.58%English33.32%Japan0.09%Others0.01%Missing0.00%19分群資料探勘分析(1)群組一

9、:不同時間借書比例Cluster 1 總計3064.04100.00%2001/Dec242.447.91%2001/Apr236.857.73%2002/Apr225.347.35%2002/May223.597.30%2002/Mar220.517.20%2001/Nov218.387.13%2001/Oct198.856.49%2002/Jan196.186.40%2001/Mar190.566.22%2001/May188.306.15%2002/Feb173.925.68%2001/Feb169.105.52%2001/Jun146.564.78%2001/Sep145.134.74

10、%2001/Jan118.293.86%2001/Aug90.892.97%2001/Jul79.152.58%Missing00.00%群組二:不同時間借書比例Cluster 2 總計2951.87100.00%2002/May318.2110.78%2001/Dec225.627.64%2001/Jan221.287.50%2002/Apr203.856.91%2001/Nov197.876.70%2001/Feb190.026.44%2002/Jan184.676.26%2002/Mar180.36.11%2001/May179.826.09%2001/Oct179.096.07%200

11、1/Mar174.695.92%2001/Apr154.055.22%2001/Jun150.355.09%2002/Feb141.994.81%2001/Sep127.514.32%2001/Jul69.082.34%2001/Aug53.461.81%Missing00.00%20分群資料探勘分析(2)群組一:不同年級、類別借書比例Cluster 1 總計3064.04100.00%Postgraduate 1347.7543.99%Candidate for PhD 427.3713.95%Sophomore 375.9612.27%Junior318.1110.38%Freshman

12、300.599.81%Senior287.559.38%Teacher6.720.22%Missing00.00%群組二:不同年級、類別借書比例Cluster 2 總計2951.87100.00%Postgraduate 1322.5644.80%Freshman 489.1216.57%Candidate for PhD 427.7714.49%Sophomore 339.0911.49%Junior217.247.36%Senior139.524.73%Teacher16.570.56%Missing00.00%21分群資料探勘分析(3)群組一:不同類別書籍被借比例Cluster 1 總計

13、3064.04100.00%Natural Sciences 1611.5152.59%Language/Literature 411.5513.43%Social Sciences 352.2311.50%General240.927.86%Art178.235.82%Geography/History 142.674.66%Philosophy/ Psychology108.163.53%Religion18.760.61%Missing00.00%群組二:不同類別書籍被借比例Cluster 2 總計2951.87100.00%Natural Sciences 1864.7663.17%L

14、anguage/Literature 355.0212.03%Social Sciences 275.099.32%General155.555.27%Geography/History 119.214.04%Art104.283.53%Philosophy/Psychology61.622.09%Religion16.340.55%Missing00.00%22關(guān)連法則資料探勘分析(1)項次學(xué) 生 類 別Imply書籍類別支持度 (%)信賴度 (%)1College = Electrical Engineering and Computer Science ANDPeople = Candi

15、date for PhD.Natural Science12.290.02College =Electrical Engineering and Computer Science ANDPeople = PostgraduateNatural Science23.896.23College = Engineering ANDPeople = PostgraduateNatural Science12.796.24College = Science ANDPeople = PostgraduateNatural Science10.885.75College = Electrical Engin

16、eering AND Computer ScienceNatural Science40.592.76College = EngineeringNatural Science22.593.37College = ScienceNaturalScience21.278.98People = Candidate for PhD.NaturalScience26.291.09People = PostgraduateNatural Science48.589.823結(jié)果分析 發(fā)現(xiàn)借閱率較高的書,大多是1988年到1999年,建議多購新版的書,或者調(diào)查新書流動率不高的原因。每個系所借閱書籍的種類,和所學(xué)科系有相關(guān),建議借閱方式可以更彈性。例如,提高電子系學(xué)生借閱電子類別書目的冊數(shù),以方便學(xué)生閱讀與研究。書籍 subject字段(表示書的類別),此類別為人工手動建置,n所以字段格式并不統(tǒng)一,例如:有Computer Language Mak

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論