2025 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘高中選修課件_第1頁(yè)
2025 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘高中選修課件_第2頁(yè)
2025 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘高中選修課件_第3頁(yè)
2025 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘高中選修課件_第4頁(yè)
2025 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘高中選修課件_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一、數(shù)據(jù)倉(cāng)庫(kù):數(shù)字時(shí)代的“數(shù)據(jù)圖書(shū)館”演講人數(shù)據(jù)倉(cāng)庫(kù):數(shù)字時(shí)代的“數(shù)據(jù)圖書(shū)館”01數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的協(xié)同:從“存儲(chǔ)”到“智能”的閉環(huán)02數(shù)據(jù)挖掘:從數(shù)據(jù)海洋中“打撈價(jià)值”03總結(jié):以數(shù)據(jù)思維擁抱未來(lái)04目錄2025數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘高中選修課件各位同學(xué),當(dāng)你們打開(kāi)購(gòu)物APP時(shí),頁(yè)面自動(dòng)推送的“猜你喜歡”商品;當(dāng)你們查看天氣軟件時(shí),系統(tǒng)精準(zhǔn)預(yù)測(cè)未來(lái)一周的降水概率;當(dāng)學(xué)校統(tǒng)計(jì)月考成績(jī)時(shí),老師能快速分析出班級(jí)的優(yōu)勢(shì)學(xué)科和薄弱環(huán)節(jié)——這些看似平常的功能背后,都藏著數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的核心技術(shù)。作為在信息技術(shù)教育領(lǐng)域深耕十余年的教師,我常感慨:數(shù)據(jù)時(shí)代的浪潮已撲面而來(lái),理解數(shù)據(jù)管理與分析的底層邏輯,不僅是打開(kāi)技術(shù)之門(mén)的鑰匙,更是培養(yǎng)數(shù)字素養(yǎng)的關(guān)鍵。今天,我們就從“數(shù)據(jù)倉(cāng)庫(kù)”與“數(shù)據(jù)挖掘”這兩個(gè)核心概念出發(fā),開(kāi)啟一場(chǎng)從數(shù)據(jù)存儲(chǔ)到價(jià)值發(fā)現(xiàn)的探索之旅。01數(shù)據(jù)倉(cāng)庫(kù):數(shù)字時(shí)代的“數(shù)據(jù)圖書(shū)館”數(shù)據(jù)倉(cāng)庫(kù):數(shù)字時(shí)代的“數(shù)據(jù)圖書(shū)館”1.1為什么需要數(shù)據(jù)倉(cāng)庫(kù)?——從“數(shù)據(jù)混亂”到“有序管理”的必然選擇記得2018年我參與某中學(xué)信息化升級(jí)項(xiàng)目時(shí),學(xué)校的教務(wù)系統(tǒng)、后勤系統(tǒng)、財(cái)務(wù)系統(tǒng)各自為政:教務(wù)系統(tǒng)存儲(chǔ)著學(xué)生選課記錄,后勤系統(tǒng)記錄著宿舍用電數(shù)據(jù),財(cái)務(wù)系統(tǒng)保存著學(xué)費(fèi)繳納信息。這些數(shù)據(jù)像散落在不同抽屜里的文件,當(dāng)校長(zhǎng)想要分析“走讀生與住校生成績(jī)差異”時(shí),需要手動(dòng)從三個(gè)系統(tǒng)導(dǎo)出數(shù)據(jù),再用Excel逐行比對(duì)——耗時(shí)3天,誤差率卻高達(dá)15%。這就是典型的“數(shù)據(jù)孤島”問(wèn)題:企業(yè)、學(xué)校甚至家庭,每天產(chǎn)生的海量數(shù)據(jù)分散在不同平臺(tái),格式不一、標(biāo)準(zhǔn)混亂,無(wú)法直接用于分析。數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse,DW)正是為解決這一問(wèn)題而生。它是一個(gè)面向主題、集成化、非易失性、隨時(shí)間變化的數(shù)據(jù)集合,專(zhuān)門(mén)用于支持管理決策。用更通俗的比喻,數(shù)據(jù)倉(cāng)庫(kù)就像“數(shù)字圖書(shū)館”:數(shù)據(jù)倉(cāng)庫(kù):數(shù)字時(shí)代的“數(shù)據(jù)圖書(shū)館”面向主題:圖書(shū)館按“文學(xué)”“科學(xué)”“歷史”等主題分類(lèi),數(shù)據(jù)倉(cāng)庫(kù)則圍繞“銷(xiāo)售”“客戶”“學(xué)生”等核心業(yè)務(wù)主題組織數(shù)據(jù);集成化:圖書(shū)館將不同出版社的書(shū)籍統(tǒng)一編目,數(shù)據(jù)倉(cāng)庫(kù)通過(guò)清洗、轉(zhuǎn)換、加載(ETL)將分散系統(tǒng)的數(shù)據(jù)整合為統(tǒng)一標(biāo)準(zhǔn);非易失性:圖書(shū)館的書(shū)籍不會(huì)隨意刪除,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是歷史數(shù)據(jù)(如過(guò)去5年的銷(xiāo)售記錄),僅通過(guò)追加方式更新;隨時(shí)間變化:圖書(shū)館會(huì)定期采購(gòu)新書(shū),數(shù)據(jù)倉(cāng)庫(kù)會(huì)按日/月/季度記錄數(shù)據(jù)快照,支持趨勢(shì)分析。2數(shù)據(jù)倉(cāng)庫(kù)如何構(gòu)建?——從需求到落地的全流程拆解構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)不是簡(jiǎn)單的“搭架子存數(shù)據(jù)”,而是需要經(jīng)歷需求分析、模型設(shè)計(jì)、ETL實(shí)施、存儲(chǔ)管理四個(gè)階段。以我們學(xué)校正在建設(shè)的“學(xué)生發(fā)展數(shù)據(jù)倉(cāng)庫(kù)”為例:2數(shù)據(jù)倉(cāng)庫(kù)如何構(gòu)建?——從需求到落地的全流程拆解2.1需求分析:明確“為誰(shuí)服務(wù)”首先要回答三個(gè)問(wèn)題:誰(shuí)會(huì)使用這個(gè)數(shù)據(jù)倉(cāng)庫(kù)?他們需要分析什么問(wèn)題?需要哪些數(shù)據(jù)?比如,教學(xué)部門(mén)需要分析“不同學(xué)科分層教學(xué)效果”,就需要關(guān)聯(lián)學(xué)生的入學(xué)成績(jī)、分層考試成績(jī)、課堂互動(dòng)數(shù)據(jù);德育部門(mén)需要分析“學(xué)生行為習(xí)慣與學(xué)業(yè)表現(xiàn)的關(guān)系”,就需要整合考勤記錄、社團(tuán)活動(dòng)參與度、違紀(jì)處分?jǐn)?shù)據(jù)。這些需求決定了數(shù)據(jù)倉(cāng)庫(kù)的主題范圍(如“學(xué)業(yè)發(fā)展”“德育成長(zhǎng)”)和數(shù)據(jù)來(lái)源(教務(wù)系統(tǒng)、德育系統(tǒng)、一卡通系統(tǒng)等)。2數(shù)據(jù)倉(cāng)庫(kù)如何構(gòu)建?——從需求到落地的全流程拆解2.2模型設(shè)計(jì):規(guī)劃“數(shù)據(jù)的地圖”數(shù)據(jù)模型是數(shù)據(jù)倉(cāng)庫(kù)的“設(shè)計(jì)藍(lán)圖”,常用的有概念模型(用思維導(dǎo)圖描述主題與關(guān)鍵實(shí)體,如“學(xué)生”與“課程”的關(guān)系)、邏輯模型(用ER圖定義表結(jié)構(gòu),如“學(xué)生表”包含學(xué)號(hào)、姓名、入學(xué)時(shí)間等字段)、物理模型(確定數(shù)據(jù)存儲(chǔ)方式,如用關(guān)系型數(shù)據(jù)庫(kù)還是大數(shù)據(jù)平臺(tái)Hadoop)。我曾指導(dǎo)學(xué)生為校園超市設(shè)計(jì)微型數(shù)據(jù)倉(cāng)庫(kù),他們最初將“銷(xiāo)售記錄”“庫(kù)存變化”“促銷(xiāo)活動(dòng)”混在一張表中,導(dǎo)致查詢(xún)“某促銷(xiāo)活動(dòng)對(duì)銷(xiāo)量的影響”時(shí)效率極低。后來(lái)通過(guò)邏輯模型優(yōu)化,將“促銷(xiāo)活動(dòng)”單獨(dú)建表并與“銷(xiāo)售記錄”關(guān)聯(lián),查詢(xún)時(shí)間從5分鐘縮短至10秒——這就是模型設(shè)計(jì)的價(jià)值。2數(shù)據(jù)倉(cāng)庫(kù)如何構(gòu)建?——從需求到落地的全流程拆解2.3ETL實(shí)施:數(shù)據(jù)的“清洗-轉(zhuǎn)換-加載”流水線ETL(Extract-抽取、Transform-轉(zhuǎn)換、Load-加載)是數(shù)據(jù)倉(cāng)庫(kù)的“數(shù)據(jù)流水線”。以從教務(wù)系統(tǒng)抽取學(xué)生成績(jī)數(shù)據(jù)為例:抽?。和ㄟ^(guò)接口或文件導(dǎo)出獲取原始數(shù)據(jù)(可能包含缺失值,如某學(xué)生“物理成績(jī)”為空);轉(zhuǎn)換:清洗(填補(bǔ)缺失值,如用班級(jí)平均分替代)、標(biāo)準(zhǔn)化(將“90-100”“80-89”等等級(jí)統(tǒng)一為百分制分?jǐn)?shù))、關(guān)聯(lián)(將學(xué)生姓名與學(xué)號(hào)匹配,避免重名誤差);加載:將處理后的數(shù)據(jù)寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)的對(duì)應(yīng)主題表(如“學(xué)業(yè)成績(jī)主題表”)。這個(gè)過(guò)程中最容易出錯(cuò)的是“轉(zhuǎn)換”環(huán)節(jié)。我?guī)W(xué)生實(shí)踐時(shí),曾遇到某批次數(shù)據(jù)中“性別”字段同時(shí)存在“男”“Male”“1”三種格式,最終通過(guò)編寫(xiě)規(guī)則將其統(tǒng)一為“男/女”,才保證了后續(xù)分析的準(zhǔn)確性。2數(shù)據(jù)倉(cāng)庫(kù)如何構(gòu)建?——從需求到落地的全流程拆解2.4存儲(chǔ)管理:讓數(shù)據(jù)“存得下、取得快”數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)需要平衡“空間”與“效率”。對(duì)于高頻查詢(xún)的近期數(shù)據(jù)(如本學(xué)期學(xué)生考勤),可以存儲(chǔ)在性能高的關(guān)系型數(shù)據(jù)庫(kù)(如MySQL);對(duì)于低頻查詢(xún)的歷史數(shù)據(jù)(如過(guò)去10年的高考錄取率),可以存儲(chǔ)在成本低的大數(shù)據(jù)平臺(tái)(如Hive)。此外,還需要定期歸檔過(guò)期數(shù)據(jù)(如超過(guò)5年的無(wú)關(guān)日志),避免“數(shù)據(jù)膨脹”導(dǎo)致查詢(xún)變慢。02數(shù)據(jù)挖掘:從數(shù)據(jù)海洋中“打撈價(jià)值”數(shù)據(jù)挖掘:從數(shù)據(jù)海洋中“打撈價(jià)值”如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是“數(shù)據(jù)圖書(shū)館”,那么數(shù)據(jù)挖掘(DataMining,DM)就是“在圖書(shū)館里找寶藏”——從海量數(shù)據(jù)中發(fā)現(xiàn)隱含的、有價(jià)值的模式或規(guī)律。2020年我?guī)ьI(lǐng)學(xué)生參與“社區(qū)智慧養(yǎng)老”項(xiàng)目時(shí),社區(qū)提供了6000位老人的健康監(jiān)測(cè)數(shù)據(jù)(心率、血壓、步數(shù))和就醫(yī)記錄,我們通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn):“每周步數(shù)低于3000步的老人,下季度住院概率比平均水平高42%”。這個(gè)結(jié)論直接推動(dòng)社區(qū)開(kāi)展“銀發(fā)健步團(tuán)”活動(dòng),半年后相關(guān)住院率下降了28%——這就是數(shù)據(jù)挖掘的力量。1數(shù)據(jù)挖掘的核心任務(wù):從“描述”到“預(yù)測(cè)”的進(jìn)階數(shù)據(jù)挖掘的任務(wù)可以分為四大類(lèi),每一類(lèi)都對(duì)應(yīng)不同的應(yīng)用場(chǎng)景:2.1.1分類(lèi)(Classification):給數(shù)據(jù)“貼標(biāo)簽”分類(lèi)是根據(jù)已知類(lèi)別(標(biāo)簽)的數(shù)據(jù),訓(xùn)練模型對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。比如:銀行根據(jù)客戶的收入、負(fù)債、信用記錄(特征),預(yù)測(cè)其是否會(huì)違約(標(biāo)簽:違約/不違約);我們學(xué)校用學(xué)生的初中成績(jī)、課堂活躍度、作業(yè)完成率(特征),預(yù)測(cè)其更適合選物理還是歷史(標(biāo)簽:物理組/歷史組)。我曾讓學(xué)生用Excel的“決策樹(shù)”工具分析200名畢業(yè)生的選科數(shù)據(jù),發(fā)現(xiàn)“數(shù)學(xué)成績(jī)>90分且實(shí)驗(yàn)課參與度>80%”的學(xué)生,選物理的準(zhǔn)確率高達(dá)85%——這就是簡(jiǎn)單的分類(lèi)實(shí)踐。1數(shù)據(jù)挖掘的核心任務(wù):從“描述”到“預(yù)測(cè)”的進(jìn)階1.2聚類(lèi)(Clustering):讓數(shù)據(jù)“物以類(lèi)聚”聚類(lèi)是將數(shù)據(jù)分成若干組(簇),組內(nèi)數(shù)據(jù)相似,組間數(shù)據(jù)不同,但沒(méi)有預(yù)先定義的標(biāo)簽。比如:電商平臺(tái)根據(jù)用戶的購(gòu)買(mǎi)金額、頻次、品類(lèi)偏好,將用戶分為“高價(jià)值忠誠(chéng)客戶”“價(jià)格敏感客戶”“偶爾購(gòu)買(mǎi)客戶”;我們分析學(xué)生的課外閱讀數(shù)據(jù)(書(shū)籍類(lèi)型、閱讀時(shí)長(zhǎng)),發(fā)現(xiàn)可以分為“文學(xué)愛(ài)好者”“科學(xué)探索者”“考試導(dǎo)向型”等簇群,進(jìn)而為不同簇群推薦個(gè)性化書(shū)單。2023年校圖書(shū)館引入聚類(lèi)分析后,圖書(shū)借閱周轉(zhuǎn)率提升了30%,這就是聚類(lèi)的應(yīng)用價(jià)值。32141數(shù)據(jù)挖掘的核心任務(wù):從“描述”到“預(yù)測(cè)”的進(jìn)階1.2聚類(lèi)(Clustering):讓數(shù)據(jù)“物以類(lèi)聚”2.1.3關(guān)聯(lián)規(guī)則(AssociationRules):發(fā)現(xiàn)“隱藏的關(guān)聯(lián)”關(guān)聯(lián)規(guī)則是找出數(shù)據(jù)中“如果A發(fā)生,那么B可能發(fā)生”的模式,最經(jīng)典的例子是“啤酒與尿布”——超市發(fā)現(xiàn)購(gòu)買(mǎi)尿布的男性顧客常同時(shí)購(gòu)買(mǎi)啤酒,于是將兩者相鄰擺放,銷(xiāo)量提升35%。在教育場(chǎng)景中,我們分析學(xué)生的錯(cuò)題數(shù)據(jù)時(shí)發(fā)現(xiàn):“在函數(shù)題上出錯(cuò)的學(xué)生,有70%在立體幾何題上也會(huì)出錯(cuò)”,這提示教師需要加強(qiáng)“邏輯推理能力”的綜合訓(xùn)練,而不是單獨(dú)補(bǔ)某一知識(shí)點(diǎn)。1數(shù)據(jù)挖掘的核心任務(wù):從“描述”到“預(yù)測(cè)”的進(jìn)階1.4預(yù)測(cè)(Prediction):用歷史“預(yù)見(jiàn)”未來(lái)預(yù)測(cè)是根據(jù)歷史數(shù)據(jù),對(duì)連續(xù)型變量(如銷(xiāo)售額、成績(jī))進(jìn)行數(shù)值預(yù)測(cè)。比如:01學(xué)校用過(guò)去3年的招生數(shù)據(jù)(區(qū)域、政策、宣傳投入)預(yù)測(cè)下一年的新生人數(shù);02我們用學(xué)生前10次數(shù)學(xué)測(cè)驗(yàn)的成績(jī),預(yù)測(cè)其期末考試分?jǐn)?shù)(誤差可控制在5分以?xún)?nèi))。03預(yù)測(cè)的關(guān)鍵是選擇合適的模型,線性回歸適合簡(jiǎn)單趨勢(shì),而神經(jīng)網(wǎng)絡(luò)適合復(fù)雜非線性關(guān)系——當(dāng)然,高中階段我們主要用Excel或SPSS的基礎(chǔ)工具即可完成。042數(shù)據(jù)挖掘的流程:從“數(shù)據(jù)”到“洞察”的六步走數(shù)據(jù)挖掘不是“碰運(yùn)氣”,而是有嚴(yán)謹(jǐn)?shù)牧鞒?。以“分析校園卡消費(fèi)數(shù)據(jù),優(yōu)化食堂窗口設(shè)置”項(xiàng)目為例,流程如下:2數(shù)據(jù)挖掘的流程:從“數(shù)據(jù)”到“洞察”的六步走2.1定義問(wèn)題:明確“要解決什么”我們的目標(biāo)是“找出學(xué)生就餐的高峰時(shí)段和熱門(mén)窗口,調(diào)整窗口開(kāi)放數(shù)量與菜品,減少排隊(duì)時(shí)間”。這一步需要與食堂管理員溝通,避免“為挖掘而挖掘”(比如沒(méi)必要分析“學(xué)生買(mǎi)飲料與成績(jī)的關(guān)系”)。2數(shù)據(jù)挖掘的流程:從“數(shù)據(jù)”到“洞察”的六步走2.2數(shù)據(jù)準(zhǔn)備:從數(shù)據(jù)倉(cāng)庫(kù)“取對(duì)數(shù)據(jù)”從學(xué)校的數(shù)據(jù)倉(cāng)庫(kù)中提取“校園卡消費(fèi)表”,篩選近3個(gè)月的早/中/晚餐消費(fèi)記錄,包含字段:時(shí)間(精確到分鐘)、窗口編號(hào)、消費(fèi)金額、菜品類(lèi)型(米飯類(lèi)、面食類(lèi)、快餐類(lèi))。2數(shù)據(jù)挖掘的流程:從“數(shù)據(jù)”到“洞察”的六步走2.3數(shù)據(jù)預(yù)處理:讓數(shù)據(jù)“可用”原始數(shù)據(jù)可能存在缺失(如某條記錄“窗口編號(hào)”為空)、異常(如某學(xué)生凌晨2點(diǎn)消費(fèi)100元,明顯是誤刷)、冗余(如重復(fù)記錄)。我們通過(guò)刪除異常值、填補(bǔ)缺失值(用同時(shí)間段的常見(jiàn)窗口替代)、去重,得到2.8萬(wàn)條有效數(shù)據(jù)。2數(shù)據(jù)挖掘的流程:從“數(shù)據(jù)”到“洞察”的六步走2.4模型選擇與訓(xùn)練:用工具“找規(guī)律”使用SPSS的“時(shí)間序列分析”工具,發(fā)現(xiàn)午餐高峰集中在12:15-12:45(占全天消費(fèi)的42%),且“快餐類(lèi)窗口”(如炸雞、漢堡)在12:30-12:40的排隊(duì)時(shí)長(zhǎng)比“米飯類(lèi)窗口”長(zhǎng)2倍。進(jìn)一步用“關(guān)聯(lián)規(guī)則”分析,發(fā)現(xiàn)“購(gòu)買(mǎi)快餐的學(xué)生,75%會(huì)同時(shí)購(gòu)買(mǎi)飲料”,而飲料窗口僅開(kāi)放1個(gè),導(dǎo)致瓶頸。2數(shù)據(jù)挖掘的流程:從“數(shù)據(jù)”到“洞察”的六步走2.5結(jié)果評(píng)估:驗(yàn)證“規(guī)律是否可靠”通過(guò)“交叉驗(yàn)證”(將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集),發(fā)現(xiàn)模型預(yù)測(cè)的高峰時(shí)段準(zhǔn)確率達(dá)92%,關(guān)聯(lián)規(guī)則的支持度(同時(shí)購(gòu)買(mǎi)快餐和飲料的比例)為18%,置信度(買(mǎi)快餐后買(mǎi)飲料的概率)為75%,均達(dá)到統(tǒng)計(jì)學(xué)意義(p<0.05)。2數(shù)據(jù)挖掘的流程:從“數(shù)據(jù)”到“洞察”的六步走2.6部署應(yīng)用:讓洞察“產(chǎn)生價(jià)值”根據(jù)分析結(jié)果,食堂調(diào)整了窗口設(shè)置:午餐高峰時(shí)段增加1個(gè)快餐窗口和1個(gè)飲料窗口,將“快餐+飲料”組合定價(jià)優(yōu)惠5%。實(shí)施后,午餐排隊(duì)時(shí)長(zhǎng)從平均12分鐘縮短至5分鐘,快餐銷(xiāo)量提升25%,學(xué)生滿意度從72%上升到89%——這就是數(shù)據(jù)挖掘的落地價(jià)值。03數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的協(xié)同:從“存儲(chǔ)”到“智能”的閉環(huán)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的協(xié)同:從“存儲(chǔ)”到“智能”的閉環(huán)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘不是孤立的技術(shù),而是“存儲(chǔ)-分析-應(yīng)用”閉環(huán)中的關(guān)鍵環(huán)節(jié)。就像做飯:數(shù)據(jù)倉(cāng)庫(kù)是“食材倉(cāng)庫(kù)”(存儲(chǔ)清洗后的食材),數(shù)據(jù)挖掘是“烹飪技巧”(將食材加工成美食),而最終的“美食”(業(yè)務(wù)決策)則需要兩者的協(xié)同。1數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘“提供燃料”沒(méi)有高質(zhì)量的數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘就像“無(wú)米之炊”。2021年我指導(dǎo)學(xué)生參加“智慧城市”競(jìng)賽時(shí),某團(tuán)隊(duì)直接使用企業(yè)原始業(yè)務(wù)系統(tǒng)的數(shù)據(jù)(包含大量重復(fù)、錯(cuò)誤記錄)進(jìn)行挖掘,結(jié)果得出“老年人更喜歡在凌晨購(gòu)物”的荒謬結(jié)論——后來(lái)發(fā)現(xiàn)是系統(tǒng)日志錯(cuò)誤記錄了操作時(shí)間。而另一支團(tuán)隊(duì)先構(gòu)建了微型數(shù)據(jù)倉(cāng)庫(kù),對(duì)數(shù)據(jù)進(jìn)行清洗、關(guān)聯(lián),最終基于“晚7點(diǎn)-9點(diǎn)超市人流高峰”的結(jié)論,設(shè)計(jì)了“老年購(gòu)物班車(chē)”方案,獲得了一等獎(jiǎng)。這印證了:數(shù)據(jù)倉(cāng)庫(kù)的質(zhì)量直接決定數(shù)據(jù)挖掘的可靠性。2數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)“注入靈魂”數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是“死數(shù)據(jù)”,數(shù)據(jù)挖掘則讓數(shù)據(jù)“活起來(lái)”。我們學(xué)校的數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)著近10年的學(xué)生數(shù)據(jù),但如果沒(méi)有數(shù)據(jù)挖掘,這些數(shù)據(jù)只是“數(shù)字的堆砌”。通過(guò)挖掘,我們發(fā)現(xiàn)“參加3個(gè)以上社團(tuán)的學(xué)生,高考一本達(dá)線率比平均高15%”,進(jìn)而推動(dòng)學(xué)校優(yōu)化社團(tuán)課程;發(fā)現(xiàn)“父母學(xué)歷為本科的學(xué)生,數(shù)學(xué)競(jìng)賽獲獎(jiǎng)率是專(zhuān)科以下家庭學(xué)生的2.3倍”,進(jìn)而針對(duì)性開(kāi)展“數(shù)學(xué)思維拓展公益課”——數(shù)據(jù)挖掘讓數(shù)據(jù)從“存儲(chǔ)”走向“賦能”。3協(xié)同應(yīng)用的典型場(chǎng)景:以“精準(zhǔn)教學(xué)”為例在“精準(zhǔn)教學(xué)”場(chǎng)景中,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的協(xié)同體現(xiàn)得尤為明顯:數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建:整合教務(wù)系統(tǒng)(成績(jī)、作業(yè))、課堂系統(tǒng)(互動(dòng)記錄、提問(wèn)次數(shù))、德育系統(tǒng)(考勤、活動(dòng))的數(shù)據(jù),形成“學(xué)生綜合發(fā)展主題庫(kù)”;數(shù)據(jù)挖掘分析:用聚類(lèi)分析將學(xué)生分為“自主學(xué)習(xí)型”“需要督促型”“基礎(chǔ)薄弱型”;用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論