2025年大學(xué)《信息與計(jì)算科學(xué)》專(zhuān)業(yè)題庫(kù)- 數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘技術(shù)_第1頁(yè)
2025年大學(xué)《信息與計(jì)算科學(xué)》專(zhuān)業(yè)題庫(kù)- 數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘技術(shù)_第2頁(yè)
2025年大學(xué)《信息與計(jì)算科學(xué)》專(zhuān)業(yè)題庫(kù)- 數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘技術(shù)_第3頁(yè)
2025年大學(xué)《信息與計(jì)算科學(xué)》專(zhuān)業(yè)題庫(kù)- 數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘技術(shù)_第4頁(yè)
2025年大學(xué)《信息與計(jì)算科學(xué)》專(zhuān)業(yè)題庫(kù)- 數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大學(xué)《信息與計(jì)算科學(xué)》專(zhuān)業(yè)題庫(kù)——數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘技術(shù)考試時(shí)間:______分鐘總分:______分姓名:______一、選擇題(每小題2分,共20分。請(qǐng)將正確選項(xiàng)的字母填在括號(hào)內(nèi))1.下列哪一項(xiàng)不屬于數(shù)據(jù)挖掘常用的任務(wù)類(lèi)型?A.分類(lèi)B.聚類(lèi)C.關(guān)聯(lián)規(guī)則挖掘D.概念格生成2.在進(jìn)行數(shù)據(jù)挖掘之前,對(duì)原始數(shù)據(jù)進(jìn)行清洗是非常重要的步驟。以下哪種情況通常被稱(chēng)為數(shù)據(jù)中的“缺失值”?A.數(shù)據(jù)記錄重復(fù)B.數(shù)據(jù)存儲(chǔ)格式錯(cuò)誤C.記錄中某些屬性的值未提供D.數(shù)據(jù)類(lèi)型轉(zhuǎn)換錯(cuò)誤3.決策樹(shù)算法是一種常用的分類(lèi)算法,其基本單位是?A.神經(jīng)元B.節(jié)點(diǎn)C.葉子D.回路4.評(píng)價(jià)分類(lèi)模型性能的指標(biāo)中,精確率是指?A.真正例在所有預(yù)測(cè)為正例的樣本中的比例B.真正例在所有實(shí)際為正例的樣本中的比例C.真負(fù)例在所有預(yù)測(cè)為負(fù)例的樣本中的比例D.真負(fù)例在所有實(shí)際為負(fù)例的樣本中的比例5.K-Means聚類(lèi)算法是一種劃分方法,其核心思想是將數(shù)據(jù)集劃分為若干個(gè)簇,使得簇內(nèi)數(shù)據(jù)點(diǎn)相似度較高,簇間數(shù)據(jù)點(diǎn)相似度較低。這里的“相似度”通常用什么度量?A.相關(guān)系數(shù)B.決策樹(shù)深度C.距離(如歐氏距離)D.熵值6.Apriori算法用于挖掘數(shù)據(jù)項(xiàng)集之間的關(guān)聯(lián)規(guī)則,在生成候選項(xiàng)集時(shí),它基于什么重要性質(zhì)?A.貝葉斯定理B.軸對(duì)齊模型C.非對(duì)稱(chēng)性D.頻繁項(xiàng)集先驗(yàn)原理7.在數(shù)據(jù)預(yù)處理中,歸一化(Normalization)和標(biāo)準(zhǔn)化(Standardization)都是常用的數(shù)據(jù)縮放技術(shù),它們的主要目的是什么?A.減少數(shù)據(jù)缺失B.提高數(shù)據(jù)存儲(chǔ)效率C.消除不同屬性量綱的影響,使數(shù)據(jù)具有可比性D.消除數(shù)據(jù)中的異常值8.下列哪種算法屬于監(jiān)督學(xué)習(xí)算法?A.K-Means聚類(lèi)B.主成分分析(PCA)C.支持向量機(jī)(SVM)D.層次聚類(lèi)9.降維技術(shù)的目的是什么?請(qǐng)選擇最主要的一個(gè)目的。A.加密數(shù)據(jù),保護(hù)隱私B.提高數(shù)據(jù)挖掘算法的效率,降低噪聲,揭示數(shù)據(jù)潛在結(jié)構(gòu)C.增加數(shù)據(jù)項(xiàng)的維數(shù)D.使數(shù)據(jù)分布更加均勻10.在一個(gè)數(shù)據(jù)挖掘項(xiàng)目中,首先需要明確業(yè)務(wù)目標(biāo),然后進(jìn)行數(shù)據(jù)準(zhǔn)備、模型選擇、模型評(píng)估等步驟。這一流程體現(xiàn)了數(shù)據(jù)挖掘的哪一基本特點(diǎn)?A.非線性B.非監(jiān)督性C.目標(biāo)驅(qū)動(dòng)D.結(jié)果可解釋性二、簡(jiǎn)答題(每小題5分,共20分)1.簡(jiǎn)述數(shù)據(jù)挖掘過(guò)程中“數(shù)據(jù)預(yù)處理”階段的主要任務(wù)及其重要性。2.簡(jiǎn)要說(shuō)明決策樹(shù)算法在構(gòu)建過(guò)程中,是如何進(jìn)行節(jié)點(diǎn)分裂選擇的。3.解釋什么是“過(guò)擬合”現(xiàn)象,并簡(jiǎn)述一種防止過(guò)擬合的常見(jiàn)方法。4.描述關(guān)聯(lián)規(guī)則挖掘中,“支持度”、“置信度”和“提升度”這三個(gè)度量分別表示什么含義。三、計(jì)算與分析題(每小題10分,共30分)1.假設(shè)有一個(gè)二分類(lèi)問(wèn)題,實(shí)際類(lèi)別為:正例(+)、負(fù)例(-)。某模型對(duì)一組樣本的預(yù)測(cè)結(jié)果如下:(+,+,-,+,-,+)。請(qǐng)計(jì)算該模型在這組樣本上的準(zhǔn)確率(Accuracy)、精確率(Precision)和召回率(Recall)。假設(shè)正例為正類(lèi),負(fù)例為負(fù)類(lèi)。2.給定一個(gè)包含四個(gè)數(shù)據(jù)點(diǎn)的二維數(shù)據(jù)集:A(1,2),B(2,3),C(3,5),D(5,1)。請(qǐng)使用歐氏距離計(jì)算以A和B為初始聚類(lèi)中心的K-Means算法的第一輪聚類(lèi)結(jié)果(即每個(gè)點(diǎn)所屬的簇)。(提示:計(jì)算每個(gè)點(diǎn)到A和B的距離,并分配到最近的中心)3.考慮一個(gè)簡(jiǎn)單的關(guān)聯(lián)規(guī)則挖掘例子:某超市發(fā)現(xiàn)“購(gòu)買(mǎi)面包”和“購(gòu)買(mǎi)黃油”的顧客常常同時(shí)購(gòu)買(mǎi)。假設(shè)“購(gòu)買(mǎi)面包”的支持度是0.5,“購(gòu)買(mǎi)黃油”的支持度是0.3,“購(gòu)買(mǎi)面包且購(gòu)買(mǎi)黃油”的頻繁項(xiàng)集支持度是0.2。請(qǐng)計(jì)算關(guān)聯(lián)規(guī)則“{黃油}->{面包}”的置信度(Confidence)和提升度(Lift)。四、綜合應(yīng)用題(15分)假設(shè)你正在為一個(gè)在線書(shū)城進(jìn)行客戶(hù)細(xì)分和個(gè)性化推薦的分析。你收集了以下(簡(jiǎn)化的)客戶(hù)購(gòu)買(mǎi)數(shù)據(jù):客戶(hù)ID|購(gòu)買(mǎi)書(shū)籍類(lèi)型1|購(gòu)買(mǎi)書(shū)籍類(lèi)型2-------|--------------|--------------C1|小說(shuō)|歷史C2|科幻|小說(shuō)C3|經(jīng)濟(jì)|科幻C4|小說(shuō)|經(jīng)濟(jì)C5|歷史|經(jīng)濟(jì)C6|科幻|經(jīng)濟(jì)C7|小說(shuō)|歷史C8|經(jīng)濟(jì)|小說(shuō)請(qǐng)基于以上數(shù)據(jù),回答以下問(wèn)題:1.你認(rèn)為可以使用哪種數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)客戶(hù)進(jìn)行細(xì)分?請(qǐng)簡(jiǎn)述理由。2.如果要利用這些數(shù)據(jù)進(jìn)行簡(jiǎn)單的個(gè)性化推薦(例如,向購(gòu)買(mǎi)過(guò)“科幻”的客戶(hù)推薦“經(jīng)濟(jì)”類(lèi)型書(shū)籍),你會(huì)考慮使用哪種模型或方法?請(qǐng)說(shuō)明你的思路。3.在進(jìn)行上述分析前,需要對(duì)原始數(shù)據(jù)進(jìn)行哪些方面的預(yù)處理?請(qǐng)列舉至少兩項(xiàng)。試卷答案一、選擇題1.D2.C3.B4.A5.C6.D7.C8.C9.B10.C二、簡(jiǎn)答題1.數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗(處理缺失值、噪聲、異常值)、數(shù)據(jù)集成(合并多個(gè)數(shù)據(jù)源)、數(shù)據(jù)變換(數(shù)據(jù)規(guī)范化、特征構(gòu)造等)和數(shù)據(jù)規(guī)約(減少數(shù)據(jù)規(guī)模)。其重要性在于原始數(shù)據(jù)往往質(zhì)量不高或不適合直接挖掘,預(yù)處理能提高數(shù)據(jù)質(zhì)量,降低算法復(fù)雜度,增強(qiáng)數(shù)據(jù)挖掘的效果和可信度。2.決策樹(shù)構(gòu)建過(guò)程中,選擇節(jié)點(diǎn)分裂通?;谀撤N評(píng)估標(biāo)準(zhǔn)。常見(jiàn)的方法是選擇能夠最大化“信息增益”(InformationGain)或“基尼不純度減少量”(GiniImpurityReduction)的屬性作為分裂點(diǎn)。對(duì)于給定的待分裂節(jié)點(diǎn),計(jì)算按照不同屬性分裂后的信息增益或基尼不純度,選擇增益最大或不純度減少最多的屬性進(jìn)行分裂。3.過(guò)擬合是指機(jī)器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好,但在未見(jiàn)過(guò)的新數(shù)據(jù)上表現(xiàn)很差的現(xiàn)象。模型過(guò)于復(fù)雜,學(xué)習(xí)到了訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而非潛在的普遍規(guī)律。防止過(guò)擬合的常見(jiàn)方法包括:減少模型復(fù)雜度(如降低決策樹(shù)深度、減少神經(jīng)網(wǎng)絡(luò)層數(shù)),增加訓(xùn)練數(shù)據(jù)量(數(shù)據(jù)增強(qiáng)),使用正則化技術(shù)(如L1、L2正則化),進(jìn)行模型選擇(如使用交叉驗(yàn)證選擇泛化能力好的模型)。4.支持度(Support):表示項(xiàng)集在所有事務(wù)中出現(xiàn)的頻率,反映了項(xiàng)集的普遍性。計(jì)算公式為:支持度(項(xiàng)集T)=包含項(xiàng)集T的事務(wù)數(shù)/總事務(wù)數(shù)。置信度(Confidence):表示包含項(xiàng)集A的事務(wù)中,同時(shí)包含項(xiàng)集B的概率,反映了規(guī)則A->B的可靠性。計(jì)算公式為:置信度(A->B)=支持度(AUB)/支持度(A)。提升度(Lift):表示規(guī)則A->B的出現(xiàn)與項(xiàng)集A、B各自獨(dú)立出現(xiàn)概率相比,規(guī)則A->B強(qiáng)化的程度。計(jì)算公式為:Lift(A->B)=置信度(A->B)/支持度(B)。Lift>1表示規(guī)則A->B是強(qiáng)關(guān)聯(lián),Lift<1表示弱關(guān)聯(lián)或負(fù)關(guān)聯(lián)。三、計(jì)算與分析題1.真正例(TP):預(yù)測(cè)為+且實(shí)際為+的樣本數(shù)=3個(gè)。真負(fù)例(TN):預(yù)測(cè)為-且實(shí)際為-的樣本數(shù)=1個(gè)。假正例(FP):預(yù)測(cè)為+但實(shí)際為-的樣本數(shù)=1個(gè)。假負(fù)例(FN):預(yù)測(cè)為-但實(shí)際為+的樣本數(shù)=0個(gè)。準(zhǔn)確率(Accuracy)=(TP+TN)/(TP+TN+FP+FN)=(3+1)/(3+1+1+0)=4/5=0.8或80%。精確率(Precision)=TP/(TP+FP)=3/(3+1)=3/4=0.75或75%。召回率(Recall)=TP/(TP+FN)=3/(3+0)=3/3=1或100%。2.計(jì)算各點(diǎn)與A(1,2)的距離:|A-B|=sqrt((1-2)^2+(2-3)^2)=sqrt(1+1)=sqrt(2)。|A-C|=sqrt((1-3)^2+(2-5)^2)=sqrt(4+9)=sqrt(13)。|A-D|=sqrt((1-5)^2+(2-1)^2)=sqrt(16+1)=sqrt(17)。計(jì)算各點(diǎn)與B(2,3)的距離:|B-A|=sqrt(2)。|B-C|=sqrt((2-3)^2+(3-5)^2)=sqrt(1+4)=sqrt(5)。|B-D|=sqrt((2-5)^2+(3-1)^2)=sqrt(9+4)=sqrt(13)。第一輪聚類(lèi):-將A和B分別作為簇C1和C2的中心。-分配C:與A的距離sqrt(13)<與B的距離sqrt(5),分配到C1。-分配D:與A的距離sqrt(17)>與B的距離sqrt(13),分配到C2。第一輪聚類(lèi)結(jié)果:簇C1包含{A,C},簇C2包含{B,D}。3.頻繁項(xiàng)集:{面包,黃油},支持度=0.2。規(guī)則:{黃油}->{面包}。包含{黃油}的事務(wù):購(gòu)買(mǎi){面包}或{黃油}或兩者都買(mǎi)的事務(wù)??偣灿蠧1(面包,歷史),C2(科幻,小說(shuō)),C3(經(jīng)濟(jì),科幻),C4(小說(shuō),經(jīng)濟(jì)),C5(歷史,經(jīng)濟(jì)),C6(科幻,經(jīng)濟(jì)),C7(小說(shuō),歷史),C8(經(jīng)濟(jì),小說(shuō))。共8個(gè)事務(wù)。包含{黃油}的事務(wù)有:C1,C2,C3,C4,C5,C6,C8,共7個(gè)。(或者根據(jù)支持度0.2計(jì)算:總事務(wù)數(shù)=8,支持度0.2*8=1.6,表示約1.6個(gè)事務(wù)包含{面包,黃油}。包含{面包}的事務(wù)有:C1,C2,C4,C7,C8,共5個(gè)。包含{黃油}的事務(wù)有:C1,C2,C3,C4,C5,C6,C8,共7個(gè)。計(jì)算略復(fù)雜,基于支持度理解,假設(shè)覆蓋大部分事務(wù))。支持度({黃油})=7/8=0.875。支持度({面包}U{黃油})=支持度({面包,黃油})=0.2。置信度({黃油}->{面包})=支持度({面包,黃油})/支持度({黃油})=0.2/0.875≈0.2286或22.86%。提升度({黃油}->{面包})=置信度({黃油}->{面包})/支持度({面包})=(0.2/0.875)/(支持度({面包})/總事務(wù)數(shù))。假設(shè)支持度({面包})=5/8=0.625。則提升度=(0.2/0.875)/(0.625/8)=(0.2/0.875)*(8/0.625)=(16/0.875)/0.625=18.2857/0.625≈29.2571。(此處計(jì)算假設(shè)支持度{面包}=5/8,需基于原始數(shù)據(jù)精確計(jì)算)。更精確計(jì)算:支持度{面包}=5/8=0.625。支持度{黃油}=7/8=0.875。支持度{面包,黃油}=1/8=0.125。置信度=0.125/0.625=0.2。提升度=0.2/0.875≈0.2286。四、綜合應(yīng)用題1.可以使用聚類(lèi)算法對(duì)客戶(hù)進(jìn)行細(xì)分。理由是聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí)技術(shù),能夠根據(jù)客戶(hù)在購(gòu)買(mǎi)書(shū)籍類(lèi)型上的行為相似性,將客戶(hù)劃分為不同的群體,而無(wú)需預(yù)先定義客戶(hù)類(lèi)別。這樣可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的客戶(hù)分群結(jié)構(gòu),理解不同群組的閱讀偏好,為后續(xù)的個(gè)性化分析和營(yíng)銷(xiāo)提供依據(jù)。2.可以考慮使用協(xié)同過(guò)濾(CollaborativeFiltering)模型或關(guān)聯(lián)規(guī)則挖掘(AssociationRuleMining)進(jìn)行簡(jiǎn)單的個(gè)性化推薦。思路如下:-協(xié)同過(guò)濾:找出購(gòu)買(mǎi)過(guò)“科幻”的客戶(hù)群體,分析他們還經(jīng)常購(gòu)買(mǎi)哪些其他類(lèi)型的書(shū)籍(可以基于該群體整體購(gòu)買(mǎi)行為,或找出與購(gòu)買(mǎi)“科幻”行為最相似的客戶(hù)群組的購(gòu)買(mǎi)行為)。例如,發(fā)現(xiàn)購(gòu)買(mǎi)“科幻”的客戶(hù)也常購(gòu)買(mǎi)“經(jīng)濟(jì)”。則可以向購(gòu)買(mǎi)過(guò)“科幻”的客戶(hù)推薦“經(jīng)濟(jì)”類(lèi)型的書(shū)籍。-關(guān)聯(lián)規(guī)則挖掘:挖掘購(gòu)買(mǎi)行為中的關(guān)聯(lián)規(guī)則,找出“科幻”與哪些書(shū)籍(如“經(jīng)濟(jì)”)經(jīng)常一起出現(xiàn)。例如,挖掘到規(guī)則“{科幻}->{經(jīng)濟(jì)}”具有較高質(zhì)量(高支持度和置信度),則可以向購(gòu)買(mǎi)過(guò)“科幻”的客戶(hù)推薦“經(jīng)濟(jì)”。3.需要進(jìn)行的預(yù)處理包括:-數(shù)據(jù)清洗:檢查

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論