版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、一、解答題 (總分值 30 分,每題 5 分)1. 如何明口得數(shù)據(jù)挖掘和知識發(fā)覺的關(guān)系?請?jiān)敿?xì)論述之第一從數(shù)據(jù)源中抽取感愛好的數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;然后,挪用 業(yè)的智能系知識發(fā)覺是一個(gè)指出數(shù)據(jù)中有效、嶄新、潛在的、有價(jià)值的、一個(gè)不可輕忽的流程,其最終目標(biāo)是把握數(shù)據(jù)的 式。流程步驟:先明白得要應(yīng)用的領(lǐng)域、熟悉相關(guān)知識,接著成立目標(biāo)數(shù)據(jù)集,并專注所選擇的數(shù)據(jù)子集;再 據(jù)預(yù)處巻,剔除錯(cuò)誤或不一致的數(shù)據(jù):然后進(jìn)行數(shù)據(jù)簡化與轉(zhuǎn)換工作:再通過數(shù)據(jù)挖掘的技術(shù)程序成為模式、 歸分析或找出分類模型:最后通過說明和評判成為有效的信息。 2. 時(shí)刻序列數(shù)據(jù)挖掘的方式有哪些,請?jiān)敿?xì)論述之1) 、確
2、信性時(shí)刻序列預(yù)測方式:關(guān)于平穩(wěn)轉(zhuǎn)變特點(diǎn)的時(shí)刻序列來講,假設(shè)以后行為與此刻的行有關(guān),利用屬性此刻的值預(yù)測以后的值是可行的。例如,要預(yù)測下周某種商品的銷售額,能 時(shí)刻序列是平穩(wěn)的,能夠用自回歸 (Auto Regressive,簡稱 AR)模型、移動(dòng)回歸模型 (Moving Average,簡稱 3) 、其他方式:可用于時(shí)刻序列預(yù)測的方式很多,其中比較成功的是神經(jīng)網(wǎng)絡(luò)。由于大量的時(shí)刻非平穩(wěn)的 , 因此特點(diǎn)參數(shù)和數(shù)據(jù)散布隨著時(shí)刻的推移而轉(zhuǎn)變。假設(shè)通過對某段歷史數(shù)據(jù)的訓(xùn)學(xué)統(tǒng)計(jì)模型估量神經(jīng)網(wǎng)絡(luò)的各層權(quán)重參數(shù)初值,就可能成立神經(jīng)網(wǎng)絡(luò)預(yù)測模型,用于時(shí) 刻序列的預(yù)測。3. 數(shù)據(jù)挖掘的分類方式有哪些,請?jiān)敿?xì)論述
3、之 類的中心來完成,在實(shí)際的汁算中往往用距離來表征,距 離越近,相似性越大,距離 試,每一個(gè)分枝代表一個(gè)測試輸出,而每一個(gè)樹葉結(jié)點(diǎn)代表類 或類散布。樹的最頂層結(jié)點(diǎn) 4)、規(guī)那么歸納方式:規(guī)那么歸納有四種策略:減法、加法,先加后減、先a) 減法策略:以具體例子為起點(diǎn),對例子進(jìn)行推行或泛化,推行即減除 b) 加法策略:起始假設(shè)規(guī)那么的條件部份為空(永真規(guī)那么),若是該 規(guī)那么覆蓋 c) 先加后減策略:山于屬性間存在相關(guān)性,因此可能某個(gè)條件的加入會致使前面加入的條件沒什么作用,因此需要減除前面的條件。 4.數(shù)據(jù)挖掘的聚類方式有哪些,請?jiān)敿?xì)論述之 技術(shù)將構(gòu)造 然后歸并這些原子簇為愈來愈大的簇,直到某個(gè)
4、終結(jié)條件被知足。b) 割裂的層次聚類:釆納自頂向下的策略,它第一將所有對象置于一個(gè)簇 2) 密度聚類方式:密度聚類方式的指導(dǎo)思想是,只要一個(gè)區(qū)域中的點(diǎn)的密 ,度大于某個(gè)域 率的方式來進(jìn)行聚類分析,該聚類算法的質(zhì)量取 決于網(wǎng)格結(jié)構(gòu)最低層的粒度。若是粒度比較細(xì),處置的代價(jià)會顯著增加 ; 但如果是粒度較粗,那么聚類質(zhì)量會受到阻礙。5?請論述數(shù)據(jù)挖掘的大體進(jìn)程及步驟 應(yīng)該是對數(shù)據(jù)挖掘的目標(biāo)有一個(gè)淸楚的熟悉,明白利潤所在,苴中包括數(shù)據(jù)搜集、數(shù)據(jù) 分析和數(shù)據(jù)報(bào) 始數(shù)據(jù)搜集、數(shù)搦描述、數(shù)據(jù)探討和數(shù)據(jù)質(zhì)量核查等。 一進(jìn)程包括原數(shù)據(jù)整理和數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)建模的預(yù)備工作需要在這一時(shí)期完成。更深層次的數(shù)據(jù)探 在這一時(shí)
5、期進(jìn)行,新增模型的應(yīng)用再次提供了在業(yè)務(wù)明白得基礎(chǔ)上看淸楚數(shù)據(jù)模式 四、成立模型:數(shù)據(jù)模型成立是應(yīng)用數(shù)據(jù)挖掘軟件不不同的情景下取得結(jié)果的進(jìn)程。討也能夠五、模型評估:數(shù)聽說明時(shí)期是相當(dāng)重要的,要對成立的模型是不是能夠達(dá)到問題解決的目 的進(jìn)行研究,即包括模型是不是能夠達(dá)到研究的目標(biāo):模型是不是能夠用適合的方式顯示。六、模型發(fā)布:數(shù)據(jù)挖掘既能夠應(yīng)用于核實(shí)先前的假設(shè),也能夠應(yīng)用于知識發(fā)覺(識別未預(yù) 期的有效的關(guān)6. 什么緣故說強(qiáng)關(guān)聯(lián)規(guī)那么不必然都是有效的,請舉例說明之。 飯。假設(shè)支持度閾值 s二,置信度閾值 c=60%o 基 于上面數(shù)據(jù)和假設(shè)咱們可挖掘出強(qiáng)關(guān)聯(lián)規(guī)那 都是頻繁項(xiàng),而規(guī)那么的置信度 c=40
6、%/60 %=%也大于置信度閾值。 一、請分析關(guān)聯(lián)規(guī)那么挖掘方式中,項(xiàng) LI 集格空間理論、進(jìn)展及其在數(shù)據(jù)挖掘中 的應(yīng)用價(jià) 隨著數(shù)據(jù)庫容量的增大,重復(fù)訪問數(shù)據(jù)庫(外存)將致使性能低下。因此超集都是非頻 論和算法來減少數(shù)據(jù)庫的掃描次數(shù)和侯選集空間占用,已經(jīng)成 為最近兒年來關(guān)聯(lián)規(guī)那 二、請分析 Web挖掘技術(shù)所采納的方式及其在數(shù)據(jù)挖掘中的應(yīng)用價(jià)值。 成、概化、分類等,挖掘某類信息所包括的知識模式。 Web訪問信息挖掘( Web Usage Mining Web訪問信息挖掘是對信息進(jìn)行集Web 時(shí)在效勞器方留下的訪問記錄進(jìn)行挖掘。通過度析 日記記錄中的規(guī)律,能夠識別用戶的忠實(shí)度、喜好、中意度,能夠
7、發(fā)覺潛在用戶,增強(qiáng)站點(diǎn)的效勞競 從大量的信息中發(fā)覺用戶感愛好的信息:因特網(wǎng)上蘊(yùn)藏著大量的 信息,通過簡單的閱讀或關(guān)鍵詞匹配的搜索引擎取得的是孤立而凌 亂的“表面信息” , Web挖 對用戶可用的信息,而這些信息的深層次含 義是很難被用戶直接利用的,必需 行為和方式的普遍知識,用以改良 Web 效勞方的設(shè)訃,提供個(gè)性化的效勞。三、證明題 (總分值 16 分) 依照項(xiàng)集支持?jǐn)?shù)的概念,很容易明白支持 建造一個(gè)決策樹,有五個(gè)要緊步驟:依照已知的分類,從數(shù)據(jù) D 中找到例子 S。確信最正確謂詞 p 用來分類。一樣笫一在較粗的層次中尋覓相關(guān)謂找到最正確的緩沖區(qū)大小和形狀。關(guān)于取樣中的每一個(gè)實(shí)體,它周 利用 p 和 C,對每一個(gè)緩沖區(qū)歸納謂詞。利用泛化的謂詞和 ID3 建造二義樹 To 輸出:二義決策樹 T。 2. 指出算法的不足的地方,應(yīng)該從哪些方面增強(qiáng)算法的功能和性能。對任何數(shù)量的訓(xùn)練集,老是能找到相應(yīng)的多個(gè)線性判別函數(shù)把它分類,可是如此生成的 樹的深度可能太大 . 因?yàn)?,盡管利用了最好的特點(diǎn)進(jìn)行分類,但仍是可能存在一些特點(diǎn)對分 類很有效,盡管不是像最好的特點(diǎn)那樣有效,卻沒有效到 . 一個(gè)直覺是:有些特點(diǎn)對某些類 別有效,可是對另外一些那么無效,乃至可能有副作用,若是能把這些特點(diǎn)選擇出來,一次 就能夠最大限度地把多個(gè)類別分開
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職智慧健康養(yǎng)老服務(wù)(老年護(hù)理實(shí)操)試題及答案
- 2025年中職(護(hù)理)護(hù)理技能綜合測試試題及答案
- 2025年高職(會展策劃綜合實(shí)訓(xùn))運(yùn)營管理實(shí)操測試試題及答案
- 2025年高職中西醫(yī)臨床醫(yī)學(xué)(中西醫(yī)結(jié)合治療)技能測試題
- 2025年高職考古學(xué)(考古基礎(chǔ)理論)試題及答案
- 2025年中職第二學(xué)年(消防工程技術(shù))火災(zāi)報(bào)警系統(tǒng)調(diào)試測試題及答案
- 2025年中職(機(jī)電技術(shù)應(yīng)用)機(jī)械零件識別試題及答案
- 2025年大學(xué)工商管理(制造團(tuán)隊(duì)運(yùn)營)試題及答案
- 2025年大學(xué)三年級(認(rèn)知心理學(xué))認(rèn)知心理學(xué)試題及答案
- 2025年中職制藥(制劑工藝)試題及答案
- 新課標(biāo)文科全科-2026高考大綱TXT便利版
- (高清版)DBJ∕T 13-91-2025 《福建省房屋市政工程安全風(fēng)險(xiǎn)分級管控與隱患排查治理標(biāo)準(zhǔn)》
- 公司員工活動(dòng)室管理制度
- 民辦學(xué)校退費(fèi)管理制度
- CJ/T 3066-1997內(nèi)磁水處理器
- 院內(nèi)急重癥快速反應(yīng)小組
- 湖南省省情試題及答案
- T/CIE 115-2021電子元器件失效機(jī)理、模式及影響分析(FMMEA)通用方法和程序
- 智能路燈項(xiàng)目立項(xiàng)申請報(bào)告模板
- 臨時(shí)用電變壓器安裝方案
- 2025年包頭職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫完整版
評論
0/150
提交評論