下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、自適應(yīng)數(shù)據(jù)庫中基于特征向量的聚類算法的研究與改進The Research And Improvement of the Cluster Based on Feature Vectors in Autonomic Database強彥 陳俊杰 高燕飛(太原理工大學(xué) 計算機與軟件學(xué)院,山西 太原 030024)3.基于特征向量的聚類算法3.1 選取特征向量當(dāng)負載的特征化部件接受到客戶端輸入的負載后,就要根據(jù)負載的特征向量分類。那么首先就要選取特征向量,通過實驗分析一些特征向量(包括表名、索引、SQL語句中的動詞等等)對負載運行時間的影響,最后發(fā)現(xiàn)SQL語句的動詞select, insert, up
2、date, delete對負載運行時間的影響最大,其次是表名,索引。所以在這里我們首先選取一組特征向量,即SQL語句的動詞select, insert, update, delete,根據(jù)特征向量把負載(n條SQL語句)分為四類,記為S1,S2,S3,S4,S1=所有包含“select”的SQL語句,S2=所有包含“insert”的SQL語句, S3=所有包含“update”的SQL語句, S4=所有包含“delete”的SQL語句。3.2 運行K-means算法把這4類S1,S2,S3,S4當(dāng)作是K-means算法初始的分類;然后運行K-means算法,最后還是得到4類,記為L1,L2,L3
3、,L4,K-means算法描述如下:1、初始的分類記為S1,S2,S3,S4,K=4,I=1; / I表示K-means算法中迭代的次數(shù)2、計算初始聚類的中心Zm(I),m=1,2,3,4;/在這里計算每一類SQL語句的平均運行時間;Zm(I)= j =1,2,nm ; (1)其中,nm表示第m類中包含SQL語句的個數(shù);3、分別計算每條SQL語句與這四個聚類中心的距離(即:每條SQL語句運行時間與每類平均運行時間的差值的絕對值)D( Xi, Zm(I) ),把SQL語句歸到離聚類中心距離最近的類中;D( Xi, Zm )=XiZm i = 1,2,n,m = 1,2 ,3,4; (2) 4、重
4、復(fù)執(zhí)行第2和第3步,直到聚類中心不再改變,即Zm(I+1)=Zm(I),把新的分類記為L1,L2,L3,L4。3.3 計算概率值運行完K-means算法后,根據(jù)分類的個數(shù),建立一個K×K的矩陣,在這里是建立一個4×4的矩陣,如圖4所示: 圖4:4×4的矩陣 圖5:實驗得到的數(shù)據(jù); (3)Pij表示根據(jù)特征向量分類預(yù)測SQL語句運行時間的準確性;Pij越大,說明預(yù)測出的準確性越大。所以,選取每一行最大的點Pij,如果Pijt(假設(shè)t60%),且所有選取的Pij中i值不等,說明根據(jù)特征向量分類預(yù)測SQL語句運行時間是比較準確的,分類完成。如果上述條件不滿足,則說明根據(jù)
5、特征向量分類預(yù)測SQL語句運行時間的準確性不大,也就是說特征向量的選取是不合適的,就需要增加特征向量。3.4 增加特征向量當(dāng)特征向量選取不合適時,就要增加特征向量,接下來把表名W1,W2(根據(jù)表的大小區(qū)分)作為特征向量加入。例如,客戶端模擬輸入100條SQL語句作為初始數(shù)據(jù),根據(jù)SQL語句動詞分為4類,運行K-means算法后,建立的矩陣,如圖5所示:從圖5中可以看出,第二行和第三行的最大值都沒有大于t,所以要增加特征向量,在這里只需要把第二行和第三行對應(yīng)的最初S2和S3類根據(jù)表名分類就可以了;第一行和第四行的概率最大值都大于t值說明S1和S4分類還是比較準確的,這里就不增加特征向量了,還是保
6、持原有的S1和S4類。這樣就得到6類,接著運行K-means算法,計算概率值。選取每一行概率值最大的點Pij,如果Pijt(假設(shè)t60%),且所有選取的Pij中i值不等,說明根據(jù)特征向量分類預(yù)測SQL語句運行時間是比較準確,分類完成。如果上述條件不滿足,就需要增加特征向量索引,接著重復(fù)上述算法。3.5 優(yōu)化類當(dāng)分類完成后,就要優(yōu)化類的個數(shù),也就是要計算每一個類中心(Zm)與其它類中心的距離。如果距離小于W(假設(shè)W=1秒),則合并這兩個類;重復(fù)計算,直到類的個數(shù)不變,輸出分類結(jié)果。4.實驗結(jié)果根據(jù)上述算法,初步實現(xiàn)了一個自適應(yīng)數(shù)據(jù)庫中基于特征向量的聚類算法程序,并對初始的100條SQL語句進行了
7、實驗。實驗結(jié)果如表1所示:表1 實驗結(jié)果表一組特征向量的分類特征向量每行最大的Pij值調(diào)節(jié)K值后的分類特征向量每行最大的Pij值S1Select100%L1Select,表1或表275%S2Insert50%L2Insert,表167%S3Update55%L3Insert,表2100%S4Delete75%L4Delete,表1或表275%L5Update,表167%L6Update,表267%通過上表可以看出,初始的100條SQL語句根據(jù)SQL語句動詞分類,運行K-means算法后,每行最大的Pij值達不到設(shè)定的值。當(dāng)運用基于特征向量的聚類算法后,每行最大的Pij值達到設(shè)定的值了。圖6表示
8、運用基于特征向量算法控制前后對比圖:圖6:基于特征向量算法控制前后對比圖其中,用戶滿意率是指負載的運行時間是否達到用戶的滿意。從上圖中可以看出,在運用基于特征向量聚類算法后,用戶的滿意率提高了。5.結(jié)論本文主要介紹了在自適應(yīng)數(shù)據(jù)庫中負載的分類方法,在這里運用了基于特征向量的聚類算法,通過實驗驗證,這種方法分類后使類內(nèi)數(shù)據(jù)的聚合度比較高,通過分類的結(jié)果預(yù)測運行時間比較準確。缺點是該算法時間消耗比較大,但是該算法可用于初始負載分類,而初始負載分類都是離線的,所以對于時間的消耗還是可以接受的。參考文獻:1B. Niu, P. Martin, W. Powley, R. Horman and P. B
9、ird. “Workload Adaptation in Autonomic DBMSs”, Proceedings of CASCON 2006, Toronto, Canada, Oct. 1619, 2006, pp. 161 - 173.2 R. Xu, D. Wunsch II. Survey of Clustering Algorithms. IEEE Transactions on Neural Networks, Vol. 16, No. 3, May 2005, pp. 645 678.3欒麗華.聚類算法研究.南京師范大學(xué).2004年4李鎖花,孫志揮,周曉云.基于特征向量的分布式聚類算法.計算機應(yīng)用. 第26卷第2期2006年2月5劉振巖.數(shù)據(jù)挖掘分類算法的研究與應(yīng)用.首都師范大學(xué).
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026江西省歐潭人力資源集團有限公司招聘見習(xí)生3人筆試參考題庫及答案解析
- 2026上半年貴州事業(yè)單位聯(lián)考赫章縣招聘153人筆試備考試題及答案解析
- 2026年工程地質(zhì)勘察中的質(zhì)量保證措施
- 2026年土地利用中的地質(zhì)災(zāi)害防范策略
- 2025年少先隊提前入隊筆試題及答案
- 2025年廣東廣業(yè)投資集團筆試及答案
- 2026新興際華集團所屬中新聯(lián)公司招聘事業(yè)部總經(jīng)理副總經(jīng)理筆試模擬試題及答案解析
- 2025年材料類事業(yè)單位考試真題及答案
- 2026年臨界含水率對土壤材料的影響
- 2026四川能投綜合能源有限責(zé)任公司員工招聘19人筆試備考試題及答案解析
- 2026年及未來5年中國TFT液晶面板行業(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資方向研究報告
- 大唐集團機考行測題庫
- 車輛日常安全檢查課件
- 民航安全法律法規(guī)課件
- 山東省濟寧市2026屆第一學(xué)期高三質(zhì)量檢測期末考試濟寧一模英語(含答案)
- 光伏電站巡檢培訓(xùn)課件
- 中建建筑電氣系統(tǒng)調(diào)試指導(dǎo)手冊
- 年末節(jié)前安全教育培訓(xùn)
- 安全生產(chǎn)麻痹思想僥幸心理
- GB/T 93-2025緊固件彈簧墊圈標準型
- 建設(shè)工程測繪驗線標準報告模板
評論
0/150
提交評論