云存儲數(shù)據(jù)模糊關(guān)鍵字信息檢索研究與實(shí)現(xiàn)競賽作品報(bào)告_第1頁
云存儲數(shù)據(jù)模糊關(guān)鍵字信息檢索研究與實(shí)現(xiàn)競賽作品報(bào)告_第2頁
云存儲數(shù)據(jù)模糊關(guān)鍵字信息檢索研究與實(shí)現(xiàn)競賽作品報(bào)告_第3頁
云存儲數(shù)據(jù)模糊關(guān)鍵字信息檢索研究與實(shí)現(xiàn)競賽作品報(bào)告_第4頁
云存儲數(shù)據(jù)模糊關(guān)鍵字信息檢索研究與實(shí)現(xiàn)競賽作品報(bào)告_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一 第二章作品介 靈活實(shí)用的數(shù)據(jù)加密算 高性能的模糊關(guān)鍵字信息檢索技 人性化的信息智能收集管理技 第三章實(shí)現(xiàn)方 模糊檢索方 數(shù)據(jù)加密原 索引建立原 第四章性能測 測試方 測試環(huán)境和設(shè) 系統(tǒng)功能及軟件穩(wěn)定性測 系統(tǒng)索引建立時(shí)間對比測 系統(tǒng)索引文件大小對比測 系統(tǒng)信息檢索時(shí)間對比測 結(jié)果分 第五章創(chuàng)新 第六章總 參考文 第一在信息化的時(shí)代,每天都會產(chǎn)生海量的信息數(shù)據(jù),隨著信息數(shù)據(jù)量的增長,信息數(shù)據(jù)的和管理變得越來越。使用云技術(shù),將信息數(shù)據(jù)保存在云端服務(wù)器,是解決信息數(shù)據(jù)和管理的有效途徑,但是隨之又產(chǎn)生一個(gè)問題,云服務(wù)提供商、非用戶可以很容易地在云服務(wù)器的私有數(shù)據(jù),私有數(shù)據(jù)的性極大用戶將數(shù)據(jù)加密后再到云端服務(wù)器能有效防止云服務(wù)提供商和非用戶私有數(shù)據(jù),但是卻給數(shù)據(jù)的檢索帶來。傳統(tǒng)的密文檢索技術(shù)要求關(guān)鍵字與索引完全匹配即關(guān)鍵字的微小差異有可能導(dǎo)致信息檢索,我們系統(tǒng)方案中模糊檢索技術(shù)使用編輯距離ed(w1,w2)來度量關(guān)鍵字的模減輕了云端服務(wù)器的壓力;檢索速度快,支持多關(guān)鍵字檢索,方便用戶的使用。: ,數(shù)據(jù)加密,模糊檢索,索引,信息收第二品介特色描加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)中,客戶端具有提交\登錄請求、信息收集\分類處理、信息資料加密上傳\、對已上傳的加密數(shù)據(jù)進(jìn)行模糊關(guān)鍵字檢索等功能;服務(wù)器端具有加密文件、自動索引建立、索引合并處理、接收用戶的\2-1所示:2-1靈活實(shí)用的數(shù)據(jù)加密算云是在云計(jì)算(cloudcomputing)概念上延伸和發(fā)展出來的一個(gè)新的概念是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量不同類型的設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作共同對外提供數(shù)據(jù)和業(yè)務(wù)功能的一個(gè)系統(tǒng)。云可以實(shí)現(xiàn)完全虛擬化,大大簡化應(yīng)用環(huán)節(jié),節(jié)省客戶建設(shè)成本,同時(shí)提供更強(qiáng)的和共享功能。但近幾年,面對云越來越多的個(gè)性化服務(wù),卻仍然有很多用戶會對這些服務(wù)不放心的態(tài)度。各種IT組織對于云最擔(dān)心的問題內(nèi)容,能保證數(shù)據(jù)的安全性。我們的系統(tǒng)能提供多種和用戶自定義的,所有具有良好的兼容高性能的模糊關(guān)鍵字信息檢索技空間小、安全性高的索引建立方我們的索引建立過程中,為了增強(qiáng)性,我們對索引文件進(jìn)行了加密,并且,為了減少索引的空間我們運(yùn)用前綴后綴壓縮技術(shù)及差值壓縮技術(shù)對索引文件進(jìn)的索引文件只是2010JinLi[4]建立的索引文件的百萬分之六,極大地降低了服務(wù)器的壓力。人性化的信息智能收集管理技系統(tǒng)基于云服務(wù)能自動收集和管理用戶的個(gè)人信息例如郵件、SNS2-2在信息萬變的社會,個(gè)人每天接受到的信息量是巨大的,但是這些信息發(fā)散背景分云背景分社會是一個(gè)信息化的社會每天都會產(chǎn)生大量的信息數(shù)據(jù)包括郵件、音頻、報(bào)表 、博客等201055日,EMC宣布題為《數(shù)字宇宙十年--你是否準(zhǔn)備好?》的研究結(jié)EMC贊助、IDC開展的研究,第四次測算數(shù)字宇宙的突破性數(shù)據(jù)增長速度,估量和預(yù)測全球每年創(chuàng)建和的海量數(shù)字信息,以及它對個(gè)人和IT專業(yè)45倍,2010年產(chǎn)生的數(shù)字信息量將達(dá)到1.2ZB,相當(dāng)于全地球所有男女老少連續(xù)不斷發(fā)100年所產(chǎn)生的數(shù)字信息或75016GBiPad。2-3由于信息量的急速增長,無論是對企事業(yè)單位還是個(gè)人而言,數(shù)據(jù)的和管理變得越來越采用傳統(tǒng)的本地方法已經(jīng)逐漸難于滿足人們對數(shù)據(jù)的和管理需求,云技術(shù)是解決數(shù)據(jù)和管理的有效途徑。云(cloudstorage)是在云計(jì)算(cloudcomputing)概念上延伸和發(fā)展出來的外提供數(shù)據(jù)和業(yè)務(wù)功能的一個(gè)系統(tǒng)。云作為新興的數(shù)據(jù)模式,比起傳統(tǒng)的模式具有以下的幾大的優(yōu)勢系統(tǒng)的部署成本比較高,如果使用云,就不需要花大價(jià)錢去一套存儲系統(tǒng),可以明顯的降低系統(tǒng)的部署成本。云產(chǎn)品的任務(wù)都是由供應(yīng)商來完成的。也就是說,企業(yè)自己并不需要配性能上,比自己要強(qiáng)的多。但當(dāng)前云發(fā)展許多關(guān)鍵性問題數(shù)據(jù)的安全性和隱私性問題首當(dāng)其沖。加密數(shù)據(jù)模糊檢索技術(shù)背景分隨著云技術(shù)的發(fā)展及成熟,越來越多企事業(yè)單位及個(gè)人將一些敏感的數(shù)據(jù)存基于索引文件的檢索方法基于匹配的檢索方法[1]這個(gè)方法對加密數(shù)據(jù)中每個(gè)單詞進(jìn)行對比,確認(rèn)關(guān)鍵字是否存在。它與基于安全索引檢索方法的區(qū)別是,它不需要建立索引文件,而是通過掃描加密后的數(shù)據(jù)文件,從中尋找與檢索關(guān)鍵字匹配的單詞,定位出所需要的文件。列舉所有模糊關(guān)鍵字形成模糊關(guān)鍵字集合并將集合在索引文件中當(dāng)需要進(jìn)行模相關(guān)工加密數(shù)據(jù)檢索問題是由伯克利大學(xué)的Song,Wagner和Perrig.于2000年。 中,展現(xiàn)了一種可檢索的對稱密鑰加密方案(SearchableSymmetricKey的關(guān)鍵字斯坦福大學(xué)的D.Boneh等人在此基礎(chǔ)上又提出了與SSKE等效的可檢索的公鑰加密方案(SearchablePublicKeyEncryption,SPKE)[5]。上述兩種方案,在每次案[6]EJGoh提出一種基于安全索引的檢索方案[7]。諾依理工大學(xué)的JinLi等人于2010年在 中的加密數(shù)據(jù)的模糊關(guān)鍵字檢索技術(shù)[4],其技術(shù)是以編輯距離ed(??1,??2)來衡量模糊度,wid的模糊集??????,??={??‘????,0??‘????,1??‘????,??}CASTLE,模1的模糊集為:??CASTLE,1={CASTLE,?CASTLE,?ASTLE,C?ASTLE,C?STLE,?,CASTL?E,CASTL?,CASTLE然后將每個(gè)單詞的模糊集起來,構(gòu)成索引文件,最后通過索引文件進(jìn)行檢索JinLi等人方案有一個(gè)較明顯的缺點(diǎn)是索引文件消耗的空間過大。若使用此方案,假設(shè)有104個(gè)關(guān)鍵字,每個(gè)關(guān)鍵字的平均長度為10個(gè)字符,模糊度d為2,哈希函數(shù)輸出長度為160bit,則生成的索引文件空間就達(dá)到30GB,這顯然對于實(shí)際應(yīng)用有極大的。應(yīng)用市場分云應(yīng)用市場分云這個(gè)概念一提出,就立即取得了很多IT公司的支持和關(guān)注。根據(jù)IDC調(diào)查數(shù)據(jù)預(yù)測,到2013年,云服務(wù)的增長率預(yù)計(jì)將超過所有其他IT云服務(wù),將從現(xiàn)在的174億增長到442億,其中,云的市場比例將從目前的9%增長到14%,也就是說云的市場規(guī)模將接近62億。由于這個(gè)市場的潛力,2009年4月,超過140家公司成立了SNIA云技術(shù)工作組,在2010年4月公布了第一個(gè)云標(biāo)準(zhǔn):云數(shù)據(jù)管理接口(CDMI,這幾乎是所有云計(jì)算標(biāo)準(zhǔn)組織中最早取得實(shí)質(zhì)性成果的。目前典型的云服務(wù)商主要有AmazonS3、storage、SkyDrive、EMCAtmos/mozy、Dropbox、SugurSyncSyncPlicity,國內(nèi)的中國電信e國移動139信箱互聯(lián)有備、聯(lián)想網(wǎng)盤、金山快盤、數(shù)據(jù)銀行、新浪微盤、QQ360但當(dāng)前,云發(fā)展許多關(guān)鍵性問題,而數(shù)據(jù)的安全性和隱私性問題首當(dāng)其70%,咨詢公司Unisys公布的安全指數(shù)顯示人并不放心將他們的數(shù)據(jù)進(jìn)人數(shù)據(jù)至第計(jì)算機(jī)的態(tài)度時(shí),64%的受訪者表示他們不放心這么做。,顯示有65%的受訪者表示他們非?;驌?dān)心個(gè)人信息被緊隨其后的擔(dān)憂問題是信息被竊(比例為64%由上述數(shù)據(jù)可以看出,在解決數(shù)據(jù)的安全性和隱私性問題的前提下,云的市個(gè)人交互信息量發(fā)展?fàn)畎殡S著網(wǎng)絡(luò)社區(qū)技術(shù)的成熟,網(wǎng) 用戶會融 樣化的群組集合。除了iResearchRadicatiGroup2007730124020112-4,2010年9月15日今天舉辦了一場活動聯(lián)合創(chuàng)始人埃文威廉姆斯(EvanWIlliams)透露了有關(guān)的一些統(tǒng)計(jì)數(shù)據(jù)。威廉姆斯表示天的信息量達(dá)9000萬條而且過去一年信息量的增速非常快另外今年以來,100%務(wù)。另外,目前每天新的賬戶達(dá)37萬。另一份結(jié)果顯示,每個(gè)中國SNS用戶平均每天使用4.18種產(chǎn)品/平臺,能夠獨(dú)大。從數(shù)據(jù)來看,只有9%的用戶僅僅使用一種SNS產(chǎn)品,大多數(shù)的用戶(17%(21%訝的是,有5%的對象每天使用九種SNS產(chǎn)品。2-5SNS(分鐘以上數(shù)據(jù)正是說明了目前用戶接觸到的信息交互工具種類越來越多,同時(shí)所接收到的信息量也正在快速地增長因此怎樣提高用戶對自己信息查看并管理的第三現(xiàn)方系統(tǒng)方系統(tǒng)整體架儲模塊和數(shù)據(jù)檢索模塊組成;而客戶端主要功能是上傳文件和瀏覽服務(wù)器文件,3-1方件也在云端服務(wù)器。加密方對稱密鑰加密方根據(jù)用戶的選定的主密鑰MasterKey生成數(shù)據(jù)文件的加密子密鑰??????????=??????2?,????????}KINDEXFILEikeyiKINDEX在索引文件中。各個(gè)文件和索引都使用不同的密鑰加密,能有效地抵抗唯密文,加強(qiáng)云端數(shù)據(jù)的性。如果一個(gè)用戶使用密鑰進(jìn)行檢索,那么他將得不到任何文件檢索信息,同樣也不能文件。當(dāng)用戶檢索到自己所需的文件后,從云端服務(wù)器下來后就可以對文件進(jìn)行解密。因?yàn)槊總€(gè)文件的都使用不同的密鑰加密,所以當(dāng)時(shí),用戶輸入主密鑰MasterKey,然后系統(tǒng)根據(jù)MasterKey和需要的文件名,通過Hash計(jì)算出密鑰,從而將文件。公鑰密鑰加密方這樣的公鑰避免了用戶對我們自己云空間的數(shù)據(jù)進(jìn)行檢索,保證了當(dāng)文件需要時(shí),只要用戶輸入用的私鑰,即可文件索引建立方3-2模糊檢索方務(wù)器透露檢索的具體含義,檢索使用的是經(jīng)過加密然后再進(jìn)行檢索的,實(shí)現(xiàn)原數(shù)據(jù)加密原對稱密鑰加密原為了有效地抵抗唯密文,系統(tǒng)在加密不同的數(shù)據(jù)文件和索引文件時(shí),會使用數(shù)據(jù)文件的加密密鑰??????????={??????1,??????2,?,????????}KINDEX。????????????(??????????????????)={????????????=????????=其中,h1h2FIDiKINDEX,加密算法使用AES,模式為CFB,密鑰長度可以設(shè)定為128位、192為或256位。將所且不會向外任何關(guān)鍵字信息。KeyGen(MasterKey)keyiAES對整個(gè)文件進(jìn)行加密。當(dāng)數(shù)據(jù)文件加密上傳到服務(wù)器后,檢用戶通過文件名對應(yīng)文件即可。也就是說檢索過程中,索引文件和數(shù)據(jù)文件相互AESAESCFB,密鑰長128位、192256位。MasterKeyh2keyi就可以????????=公鑰加密原,使用云服務(wù)時(shí),在有些情況下其他人可能需要向我們的云空間中發(fā)送件然而當(dāng)我們在這種情況下使用對稱密鑰時(shí)就意味著我們要向其他用戶露密鑰的風(fēng)險(xiǎn)密鑰意味著獲得密鑰的一方將擁有我們自己在云空間中的部權(quán)限包括檢索和文件所以這時(shí)候我們就需要使用公鑰加密體制對數(shù)RARA算法加密后發(fā)送到目標(biāo)云空間。,時(shí),只需用戶輸入的私鑰即可對文件進(jìn)行索引建立原詞典中所有的詞都按字母表順序排序,詞典的結(jié)構(gòu)如圖3-3圖3-3TermInfo:每個(gè)詞一個(gè)DocFreq:有多少篇文檔包含此詞;;圖3-4SkipLevelLength圖3-5提取并過濾高頻在英文中,a,the,is義,對檢索到所需的文件幾乎沒有什么幫助,所以為了減少保存的數(shù)據(jù)量和提高效率,就將這些詞過濾掉,提取出信息量高的。提取出來的會全部轉(zhuǎn)換成小寫,并使用CFB模式的AES加密算法或公鑰RSA算法對關(guān)鍵字進(jìn)行加密。前綴后綴壓縮技[Int=4][t][e][r][m] [t][e][r][m][a][g][a][n][c][y][Int=9][t][e][r][m][a][g][a][n][t],[Int=8][t][e][r][m][n][i][a]35byte[Int=4][t][e][r][m] [Int=4(offset)][VInt=6][a][g][a][n][c][y][Int=8(offset)][VInt=1][t],[Int=4(offset)][VInt=4][n][i][a]共需要22個(gè)byte,大大縮小了空間差值壓縮技隨著數(shù)值的增大每個(gè)數(shù)字占用的Byte的個(gè)數(shù)也逐漸的增多為了減少空間,比如要如下整數(shù):16386,16387,16388,16389如果按正常方式保存,需要的空間如下:16386:[(1)000,0001][(1)000,0000][(0)100,0010]16387:[(1)000,0001][(1)000,0000][(0)100,16388:[(1)000,0001][(1)000,0000][(0)100,16389:[(1)000,0001][(1)000,0000][(0)100,12byte16386:[(1)000,0001][(1)000,0000][(0)100,16387:[(0)100,16388:[(0)100,16389:[(0)100,共需要6個(gè)byte,大大縮小了空間將文件1和文件2文件1:Thisisfileonefortest.CryptographyTheoryand文件2:Thisisfiletwofortest.FuzzySearchinEncrypted步驟3:提取并過濾高頻詞過濾后,提取出來的為文件1:[file][one][test][cryptography][theory]文件2:[file][two][test][fuzzy][search][encrypted]表3- 對應(yīng)文件號、出現(xiàn)頻數(shù)和位文件頻11211121211111211121211121

表3-2加文件 頻11211121211111211121211121模糊檢索原模糊檢索的具體過程如圖3-6圖3-6abc我們在此定義(w,k)代表與單詞w模糊度為1~k的模糊關(guān)鍵字集。由于經(jīng)過代替SF=S1+S2。客戶端得到用戶的檢索關(guān)鍵字w和模糊關(guān)鍵字集F,合并為關(guān)鍵字集S=SF+。然后客戶端對關(guān)鍵字集S進(jìn)行加密,得到加密關(guān)鍵字集E,之后就將E發(fā)送給云端服務(wù)器。服務(wù)器接收到E后,就對每個(gè)加密關(guān)鍵字進(jìn)行檢索。檢索是指通過索引文件,獲得關(guān)鍵字出現(xiàn)的文件號、頻數(shù)等。其過程如圖3-7。3-7ab鍵字中的所用關(guān)鍵字,ORcO(logn)。跳躍表的結(jié)構(gòu)如圖3-8圖3-8跳躍表比順序查找,大大提高了查找速度,如查找元素39,沒有比37大的元素,然后原鏈表的39,找到了所需的元素,共需要3個(gè)元素表3-3因說模糊度,s中各個(gè)關(guān)鍵字wiwf(wiinf項(xiàng)頻率,關(guān)鍵字wi在文件f反轉(zhuǎn)文件頻率,wi協(xié)作因子,在文件f數(shù),s評分為??????????(??,??)=??????????(??,??)×????????(??)×∑(????(????,??)×????(??????????)×????????模糊度fy(wi,s):指檢索關(guān)鍵字集s中各個(gè)關(guān)鍵字的模糊度????(????)

????(????,越多,說明文件f??????????(??,??)=????????(??)

???????????????????????項(xiàng)頻率wf(wiinf):指關(guān)鍵字wi在文件f中出現(xiàn)的頻數(shù)frequency????(??????????)=:反轉(zhuǎn)文件頻率idf(wi)現(xiàn)關(guān)鍵字wi的文件數(shù)量fileFreq,fileFreq越小,:??????(????)=??+??????

????????????????+軟件流MD5文文件上 信息檢文圖3-9將檢索得到的結(jié)果返回客戶端,客戶端將返回的加密結(jié)果后呈現(xiàn)給用戶,模糊關(guān)用戶請求檢索到的文件,云端接收到請求后將相應(yīng)文件傳回客戶端,客戶端接收到文件后首先進(jìn)行MD5校驗(yàn),確認(rèn)文件的完整性,然后對文件進(jìn)行獲得原始文件,完成。軟件功研究關(guān)于加密數(shù)據(jù)的模糊關(guān)鍵字檢索技術(shù)和個(gè)人信息自定義智能收集技術(shù),并最終設(shè)計(jì)這套能夠有效幫助個(gè)人進(jìn)行安全信息檢索的系統(tǒng)。加密功用戶上傳數(shù)據(jù),自己查看。數(shù)據(jù)文件是通過對稱密鑰加密的,然后加密數(shù)據(jù)模糊檢索功信息收集功系統(tǒng)不僅基于云的服務(wù),還能自動收集和管理用戶的個(gè)人信息,例如、郵件、等。第四能測測試方4-1測試方案上表4-1給出了對于云加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)進(jìn)試的四個(gè)模塊,對軟件功能的正確性進(jìn)試軟件的主要功能模塊包括索引建立模塊信息檢索模塊加密模塊關(guān)鍵字模糊化模塊網(wǎng)絡(luò)通信模塊和郵件收集模塊,對軟件的穩(wěn)定性進(jìn)試。軟件的穩(wěn)定性主要體現(xiàn)在索引建立過程的穩(wěn)定性、測試方法需要通過檢索過程進(jìn)試,對于Word、PDF、TXT等不同格式的源文件進(jìn)關(guān)鍵字模糊化模塊測試通過設(shè)置不同的模糊度值分別對單個(gè)關(guān)鍵字以及加密模塊測試加密和分別針對字符串和文件進(jìn)試軟件的服務(wù)端和客戶端間進(jìn)行通信時(shí)傳遞的信息都是經(jīng)過AES加密的,要保證信息的準(zhǔn)戶端的加密信息能夠被正確客戶端需要將加密的數(shù)據(jù)文件上傳到服務(wù)器以便在需要時(shí)能夠?qū)⑵涞奖镜剡@就要保證加密前的文件與后的文件后的MD5校驗(yàn)值相同,避免文件數(shù)據(jù)流在傳輸?shù)倪^程中部分丟失。使用JinLi等人方案[4]建立索引文件,再使用本系統(tǒng)的索引建立方案建立測試方法方案一:使用JinLi等人方案,對于要進(jìn)行索引的源文件中的每一個(gè)單詞增、刪、減造成的差異程度,例如keyword和keyworbs間的編輯距離為2。將每個(gè)索合全部加密到索引文件中。使用模糊關(guān)鍵字建立的索引和本系統(tǒng)的索引建立方案建立的索引進(jìn)行測試方法首先使用模糊關(guān)鍵字方案建立的索引進(jìn)行檢索測試對多個(gè)關(guān)鍵字進(jìn)行檢索,并記錄檢索需要的時(shí)間以及得到的檢索結(jié)果質(zhì)量然后使用本系統(tǒng)索引建立方對用同種結(jié)構(gòu)的索引文件,分別在其中沒有加密的關(guān)鍵字和經(jīng)過加理的測試方法對比兩種索引建立方案建立的索引文件的空間開銷。分析兩種方案在實(shí)際應(yīng)測試方法測試環(huán)境和設(shè)4-2測試環(huán)境和設(shè)備硬件環(huán)IBMxSeries ECCDDR2SAS Core2T8100SamsungDDR2800Hitachi軟件環(huán)?Windows.NET.NETFramework?Windows.NET.NETFramework詳細(xì)測云加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)由服務(wù)端軟件和客戶端軟件兩部分組成,下4-14-2系統(tǒng)功能及軟件穩(wěn)定性測在服務(wù)器上運(yùn)行 加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)軟件的服務(wù)端4-34-4在出現(xiàn)的客戶端登陸界面上輸入服務(wù)器的IP地址以及用戶名和登陸進(jìn)行登 4-5在的界面上輸入我們要的用戶名和點(diǎn)擊,如果用戶名已經(jīng)存在使用新的用戶名登陸,登陸后的軟件主界面如圖4-64-7AES接下來需要添加上傳到云端的文件文件的格式可以是WordPDFHTML、4-8圖4-9文件在服務(wù)器 情在圖4-9中我們可以看到上傳到云端服務(wù)器文件的文件名也經(jīng)過了加理,4-104-10雖然服務(wù)端無法獲取文件的名稱,但在軟件的客戶端我們經(jīng)過后仍然能夠知4-11。4-114-124-12可以看到,索引文件中的每個(gè)關(guān)鍵字都經(jīng)過了加理,云端的任何人不能就是云端的任何數(shù)據(jù)無一不是經(jīng)過加理的,這樣就可以保證云端數(shù)據(jù)的安全性4-134-144-14traditionaladitional進(jìn)行檢索:4-15模糊集大小。我們對關(guān)鍵字items進(jìn)試,在模糊度默認(rèn)值為5的情況下以及模糊9的情況下對該關(guān)鍵字進(jìn)行檢索:4-164-1755itemsitemsstems4-189itemsitems、stems和seems,比模糊度為5時(shí)檢索到的結(jié)果。郵件的目標(biāo)郵箱的地址、以及是否使用SSL。4-194-20followed4-214-22文件功能測試。將文件上傳到云端后,當(dāng)我們需要的時(shí)候需要將文件到檢索到的文件明上點(diǎn)擊鼠標(biāo)便可跳轉(zhuǎn)到目標(biāo)文件的頁面:圖4-23文 列文件完畢后會自動將文件名和用戶密鑰拼接并進(jìn)行哈希得到文件子密鑰,使用子密鑰對該文件進(jìn)行得到原文件:圖4-24后的文件正確打開并顯them4-25them切換到文件,在服務(wù)器文件列表中選擇Duringadolescence.txt文件,右4-26再次對相同的關(guān)鍵字them進(jìn)行我們從檢索的結(jié)果可以看到刪除的Duringadolescence.txt文件已經(jīng)不在檢索結(jié)果中:4-27them系統(tǒng)索引建立時(shí)間對比測方案一:關(guān)鍵字模糊化加密后存入索引文100004-3單詞單詞平均長索引建立時(shí)12秒340 毫121392311000秒(理論值方案二:關(guān)鍵字加密后直接存入索引文4-4單詞單詞平均長索引建立時(shí)3562842294-4系統(tǒng)索引文件大小對比測的文本文件建立的索引文件。記錄這些索引文件的空間開銷,數(shù)據(jù)如下:表4-5方案一的索引文件開單詞單詞平均長索引文件大15GB(理論值通過上表的數(shù)據(jù)可以知道,方案立的索引文件在空間上也非常巨大,對1010000個(gè)關(guān)鍵字的文本文件來說,其文件本身的大小約為107.4KB,而建立的索引文件大小達(dá)到了15G。在JinLi的方案中,10000個(gè)關(guān)鍵字建立30GB索引文件,每個(gè)關(guān)鍵字使用160bit的哈希函數(shù),也就是每個(gè)關(guān)鍵字的大小為20字節(jié),我們測試使用的關(guān)鍵字不經(jīng)過哈希,直接加密的文本,每個(gè)長度為10的關(guān)鍵字容量平均為10字節(jié)最后生成的索引文件大小與理論值基本相再列出方案立的索引文件大小數(shù)據(jù)表4-6方案二的索引文件開單詞單詞平均長索引文件大少,對于空間的消耗降到了合理的范圍內(nèi)4-28端的容量巨大,但是對于一個(gè)較小的文本文件使用方案一產(chǎn)生GB級別的索引,將這樣的索引文件上傳到云端將消耗大量的帶寬資源而方案二由于沒有冗余的系統(tǒng)信息檢索時(shí)間對比測對比一:加密索引文件和非加密索引文件檢索時(shí)間測html4-28準(zhǔn)備索引的文件(部分4-294-7關(guān)鍵非加密索引檢索時(shí)間加密索引檢索時(shí)間檢索時(shí)間檢索時(shí)間8765432101234567894-30通過數(shù)據(jù)統(tǒng)計(jì)得到圖4-30所示檢索時(shí)間折線圖從圖中可以看出基于非加密索5%以內(nèi),個(gè)別基于加密索引的關(guān)鍵字檢索時(shí)間甚至小于基于非加密的索引檢對比二:兩種索引方案建立的索引文件進(jìn)行模糊檢索對比測我們檢索使用的索引文件分別由方案一和方案二方法建立4-8關(guān)鍵檢索時(shí)間20~50???=??×??0+Nt0示精確檢索一個(gè)關(guān)鍵字消耗的時(shí)間,tf表示將關(guān)鍵字模糊化的時(shí)間。t0文件大小有關(guān)tf與獲取的關(guān)鍵字個(gè)數(shù)有關(guān)是一個(gè)固定范圍的值大8ms~10ms之間。了高效的模糊關(guān)鍵字檢索效率,免去了方案一105數(shù)量級的服務(wù)器增長,實(shí)際應(yīng)用沒有性能的瓶頸制約。另一方面,由于方案著索引文件的式增長檢索查詢索引的時(shí)間極有可能超過方案二多次查詢的時(shí)間。本系統(tǒng)使用方案立的云加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)有很強(qiáng)的實(shí)用性。結(jié)果分本系統(tǒng)提出和使用的方案能夠在保證索引文件足夠小的情況下進(jìn)行高效的模糊關(guān)鍵字檢索。該方案的索引建立算法比JinLi等人方法有較大的優(yōu)化,同樣100KB200KB,JinLi30GB,157285到檢索結(jié)果的正確性和高效性軟件各個(gè)模塊的功能正 軟件集成正確,多關(guān)鍵字模糊查詢功能完成。4.5客戶端功能測的全新的安全模糊檢索方案在端進(jìn)行有效地實(shí)現(xiàn)。表4-9測試實(shí)驗(yàn)環(huán)硬件環(huán)客戶MarvellPXA920512MBRAM+512MBAndroidOSStandardAndroidtform在出現(xiàn)的客戶端登陸界面上輸入服務(wù)器的IP地址以及用戶名和登陸進(jìn)行登陸圖4-31客戶端登陸界圖4-32客戶端檢索界在出現(xiàn)的界面上方的位置需要我們輸入數(shù)據(jù)加密的密鑰和檢索的,端上圖看到進(jìn)行對”make””made”第五新云加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)具有以下幾個(gè)方面的創(chuàng)(一 安全高效的云端數(shù)據(jù)模糊關(guān)鍵字信息檢索方性;可控性,服務(wù)器沒有得到用戶無法對用戶數(shù)據(jù)進(jìn)行檢索;模糊化,系統(tǒng)會自(二 空間小、安全性強(qiáng)的索引文件建立方我們的索引建立過程中,為了增強(qiáng)性,我們對索引文件進(jìn)行了加密,另外,為了減少索引的空間我們運(yùn)用前綴后綴壓縮技術(shù)及差值壓縮技術(shù)對索引文件進(jìn)的索引文件只是使用JinLi的方法[4]建立的索引文件的百萬分之六,極大地降低了服務(wù)器的壓力。第六展,信息數(shù)據(jù)的增長就更加迅速了。信息數(shù)據(jù)的急速增長了兩個(gè)難題,就是信息數(shù)據(jù)的和管理問題。云具有海量的空間和高效的數(shù)據(jù)管理等優(yōu)點(diǎn),是解決網(wǎng)絡(luò)用戶信息量難以并難以管理的問題的有效途徑但隨著云技術(shù)的使用,關(guān)于數(shù)據(jù)的性和安全性問題也隨之而來用戶將數(shù)據(jù)加密后在到云端服務(wù)器能有效防止云服務(wù)提供商和非用戶私有數(shù)據(jù)但是卻給數(shù)據(jù)的檢索帶來的。傳統(tǒng)的密文檢索技術(shù)要求關(guān)鍵字與索引完全匹配,即關(guān)鍵字的微小差異有可能導(dǎo)致信息檢索,這給大部分習(xí)慣使用模糊關(guān)鍵字檢索信息的用戶帶來不便。、另外,我們開發(fā)的云加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)不僅能實(shí)現(xiàn)數(shù)據(jù)的云及數(shù)據(jù)的模糊檢索,還能智能化地將用戶的郵件等個(gè)人信息從網(wǎng)絡(luò)各處收集起來,加密在云端服務(wù)器進(jìn)行有效的管理,方便用戶的瀏覽和檢索,、測試表明,云加密數(shù)據(jù)模糊關(guān)鍵字檢索系統(tǒng)具有較高的檢索效率而且安全可從而可以根據(jù)加密的關(guān)鍵字直接進(jìn)行模糊檢索;④完善公鑰體制下的數(shù)據(jù)加密檢參考文DawnXiaodongSong,DavidWagner,and Perrig.Practicaltechniquesforsearchesonencrypteddata.InIEEESymposiumonSecurityandPrivacy,pages44–55,2000.http://c R.Brinkman,J.M.Doumen,P.H.Har,andW.Jonker.Usingsecretsharingforsearchinginencrypteddata.InW.JonkerandM.Petkovi?,editors,SecureDataManagementVLDB2004workshop,volumeLNCS3178,pages18–27,Toronto,Canada,August2004.Springer-Verlag,Berlin..pdf.R.Brinkman,B.Schoenmakers,J.M.Doumen,andW.Jonker.Exp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論