下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
相對于結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。字段可根據(jù)需要擴充,即字段數(shù)目不定,可稱為半結(jié)構(gòu)化數(shù)據(jù),例如Exchange存儲的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)庫在信息社會,信息可以劃分為兩大類。一類信息能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,我們稱之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號;而另一類信息無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,如文本、圖像、聲音、網(wǎng)頁等,我們稱之為非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),是非結(jié)構(gòu)化數(shù)據(jù)的特例數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗.而數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認是否過濾掉還是由業(yè)務(wù)單位修正之后再進行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。不完整的數(shù)據(jù)這一類數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細表不能匹配等。對于這一類數(shù)據(jù)過濾出來,按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時間內(nèi)補全。補全后才寫入數(shù)據(jù)倉庫。錯誤的數(shù)據(jù)這一類錯誤產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等。這一類數(shù)據(jù)也要分類,對于類似于全角字符、數(shù)據(jù)前后有不可見字符的問題,只能通過寫SQL語句的方式找出來,然后要求客戶在業(yè)務(wù)系統(tǒng)修正之后抽取。日期格式不正確的或者是日期越界的這一類錯誤會導致ETL運行失敗,這一類錯誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫用SQL的方式挑出來,交給業(yè)務(wù)主管部門要求限期修正,修正之后再抽取。重復的數(shù)據(jù)對于這一類數(shù)據(jù)一特別是維表中會出現(xiàn)這種情況一將重復數(shù)據(jù)記錄的所有字段導出來,讓客戶確認并整理。數(shù)據(jù)清洗是一個反復的過程,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問題,解決問題。對于是否過濾,是否修正一般要求客戶確認,對于過濾掉的數(shù)據(jù),寫入Excel文件或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表,在ETL開發(fā)的初期可以每天向業(yè)務(wù)單位發(fā)送過濾數(shù)據(jù)的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證數(shù)據(jù)的依據(jù)。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉,對于每個過濾規(guī)則認真進行驗證,并要用戶確認。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是Internet和Intranet技術(shù)的飛快發(fā)展,使得非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。這時,主要用于管理結(jié)構(gòu)化數(shù)據(jù)的關(guān)系數(shù)據(jù)庫的局限性暴露地越來越明顯。因而,數(shù)據(jù)庫技術(shù)相應(yīng)地進入了“后關(guān)系數(shù)據(jù)庫時代”,發(fā)展進入基于網(wǎng)絡(luò)應(yīng)用的非結(jié)構(gòu)化數(shù)據(jù)庫時代。所謂非結(jié)構(gòu)化數(shù)據(jù)庫,是指數(shù)據(jù)庫的變長紀錄由若干不可重復和可重復的字段組成,而每個字段又可由若干不可重復和可重復的子字段組成。簡單地說,非結(jié)構(gòu)化數(shù)據(jù)庫就是字段可變的數(shù)據(jù)庫。我國非結(jié)構(gòu)化數(shù)據(jù)庫以北京國信貝斯(舊ase)軟件有限公司的舊ase數(shù)據(jù)庫為代表。舊ase數(shù)據(jù)庫是一種面向最終用戶的非結(jié)構(gòu)化數(shù)據(jù)庫,在處理非結(jié)構(gòu)化信息、全文信息、多媒體信息和海量信息等領(lǐng)域以及Internet/Intranet應(yīng)用上處于國際先進水平,在非結(jié)構(gòu)化數(shù)據(jù)的管理和全文檢索方面獲得突破。它主要有以下幾個優(yōu)點:Internet應(yīng)用中,存在大量的復雜數(shù)據(jù)類型,舊ase通過其外部文件數(shù)據(jù)類型,可以管理各種文檔信息、多媒體信息,并且對于各種具有檢索意義的文檔信息資源,如HTML、DOC、RTF、TXT等還提供了強大的全文檢索能力。它采用子字段、多值字段以及變長字段的機制,允許創(chuàng)建許多不同類型的非結(jié)構(gòu)化的或任意格式的字段,從而突破了關(guān)系數(shù)據(jù)庫非常嚴格的表結(jié)構(gòu),使得非結(jié)構(gòu)化數(shù)據(jù)得以存儲和管理。iBase將非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)都定義為資源,使得非結(jié)構(gòu)數(shù)據(jù)庫的基本元素就是資源本身,而數(shù)據(jù)庫中的資源可以同時包含結(jié)構(gòu)化和非結(jié)構(gòu)化的信息。所以,非結(jié)構(gòu)化數(shù)據(jù)庫能夠存儲和管理各種各樣的非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)了數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)管理到內(nèi)容管理的轉(zhuǎn)化。iBase采用了面向?qū)ο蟮幕瑢⑵髽I(yè)業(yè)務(wù)數(shù)據(jù)和商業(yè)邏輯緊密結(jié)合在一起,特別適合于表達復雜的數(shù)據(jù)對象和多媒體對象。iBase是適應(yīng)Internet發(fā)展的需要而產(chǎn)生的數(shù)據(jù)庫,它基于Web是一個廣域網(wǎng)的海量數(shù)據(jù)庫的思想,提供一個網(wǎng)上資源管理系統(tǒng)iBaseWeb,將網(wǎng)絡(luò)服務(wù)器(WebServer)和數(shù)據(jù)庫服務(wù)器(DatabaseServer)直接集成為一個整體,使數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)庫技術(shù)成為Web的一個重要有機組成部分,突破了數(shù)據(jù)庫僅充當Web體系后臺角色的局限,實現(xiàn)數(shù)據(jù)庫和Web的有機無縫組合,從而為在Internet/Intranet上進行信息管理乃至開展電子商務(wù)應(yīng)用開辟了更為廣闊的領(lǐng)域。iBase全面兼容各種大中小型的數(shù)據(jù)庫,對傳統(tǒng)關(guān)系數(shù)據(jù)庫,如Oracle、Sybase、SQLServer、DB
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重堿煅燒工安全知識評優(yōu)考核試卷含答案
- 橋涵養(yǎng)護培訓教材
- 橋梁建設(shè)安全培訓教材
- 橋式起重機吊鉤培訓課件
- 酒店客房維修保養(yǎng)制度
- 酒店餐飲部食品安全與食品安全培訓制度
- 超市商品銷售及庫存管理制度
- 濟源培訓班教學課件
- 流感傳染病培訓
- 2024-2025學年山西省運城市高一下學期期末考試歷史試題(解析版)
- 《透水混凝土路面應(yīng)用技術(shù)規(guī)程》DB33∕T 1153-2018
- DL∕T 1802-2018 水電廠自動發(fā)電控制及自動電壓控制技術(shù)規(guī)范
- 2024年個人信用報告(個人簡版)樣本(帶水印-可編輯)
- FZ∕T 73037-2019 針織運動襪行業(yè)標準
- 電外科設(shè)備安全使用
- (完整版)四年級上冊數(shù)學豎式計算題100題直接打印版
- 新生兒疫苗接種的注意事項與應(yīng)對措施
- 青島生建z28-75滾絲機說明書
- DEFORM在汽車零件冷鍛工藝中的應(yīng)用
- 廣州市自來水公司招聘試題
- GB/T 7324-2010通用鋰基潤滑脂
評論
0/150
提交評論