版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Chapter18欄位操作節(jié)點18.1總論18.2類型節(jié)點18.3過濾節(jié)點18.4導(dǎo)出節(jié)點18.5填充節(jié)點18.6設(shè)置標記節(jié)點18.7歷史節(jié)點Outline在資料準備階段,使用者通常需要選擇、清理和建構(gòu)資料。欄位操作節(jié)點能夠幫助使用者爲建模和其他下游流程的操作準備資料。欄位操作選項板包含以下節(jié)點:類型(Type)
過濾(Filter)
導(dǎo)出(Derive)
填充(Filler)
設(shè)置成標記(SettoFlag)
歷史(History)
8.1總論8.2類型節(jié)點目的:指定欄位的一系列重要屬性。類型資料使用類型:(1)連續(xù)型(Range):用於描述數(shù)值。(2)離散型(Discrete):
用於當一個具體值的精確數(shù)量未知時描述字串。(3)標記型(Flag):用於只取兩個具體值的資料。(4)集(Set):
用於描述帶有多個具體值的資料,每個值作爲集中的一個元素。note:將一種類型設(shè)置爲集並不會自動把值轉(zhuǎn)換爲字串。(5)無類型(Typeless):
用於不符合上述任一種類型的資料或者含有太多元素的集類型資料。在類型節(jié)點中設(shè)置資料類型
(一)使用自動定類:使用ReadValues按鈕來立刻讀取資料來源中的值。
(二)手工設(shè)定欄位類型:何謂實例化實例化就是讀取或詳細說明資訊的過程。未實例化:未知類型的資料通常被認爲是未實例化。部分實例化:當使用者具有關(guān)於一個欄位存儲如字串或數(shù)值的資訊時,資料被稱作部分實例化。完全實例化:當某種類型的所有細節(jié)包括值都已知,在欄中就會顯示完全實例化類型--集、標記、連續(xù)。何時在類型節(jié)點實例化
使用者有兩種方法知道資料欄位的存儲類型和值。(1)可以發(fā)生在使用者首次把資料引入Clementine時的來源節(jié)點上。(2)在把一個類型節(jié)點插入流中時。在以下情況時,類型節(jié)點上的實例化是有用的:(1)資料集較大,而且流在類型節(jié)點前就過濾了子集(2)資料在流程中被過濾(3)資料在流程中被合併或附加(4)在處理過程中導(dǎo)出新的資料欄位
資料存儲與資料類型
欄位的類型與欄位的存儲不同,後者指出了資料是否儲存爲字串、整數(shù)、實數(shù)、時間、日期或者時間標記。存儲能夠在固定文件和可變文件來源節(jié)點處改變或使用轉(zhuǎn)換函數(shù)來改變。類型節(jié)點已經(jīng)被實例化:(1)使用者便可以選擇IgnoreUniqueFields,將自動忽略只帶有一個值的欄位。(2)選擇IgnoreLargeSets,自動忽略含有大量記錄的資料集。讀取資料值可以選擇自動定類選項或在一個單獨的對話方塊中指定類別和值。<Read>當執(zhí)行節(jié)點時讀取資料<Read+>讀取資料和附加到目前資料(如果已有資料存在)<Pass>無數(shù)據(jù)被讀取<Current>保持目前資料值Specify...打開一個單獨的對話方塊來指定值和類型選項使用值對話方塊
Type:顯示目前選中類型。使用者可以通過改變類型來反映使用者想在Clementine使用資料的方式。Storage:
顯示已知存儲類型。存儲類型不受使用者選擇的使用類型(連續(xù)、集、標記)的影響。要想改變存儲類型,使用者可以使用固定文件和可變文件來源節(jié)點的資料標記,或者過濾節(jié)點的轉(zhuǎn)換功能。
Value:
選擇一種方法來決定已選欄位的值。讀取資料的選擇:(1)Readfromdata(<Read>):選擇在節(jié)點執(zhí)行時讀取資料。
(2)Pass(<Pass>):選擇不讀取目前欄位的資料。
(3)Specifyvalues:該選項同值檢查一起使用,允許使用者基於對目前欄位的認識來指定值。這種選項能夠?qū)γ恳活悪谖贿M行單獨控制。
note:不能給無類型(Typeless)或<Default>的欄位類指定值。從資料擴展值(Extendvaluesfromdata):
選擇使用者在此處鍵入的值來附加目前資料。檢查值(Checkvalues):
選擇一種方法--強迫值符合指定範圍、標記或者集值。值檢查同指定值選項一起使用,允許使用者設(shè)置資料中的值與期望值一致。定義空白(Defineblanks):
使用者能指定系統(tǒng)遺漏值(在資料中顯示爲$null$)
和空白處(沒有可視字元的值)爲空白。使用者也可以用遺漏值表格來定義具體的值(如99或0)爲空白。描述(Description):
使用該文本框來鍵入任何有關(guān)資料欄位的評論。指定連續(xù)值連續(xù)型用於數(shù)值型欄位。連續(xù)型類型節(jié)點有以下三種存儲類型:(1)實數(shù)(2)整數(shù)
(3)日期/時間下限(Lower):
爲連續(xù)型欄位值指定下限上限(Upper):
爲連續(xù)型欄位值指定上限指定集的值集欄位類型要求資料值作爲集的元素單個使用。集的存儲類型可以是字串、整數(shù)、實數(shù)或者日期/時間值(value):允許基於對目前欄位的認識來指定值。使用者可以使用該表格來鍵入欄位的期望值,並用檢查值下拉功能表的方法,來檢查資料集是否與這些值一致。指定標記值標記欄位用於顯示含有兩個不同值的資料。標記的存儲類型可以是字串、整數(shù)、實數(shù),或者日期/時間。True:
條件符合時指定欄位的標記值。False:
條件不符合時指定欄位的標記值。
檢查類型值打開每一欄位的檢查選項檢查該欄位的所有值,以判斷它們是否符合目前類型設(shè)置或者是否符合使用者在Specify值對話方塊中指定的值。優(yōu):清理資料集和減少某個單一操作內(nèi)資料集大小時是很有用的。Check欄的設(shè)置決定了當一個超出類型限制範圍的值被發(fā)現(xiàn)時會發(fā)生什麼。None:值將不經(jīng)過檢查就通過。Nullify:把超出範圍的值變爲系統(tǒng)遺漏值($null$)。Coerce:檢查類別被完全實例化的欄位是否含有落在指定範圍外的值。Note:未被指定的值將會根據(jù)下述規(guī)則被轉(zhuǎn)化爲一個該種類型的合法值:(1)對於flag,除了“真”和“假”外的其他值均被轉(zhuǎn)換爲“假”(2)對於set,任何未知值都被轉(zhuǎn)換爲集值的第一個元素(3)超過區(qū)間上限的數(shù)位用上限替代(4)低於區(qū)間下限的數(shù)位用下限替代(5)區(qū)間內(nèi)的遺漏值用該區(qū)間的中位數(shù)代替Discard:當非法值被發(fā)現(xiàn)時,整個記錄被刪除。Warn:當讀取完所有資料時,在流程屬性對話方塊中計數(shù)和報告非法專案的數(shù)量。Abort:遇到第一個非法值就中止執(zhí)行流程。錯誤會在流程屬性對話方塊中報告。In:
欄位被設(shè)爲input到機器學(xué)習(xí)中Out:
欄位被設(shè)爲機器學(xué)習(xí)的output或目標Both:
欄位將被GRI和Apriori節(jié)點用作input和output。None:
欄位被機器學(xué)習(xí)所忽略。設(shè)定欄位方向複製類屬性Step1:在要複製屬性的欄位上單擊滑鼠右鍵,選擇“Copy”。Step2:在要改變屬性的欄位上單擊滑鼠右鍵,選擇“PasteSpecial”。Step3:選擇欲貼上的屬性欄
8.3過濾節(jié)點三個功能:(1)從通過的記錄中過濾或剔除欄位(2)重命名欄位(3)把欄位從一個來源節(jié)點映射到另一個設(shè)定過濾節(jié)點選項Field:顯示目前連接的資料來源欄位Filter:顯示所有輸入欄位的過濾狀態(tài)Field:當欄位離開過濾節(jié)點時顯示這些欄位重複的名字會以紅色顯示。Viewcurrentfields:
選擇觀察與過濾節(jié)點連接的資料集的欄位。
Viewunusedfieldsettings:
選擇曾經(jīng)觀察但現(xiàn)已不再連接到過濾節(jié)點的資料集的欄位。
對話方塊頂端的過濾功能表可以幫助使用者同時進行多個欄位的操作(1)Removeallfield(2)Includeallfields
(3)Toggleallfields
(4)RemoveduplicatesMaximumlength:指定字元的個數(shù)來限制欄位名的長度。
Numberofdigits:
如果欄位名被縮短時不再唯一,通過把數(shù)位增加到
名字中,它們將被進一步縮短和區(qū)分。(5)Truncatefieldnames:(6)Useinputfieldnames
(7)filterdefault8.4導(dǎo)出節(jié)點Clementine最強大的特點就是其修改資料值和從已存資料中導(dǎo)出新欄位的能力。六種導(dǎo)出節(jié)點及其産生的新欄位如下所示:Formula:其新欄位是任一個CLEM運算式的結(jié)果。Flag:其新欄位是一個標記,顯示了指定的條件。Set:其新欄位是一個集,即它的元素是一組指定值。State:其新欄位是兩種狀態(tài)的一種。在兩種狀態(tài)之間的轉(zhuǎn)換是根據(jù)指定的條件來決定的。Count:其新欄位是基於條件正確的次數(shù)。Conditional:其新欄位是兩種運算式之一的值,取決於條件的值。
8.4.1設(shè)置導(dǎo)出節(jié)點的基本選項Mode:選擇Single還是Multiple,取決於使用者是否想導(dǎo)出多重欄位。當選中Multiple時,對話方塊會變爲包含有多重源欄位的選項。
DeriveDeriveas:選擇導(dǎo)出節(jié)點的類型,如下拉功能表中的Formula或Set。對於每一種類型,都可以基於使用者在類型指定對話方塊中指定的條件來創(chuàng)建一個新的欄位。根據(jù)每一個導(dǎo)出節(jié)點類型的屬性,從下拉功能表選中一個選項將會在主對話方塊增加一系列新的控制。
DeriveFieldtype:爲最新得到的來源節(jié)點選擇一個類型,如連續(xù)型、集或標記型。該選項可用於所有形式的導(dǎo)出節(jié)點。
8.4.2導(dǎo)出多重欄位在導(dǎo)出節(jié)點中設(shè)置模式爲Multiple,使用者就可以基於同一節(jié)點中的同一條件導(dǎo)出多重欄位。這一特點在使用者想要對資料集中一些欄位進行相同的變化時能夠節(jié)省時間。
選擇多重欄位Sortby:Natural:當欄位通過流程進入
目前節(jié)點時,觀察欄位的順序。Name:查看時,按照字母順序?qū)谖环诸怲ype:查看按類型分類的欄位,此選項在根據(jù)類型選擇欄位時是很有用的。
Filenameextension:鍵入使用者想要增加到新欄位的副檔名。例如,對於一個含有變數(shù)K,Na對數(shù)化的新欄位,使用者可以增加副檔名_derive2到原欄位名,即K_derive2。用單選按鈕來選擇是否增加擴展作爲欄位名的字首(prefix放在開頭)或尾碼(suffix放在末尾)。預(yù)設(shè)名爲DeriveN,其中N是目前會話中使用者所建導(dǎo)出節(jié)點的數(shù)目。
8.4.3設(shè)置導(dǎo)出規(guī)則選項注意這個運算式不能是有條件的。如果要根據(jù)一個條件運算式導(dǎo)出值,則使用導(dǎo)出節(jié)點的標記或條件類型。8.4.4設(shè)置導(dǎo)出標記選項Truevalue:對符合下面指定條件的記錄,指定一個值,使其包含在標記欄位中。預(yù)設(shè)值爲T。Falsevalue:對不滿足下列條件的記錄指定一個值包含在標記欄位中。預(yù)設(shè)值爲F。8.4.5設(shè)置導(dǎo)出設(shè)置節(jié)點選項設(shè)置導(dǎo)出設(shè)置節(jié)點選項8.4.6設(shè)置導(dǎo)出狀態(tài)選項8.4.7設(shè)置導(dǎo)出計數(shù)選項
導(dǎo)出計數(shù)節(jié)點用於在資料集中將一系列條件應(yīng)用到數(shù)值型欄位的值上。當每個條件滿足時,導(dǎo)出計數(shù)欄位的值就增加一個固定的增量。導(dǎo)出節(jié)點的這個類型可以有效用於時間序列資料。
設(shè)置導(dǎo)出計數(shù)選項8.4.8設(shè)置導(dǎo)出條件選項If。指定一個CLEM條件運算式,在執(zhí)行時爲每個欄位進行評估。如果條件爲真(或者在數(shù)值的條件下非假),則新欄位賦的值在下面的Then運算式中。單擊calculator按鈕,可以打開運算式構(gòu)造器。Then。在前面定義的If語句爲真(或者非假)時,給新欄位賦一個值或者CLEM運算式。單擊calculator按鈕,可以打開運算式構(gòu)造器。Else。在前面定義的If語句爲假時,給新欄位賦一個值或CLEM運算式。單擊calculator按鈕,可以打開運算式構(gòu)造器。
設(shè)置導(dǎo)出條件選項8.5填充節(jié)點填充節(jié)點用來替換欄位值以及改變存儲。使用者可以用一個指定的CLEM條件,比如@BLANK(@FIELD),來替換欄位值。使用者也可以用一個指定的值替換所有的空缺和無效值。填充節(jié)點通常與類型節(jié)點結(jié)合起來替換遺漏值。注意:當用使用者定義的值來替換已選中的多個欄位時,欄位類型必須相似(都爲數(shù)值型或者字元型),這點很重要。
填充節(jié)點當用使用者定義的值來替換以選重的多個欄位時,欄位類型必須相似(都為數(shù)值型或者字元型)填充節(jié)點Replace:選擇使用以下方法替換選中欄位的值Basedoncondition。此選項啟動Condition欄位和運算式構(gòu)造器,創(chuàng)建一個運算式,以此作爲用指定值作替換的條件。Always。替換所有被選中的欄位的值。比如,用此選項通過CLEM運算式(to_string(income))把income的存儲值轉(zhuǎn)換成字串。Blankvalues。替換被選中的欄位中所有使用者指定的空值。標準條件@BLANK(@FIELD)用來選擇空缺;注意:使用者可以用來源節(jié)點的Types項目或者用類型節(jié)點來定義空缺。Nullvalues。替換被選中欄位中的所有系統(tǒng)無效值。標準條件@NULL(@FIELD)用來選擇無效值。Blankandnullvalues。替換被選中的欄位中的空值和無效值。當使用者不能確信無效值是否已被定義爲遺漏值時,這個選項能發(fā)揮作用。
BasedonconditionBasedonconditionAlwaysBlankvaluesBlankvaluesNullvalueBlankandnullvalues注意:當所選的欄位爲字串型時,必須用字串型資料作替換。用缺省值0或者其他的數(shù)值型資料替換字串型資料將出現(xiàn)錯誤。
8.5.1用填充節(jié)點轉(zhuǎn)換存儲值可以使用的轉(zhuǎn)換函數(shù)如下:to_integer(ITEM)to_real(ITEM)to_string(ITEM)to_time(ITEM)to_timestamp(ITEM)檢視現(xiàn)有的轉(zhuǎn)換函數(shù),用運算式構(gòu)造器自動創(chuàng)建一個CLEM運算式。從Functions下拉功能表中,選擇Conversion可以查看所有轉(zhuǎn)換函數(shù)列表。
8.6設(shè)置標記節(jié)點
使用者必須先有一個從一個設(shè)置標記節(jié)點開始,在其上游的並且指定了一個或多個欄位類型爲資料集類型的類型節(jié)點。
8.6.1設(shè)置標記節(jié)點的設(shè)置選項8.7歷史節(jié)點偏差(Offset)。指定目前記錄之前最近的記錄,從其中提取歷史欄位值。例如,如果Offset設(shè)爲3,歷史節(jié)點在處理每條
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年江蘇省徐州市中考物理真題卷含答案解析
- 倉庫三級安全培訓(xùn)試題(附答案)
- 2025年大數(shù)據(jù)工程師職業(yè)資格考試試題及答案
- 2025年煤礦全員復(fù)工復(fù)產(chǎn)培訓(xùn)考試題庫及答案
- 幼兒園食堂食品安全管理制度
- 游泳池突發(fā)公共衛(wèi)生事件應(yīng)急救援預(yù)案
- 年度個人年終工作總結(jié)模板及范文
- 建筑公司三級安全教育考試題(附答案)
- 2025年鄉(xiāng)村醫(yī)生年度工作總結(jié)例文(二篇)
- 名中醫(yī)工作室工作制度
- 2026屆浙江省杭州城區(qū)6學(xué)校數(shù)學(xué)七年級第一學(xué)期期末教學(xué)質(zhì)量檢測試題含解析
- 儲能集裝箱知識培訓(xùn)總結(jié)課件
- 幼兒園中班語言《雪房子》課件
- 房地產(chǎn)項目開發(fā)管理方案
- 堆垛車安全培訓(xùn)課件
- 貝林妥單抗護理要點
- 衛(wèi)生院關(guān)于成立消除艾滋病、梅毒、乙肝母嬰傳播領(lǐng)導(dǎo)小組及職責分工的通知
- 廣東省執(zhí)信中學(xué)、廣州二中、廣州六中、廣雅中學(xué)四校2025年高三物理第一學(xué)期期末學(xué)業(yè)水平測試試題
- 民事答辯狀(信用卡糾紛)樣式
- 小學(xué)語文教學(xué)能力提升策略
- 浙江中醫(yī)藥大學(xué)《高等數(shù)學(xué)Ⅱ》2025-2026學(xué)年期末試卷(A卷)
評論
0/150
提交評論