版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
11目錄版權(quán)聲明1.1產(chǎn)品特點(diǎn)1.2登錄/退出1.3用戶(hù)指南1.4數(shù)據(jù)源1.4.1數(shù)據(jù)集1.4.2數(shù)據(jù)剖析1.4.3可信度管理1.4.4項(xiàng)目/工作流管理1.4.5規(guī)則發(fā)現(xiàn)1.4.6查錯(cuò)1.4.7數(shù)據(jù)糾錯(cuò)1.4.8實(shí)體聚類(lèi)1.4.9最優(yōu)記錄1.4.10字段匹配1.4.11規(guī)則管理1.4.12用戶(hù)管理1.4.13典型應(yīng)用場(chǎng)景配置方案1.5PAGEPAGE100產(chǎn)品特點(diǎn)在全球全面利用大數(shù)據(jù)進(jìn)行現(xiàn)代化治理的背景下,數(shù)據(jù)日益融入到政府決策、社會(huì)治理、公共服務(wù)、生產(chǎn)制造、消費(fèi)流通等環(huán)節(jié),低質(zhì)量無(wú)序數(shù)據(jù)存在的危害風(fēng)險(xiǎn)越來(lái)越突出。根據(jù)美國(guó)數(shù)據(jù)倉(cāng)庫(kù)研究所統(tǒng)計(jì)數(shù)據(jù)顯示:數(shù)據(jù)質(zhì)量問(wèn)題每年造成美國(guó)工業(yè)界大約6110億美元的經(jīng)濟(jì)損失,約占美國(guó)GDP的6%,同時(shí)80%的公司都能從低質(zhì)量的數(shù)據(jù)中發(fā)現(xiàn)重大的成本改進(jìn),因此解決數(shù)據(jù)質(zhì)量的需求越來(lái)越大。但目前在全球市場(chǎng)上銷(xiāo)售的數(shù)據(jù)質(zhì)量主力產(chǎn)品80%以上是以ETL則,對(duì)數(shù)據(jù)質(zhì)量的提升非常有限。同時(shí)AI在數(shù)據(jù)質(zhì)量方面還處于探索階段,當(dāng)前成熟的機(jī)器學(xué)習(xí)模型不具備解決數(shù)據(jù)質(zhì)量的所有問(wèn)題的能力,主流模型比如Bert,GPT等含有非常多參數(shù),如何處理海量數(shù)據(jù)一直是一個(gè)難點(diǎn)。為此我們研發(fā)了采石磯系統(tǒng)解決上述問(wèn)題,該產(chǎn)品以自動(dòng)管理為特征,融合邏輯規(guī)則與人工智能,支持?jǐn)?shù)據(jù)規(guī)則的自動(dòng)挖掘、分析和推理,提供數(shù)據(jù)錯(cuò)誤的自動(dòng)監(jiān)測(cè)和糾錯(cuò)等功能。產(chǎn)品介紹本系統(tǒng)在數(shù)據(jù)質(zhì)量奠基性理論指導(dǎo)下,通過(guò)統(tǒng)一邏輯框架下規(guī)則和AI的結(jié)合,實(shí)現(xiàn)數(shù)據(jù)內(nèi)部潛在規(guī)則自動(dòng)發(fā)現(xiàn)。支持單表單行、單表多行、跨表規(guī)則的挖掘,并通過(guò)規(guī)則執(zhí)行完成數(shù)據(jù)潛在錯(cuò)誤的發(fā)現(xiàn),提供確定性的修復(fù)建議,解決數(shù)據(jù)一致性、時(shí)效性、精確性、完整性和實(shí)體的同一性問(wèn)題。面向集中式/分布式數(shù)據(jù)、關(guān)系型數(shù)據(jù),打造具有可信數(shù)據(jù)采集,規(guī)則發(fā)現(xiàn)、數(shù)據(jù)查錯(cuò)、數(shù)據(jù)糾錯(cuò)、實(shí)體聚類(lèi)、數(shù)據(jù)剖析、模型管理、規(guī)則管理等功能的一站式數(shù)據(jù)治理(數(shù)據(jù)質(zhì)量)解決方案。產(chǎn)品運(yùn)行環(huán)境序號(hào)項(xiàng)目詳細(xì)信息1硬件環(huán)境X86、ARM2后臺(tái)軟件環(huán)境Centos7.x、麒麟V103瀏覽器軟件Chrome63版本及以上、Edge12版本及以上、Firefox18版本及以上產(chǎn)品最小驗(yàn)證硬件要求序號(hào)項(xiàng)目數(shù)量詳細(xì)信息1CPU服務(wù)器3臺(tái)CPU:2*18C2GHz以上;Mem:32GDisk:1T以上網(wǎng)卡:2個(gè)1G以上2GPU顯卡服務(wù)器1臺(tái)TeslaV10032GPCIePas或等價(jià)顯卡、gpu驅(qū)動(dòng)>=450.80.02、CUDA>=11關(guān)鍵技術(shù)介紹規(guī)則發(fā)現(xiàn)規(guī)則發(fā)現(xiàn)主要用于發(fā)現(xiàn)數(shù)據(jù)中存在的規(guī)律。一般數(shù)據(jù)量增大后一些潛在的邏輯關(guān)系會(huì)被隱藏起來(lái)。需要花費(fèi)大量人工去分析才能找出,而使用規(guī)則發(fā)現(xiàn)功能就可以輕松解決這樣的問(wèn)題。規(guī)則發(fā)現(xiàn)分為CR規(guī)則發(fā)現(xiàn)和ER規(guī)則發(fā)現(xiàn):CR規(guī)則是用于處理數(shù)據(jù)沖突錯(cuò)誤的規(guī)則;ER規(guī)則是用于處理數(shù)據(jù)實(shí)體一致性問(wèn)題的規(guī)則。采石磯根據(jù)用戶(hù)輸入的挖掘偏好設(shè)置(用戶(hù)可以根據(jù)需要選擇機(jī)器模型或相似度算法),自動(dòng)進(jìn)行數(shù)據(jù)分析,輸出規(guī)則,用戶(hù)根據(jù)業(yè)務(wù)背景挑選適合實(shí)際場(chǎng)景的規(guī)則,便于后續(xù)的數(shù)據(jù)質(zhì)量提升做準(zhǔn)備。數(shù)據(jù)查錯(cuò)在指定數(shù)據(jù)集上基于規(guī)則(可以是規(guī)則發(fā)現(xiàn)輸出的規(guī)則,也可以是用戶(hù)自定義規(guī)則)進(jìn)行查錯(cuò),將不滿足規(guī)則的數(shù)據(jù)識(shí)別出來(lái),方便用戶(hù)進(jìn)一步分析或處理。數(shù)據(jù)查錯(cuò)可以在原始數(shù)據(jù)中找到數(shù)據(jù)沖突的規(guī)則或者規(guī)則集合,通過(guò)反復(fù)迭代的執(zhí)行這些規(guī)則,最終發(fā)現(xiàn)數(shù)據(jù)中所有的沖突(包括數(shù)據(jù)一致性、完整性、準(zhǔn)確性)。數(shù)據(jù)經(jīng)過(guò)查錯(cuò)規(guī)則的執(zhí)行,查錯(cuò)結(jié)果以通知的形式反饋給用戶(hù)進(jìn)行查看。查錯(cuò)可以針對(duì)全量和增量的數(shù)據(jù)進(jìn)行處理;查錯(cuò)的規(guī)則統(tǒng)稱(chēng)為REE規(guī)則,包含F(xiàn)D(函數(shù)依賴(lài))、CFD(條件函數(shù)依賴(lài))、MD(匹配依賴(lài))、DC(拒絕約束)規(guī)則,同時(shí)支持機(jī)器學(xué)習(xí)模型的運(yùn)行(如上圖中ML謂詞的推理運(yùn)行),擴(kuò)展邏輯規(guī)則的能力,提供語(yǔ)義層的識(shí)別能力。通過(guò)查錯(cuò)規(guī)則的運(yùn)行,用戶(hù)能夠得到數(shù)據(jù)中相關(guān)于查錯(cuò)規(guī)則的所有沖突和錯(cuò)誤信息,這個(gè)信息會(huì)以結(jié)果的形式標(biāo)記出來(lái),供用戶(hù)參考。數(shù)據(jù)糾錯(cuò)數(shù)據(jù)糾錯(cuò)針對(duì)大數(shù)據(jù)質(zhì)量問(wèn)題中數(shù)據(jù)沖突的問(wèn)題,主要解決數(shù)據(jù)的準(zhǔn)確性問(wèn)題。在指定數(shù)據(jù)集上基于規(guī)則(可以是規(guī)則發(fā)現(xiàn)輸出的規(guī)則,也可以是用戶(hù)自定義規(guī)則)進(jìn)行糾錯(cuò),對(duì)不滿足規(guī)則的數(shù)據(jù)進(jìn)行自動(dòng)修復(fù),用戶(hù)對(duì)自動(dòng)修復(fù)后的數(shù)據(jù)進(jìn)行錯(cuò)誤的修改和沖突的確認(rèn)后輸出修復(fù)結(jié)果。通過(guò)數(shù)據(jù)糾錯(cuò),用戶(hù)能夠得到錯(cuò)誤和沖突被糾正后的數(shù)據(jù)。實(shí)體聚類(lèi)實(shí)體聚類(lèi)針對(duì)大數(shù)據(jù)質(zhì)量問(wèn)題中實(shí)體不一致的問(wèn)題,主要解決不同系統(tǒng)中同一實(shí)體的記錄如何關(guān)聯(lián)的問(wèn)題。在指定數(shù)據(jù)集上,基于實(shí)體規(guī)則(可以是規(guī)則發(fā)現(xiàn)輸出的規(guī)則,也可以是用戶(hù)自定義規(guī)則)進(jìn)行實(shí)體聚類(lèi),可以找出數(shù)據(jù)中屬于同一實(shí)體的數(shù)據(jù),將分散的實(shí)體信息關(guān)聯(lián)到一起。常見(jiàn)場(chǎng)景介紹規(guī)則發(fā)現(xiàn)場(chǎng)景XX新能源汽車(chē)有130+傳感器,通過(guò)采石磯系統(tǒng)的規(guī)則發(fā)現(xiàn)功能在大量的傳感器數(shù)據(jù)發(fā)現(xiàn)部分傳感器之間的邏輯關(guān)聯(lián)關(guān)系,從中提煉出數(shù)十條滿足客觀邏輯的規(guī)則(cr規(guī)則),在后續(xù)執(zhí)行中幫助客戶(hù)有效補(bǔ)齊缺失數(shù)據(jù),提高了數(shù)據(jù)的完整性和正確性,得到客戶(hù)的好評(píng)。xxx藥協(xié)會(huì)擁有從上世紀(jì)90年代至今的所有藥物數(shù)據(jù)和各個(gè)3甲醫(yī)院的所開(kāi)具的所有藥物清單,但是由于各地寫(xiě)法和藥物計(jì)量的不同,醫(yī)院的清單和藥物數(shù)據(jù)難以準(zhǔn)確匹配,采石磯系統(tǒng)利用規(guī)則發(fā)現(xiàn)功能對(duì)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系進(jìn)行挖掘,根據(jù)藥名和計(jì)量、價(jià)格等相關(guān)數(shù)據(jù),發(fā)現(xiàn)多條實(shí)體屬性規(guī)則(er規(guī)則),能夠有效說(shuō)明清單數(shù)據(jù)和藥物數(shù)據(jù)之間的關(guān)聯(lián),能夠?qū)⑨t(yī)院的藥物清單和藥物數(shù)據(jù)準(zhǔn)確的匹配到一起,準(zhǔn)確率達(dá)到90%以上,順利地幫客戶(hù)解決了數(shù)據(jù)一致性問(wèn)題,節(jié)省了大量人力。數(shù)據(jù)查錯(cuò)場(chǎng)景xx運(yùn)營(yíng)商擁有海量的寬帶簽約用戶(hù)地址信息和機(jī)房資源點(diǎn)的地址信息,但是由于數(shù)據(jù)大部分為早期手工錄入,地址數(shù)據(jù)存在格式不規(guī)范和內(nèi)容不準(zhǔn)確的問(wèn)題,嚴(yán)重影響現(xiàn)場(chǎng)客戶(hù)維護(hù)和系統(tǒng)維護(hù)。采石磯系統(tǒng)先通過(guò)地址標(biāo)準(zhǔn)化功能,將地址類(lèi)數(shù)據(jù)統(tǒng)一為同一個(gè)標(biāo)準(zhǔn)格式,再根據(jù)規(guī)則發(fā)現(xiàn)中發(fā)現(xiàn)的規(guī)則對(duì)數(shù)據(jù)進(jìn)行查錯(cuò),找出大量同一地點(diǎn)但是地址不同甚至沖突的數(shù)據(jù),提供給客戶(hù),幫助運(yùn)營(yíng)商找到數(shù)據(jù)有誤的用戶(hù),方便進(jìn)一步確認(rèn)。數(shù)據(jù)糾錯(cuò)場(chǎng)景xx銀行,有大量賬戶(hù)地址信息,但是由于數(shù)據(jù)大部分為早期手工錄入,地址數(shù)據(jù)存在格式不規(guī)范和內(nèi)容不準(zhǔn)確的問(wèn)題,嚴(yán)重影響賬戶(hù)維護(hù)和系統(tǒng)維護(hù)。采石磯系統(tǒng)先通過(guò)地址標(biāo)準(zhǔn)化功能,將地址類(lèi)數(shù)據(jù)統(tǒng)一為同一個(gè)標(biāo)準(zhǔn)格式,再根據(jù)規(guī)則發(fā)現(xiàn)中發(fā)現(xiàn)的規(guī)則對(duì)數(shù)據(jù)進(jìn)行糾錯(cuò),找出大量同一地點(diǎn)但是地址不同甚至沖突的數(shù)據(jù),提供給客戶(hù),在客戶(hù)進(jìn)一步確認(rèn)后,輸出準(zhǔn)確度更高的地址信息。實(shí)體聚類(lèi)場(chǎng)景xx快遞公司,有大量的月結(jié)企業(yè)客戶(hù)信息,但很多客戶(hù)公司的信息填寫(xiě)的不夠準(zhǔn)確或者甚至還有錯(cuò)誤??蛻?hù)希望借助天眼查等機(jī)構(gòu)的企業(yè)標(biāo)準(zhǔn)信息數(shù)據(jù),對(duì)客戶(hù)數(shù)據(jù)進(jìn)行補(bǔ)充和校正。采石磯系統(tǒng)使用實(shí)體聚類(lèi)的方案,利用從數(shù)據(jù)中挖掘得到的ER規(guī)則,對(duì)客戶(hù)數(shù)據(jù)和天眼查數(shù)據(jù)進(jìn)行匹配,然后將匹配結(jié)果以數(shù)據(jù)對(duì)的方式輸出給用戶(hù),大大降低了客戶(hù)手動(dòng)比對(duì)數(shù)據(jù)的工作量,至少減少了20人-2月的工作量,顯著提升了客戶(hù)數(shù)據(jù)處理的效率。最優(yōu)記錄場(chǎng)景xxx政府大數(shù)據(jù)中心有大量的企業(yè)注冊(cè)信息,但是由于企業(yè)經(jīng)常需要更新或者注冊(cè)信息,導(dǎo)致數(shù)據(jù)庫(kù)中存有大量的過(guò)期信息,并且由于錄入的不標(biāo)準(zhǔn),很多數(shù)據(jù)存在誤錄入的情況,這樣的情況大大的增加的數(shù)據(jù)的維護(hù)成本,同時(shí)也降低了數(shù)據(jù)管理的效率。采石磯系統(tǒng)的實(shí)體聚類(lèi)功能根據(jù)企業(yè)名和企業(yè)的其他參照標(biāo)簽,成功將同一企業(yè)的數(shù)據(jù)識(shí)別成為同一實(shí)體后,再由最優(yōu)記錄功能,根據(jù)客戶(hù)需求選擇最新的數(shù)據(jù)為最優(yōu)數(shù)據(jù),推薦出最符合要求的數(shù)據(jù),迅速高效地解決了數(shù)據(jù)冗余和過(guò)期的問(wèn)題,節(jié)省了大量的人力物力。字段匹配xx物流公司,由于公司的發(fā)展迅速,每日數(shù)據(jù)量激增,同時(shí)由于數(shù)據(jù)管理的不完善,加上表格數(shù)據(jù)的多次復(fù)用,導(dǎo)致數(shù)據(jù)無(wú)法追溯血緣。由于沒(méi)有數(shù)據(jù)血緣管理,出現(xiàn)了比較嚴(yán)重的數(shù)據(jù)一致性的問(wèn)題。通過(guò)采石磯字段匹配功能,掃描多表的數(shù)據(jù)內(nèi)容,利用算法發(fā)現(xiàn)出字段關(guān)聯(lián)度高的數(shù)據(jù),在海量表格中,尋找出各個(gè)表格之間的關(guān)聯(lián),并通過(guò)人工確認(rèn)的方式,最終確認(rèn)數(shù)據(jù)的血緣關(guān)系。協(xié)助客戶(hù)解決了歷史遺留的數(shù)據(jù)問(wèn)題,并完成了一數(shù)一源的數(shù)據(jù)改革,提高了客戶(hù)的數(shù)據(jù)管理效率,得到了客戶(hù)的好評(píng)。登錄和退出系統(tǒng)在滿足版本要求的瀏覽器中(Chrome63版本及以上、Edge12版本及以上、Firefox18版本及以上),輸入地址,即ubi服務(wù)所在節(jié)點(diǎn)ip,輸入用戶(hù)名和密碼,默認(rèn)是admin/admin,如下圖所示。登錄系統(tǒng)登錄成功后,退出系統(tǒng)界面如下圖所示。退出系統(tǒng)用戶(hù)指南本文詳細(xì)講解采石磯系統(tǒng)的各項(xiàng)功能。包括”數(shù)據(jù)源“、”數(shù)據(jù)集“、”數(shù)據(jù)剖析“、”可信度管理“、”項(xiàng)目/工作流管理“、”規(guī)則發(fā)現(xiàn)“、”查錯(cuò)“、“數(shù)據(jù)糾錯(cuò)”、”實(shí)體聚類(lèi)“、”最優(yōu)記錄“、”字段匹配“、”規(guī)則管理“,最后通過(guò)實(shí)際案例進(jìn)一步說(shuō)明,幫助用戶(hù)學(xué)習(xí)使用采石磯系統(tǒng)。數(shù)據(jù)源本章節(jié)主要介紹采石磯系統(tǒng)對(duì)接外部數(shù)據(jù)庫(kù)數(shù)據(jù)源和文件數(shù)據(jù)源的主要方法和流程。本系統(tǒng)定義數(shù)據(jù)源為采石磯系統(tǒng)獲取數(shù)據(jù)的源頭,外部數(shù)據(jù)需要進(jìn)行處理和分析之前需要先將數(shù)據(jù)導(dǎo)入采石磯系統(tǒng)內(nèi)部,從而保證數(shù)據(jù)能夠在采石磯系統(tǒng)內(nèi)得到充分的分析。通過(guò)完成本章節(jié)步驟,可以了解到可以通過(guò)多種方式將外部數(shù)據(jù)導(dǎo)入到采石磯系統(tǒng)。前置條件須同時(shí)滿足以下兩個(gè)條件:正常安裝采石磯系統(tǒng);采石磯系統(tǒng)可以正常登錄。數(shù)據(jù)源操作流程圖數(shù)據(jù)源操作流程圖數(shù)據(jù)庫(kù)數(shù)據(jù)源操作說(shuō)明本章主要講解數(shù)據(jù)庫(kù)數(shù)據(jù)源操作說(shuō)明。數(shù)據(jù)庫(kù)數(shù)據(jù)源操作流程圖如下圖所示。數(shù)據(jù)庫(kù)數(shù)據(jù)源操作流程圖數(shù)據(jù)源頁(yè)面簡(jiǎn)介點(diǎn)擊數(shù)據(jù)配置按鈕,選擇數(shù)據(jù)源按鈕,會(huì)看到數(shù)據(jù)源頁(yè)面,具體呈現(xiàn)如下圖。數(shù)據(jù)庫(kù)數(shù)據(jù)源界面數(shù)據(jù)源連接點(diǎn)擊連接數(shù)據(jù)源按鈕,彈出添加數(shù)據(jù)源窗口數(shù)據(jù)源配置界面目前采石磯系統(tǒng)支持如下數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)類(lèi)型數(shù)據(jù)源關(guān)系型數(shù)據(jù)庫(kù)Mysql、PostgreSQL、Oracle、MicrosoftSQLServer大數(shù)據(jù)數(shù)倉(cāng)存儲(chǔ)Hive、HbaseNoSQL數(shù)據(jù)存儲(chǔ)MongoDB國(guó)產(chǎn)數(shù)據(jù)庫(kù)YashanDB、GaussDB數(shù)據(jù)源連接詳細(xì)說(shuō)明選項(xiàng)配置說(shuō)明必要名稱(chēng)自定義對(duì)應(yīng)數(shù)據(jù)庫(kù)的別名(僅支持中文、字母、數(shù)字、下劃線)是地址對(duì)應(yīng)數(shù)據(jù)庫(kù)的IP地址是端口對(duì)應(yīng)數(shù)據(jù)庫(kù)的端口是用戶(hù)名對(duì)應(yīng)數(shù)據(jù)庫(kù)的用戶(hù)名是密碼對(duì)應(yīng)數(shù)據(jù)庫(kù)的密碼是數(shù)據(jù)庫(kù)名/schema(hive)/服務(wù)名(oracle)對(duì)應(yīng)數(shù)據(jù)庫(kù)的庫(kù)名/schema/服務(wù)名是ZookeeperQuorum(Hbase)對(duì)應(yīng)數(shù)據(jù)庫(kù)的IP和端口是ZookeeperBasePath(Hbase)對(duì)應(yīng)數(shù)據(jù)庫(kù)的BasePath是完成數(shù)據(jù)源信息配置以后,點(diǎn)擊連接測(cè)試按鈕,頁(yè)面窗口會(huì)返回連接測(cè)試情況。如果不成功請(qǐng)檢查數(shù)據(jù)源配置。完成配置后點(diǎn)擊確定按鈕完成數(shù)據(jù)源配置,配置完成后數(shù)據(jù)源列表會(huì)新增剛剛配置的數(shù)據(jù)源。新增數(shù)據(jù)源界面數(shù)據(jù)源編輯如果需要修改已配置的數(shù)據(jù)源,可以點(diǎn)擊數(shù)據(jù)源頁(yè)面的編輯按鈕,點(diǎn)擊后會(huì)彈出修改數(shù)據(jù)源的窗口,修改完成后點(diǎn)擊確定按鈕即可。編輯數(shù)據(jù)源界面選項(xiàng)配置說(shuō)明是否可以修改名稱(chēng)自定義對(duì)應(yīng)數(shù)據(jù)庫(kù)的別名(僅支持中文、字母、數(shù)字、下劃線)否地址對(duì)應(yīng)數(shù)據(jù)庫(kù)的IP地址是端口對(duì)應(yīng)數(shù)據(jù)庫(kù)的端口是用戶(hù)名對(duì)應(yīng)數(shù)據(jù)庫(kù)的用戶(hù)名是密碼對(duì)應(yīng)數(shù)據(jù)庫(kù)的密碼是數(shù)據(jù)庫(kù)名/schema(hive)/服務(wù)名(oracle)對(duì)應(yīng)數(shù)據(jù)庫(kù)的庫(kù)名/schema/服務(wù)名否ZookeeperQuorum(Hbase)對(duì)應(yīng)數(shù)據(jù)庫(kù)的IP和端口是ZookeeperBasePath(Hbase)對(duì)應(yīng)數(shù)據(jù)庫(kù)的BasePath是數(shù)據(jù)源刪除點(diǎn)擊數(shù)據(jù)源的刪除按鈕,彈出是否刪除該數(shù)據(jù)源的提示窗口,點(diǎn)擊確定,則彈出再次確認(rèn)刪除的彈窗,點(diǎn)擊取消則不刪除,并返回?cái)?shù)據(jù)庫(kù)數(shù)據(jù)源頁(yè)面;刪除數(shù)據(jù)源界面在再次確認(rèn)刪除的彈窗中可看到該數(shù)據(jù)源相關(guān)的數(shù)據(jù)集名稱(chēng)、項(xiàng)目名稱(chēng)以及規(guī)則內(nèi)容,如數(shù)據(jù)源沒(méi)有關(guān)聯(lián),則顯示暫無(wú)數(shù)據(jù)。在彈窗右下角的輸入框中輸入delete,并點(diǎn)擊刪除,則刪除數(shù)據(jù)源;在彈窗右下角點(diǎn)擊取消,則不刪除數(shù)據(jù)源,并返回到數(shù)據(jù)庫(kù)數(shù)據(jù)源頁(yè)面。刪除數(shù)據(jù)源是不可逆操作,需謹(jǐn)慎操作。刪除數(shù)據(jù)源界面文件數(shù)據(jù)源操作說(shuō)明本章主要講解文件數(shù)據(jù)源操作說(shuō)明。文件數(shù)據(jù)源的操作流程圖如下圖所示。文件數(shù)據(jù)源操作流程圖文件數(shù)據(jù)源頁(yè)面簡(jiǎn)介文件數(shù)據(jù)源界面在導(dǎo)入文件數(shù)據(jù)源時(shí),如果沒(méi)有修改數(shù)據(jù)源名稱(chēng),則數(shù)據(jù)源名稱(chēng)與導(dǎo)入文件名稱(chēng)一致,如有修改,則顯示修改數(shù)據(jù)源名稱(chēng)。數(shù)據(jù)源來(lái)源顯示導(dǎo)入的文件名數(shù)據(jù)源狀態(tài)為導(dǎo)入成功,則表示文件導(dǎo)入成功;數(shù)據(jù)源狀態(tài)為導(dǎo)入失敗,則表示文件導(dǎo)入失?。粩?shù)據(jù)源創(chuàng)建時(shí)間為文件導(dǎo)入時(shí)間;文件數(shù)據(jù)源導(dǎo)入在文件數(shù)據(jù)源頁(yè)面,點(diǎn)擊導(dǎo)入文件按鈕,彈出導(dǎo)入向?qū)Т翱凇N募?shù)據(jù)源導(dǎo)入向?qū)Ы缑纥c(diǎn)擊導(dǎo)入文件,選擇需要導(dǎo)入的文件。完成后點(diǎn)擊下一步面;點(diǎn)擊取消則會(huì)取消文件數(shù)據(jù)源的導(dǎo)入。當(dāng)前采石磯系統(tǒng)支持導(dǎo)入的文件最大不能超過(guò)2G,且只支持csv格式的文件。編碼下方的下拉框,可以選擇當(dāng)前csv文件的編碼格式,當(dāng)前支持UTF-8、GBK、GB2312、Unicode四種編碼格式,默認(rèn)為UTF-8格式。(選填)修改數(shù)據(jù)源名稱(chēng)輸入框?yàn)橛糜谛薷膶?dǎo)入文件的名稱(chēng),不填則默認(rèn)數(shù)據(jù)源名稱(chēng)為導(dǎo)入文件的文件名,文件數(shù)據(jù)源名稱(chēng)不能重復(fù)。在選擇字段名和數(shù)據(jù)行頁(yè)面,可看到預(yù)覽的部分?jǐn)?shù)據(jù),根據(jù)實(shí)際情況填寫(xiě)后點(diǎn)擊下一步進(jìn)入到設(shè)置分隔符頁(yè)面。點(diǎn)擊上一步則回到選擇文件頁(yè)面,點(diǎn)擊取消則會(huì)取消文件數(shù)據(jù)源的導(dǎo)入,返回文件數(shù)據(jù)源頁(yè)面。文件數(shù)據(jù)源導(dǎo)入向?qū)Ы缑妫ㄟx填)字段名行輸入框填寫(xiě)導(dǎo)入文件的字段名所在行;(必填)第一數(shù)據(jù)行輸入框填寫(xiě)導(dǎo)入文件的第一行數(shù)據(jù),不包括字段名。下一步,進(jìn)入字段調(diào)整頁(yè)面,點(diǎn)擊上一步則回到選擇字段名和數(shù)據(jù)行頁(yè)面,點(diǎn)擊取消則會(huì)取消文件數(shù)據(jù)源的導(dǎo)入,返回文件數(shù)據(jù)源頁(yè)面。文件數(shù)據(jù)源導(dǎo)入向?qū)Ы缑孢M(jìn)入字段調(diào)整頁(yè)面,字段的類(lèi)型默認(rèn)為string,長(zhǎng)度默認(rèn)為255,調(diào)整完成后,點(diǎn)擊完成上一步取消則會(huì)取消文件數(shù)據(jù)源的導(dǎo)入,返回文件數(shù)據(jù)源頁(yè)面。如果在選擇字段名和數(shù)據(jù)行頁(yè)面,填寫(xiě)了字段名行,此處的源字段為選擇的字段名行中的字段,目標(biāo)字段默認(rèn)與源字段一致,可以進(jìn)行修改,然后根據(jù)實(shí)際情況調(diào)整字段的類(lèi)型和長(zhǎng)度;文件數(shù)據(jù)源導(dǎo)入向?qū)Ы缑嫒绻谶x擇字段名和數(shù)據(jù)行頁(yè)面,沒(méi)有填寫(xiě)字段名行,此處則沒(méi)有源字段,需在目標(biāo)字段列的輸入框中,手動(dòng)輸入目標(biāo)字段,然后根據(jù)實(shí)際情況調(diào)整字段的類(lèi)型和長(zhǎng)度。通過(guò)查看狀態(tài)來(lái)判斷文件是否導(dǎo)入成功。文件數(shù)據(jù)源界面數(shù)據(jù)源刪除點(diǎn)擊數(shù)據(jù)源的刪除確定,則彈出再次確認(rèn)刪除彈窗,點(diǎn)擊取消則不刪除,并返回文件數(shù)據(jù)源頁(yè)面;刪除文件數(shù)據(jù)源界面在再次確認(rèn)刪除的彈窗中可看到該數(shù)據(jù)源相關(guān)的數(shù)據(jù)集名稱(chēng)、項(xiàng)目名稱(chēng)以及規(guī)則內(nèi)容,如數(shù)據(jù)源沒(méi)有關(guān)聯(lián),則顯示暫無(wú)數(shù)據(jù)。在彈窗右下角的輸入框中輸入delete,并點(diǎn)擊刪除,則刪除數(shù)據(jù)源;在彈窗右下角點(diǎn)擊取消,則不刪除數(shù)據(jù)源,并返回到文件數(shù)據(jù)源頁(yè)面。刪除數(shù)據(jù)源是不可逆操作,需謹(jǐn)慎操作。刪除文件數(shù)據(jù)源界面數(shù)據(jù)集本章節(jié)主要介紹采石磯系統(tǒng)創(chuàng)建數(shù)據(jù)集的主要方法和流程。源中的數(shù)據(jù)表按一個(gè)維度重新組織,得到一個(gè)新的數(shù)據(jù)表。通過(guò)完成本章節(jié)的步驟,可以了解到在數(shù)據(jù)集中創(chuàng)建鏡像表和維度表的方式。前置條件須同時(shí)滿足以下兩個(gè)條件:數(shù)據(jù)庫(kù)數(shù)據(jù)源正常配置且已連接成功或文件數(shù)據(jù)源導(dǎo)入成功;數(shù)據(jù)庫(kù)數(shù)據(jù)源中有一張及以上的數(shù)據(jù)表可用。數(shù)據(jù)集操作流程圖頁(yè)面說(shuō)明
數(shù)據(jù)集操作流程圖數(shù)據(jù)集頁(yè)面簡(jiǎn)介登錄采石磯系統(tǒng),點(diǎn)擊數(shù)據(jù)配置按鈕,選擇數(shù)據(jù)集按鈕,會(huì)看到數(shù)據(jù)集頁(yè)面,具體呈現(xiàn)如下圖:數(shù)據(jù)集界面數(shù)據(jù)集狀態(tài)說(shuō)明數(shù)據(jù)集狀態(tài)為同步中時(shí),需等待數(shù)據(jù)集同步完成;數(shù)據(jù)集狀態(tài)為同步成功時(shí),說(shuō)明該數(shù)據(jù)集正常。數(shù)據(jù)集界面預(yù)覽點(diǎn)擊查看按鈕,可進(jìn)行數(shù)據(jù)集的預(yù)覽。數(shù)據(jù)集預(yù)覽界面點(diǎn)擊左上角的+標(biāo)簽按鈕,可對(duì)該數(shù)據(jù)集進(jìn)行添加標(biāo)簽。在輸入框中輸入需要添加的標(biāo)簽名,如當(dāng)前已存在該標(biāo)簽,會(huì)進(jìn)行篩選,如當(dāng)前不存在該標(biāo)簽,可進(jìn)行創(chuàng)建。具體可參考“標(biāo)簽管理”章節(jié)。點(diǎn)擊同步流程按鈕,可查看同步流程。點(diǎn)擊數(shù)據(jù)來(lái)源按鈕,可查看數(shù)據(jù)來(lái)源。點(diǎn)擊同步日志按鈕,可查看數(shù)據(jù)集同步信息,可點(diǎn)擊操作欄中的同步按鈕,對(duì)數(shù)據(jù)集進(jìn)行再次同步。刪除當(dāng)數(shù)據(jù)集狀態(tài)為同步成功或同步失敗時(shí),可點(diǎn)擊刪除按鈕,對(duì)數(shù)據(jù)集進(jìn)行刪除;點(diǎn)擊刪除按鈕后,彈出提示是否刪除該數(shù)據(jù)集,點(diǎn)擊確定,彈出再次確認(rèn)刪除窗口,點(diǎn)擊取消則表示不刪除,返回?cái)?shù)據(jù)集頁(yè)面;數(shù)據(jù)集刪除界面在再次確認(rèn)刪除窗口中可看到與該數(shù)據(jù)集關(guān)聯(lián)的任務(wù)和規(guī)則,如該數(shù)據(jù)集沒(méi)有關(guān)聯(lián)任務(wù)和規(guī)則,則顯示暫無(wú)數(shù)據(jù),在彈窗右下角輸入delete,點(diǎn)擊刪除,即可刪除數(shù)據(jù)集;點(diǎn)擊取消,則表示不刪除,返回?cái)?shù)據(jù)集頁(yè)面。數(shù)據(jù)集再次確認(rèn)刪除界面可信度說(shuō)明當(dāng)數(shù)據(jù)集狀態(tài)為同步成功時(shí),點(diǎn)擊可信度按鈕,可進(jìn)入可信度標(biāo)注頁(yè)面。更多關(guān)于可信度的介紹參見(jiàn)后續(xù)“可信度管理”章節(jié)。外鍵說(shuō)明當(dāng)數(shù)據(jù)集狀態(tài)為同步成功時(shí),點(diǎn)擊外鍵按鈕,可進(jìn)入外鍵設(shè)置頁(yè)面。更多關(guān)于外鍵的介紹參見(jiàn)后續(xù)“外鍵管理”章節(jié)。數(shù)據(jù)剖析說(shuō)明在數(shù)據(jù)集頁(yè)面,點(diǎn)擊數(shù)據(jù)剖析按鈕,彈出提示窗口,點(diǎn)擊確定,即表示將開(kāi)始對(duì)該數(shù)據(jù)集進(jìn)行剖析,點(diǎn)擊取消,表示取消數(shù)據(jù)剖析,返回?cái)?shù)據(jù)集頁(yè)面。更多關(guān)于數(shù)據(jù)剖析的介紹參見(jiàn)后續(xù)“數(shù)據(jù)剖析”章節(jié)。操作說(shuō)明本章主要講解數(shù)據(jù)集的相關(guān)操作說(shuō)明,包括創(chuàng)建鏡像表、創(chuàng)建維度表、標(biāo)簽管理。創(chuàng)建鏡像表鏡像表的操作流程圖鏡像表操作流程圖創(chuàng)建數(shù)據(jù)集進(jìn)入數(shù)據(jù)集頁(yè)面點(diǎn)擊創(chuàng)建數(shù)據(jù)集按鈕,選擇鏡像表,點(diǎn)擊立即創(chuàng)建,進(jìn)入數(shù)據(jù)配置頁(yè)面;創(chuàng)建數(shù)據(jù)集界面選擇數(shù)據(jù)來(lái)源選中頁(yè)面左上角的input和output兩個(gè)圖標(biāo),拖入到畫(huà)布中,并把input組件和output組件進(jìn)行連線;數(shù)據(jù)配置界面如需要使用ETL組件,可從左側(cè)中拖出需要使用的ETL組件到畫(huà)布中,連線時(shí)把ETL組件置于中間,即:input→ETL組件→output選擇數(shù)據(jù)表雙擊打開(kāi)input組件,彈出input彈窗,在彈窗中“值”的那一列,單擊第一個(gè)屬性對(duì)應(yīng)的值,默認(rèn)為Novalue,點(diǎn)擊下拉列表,選中數(shù)據(jù)源類(lèi)型數(shù)據(jù)配置界面依次對(duì)每個(gè)屬性對(duì)應(yīng)的值進(jìn)行選擇,選擇完成后點(diǎn)擊應(yīng)用(如果數(shù)據(jù)庫(kù)類(lèi)型選的是Hbase,還需要手動(dòng)填寫(xiě)列族名)數(shù)據(jù)配置界面雙擊打開(kāi)output組件,彈出output彈窗,單擊“屬性”列中“數(shù)據(jù)集名稱(chēng)”對(duì)應(yīng)的值,輸入數(shù)據(jù)集名稱(chēng),點(diǎn)擊確定,再點(diǎn)擊應(yīng)用數(shù)據(jù)配置界面說(shuō)明:①、數(shù)據(jù)集名稱(chēng)不能重復(fù)②、除數(shù)據(jù)集名稱(chēng)外,屬性列中其他的值為數(shù)據(jù)表中的字段值,在對(duì)應(yīng)的值列單擊可進(jìn)行修改,修改后點(diǎn)擊確定③、在output中所有的操作完成后,點(diǎn)擊應(yīng)用所有的配置完成后,在創(chuàng)建數(shù)據(jù)集頁(yè)面的右上角點(diǎn)擊啟動(dòng),即可啟動(dòng)成功,啟動(dòng)成功后進(jìn)行數(shù)據(jù)同步,點(diǎn)擊右下角的返回按鈕,即可返回?cái)?shù)據(jù)集頁(yè)面數(shù)據(jù)配置界面查看結(jié)果點(diǎn)擊確定完成創(chuàng)建后,自動(dòng)返回?cái)?shù)據(jù)集頁(yè)面,可在數(shù)據(jù)集頁(yè)面看到新建的數(shù)據(jù)集,可通過(guò)觀察狀態(tài)來(lái)觀察該數(shù)據(jù)集是否同步成功。數(shù)據(jù)集界面創(chuàng)建維度表維度表的操作流程圖維度表操作流程圖創(chuàng)建數(shù)據(jù)集進(jìn)入數(shù)據(jù)集頁(yè)面點(diǎn)擊創(chuàng)建數(shù)據(jù)集按鈕,選擇維度表,點(diǎn)擊立即創(chuàng)建,進(jìn)入數(shù)據(jù)配置頁(yè)面;創(chuàng)建數(shù)據(jù)集界面選擇數(shù)據(jù)來(lái)源頁(yè)面的左側(cè)為數(shù)據(jù)來(lái)源,可選擇需要添加的數(shù)據(jù)源類(lèi)型,點(diǎn)擊數(shù)據(jù)源類(lèi)型后,會(huì)下拉數(shù)據(jù)源名稱(chēng),再點(diǎn)擊需要添加的數(shù)據(jù)源名稱(chēng),即可在頁(yè)面右側(cè)看到數(shù)據(jù)表;數(shù)據(jù)配置界面系統(tǒng)源表示已經(jīng)添加的數(shù)據(jù)集選擇數(shù)據(jù)表右側(cè)頁(yè)面看到數(shù)據(jù)表后,選中需要的數(shù)據(jù)表,點(diǎn)擊確定,進(jìn)入數(shù)據(jù)映射頁(yè)面;數(shù)據(jù)配置界面數(shù)據(jù)映射當(dāng)前已有標(biāo)準(zhǔn)屬性,則展示在右側(cè)頁(yè)面,當(dāng)前如沒(méi)有標(biāo)準(zhǔn)屬性,右側(cè)頁(yè)面的標(biāo)準(zhǔn)屬性則顯示空白,可點(diǎn)擊右上方的新建按鈕來(lái)新建標(biāo)準(zhǔn)屬性;數(shù)據(jù)映射界面(可選)可通過(guò)左側(cè)頁(yè)面左上方展示已映射開(kāi)關(guān),來(lái)篩選當(dāng)前選擇的數(shù)據(jù)集已映射的列;(可選)可通過(guò)左側(cè)頁(yè)面右上方的搜索框來(lái)所搜需要的列名;(可選)可通過(guò)右側(cè)頁(yè)面的左上方展示已映射開(kāi)關(guān),來(lái)篩選當(dāng)前已映射的標(biāo)準(zhǔn)屬性;(可選)可通過(guò)右側(cè)頁(yè)面右上方的搜索框來(lái)所搜需要的標(biāo)準(zhǔn)屬性。新建按鈕來(lái)新建標(biāo)準(zhǔn)屬性;數(shù)據(jù)映射界面(必選)字段名稱(chēng)輸入框填寫(xiě)英文;(必選)中文名稱(chēng)輸入框填寫(xiě)中文;(必選)字段類(lèi)型下拉框選擇合適的字段類(lèi)型;(可選)描述輸入框填寫(xiě)相應(yīng)的描述;(可選)新建標(biāo)準(zhǔn)屬性完成后,可通過(guò)該標(biāo)準(zhǔn)屬性同一行的右側(cè)的刪除按鈕進(jìn)行刪除。性那一欄,即可完成映射。映射完成后,可在頁(yè)面左側(cè)標(biāo)準(zhǔn)屬性列看到已映射的標(biāo)準(zhǔn)屬性;數(shù)據(jù)映射界面映射完成后,在頁(yè)面左側(cè)選中已映射的列,可看到在同一行的最右邊有取消映射按鈕,可進(jìn)行取消映射;映射完成后,在頁(yè)面右側(cè)選中已映射的標(biāo)準(zhǔn)屬性,光標(biāo)放到列名映射情況那一列的值上,可看到已映射的列。確定,彈出數(shù)據(jù)集信息窗口,輸入數(shù)據(jù)集名稱(chēng),點(diǎn)擊確定,即可完成創(chuàng)建;數(shù)據(jù)集信息界面(可選)輸入數(shù)據(jù)集名稱(chēng)后,點(diǎn)擊下方的+標(biāo)簽,可對(duì)該表進(jìn)行添加標(biāo)簽。在輸入框中輸入需要添加的標(biāo)簽名,如當(dāng)前已存在該標(biāo)簽,會(huì)進(jìn)行篩選,如當(dāng)前不存在該標(biāo)簽,可進(jìn)行創(chuàng)建。具體可參考“標(biāo)簽管理”章節(jié)。查看結(jié)果點(diǎn)擊確定完成創(chuàng)建后,自動(dòng)返回?cái)?shù)據(jù)集頁(yè)面,可在數(shù)據(jù)集頁(yè)面看到新建的數(shù)據(jù)集,可通過(guò)觀察狀態(tài)來(lái)觀察該數(shù)據(jù)集是否同步成功。數(shù)據(jù)集界面標(biāo)簽管理標(biāo)簽的操作流程圖標(biāo)簽操作流程圖新增標(biāo)簽在數(shù)據(jù)集頁(yè)面點(diǎn)擊標(biāo)簽管理,進(jìn)入標(biāo)簽管理頁(yè)面,點(diǎn)擊左下角新增標(biāo)簽按鈕,在標(biāo)簽名稱(chēng)輸入框中輸入標(biāo)簽名稱(chēng),點(diǎn)擊確定即可,點(diǎn)擊取消,表示取消標(biāo)簽創(chuàng)建。標(biāo)簽創(chuàng)建完成后,點(diǎn)擊右下角返回按鈕,即可返回?cái)?shù)據(jù)集頁(yè)面。標(biāo)簽管理界面標(biāo)簽管理標(biāo)簽管理頁(yè)面左側(cè)顯示已存在的標(biāo)簽,選中已存在的標(biāo)簽,可進(jìn)行編輯和刪除;標(biāo)簽編輯選中標(biāo)簽,點(diǎn)擊編輯按鈕,即可進(jìn)行修改,標(biāo)簽名修改完成后,點(diǎn)擊√,即可完成修改。標(biāo)簽管理界面標(biāo)簽刪除選中標(biāo)簽,點(diǎn)擊刪除按鈕,彈出提示窗口,點(diǎn)擊確定即可刪除,點(diǎn)擊取消則不會(huì)刪除。標(biāo)簽管理界面標(biāo)簽管理右側(cè)顯示與該標(biāo)簽綁定的數(shù)據(jù)集,可點(diǎn)擊取消綁定,如該標(biāo)簽沒(méi)有綁定數(shù)據(jù)集,則顯示為空。標(biāo)簽名上方的搜索框可以對(duì)標(biāo)簽進(jìn)行搜索,輸入標(biāo)簽關(guān)鍵字即可搜索;標(biāo)簽管理右側(cè)右上方的搜索框,可對(duì)與該標(biāo)簽綁定的數(shù)據(jù)集進(jìn)行搜索,輸入數(shù)據(jù)集關(guān)鍵字即可進(jìn)行搜索。標(biāo)簽管理頁(yè)面操作完成后,點(diǎn)擊返回,即可返回到數(shù)據(jù)集頁(yè)面。外鍵管理外鍵的操作流程圖外鍵操作流程圖新建外鍵在數(shù)據(jù)集頁(yè)面點(diǎn)擊外鍵新建外鍵按鈕,在頁(yè)面上會(huì)新增一欄輸入框。在外鍵名稱(chēng)那一欄的輸入框中輸入外鍵名稱(chēng),名稱(chēng)可以自定義。外鍵管理界面字段。外鍵管理界面在字段選擇完成后,點(diǎn)擊被引用表那一欄中的+數(shù)據(jù)集為已添加的所有數(shù)據(jù)集,可在彈窗左上角的搜索框中搜索目標(biāo)數(shù)據(jù)集,選中目標(biāo)數(shù)據(jù)集后,在彈窗右側(cè)會(huì)顯示目標(biāo)數(shù)據(jù)集的所有字段,選中需要做外鍵的字段,點(diǎn)擊提交即可。外鍵管理界面選中目標(biāo)字段后,點(diǎn)擊查看樣例,可以看到主表的字段列數(shù)據(jù)和對(duì)比表的字段列數(shù)據(jù)。彈窗右上角的搜索框可以進(jìn)行字段搜索。如果添加外鍵的兩個(gè)表之間進(jìn)行過(guò)字段匹配,可信度列會(huì)顯示字段匹配的值,沒(méi)有進(jìn)行過(guò)字段匹配則不顯示。保存鍵已經(jīng)添加成功,可繼續(xù)點(diǎn)擊新建外鍵返回按鈕,返回?cái)?shù)據(jù)集頁(yè)面。外鍵管理界面外鍵添加完成后,可點(diǎn)擊操作欄的查看樣例按鈕,再次對(duì)主表的字段列數(shù)據(jù)和對(duì)比表的字段列數(shù)據(jù)進(jìn)行查看。刪除外鍵外鍵添加完成后,點(diǎn)擊右側(cè)操作欄中的刪除按鈕,彈出再次確認(rèn)刪除窗口,點(diǎn)擊確定,即可刪除該條外鍵記錄;點(diǎn)擊取消,則不刪除,返回外鍵設(shè)置頁(yè)面。外鍵管理界面編輯外鍵外鍵添加完成后,如需修改對(duì)比表字段,可將光標(biāo)放到被引用表上,此時(shí)在表名稱(chēng)右側(cè)會(huì)彈出修改的記號(hào),點(diǎn)擊該記號(hào),會(huì)彈出選擇被引用表窗口,此時(shí)可重新選擇目標(biāo)數(shù)據(jù)集或目標(biāo)字段,選擇完成后,點(diǎn)擊彈窗右下角的保存按鈕即可。外鍵管理界面數(shù)據(jù)剖析本章節(jié)主要介紹采石磯系統(tǒng)數(shù)據(jù)剖析功能的操作流程以及相關(guān)含義。通過(guò)完成本章節(jié)步驟,可以對(duì)數(shù)據(jù)剖析功能有清晰的概念并了解相關(guān)操作。前置條件需滿足:數(shù)據(jù)表是同步成功狀態(tài)。數(shù)據(jù)剖析介紹數(shù)據(jù)剖析功能是對(duì)數(shù)據(jù)表的每列內(nèi)容進(jìn)行分析并通過(guò)圖形等方式展示,包括字段類(lèi)型,字段描述,總數(shù)、有效值、值占比等。以下是各數(shù)據(jù)類(lèi)型的統(tǒng)計(jì)項(xiàng):數(shù)據(jù)類(lèi)型字段信息總數(shù)統(tǒng)計(jì)唯一值統(tǒng)計(jì)有效值空值統(tǒng)計(jì)零值統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)重復(fù)值TopN統(tǒng)計(jì)值分布統(tǒng)計(jì)值占比統(tǒng)計(jì)字符串(String)√√√√√√√日期(Date)√√√√√√√整型(Integer)√√√√√√√√√√浮點(diǎn)型(Float)√√√√√√√√√√布爾(Boolean)√√√√√√√各字段釋義:字段信息:包含字段名稱(chēng)、字段類(lèi)型、字段描述??倲?shù)統(tǒng)計(jì):等于總行數(shù)。唯一值統(tǒng)計(jì):總數(shù)去重后的個(gè)數(shù)(不包括空值),以及對(duì)總數(shù)的占比。有效值統(tǒng)計(jì):非空值。空值統(tǒng)計(jì):統(tǒng)計(jì)該列為NULL的個(gè)數(shù),及與總個(gè)數(shù)的比值。數(shù)據(jù)統(tǒng)計(jì):統(tǒng)計(jì)該列的Min、Max、Sum、Mean、Stdev。零值統(tǒng)計(jì):統(tǒng)計(jì)該列為0/0.0的個(gè)數(shù),及與總個(gè)數(shù)的比值。重復(fù)值TopN統(tǒng)計(jì):統(tǒng)計(jì)該列的數(shù)據(jù)重復(fù)次數(shù)。(界面展示10條,點(diǎn)擊更多降序展示前2000個(gè)值)值分布統(tǒng)計(jì):該列數(shù)據(jù)的區(qū)間切分,統(tǒng)計(jì)各個(gè)區(qū)間數(shù)量,并以直方圖方式展示。(界面展示10個(gè)區(qū)間,點(diǎn)擊更多以表格形式展示最多20個(gè)區(qū)間)值占比統(tǒng)計(jì):統(tǒng)計(jì)該列的數(shù)據(jù)重復(fù)次數(shù)占比,并以餅狀圖方式展示。(界面展示10條,點(diǎn)擊更多以表格形式展示前2000條數(shù)據(jù))數(shù)據(jù)剖析流程如下圖所示。數(shù)據(jù)剖析流程圖說(shuō)明:數(shù)據(jù)剖析操作的前提:數(shù)據(jù)表是同步成功狀態(tài)。如果是已完成狀態(tài),則進(jìn)入數(shù)據(jù)剖析結(jié)果展示界面。務(wù)。數(shù)據(jù)剖析界面介紹數(shù)據(jù)剖析操作入口:數(shù)據(jù)剖析操作入口數(shù)據(jù)剖析結(jié)果界面:數(shù)據(jù)剖析結(jié)果展示說(shuō)明:重新剖析:已經(jīng)剖析過(guò)的數(shù)據(jù)表,可以重新進(jìn)行數(shù)據(jù)剖析。數(shù)據(jù)類(lèi)型:展示當(dāng)前數(shù)據(jù)表字段中各數(shù)據(jù)類(lèi)型的數(shù)量。字段信息:展示列名、字段類(lèi)型、字段描述。重復(fù)值更多按鈕:點(diǎn)擊后彈出框可查看更多重復(fù)值情況。值占比更多按鈕:點(diǎn)擊后彈出框可查看更多值占比情況。值分布更多按鈕:點(diǎn)擊后彈出框可查看更多值分布情況。篩選按鈕:可根據(jù)數(shù)據(jù)表列名模糊搜索,或者根據(jù)數(shù)據(jù)類(lèi)型來(lái)篩選想要展示的數(shù)據(jù)。可信度管理本章節(jié)主要介紹采石磯系統(tǒng)數(shù)據(jù)集的可信度管理,可用于后續(xù)的糾錯(cuò)任務(wù)中??尚哦裙芾戆瑪?shù)據(jù)集的可信度設(shè)置,在采石磯系統(tǒng)中,數(shù)據(jù)的可信程度分為可信和不可信兩種,可信度又分為列可信度、單元可信度兩種。完成本章節(jié)步驟,可以了解到數(shù)據(jù)集的可信度設(shè)置流程。前置條件需滿足以下條件:系統(tǒng)中已有數(shù)據(jù)源。系統(tǒng)中已有同步的數(shù)據(jù)集。用戶(hù)已登錄。可信度的設(shè)置流程圖可信度的設(shè)置流程圖操作說(shuō)明可信度設(shè)置入口點(diǎn)擊數(shù)據(jù)配置按鈕,選擇數(shù)據(jù)集按鈕,進(jìn)入到數(shù)據(jù)集頁(yè)面,點(diǎn)擊可信度按鈕,進(jìn)入可信度標(biāo)注。數(shù)據(jù)集界面數(shù)據(jù)集正在同步中或者同步失敗,可信度按鈕將為不可點(diǎn)擊狀態(tài)。列名標(biāo)注在列名標(biāo)注界面,勾選列名后面的按鈕,點(diǎn)擊保存下一按鈕進(jìn)入到單元格標(biāo)注頁(yè)面。列名標(biāo)注1.列名標(biāo)注界面勾選列后,需要點(diǎn)擊保存按鈕,配置才能生效,否則直接點(diǎn)擊返回/一步會(huì)彈出保存提示。單元格標(biāo)注在單元格標(biāo)注界面,通過(guò)鼠標(biāo)點(diǎn)擊勾選單元格,也可以使用全選全不選反選按鈕對(duì)當(dāng)前顯示列進(jìn)行勾選操作,點(diǎn)擊保存按鈕,單元格可信度標(biāo)注生效。單元格標(biāo)注1.2.單元格的可信度大于列的可信度。3.未展示出來(lái)的字段列添加篩選條件后也會(huì)執(zhí)行該過(guò)濾條件,但不會(huì)把該列展示出來(lái)。過(guò)濾條件中,字段支持的連接符號(hào)如下:字段類(lèi)型連接符號(hào)字符串型包含,不包含,空值,非空,等于,不等于數(shù)值型大于,小于,大于等于,小于等于,等于,不等于,空值,非空項(xiàng)目/工作流管理本章節(jié)主要介紹采石磯系統(tǒng)項(xiàng)目管理及工作流管理在系統(tǒng)中的功能作用及操作流程。規(guī)則發(fā)現(xiàn)、查錯(cuò)、實(shí)體聚類(lèi)等任務(wù)都是以工作流的形式通過(guò)項(xiàng)目的方式進(jìn)行管理,用戶(hù)可以創(chuàng)建項(xiàng)目,選擇項(xiàng)目相關(guān)數(shù)據(jù)集后,在項(xiàng)目中創(chuàng)建工作流。前置條件因?yàn)樵陧?xiàng)目中會(huì)關(guān)聯(lián)到數(shù)據(jù)集,所以在創(chuàng)建項(xiàng)目之前要?jiǎng)?chuàng)建好對(duì)應(yīng)的數(shù)據(jù)集并同步成功。項(xiàng)目、工作流管理總體操作流程圖項(xiàng)目、工作流管理總體流程圖項(xiàng)目管理操作說(shuō)明本章節(jié)主要講解項(xiàng)目管理操作說(shuō)明,包括項(xiàng)目管理的流程和操作。項(xiàng)目管理操作流程如下圖所示。項(xiàng)目管理流程圖項(xiàng)目管理列表頁(yè)面說(shuō)明點(diǎn)擊項(xiàng)目管理菜單,會(huì)看到項(xiàng)目管理頁(yè)面,具體呈現(xiàn)如下圖。項(xiàng)目管理列表界面新建項(xiàng)目按鈕,點(diǎn)擊后會(huì)進(jìn)入新建項(xiàng)目頁(yè)面;項(xiàng)目名稱(chēng)按鈕,點(diǎn)擊后會(huì)進(jìn)入項(xiàng)目詳情頁(yè)面查看對(duì)應(yīng)工作流;關(guān)聯(lián)數(shù)據(jù)集按鈕,多個(gè)數(shù)據(jù)集時(shí)鼠標(biāo)懸浮后會(huì)展示全部數(shù)據(jù)集;二次確認(rèn)彈窗,二次確認(rèn)后會(huì)再?gòu)棾黾?jí)聯(lián)刪除確認(rèn)彈窗,級(jí)聯(lián)刪除確認(rèn)后即可刪除項(xiàng)目;分頁(yè)器,可切換選擇每頁(yè)顯示內(nèi)容數(shù)量。新建項(xiàng)目頁(yè)面說(shuō)明點(diǎn)擊新建項(xiàng)目按鈕,會(huì)進(jìn)入新建項(xiàng)目頁(yè)面,具體呈現(xiàn)如下圖。新建項(xiàng)目界面項(xiàng)目名稱(chēng)輸入框,必填,僅支持中文、字母、數(shù)字、下劃線,不能超過(guò)50個(gè)字符;項(xiàng)目描述輸入框,非必填,可以對(duì)項(xiàng)目添加額外說(shuō)明;標(biāo)簽搜索框,可對(duì)標(biāo)簽名稱(chēng)進(jìn)行模糊搜索;標(biāo)簽選擇區(qū),可多選;標(biāo)簽選擇重置按鈕,可重置標(biāo)簽的選擇;標(biāo)簽選擇確定按鈕,選中標(biāo)簽后,點(diǎn)擊確定,可篩選出右側(cè)與對(duì)應(yīng)標(biāo)簽綁定的數(shù)據(jù)集;數(shù)據(jù)集搜索框,可對(duì)數(shù)據(jù)集名稱(chēng)進(jìn)行模糊搜索;數(shù)據(jù)集選擇區(qū),必選,可多選;返回按鈕,點(diǎn)擊即不做數(shù)據(jù)保存,返回項(xiàng)目管理列表頁(yè);提交按鈕,必填字段校驗(yàn)通過(guò)后,點(diǎn)擊即創(chuàng)建項(xiàng)目成功,返回項(xiàng)目管理列表頁(yè)。工作流管理操作說(shuō)明本章節(jié)主要講解工作流管理操作說(shuō)明,包括操作流程圖和操作指導(dǎo)。工作流管理操作流程如下圖所示。工作流管理流程圖工作流管理列表頁(yè)面介紹在項(xiàng)目管理列表點(diǎn)擊對(duì)應(yīng)的項(xiàng)目名稱(chēng),會(huì)進(jìn)入項(xiàng)目詳情頁(yè)面,具體呈現(xiàn)如下圖。工作流管理列表界面點(diǎn)擊后會(huì)進(jìn)入到新建工作流畫(huà)布;點(diǎn)擊后可以查看工作流詳情;點(diǎn)擊啟動(dòng)按鈕可以啟動(dòng)工作流;在工作流啟動(dòng)之前,可以對(duì)工作流進(jìn)行編輯;點(diǎn)擊克隆按鈕可以克隆工作流。點(diǎn)擊刪除按鈕可以刪除工作流,只有工作流的狀態(tài)為完成和待開(kāi)始的時(shí)候,工作流才可以刪除;新建工作流點(diǎn)擊新建工作流按鈕,會(huì)進(jìn)入到新建工作流頁(yè)面,具體呈現(xiàn)如下圖。新建工作流界面點(diǎn)擊可以保存當(dāng)前工作流;點(diǎn)擊可以撤銷(xiāo)上一步操作;點(diǎn)擊可以恢復(fù)上一步操作;點(diǎn)擊可以啟動(dòng)工作流;圍。任務(wù)組件可以重復(fù)拖拽;將數(shù)據(jù)組件和任務(wù)組件拖拽到畫(huà)布內(nèi)并連線,系統(tǒng)會(huì)按照工作流的順序執(zhí)行所選任務(wù);工作流創(chuàng)建并啟動(dòng)后,點(diǎn)擊工作流名稱(chēng)會(huì)進(jìn)入到工作流詳情頁(yè)面,點(diǎn)擊任務(wù)可以進(jìn)入到任務(wù)配置界面。因?yàn)椴煌娜蝿?wù)類(lèi)型需要配置的信息不同,后續(xù)的配置操作會(huì)在對(duì)應(yīng)任務(wù)類(lèi)型的章節(jié)介紹,本章節(jié)不做具體介紹??蓞⒖肌耙?guī)則發(fā)現(xiàn)”、”查錯(cuò)”、”數(shù)據(jù)糾錯(cuò)”、”實(shí)體聚類(lèi)”、”最優(yōu)記錄”、”字段匹配”章節(jié)。規(guī)則發(fā)現(xiàn)本章節(jié)主要介紹了采石磯系統(tǒng)中規(guī)則發(fā)現(xiàn)的流程。通過(guò)采石磯系統(tǒng),用戶(hù)可利用規(guī)則發(fā)現(xiàn)來(lái)挖掘數(shù)據(jù)中存在的規(guī)則。當(dāng)前采石磯支持以下三種類(lèi)型的的規(guī)則發(fā)現(xiàn):CR規(guī)則發(fā)現(xiàn):能夠發(fā)現(xiàn)用于處理沖突數(shù)據(jù)的規(guī)則。ER規(guī)則發(fā)現(xiàn):能夠發(fā)現(xiàn)用于處理實(shí)體識(shí)別的規(guī)則。ER+CR通過(guò)完成本章節(jié)的步驟,用戶(hù)可以獲取到數(shù)據(jù)中存在的規(guī)則。前置條件用戶(hù)已連接數(shù)據(jù)源,并創(chuàng)建相關(guān)的數(shù)據(jù)集且同步成功。用戶(hù)已新建項(xiàng)目。規(guī)則發(fā)現(xiàn)操作流程圖規(guī)則發(fā)現(xiàn)-規(guī)則發(fā)現(xiàn)流程圖規(guī)則發(fā)現(xiàn)操作說(shuō)明“規(guī)則挖掘”、“結(jié)果查看”。新建任務(wù)在新建工作流頁(yè)面拖入數(shù)據(jù)集組件,選擇數(shù)據(jù)集后,拖入規(guī)則發(fā)現(xiàn)任務(wù)組件并連線。保存和啟動(dòng)工作流后,會(huì)進(jìn)入查看工作流頁(yè)面。在查看工作流頁(yè)面點(diǎn)擊規(guī)則發(fā)現(xiàn)任務(wù)組件,配置任務(wù)信息。數(shù)據(jù)選擇用戶(hù)可以根據(jù)需要勾選單個(gè)或多個(gè)數(shù)據(jù)集。對(duì)于數(shù)據(jù)集對(duì)應(yīng)的列,也可進(jìn)行勾選。未勾選的數(shù)據(jù)集和列不會(huì)參與到規(guī)則發(fā)現(xiàn)過(guò)程中,即未勾選的數(shù)據(jù)集和列不會(huì)出現(xiàn)在規(guī)則發(fā)現(xiàn)的信息配置中和規(guī)則中。當(dāng)列過(guò)多時(shí),用戶(hù)可在右方搜索框中輸入關(guān)鍵字對(duì)列進(jìn)行過(guò)濾后再勾選。搜索框只針對(duì)當(dāng)前數(shù)據(jù)集的列進(jìn)行搜索。用戶(hù)若點(diǎn)擊返回按鈕,會(huì)出現(xiàn)是否結(jié)束任務(wù)的彈框。當(dāng)用戶(hù)勾選數(shù)據(jù)集和列后,點(diǎn)擊下一步按鈕后,進(jìn)入信息配置頁(yè)面。規(guī)則發(fā)現(xiàn)-數(shù)據(jù)選擇信息配置信息配置包括“CR規(guī)則信息配置”、“ER規(guī)則信息配置”、“CR+ER規(guī)則信息配置”。CR規(guī)則信息配置若用戶(hù)要執(zhí)行CR規(guī)則發(fā)現(xiàn),需選擇規(guī)則發(fā)現(xiàn)類(lèi)型為CR規(guī)則發(fā)現(xiàn)。CR規(guī)則信息配置如下圖所示。規(guī)則發(fā)現(xiàn)-CR規(guī)則信息配置在CR規(guī)則信息配置中,有以下三種配置:基礎(chǔ)參數(shù)配置、目標(biāo)列配置和模型/算法配置。選項(xiàng)配置說(shuō)明必要基礎(chǔ)參數(shù)配置:支持度滿足X的數(shù)據(jù)占總數(shù)據(jù)的比例,數(shù)據(jù)范圍是0~100%,默認(rèn)5%是基礎(chǔ)參數(shù)配置:置信度滿足X且滿足Y的數(shù)據(jù)占滿足X的數(shù)據(jù)的比例,數(shù)據(jù)范圍是0~100%,默認(rèn)80%是目標(biāo)列配置:選擇列勾選的字段既可出現(xiàn)在X中也可出現(xiàn)在Y中,未勾選的列只出現(xiàn)在X中,默認(rèn)全部勾選否模型/算法配置:選擇列可選擇列添加模型或算法進(jìn)行規(guī)則發(fā)現(xiàn)否采石磯系統(tǒng)中規(guī)則的樣式展示為:X->Y基礎(chǔ)參數(shù)配置支持度和置信度的默認(rèn)值分別為5%和80%。在結(jié)果查看頁(yè)面中,只展示支持度和置信度滿足大于等于設(shè)置的支持度和置信度的規(guī)則,用戶(hù)可根據(jù)需要修改支持度和置信度。目標(biāo)列配置如上圖CR規(guī)則信息配置所示,當(dāng)目標(biāo)列不進(jìn)行修改時(shí),默認(rèn)全部勾選。用戶(hù)若想修改目標(biāo)列,可點(diǎn)擊修改按鈕,會(huì)出現(xiàn)選擇目標(biāo)列的彈框,如下圖所示。目標(biāo)列可單表選列,也可跨表選列。左邊可切換數(shù)據(jù)集,列名會(huì)出現(xiàn)數(shù)據(jù)集對(duì)應(yīng)的列。在右方搜索框中可對(duì)列進(jìn)行過(guò)濾。規(guī)則發(fā)現(xiàn)-修改目標(biāo)列模型/算法配置用戶(hù)可根據(jù)需要,為列綁定模型/算法。模型/算法配置的詳細(xì)說(shuō)明如下:選項(xiàng)配置說(shuō)明必要選擇列-左列可單選可多選,多選時(shí)不可以跨表選列,只能在一張表中選擇多個(gè)列是選擇列-右列當(dāng)用戶(hù)需要進(jìn)行跨表綁定列時(shí),則需要設(shè)置右列的選擇列。若右列為空時(shí)默認(rèn)是左列的值。否選擇模型/算法一組模型/算法配置只能選擇一種模型/算法,默認(rèn)使用系統(tǒng)推薦的模型/算法,用戶(hù)也可通過(guò)下拉選擇其他模型/算法是閾值當(dāng)用戶(hù)選擇相似度算法時(shí)才需要填寫(xiě)閾值,閾值范圍為0~100%,默認(rèn)85%否右側(cè)”+“號(hào)點(diǎn)擊該按鈕,可以添加多組模型/算法配置否如上圖CR規(guī)則信息配置所示,當(dāng)用戶(hù)想添加多組模型/算法時(shí),可以點(diǎn)擊+按鈕。當(dāng)用戶(hù)只需對(duì)單張表中的列綁定模型/算法時(shí),只需點(diǎn)擊左邊選擇列中的修改按鈕,就會(huì)出現(xiàn)綁定列的彈框,如下圖所示。用戶(hù)綁定列時(shí)只可對(duì)單張數(shù)據(jù)集進(jìn)行勾選,不可切換數(shù)據(jù)集勾選,但同一張數(shù)據(jù)集下的列可勾選單個(gè)或多個(gè)。點(diǎn)擊確定按鈕模型/算法綁定列成功。若用戶(hù)想跨表選列綁定模型/算法,則需同時(shí)對(duì)左邊選擇列和右邊選擇列進(jìn)行配置。此時(shí)右列選擇列的數(shù)據(jù)集是與左列選擇列的數(shù)據(jù)集是不一樣的。規(guī)則發(fā)現(xiàn)-模型/算法配置綁定列在綁定列后,系統(tǒng)會(huì)為列自動(dòng)推薦相應(yīng)的模型/算法。除了使用系統(tǒng)推薦的算法以外,用戶(hù)也可設(shè)置其他的模型/算法。目前規(guī)則發(fā)現(xiàn)支持如下模型算法:名稱(chēng)類(lèi)型閾值cosine相似度算法范圍0~100%,默認(rèn)85%jaccard相似度算法范圍0~100%,默認(rèn)85%jaro-winkler相似度算法范圍0~100%,默認(rèn)85%levenshtein相似度算法范圍0~100%,默認(rèn)85%model-match-address_d機(jī)器學(xué)習(xí)模型無(wú)model-match-company_name機(jī)器學(xué)習(xí)模型無(wú)model-match-job機(jī)器學(xué)習(xí)模型無(wú)model-match-address_n機(jī)器學(xué)習(xí)模型無(wú)ER規(guī)則信息配置選擇規(guī)則發(fā)現(xiàn)的類(lèi)型為ER規(guī)則發(fā)現(xiàn)。規(guī)則發(fā)現(xiàn)-ER規(guī)則信息配置ER規(guī)則信息配置有以下三種配置:基礎(chǔ)參數(shù)配置、實(shí)體標(biāo)識(shí)配置和模型/算法配置。信息配置詳細(xì)說(shuō)明如下。選項(xiàng)配置說(shuō)明必要基礎(chǔ)參數(shù)配置:支持度滿足X的數(shù)據(jù)占總數(shù)據(jù)的比例,數(shù)據(jù)范圍是0~100%,默認(rèn)5%是基礎(chǔ)參數(shù)配置:置信度滿足X且滿足Y的數(shù)據(jù)占滿足X的數(shù)據(jù)的比例,數(shù)據(jù)范圍是0~100%,默認(rèn)80%是實(shí)體標(biāo)識(shí)配置:實(shí)體名稱(chēng)只能輸入英文、數(shù)字和下劃線,長(zhǎng)度不能超過(guò)30是實(shí)體標(biāo)識(shí)配置:字段-左邊當(dāng)用戶(hù)只需要?jiǎng)?chuàng)建單表實(shí)體時(shí),只需配置左邊字段??蓡芜x可多選,只能在一張表中選擇多個(gè)是實(shí)體標(biāo)識(shí)配置:字段-右邊當(dāng)用戶(hù)需要?jiǎng)?chuàng)建跨表實(shí)體時(shí),才需配置右邊字段??蓡芜x可多選,只能在一張表中選擇多個(gè)列否實(shí)體標(biāo)識(shí)配置:標(biāo)注人可單選可多選,生成的標(biāo)注數(shù)據(jù)會(huì)平均分發(fā)給標(biāo)注人是實(shí)體標(biāo)識(shí)配置:標(biāo)注數(shù)據(jù)數(shù)量范圍100~10000的正整數(shù),默認(rèn)值是100是模型/算法配置:選擇列可選擇列添加模型或算法進(jìn)行規(guī)則發(fā)現(xiàn)否采石磯系統(tǒng)中規(guī)則的樣式展示為:X->Y基礎(chǔ)參數(shù)配置和模型/算法配置與CR規(guī)則發(fā)現(xiàn)中的一致,在此不做贅述。針對(duì)實(shí)體標(biāo)識(shí)配置,有以下四種情況:1)選擇實(shí)體,未生成標(biāo)注集;2)選擇實(shí)體,已生成標(biāo)注集且使用已有標(biāo)注集;3)選擇實(shí)體,已生成標(biāo)注集但不使用已有標(biāo)注集;4)新建實(shí)體?,F(xiàn)針對(duì)四種情況的操作做出說(shuō)明。選擇實(shí)體,未生成標(biāo)注集當(dāng)數(shù)據(jù)集已有關(guān)聯(lián)的實(shí)體時(shí),用戶(hù)可下拉實(shí)體名稱(chēng)選擇實(shí)體。由于選擇的實(shí)體已配置字段,因此選擇實(shí)體后不需配置字段。規(guī)則發(fā)現(xiàn)-實(shí)體標(biāo)識(shí)配置(選擇實(shí)體,未生成標(biāo)注集)若要配置標(biāo)注人,用戶(hù)可點(diǎn)擊修改按鈕,勾選對(duì)應(yīng)標(biāo)注人后點(diǎn)擊確定按鈕,標(biāo)注人配置成功。規(guī)則發(fā)現(xiàn)-修改標(biāo)注人當(dāng)ER規(guī)則信息配置完成后,點(diǎn)擊下一步按鈕,進(jìn)入生成標(biāo)注數(shù)據(jù)頁(yè)面,并將標(biāo)注數(shù)據(jù)平均分發(fā)給配置的標(biāo)注人。規(guī)則發(fā)現(xiàn)-生成標(biāo)注數(shù)據(jù)當(dāng)標(biāo)注數(shù)據(jù)生成后,標(biāo)注人需登錄進(jìn)入到我的待辦中對(duì)已分發(fā)的標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。這里以用戶(hù)admin01為例來(lái)講述標(biāo)注人標(biāo)注數(shù)據(jù)的操作。用戶(hù)admin01已登錄,點(diǎn)擊我的待辦,即可查看待辦列表。點(diǎn)擊對(duì)應(yīng)的標(biāo)注任務(wù),即可進(jìn)入到標(biāo)注頁(yè)面進(jìn)行標(biāo)注。規(guī)則發(fā)現(xiàn)-我的待辦標(biāo)注人進(jìn)入到標(biāo)注頁(yè)面對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。規(guī)則發(fā)現(xiàn)-標(biāo)注數(shù)據(jù)當(dāng)標(biāo)注數(shù)據(jù)生成后,創(chuàng)建該ER規(guī)則發(fā)現(xiàn)任務(wù)的用戶(hù)會(huì)進(jìn)入到標(biāo)注數(shù)據(jù)展示頁(yè)。規(guī)則發(fā)現(xiàn)-標(biāo)注數(shù)據(jù)展示頁(yè)若當(dāng)前用戶(hù)對(duì)標(biāo)注人的標(biāo)注數(shù)據(jù)存疑,可對(duì)標(biāo)注人標(biāo)注的結(jié)果進(jìn)行修改。當(dāng)標(biāo)注人將所有數(shù)據(jù)標(biāo)注完成后,當(dāng)前用戶(hù)的標(biāo)注數(shù)據(jù)展示頁(yè)的進(jìn)度更新為100%,步按鈕才從置灰變?yōu)榭捎谩S脩?hù)才能點(diǎn)擊下一步按鈕進(jìn)入到規(guī)則挖掘頁(yè)面。選擇實(shí)體,已生成標(biāo)注集且使用已有標(biāo)注集若選擇的實(shí)體已生成標(biāo)注數(shù)據(jù),并且所有標(biāo)注數(shù)據(jù)經(jīng)過(guò)標(biāo)注人的標(biāo)注和提交,生成了對(duì)應(yīng)的標(biāo)注集,此時(shí)用戶(hù)可選擇是否使用已有標(biāo)注集。此處選擇使用已有標(biāo)注集。規(guī)則發(fā)現(xiàn)-使用已有標(biāo)注集由于選擇使用已有標(biāo)注集,此時(shí)不需要生成標(biāo)注數(shù)據(jù),因此當(dāng)ER點(diǎn)擊下一步按鈕會(huì)直接進(jìn)入到規(guī)則挖掘頁(yè)面。選擇實(shí)體,已生成標(biāo)注集但不使用已有標(biāo)注集當(dāng)選擇不使用已有標(biāo)注集時(shí),需重新生成標(biāo)注數(shù)據(jù),因此用戶(hù)要配置標(biāo)注人和標(biāo)注數(shù)據(jù)數(shù)量。規(guī)則發(fā)現(xiàn)-不使用已有標(biāo)注集當(dāng)ER規(guī)則信息配置完成后,點(diǎn)擊下一步按鈕會(huì)進(jìn)入到生成標(biāo)注數(shù)據(jù)頁(yè)面,并將標(biāo)注數(shù)據(jù)平均分發(fā)給配置的標(biāo)注人。生成標(biāo)注數(shù)據(jù)的后續(xù)操作與選擇實(shí)體,未生成標(biāo)注集時(shí)的一致,在此不贅述。新建實(shí)體若用戶(hù)不選擇已有的實(shí)體,可直接在實(shí)體標(biāo)識(shí)配置中新建實(shí)體。在實(shí)體名稱(chēng)的輸入框中輸入實(shí)體名稱(chēng),例如這里將實(shí)體命名為"en002"。規(guī)則發(fā)現(xiàn)-新建實(shí)體新建實(shí)體需設(shè)置實(shí)體標(biāo)識(shí)的字段。若用戶(hù)想新建單表的實(shí)體,則只需配置左邊字段,右邊字段不需配置。點(diǎn)擊左邊的字段中的修改按鈕就會(huì)出現(xiàn)添加實(shí)體彈框,勾選列后點(diǎn)擊確定按鈕即可。添加實(shí)體時(shí)列名可單選也可多選,但多選時(shí)只能對(duì)同一數(shù)據(jù)集的列進(jìn)行多選,不可切換數(shù)據(jù)集勾選列名。若用戶(hù)想要生成跨表實(shí)體,則需同時(shí)配置左邊字段和右邊字段。此時(shí)右邊字段選擇的數(shù)據(jù)集與左邊字段選擇的數(shù)據(jù)集不同。規(guī)則發(fā)現(xiàn)-左邊字段的配置當(dāng)ER規(guī)則信息配置完成后,點(diǎn)擊下一步平均分發(fā)給配置的標(biāo)注人。生成標(biāo)注數(shù)據(jù)的后續(xù)操作與選擇實(shí)體,未生成標(biāo)注集時(shí)的一致,在此不贅述。ER+CR信息配置選擇規(guī)則發(fā)現(xiàn)的類(lèi)型為ER+CR規(guī)則發(fā)現(xiàn)。下圖中的ER規(guī)則信息配置和CR規(guī)則信息配置與ER規(guī)則發(fā)現(xiàn)中的信息配置和CR規(guī)則發(fā)現(xiàn)中的信息配置是一致的,流程也是一致的,只是同時(shí)將兩者結(jié)合起來(lái),在此不做贅述。規(guī)則挖掘
規(guī)則發(fā)現(xiàn)-ER規(guī)則信息配置和CR規(guī)則信息配置當(dāng)信息配置完成后,點(diǎn)擊下一步按鈕,進(jìn)入規(guī)則挖掘等待頁(yè)面,此時(shí)等待采石磯系統(tǒng)生成規(guī)則。規(guī)則發(fā)現(xiàn)-規(guī)則挖掘結(jié)果查看規(guī)則挖掘完成后,即進(jìn)入到結(jié)果查看頁(yè)面,以CR規(guī)則發(fā)現(xiàn)的結(jié)果展示為例,如下圖所示。在結(jié)果查看頁(yè)面中,用戶(hù)可根據(jù)自己的需求選擇對(duì)應(yīng)的排序方法。當(dāng)前系統(tǒng)支持以下排序方法:簡(jiǎn)潔度、支持度、多樣性、非期望性、實(shí)用性、完整性、唯一性、置信度、提升度、確信度、Top-100、Top-500和Top-1000。排序方法英文名稱(chēng)描述簡(jiǎn)潔度Conciseness描述規(guī)則的簡(jiǎn)潔程度。規(guī)則中謂詞個(gè)數(shù)越少,分值越大。支持度Support描述規(guī)則覆蓋數(shù)據(jù)的程度。規(guī)則覆蓋數(shù)據(jù)的個(gè)數(shù)越多,則分值越高。多樣性Diversity描述規(guī)則與其他規(guī)則的差異程度。規(guī)則如果與其他規(guī)則謂詞差異越大,則分值越高。非期望性Unexpectedness描述規(guī)則的出乎意料程度。規(guī)則中左邊(LHS)和右邊(RHS)關(guān)聯(lián)性越小,則分值越高。實(shí)用性Utility描述規(guī)則的實(shí)用程度。規(guī)則包含的實(shí)用屬性列越多,則分值越高。完整性Completeness描述規(guī)則所在列的數(shù)據(jù)完整程度。規(guī)則包含的屬性列中空值越少,則分值越高。唯一性Uniqueness描述規(guī)則所在列的數(shù)據(jù)不重復(fù)程度。規(guī)則包含的屬性列中冗余數(shù)值越少,則分值越高。置信度Confidence描述規(guī)則的可信程度,規(guī)則同時(shí)滿足LHS和RHS的數(shù)據(jù)在只滿足LHS數(shù)據(jù)的占比,比率越高,則分值也高。提升度Lift描述規(guī)則中LHS和RHS的相關(guān)性。他們的相關(guān)性越高,則分值越高。確信度Conviction描述規(guī)則中LHS和RHS同時(shí)出現(xiàn)的期望頻率的占比(是Confidence的一個(gè)變體)。占比越高,則分值越高。TopKTopK根據(jù)用戶(hù)的喜好(結(jié)合用戶(hù)主觀特征和客觀特征),通過(guò)學(xué)習(xí)的方式對(duì)規(guī)則進(jìn)行打分。用戶(hù)可在右方的搜索框輸入關(guān)鍵字對(duì)規(guī)則進(jìn)行過(guò)濾。對(duì)于生成的規(guī)則,用戶(hù)勾選自己所需的規(guī)則后,點(diǎn)擊保存按鈕,將規(guī)則保存至規(guī)則庫(kù)中,以便后續(xù)其他任務(wù)的執(zhí)行。保存后的規(guī)則不可重復(fù)保存,因此所對(duì)應(yīng)的勾選框是置灰的。規(guī)則發(fā)現(xiàn)-CR規(guī)則結(jié)果查看當(dāng)用戶(hù)選擇自己所需的規(guī)則并保存后,可點(diǎn)擊完成按鈕,會(huì)出現(xiàn)彈框提示用戶(hù)是否結(jié)束任務(wù)。當(dāng)點(diǎn)擊確定按鈕后,會(huì)有相應(yīng)提示任務(wù)已完成,即當(dāng)前的CR規(guī)則發(fā)現(xiàn)任務(wù)的整個(gè)流程已結(jié)束。對(duì)于已完成的規(guī)則發(fā)現(xiàn)任務(wù),結(jié)果查看中的所有規(guī)則是不可操作的,即所有規(guī)則的勾選框是置灰的。規(guī)則發(fā)現(xiàn)-結(jié)束任務(wù)此外,ER規(guī)則發(fā)現(xiàn)的結(jié)果查看和ER+CR規(guī)則發(fā)現(xiàn)的結(jié)果查看與CR規(guī)則發(fā)現(xiàn)的結(jié)果查看基本一致,只是展示的規(guī)則內(nèi)容不同。ER規(guī)則發(fā)現(xiàn)只展示ER規(guī)則,而ER+CR規(guī)則發(fā)現(xiàn)同時(shí)展示ER規(guī)則和CR規(guī)則,用戶(hù)可切換tab頁(yè)進(jìn)行查看。規(guī)則發(fā)現(xiàn)-ER規(guī)則發(fā)現(xiàn)結(jié)果查看規(guī)則發(fā)現(xiàn)-ER+CR規(guī)則發(fā)現(xiàn)結(jié)果查看查錯(cuò)本章節(jié)主要介紹采石磯系統(tǒng)中查錯(cuò)的流程與操作方法。在我們現(xiàn)實(shí)生活中,存在大量的臟數(shù)據(jù),例如:深圳所在的省份廣東省被錯(cuò)誤的寫(xiě)成了廣西省。在大數(shù)據(jù)下,如果想找出這樣的錯(cuò)誤數(shù)據(jù),需要耗費(fèi)大量的人力。采石磯系統(tǒng)提供了查錯(cuò)功能,用戶(hù)需要輸入CR規(guī)則,采石磯能通過(guò)規(guī)則執(zhí)行找出沖突數(shù)據(jù),從而提升業(yè)務(wù)數(shù)據(jù)的質(zhì)量。此外,正則規(guī)則也可應(yīng)用于查錯(cuò),通過(guò)查錯(cuò)可以找出不符合正則規(guī)則的沖突數(shù)據(jù)。前置條件系統(tǒng)中已有數(shù)據(jù)集且同步成功。已為數(shù)據(jù)集創(chuàng)建CR規(guī)則或正則規(guī)則。查錯(cuò)操作總體流程圖如下。查錯(cuò)操作流程圖操作說(shuō)明新建任務(wù)在新建工作流頁(yè)面拖入數(shù)據(jù)集組件,選擇數(shù)據(jù)集后,拖入查錯(cuò)任務(wù)組件并連線。保存和啟動(dòng)工作流后,會(huì)進(jìn)入查看工作流頁(yè)面。在查看工作流頁(yè)面點(diǎn)擊查錯(cuò)任務(wù)組件,配置任務(wù)信息。查錯(cuò)任務(wù)共有四個(gè)階段,分別是數(shù)據(jù)準(zhǔn)備、規(guī)則選擇、規(guī)則執(zhí)行和結(jié)果查看,具體操作介紹如下:數(shù)據(jù)準(zhǔn)備在查看工作流頁(yè)面點(diǎn)擊查錯(cuò)任務(wù)組件,會(huì)進(jìn)入數(shù)據(jù)準(zhǔn)備頁(yè)面,具體呈現(xiàn)如下圖。數(shù)據(jù)準(zhǔn)備配置界面選擇數(shù)據(jù)集:用戶(hù)可以根據(jù)需要選擇執(zhí)行查錯(cuò)任務(wù)的數(shù)據(jù)集,數(shù)據(jù)集可以單選和多選。模糊查詢(xún)。全選:用戶(hù)可以通過(guò)全選按鈕勾選當(dāng)前頁(yè)的所有數(shù)據(jù)集。返回:用戶(hù)可以點(diǎn)擊此按鈕返回至項(xiàng)目詳情頁(yè)面。下一步:勾選完當(dāng)前頁(yè)的數(shù)據(jù)集后可以點(diǎn)擊下一步按鈕進(jìn)入到下一步驟。規(guī)則選擇點(diǎn)擊下一步按鈕,進(jìn)入選擇CR規(guī)則或正則規(guī)則的頁(yè)面,具體呈現(xiàn)如下圖。規(guī)則選擇的界面可選規(guī)則:用戶(hù)可以根據(jù)可選規(guī)則列表中的規(guī)則,選擇想要執(zhí)行的規(guī)則。已選規(guī)則:已勾選的規(guī)則,可以在已選規(guī)則列表中查看。詢(xún)。輸入規(guī)則:當(dāng)用戶(hù)未創(chuàng)建規(guī)則或當(dāng)前規(guī)則不滿足需要時(shí),用戶(hù)可以點(diǎn)擊輸入規(guī)則快速跳轉(zhuǎn)至規(guī)則管理頁(yè)面。全選:用戶(hù)可以通過(guò)全選按鈕勾選當(dāng)前頁(yè)的所有規(guī)則。的數(shù)量。返回:用戶(hù)可以點(diǎn)擊此按鈕返回至項(xiàng)目詳情頁(yè)面。下一步:當(dāng)完成當(dāng)前頁(yè)的配置后可以點(diǎn)擊下一步按鈕進(jìn)入到下一步驟。規(guī)則執(zhí)行&結(jié)果查看點(diǎn)擊下一步按鈕,會(huì)進(jìn)入到規(guī)則執(zhí)行頁(yè)面,規(guī)則執(zhí)行完成之后會(huì)自動(dòng)進(jìn)入結(jié)果查看頁(yè)面,具體呈現(xiàn)如下圖。糾錯(cuò)結(jié)果查看的界面選擇規(guī)則:用戶(hù)可以選擇規(guī)則查看此條規(guī)則執(zhí)行的查錯(cuò)結(jié)果。切換視圖:在原表數(shù)據(jù)中,通過(guò)高亮的形式展示沖突數(shù)據(jù)。突數(shù)據(jù)條數(shù)。分頁(yè)器:用戶(hù)可以通過(guò)分頁(yè)器實(shí)現(xiàn)快速查看沖突數(shù)據(jù)。返回:用戶(hù)可以點(diǎn)擊此按鈕返回至項(xiàng)目詳情頁(yè)面。導(dǎo)出結(jié)果:導(dǎo)出一個(gè)壓縮文件,在壓縮文件中每一個(gè)規(guī)則對(duì)應(yīng)一個(gè)csv點(diǎn)擊切換視圖按鈕,具體呈現(xiàn)如下圖。切換視圖的界面在過(guò)濾條件中,添加過(guò)濾字段、連接符號(hào)、字段值。過(guò)濾條件:新增過(guò)濾條件。重置:清空已輸入的過(guò)濾字段、連接符號(hào)以及字段值。搜索:按過(guò)濾條件進(jìn)行搜索。字段類(lèi)型支持的連接符號(hào)字段類(lèi)型連接符號(hào)字符串型包含,不包含,為空,非空,等于,不等于數(shù)值型大于,小于,大于等于,小于等于,等于,不等于,為空,非空點(diǎn)擊統(tǒng)計(jì)按鈕,單表的統(tǒng)計(jì)呈現(xiàn)如下圖。統(tǒng)計(jì)的界面多表的統(tǒng)計(jì)呈現(xiàn)如下圖。多表統(tǒng)計(jì)的界面多表的查錯(cuò)統(tǒng)計(jì)相比較單表而言,新增了沖突和錯(cuò)誤數(shù)據(jù)最多的表、沖突和錯(cuò)誤數(shù)據(jù)最少的表、和各表的沖突數(shù)據(jù)數(shù)量統(tǒng)計(jì)直方圖。數(shù)據(jù)糾錯(cuò)本章節(jié)主要介紹采石磯系統(tǒng)中數(shù)據(jù)糾錯(cuò)的流程與操作方法。在我們?nèi)粘5纳钪校嬖谥罅康腻e(cuò)誤數(shù)據(jù),如城市為廣州,省份應(yīng)該為廣東省但卻被錯(cuò)誤的寫(xiě)成了湖北省,這樣的數(shù)據(jù)想要靠人工來(lái)修復(fù)需要消耗巨大的人力和物力。采石磯系統(tǒng)提供了數(shù)據(jù)糾錯(cuò)的功能來(lái)解決這個(gè)問(wèn)題,用戶(hù)只需要輸入CR規(guī)則,系統(tǒng)會(huì)自動(dòng)識(shí)別出不滿足規(guī)則的數(shù)據(jù),同時(shí)也可以對(duì)不滿足規(guī)則的數(shù)據(jù)進(jìn)行修改,大量地減少了人力和物力。前置條件已為數(shù)據(jù)集設(shè)置可信度。已為數(shù)據(jù)集創(chuàng)建CR規(guī)則。數(shù)據(jù)糾錯(cuò)總體操作流程圖如下。數(shù)據(jù)糾錯(cuò)操作流程圖數(shù)據(jù)糾錯(cuò)操作說(shuō)明新建任務(wù)在新建工作流頁(yè)面拖入數(shù)據(jù)集組件,選擇數(shù)據(jù)集后,拖入數(shù)據(jù)糾錯(cuò)任務(wù)組件并連線。保存和啟動(dòng)工作流后,會(huì)進(jìn)入查看工作流頁(yè)面。在查看工作流頁(yè)面點(diǎn)擊數(shù)據(jù)糾錯(cuò)任務(wù)組件,配置任務(wù)信息。數(shù)據(jù)糾錯(cuò)任務(wù)共有五個(gè)階段,分別是數(shù)據(jù)準(zhǔn)備、規(guī)則選擇、規(guī)則執(zhí)行、結(jié)果確認(rèn)和結(jié)果查看,具體操作介紹如下:數(shù)據(jù)準(zhǔn)備在查看工作流頁(yè)面點(diǎn)擊數(shù)據(jù)糾錯(cuò)任務(wù)組件,會(huì)進(jìn)入數(shù)據(jù)準(zhǔn)備頁(yè)面,具體呈現(xiàn)如下圖。數(shù)據(jù)糾錯(cuò)任務(wù)數(shù)據(jù)準(zhǔn)備頁(yè)面3.規(guī)則選擇點(diǎn)擊下一步按鈕,會(huì)進(jìn)入規(guī)則選擇頁(yè)面,具體呈現(xiàn)如下圖。數(shù)據(jù)糾錯(cuò)任務(wù)規(guī)則選擇頁(yè)面結(jié)果確認(rèn)點(diǎn)擊下一步按鈕,會(huì)進(jìn)入規(guī)則執(zhí)行頁(yè)面,規(guī)則執(zhí)行完成后會(huì)自動(dòng)進(jìn)入結(jié)果確認(rèn)頁(yè)面,具體呈現(xiàn)如下圖。數(shù)據(jù)糾錯(cuò)任務(wù)結(jié)果確認(rèn)頁(yè)面糾錯(cuò)結(jié)果分發(fā)給操作員后,使用操作員的賬號(hào)登錄采石磯系統(tǒng),在我的待辦頁(yè)面可以查看到分發(fā)的任務(wù),具體呈現(xiàn)如下圖。標(biāo)注員我的待辦頁(yè)面點(diǎn)擊任務(wù)名可以進(jìn)入到待辦詳情頁(yè)面,該頁(yè)面一共有三個(gè)頁(yè)簽,分別是待確認(rèn)-修復(fù)數(shù)據(jù)、待確認(rèn)-沖突數(shù)據(jù)和已確認(rèn)數(shù)據(jù)。修復(fù)數(shù)據(jù)、沖突數(shù)據(jù)說(shuō)明:在CR規(guī)則執(zhí)行過(guò)程中,系統(tǒng)會(huì)根據(jù)CR規(guī)則找出不滿足規(guī)則的數(shù)據(jù),然后判斷數(shù)據(jù)的可信度是否滿足要求。如果可信度滿足要求,則系統(tǒng)會(huì)根據(jù)CR規(guī)則將這條數(shù)據(jù)修正,同時(shí)將被修正后的數(shù)據(jù)設(shè)為可信數(shù)據(jù),這樣的數(shù)據(jù)即為修復(fù)數(shù)據(jù)。如果可信度不滿足要求,則系統(tǒng)不會(huì)對(duì)此條數(shù)據(jù)進(jìn)行修改,這樣的數(shù)據(jù)即為沖突數(shù)據(jù)。標(biāo)注員進(jìn)入待辦詳情頁(yè),可以查看待確認(rèn)的修復(fù)數(shù)據(jù),具體呈現(xiàn)如下圖。標(biāo)注員我的待辦-待確認(rèn)-修復(fù)數(shù)據(jù)頁(yè)面標(biāo)注員進(jìn)入待辦詳情頁(yè),可以查看待確認(rèn)的沖突數(shù)據(jù),具體呈現(xiàn)如下圖。標(biāo)注員我的待辦-待確認(rèn)-沖突數(shù)據(jù)頁(yè)面確認(rèn)后的數(shù)據(jù)會(huì)移動(dòng)到已確認(rèn)數(shù)據(jù)中,具體呈現(xiàn)如下圖。標(biāo)注員我的待辦-已確認(rèn)數(shù)據(jù)頁(yè)面結(jié)果查看標(biāo)注員確認(rèn)數(shù)據(jù)后,管理員可以查看當(dāng)前數(shù)據(jù)的確認(rèn)情況。數(shù)據(jù)糾錯(cuò)任務(wù)結(jié)果查看頁(yè)面當(dāng)前確認(rèn)進(jìn)度:已確認(rèn)的數(shù)據(jù)在所有待確認(rèn)的數(shù)據(jù)中的占比。當(dāng)前可信數(shù)據(jù)占比:當(dāng)前可信的數(shù)據(jù)在所有數(shù)據(jù)中的占比。已確認(rèn)數(shù)據(jù):當(dāng)前已確認(rèn)的數(shù)據(jù)。標(biāo)注員當(dāng)前匹配進(jìn)度:分發(fā)到標(biāo)注員的數(shù)據(jù)中,已確認(rèn)的數(shù)據(jù)在所有數(shù)據(jù)中的占比。勾選此勾選框則只查看沖突數(shù)據(jù)和修復(fù)數(shù)據(jù),不勾選則查看完整數(shù)據(jù)集。選擇需要查看的列:用戶(hù)可以勾選具體的列名來(lái)展示對(duì)應(yīng)的數(shù)據(jù)。chase按鈕:當(dāng)用戶(hù)已經(jīng)對(duì)當(dāng)前的數(shù)據(jù)進(jìn)行確認(rèn)后,期望能對(duì)當(dāng)前確認(rèn)的結(jié)果進(jìn)行優(yōu)化時(shí),可以點(diǎn)擊chase按鈕,系統(tǒng)會(huì)回到規(guī)則執(zhí)行步驟,其他步驟和上面流程一致,不再贅述。完成按鈕:用戶(hù)點(diǎn)擊完成按鈕后可選擇導(dǎo)出結(jié)果,在導(dǎo)出結(jié)果窗口可選擇導(dǎo)出部分字段和全部字段。實(shí)體聚類(lèi)本章節(jié)主要介紹采石磯系統(tǒng)中實(shí)體聚類(lèi)的流程與操作方法。實(shí)體聚類(lèi)是在已有的樣本數(shù)據(jù)里,根據(jù)實(shí)體規(guī)則將具有同樣數(shù)據(jù)特征的數(shù)據(jù)歸為一個(gè)實(shí)體,用戶(hù)只需要選擇數(shù)據(jù)集并為數(shù)據(jù)集創(chuàng)建合適的實(shí)體規(guī)則,系統(tǒng)將自動(dòng)識(shí)別出實(shí)體數(shù)據(jù)。前置條件系統(tǒng)中已有數(shù)據(jù)集且同步成功。已為數(shù)據(jù)集創(chuàng)建實(shí)體。已為數(shù)據(jù)集創(chuàng)建實(shí)體規(guī)則。實(shí)體聚類(lèi)總體操作流程圖如下。實(shí)體聚類(lèi)操作流程圖實(shí)體聚類(lèi)操作說(shuō)明新建任務(wù)在新建工作流頁(yè)面拖入數(shù)據(jù)集組件,選擇數(shù)據(jù)集后,拖入實(shí)體聚類(lèi)任務(wù)組件并連線。保存和啟動(dòng)工作流后,會(huì)進(jìn)入查看工作流頁(yè)面。在查看工作流頁(yè)面點(diǎn)擊實(shí)體聚類(lèi)任務(wù)組件,配置任務(wù)信息。實(shí)體聚類(lèi)任務(wù)共有四個(gè)階段,分別是數(shù)據(jù)準(zhǔn)備、規(guī)則選擇、規(guī)則執(zhí)行和結(jié)果查看,具體操作介紹如下:數(shù)據(jù)準(zhǔn)備在查看工作流頁(yè)面點(diǎn)擊實(shí)體聚類(lèi)任務(wù)組件,會(huì)進(jìn)入數(shù)據(jù)準(zhǔn)備頁(yè)面,具體呈現(xiàn)如下圖。實(shí)體聚類(lèi)任務(wù)數(shù)據(jù)準(zhǔn)備頁(yè)面3、規(guī)則選擇點(diǎn)擊下一步按鈕,會(huì)進(jìn)入規(guī)則選擇頁(yè)面,具體呈現(xiàn)如下圖。實(shí)體聚類(lèi)任務(wù)規(guī)則選擇頁(yè)面4.結(jié)果查看點(diǎn)擊下一步按鈕,會(huì)進(jìn)入實(shí)體規(guī)則執(zhí)行頁(yè)面,實(shí)體規(guī)則執(zhí)行完成后會(huì)自動(dòng)進(jìn)入結(jié)果查看頁(yè)面,具體呈現(xiàn)如下圖。實(shí)體聚類(lèi)任務(wù)結(jié)果查看頁(yè)面最優(yōu)記錄本章節(jié)主要介紹在采石磯系統(tǒng)中執(zhí)行最優(yōu)記錄任務(wù)的流程和操作方法。在了解最優(yōu)記錄任務(wù)之前,首先應(yīng)了解實(shí)體聚類(lèi)的概念。實(shí)體聚類(lèi)是在已有的樣本數(shù)據(jù)里,根據(jù)實(shí)體規(guī)則將具有同樣數(shù)據(jù)特征的數(shù)據(jù)歸為一個(gè)實(shí)體。最優(yōu)記錄功能是在同屬于一個(gè)實(shí)體的數(shù)據(jù)中,通過(guò)獲取每個(gè)字段的最優(yōu)值從而得到實(shí)體的最優(yōu)記錄。用戶(hù)只需要為所需字段創(chuàng)建合適的最優(yōu)規(guī)則和CR規(guī)則,系統(tǒng)會(huì)對(duì)實(shí)體聚類(lèi)任務(wù)輸出的實(shí)體數(shù)據(jù)執(zhí)行這些規(guī)則,進(jìn)而獲得每個(gè)實(shí)體的最優(yōu)記錄。前置條件須同時(shí)滿足以下6個(gè)條件:用戶(hù)已經(jīng)登錄;已經(jīng)創(chuàng)建了一個(gè)項(xiàng)目,項(xiàng)目關(guān)聯(lián)了至少一個(gè)數(shù)據(jù)集;已經(jīng)創(chuàng)建了這個(gè)數(shù)據(jù)集包含的實(shí)體;已經(jīng)創(chuàng)建了這個(gè)實(shí)體關(guān)聯(lián)的實(shí)體規(guī)則;已經(jīng)在這個(gè)數(shù)據(jù)集上執(zhí)行過(guò)實(shí)體聚類(lèi)任務(wù),并得到了實(shí)體數(shù)據(jù);已經(jīng)創(chuàng)建了這個(gè)實(shí)體包含的列的最優(yōu)規(guī)則和CR規(guī)則。最優(yōu)記錄任務(wù)操作流程圖最優(yōu)記錄任務(wù)操作流程圖操作說(shuō)明新建任務(wù)在新建工作流頁(yè)面拖入數(shù)據(jù)集組件,選擇數(shù)據(jù)集后,拖入最優(yōu)記錄任務(wù)組件并連線。保存和啟動(dòng)工作流后,會(huì)進(jìn)入查看工作流頁(yè)面。在查看工作流頁(yè)面點(diǎn)擊最優(yōu)記錄任務(wù)組件,配置任務(wù)信息。最優(yōu)記錄任務(wù)共有五個(gè)階段,分別是數(shù)據(jù)準(zhǔn)備、規(guī)則選擇、規(guī)則執(zhí)行、結(jié)果處理和結(jié)果查看,具體操作介紹如下:數(shù)據(jù)準(zhǔn)備用戶(hù)需要在數(shù)據(jù)準(zhǔn)備頁(yè)面選擇數(shù)據(jù)集、實(shí)體和實(shí)體數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備頁(yè)面具體呈現(xiàn)如下圖。最優(yōu)記錄-數(shù)據(jù)準(zhǔn)備據(jù)集,數(shù)據(jù)集僅支持單選。同一個(gè)實(shí)體執(zhí)行過(guò)多次實(shí)體聚類(lèi)任務(wù),那么系統(tǒng)會(huì)獲取最新一次執(zhí)行的結(jié)果。條實(shí)體記錄,若用戶(hù)想要查看實(shí)體完整的記錄,可以點(diǎn)擊查看實(shí)體數(shù)據(jù)按鈕。全選框:點(diǎn)擊會(huì)選中當(dāng)前頁(yè)上的所有實(shí)體數(shù)據(jù)。選擇框:點(diǎn)擊會(huì)選中該條實(shí)體數(shù)據(jù),目前系統(tǒng)暫不支持實(shí)體記錄超過(guò)999最優(yōu)記錄任務(wù)。因此,如果實(shí)體的記錄超過(guò)999灰,無(wú)法選擇。過(guò)濾按鈕:點(diǎn)擊會(huì)打開(kāi)搜索框,可以輸入搜索條件,根據(jù)搜索出的結(jié)果,選擇過(guò)濾條件。可以勾選一個(gè)或多個(gè)過(guò)濾條件,勾選后點(diǎn)擊確定,過(guò)濾條件生效。頁(yè)面會(huì)顯示符合過(guò)濾條件的實(shí)體數(shù)據(jù)。的實(shí)體記錄的數(shù)量。返回按鈕,點(diǎn)擊后會(huì)返回項(xiàng)目詳情頁(yè)面,在本頁(yè)中所做的配置不會(huì)被保存。下一步按鈕,點(diǎn)擊后會(huì)進(jìn)入規(guī)則選擇頁(yè)面。規(guī)則選擇在數(shù)據(jù)準(zhǔn)備頁(yè)面點(diǎn)擊下一步,會(huì)進(jìn)入規(guī)則選擇頁(yè)面。該頁(yè)面有三個(gè)標(biāo)簽頁(yè),分別是CR規(guī)則、最優(yōu)規(guī)則和已選規(guī)則,用戶(hù)至少需要選擇一條規(guī)則才可以進(jìn)行下一步操作,已經(jīng)選中的規(guī)則會(huì)出現(xiàn)在已選規(guī)則標(biāo)簽頁(yè)。具體呈現(xiàn)如下圖。最優(yōu)記錄-規(guī)則選擇在規(guī)則選擇頁(yè)面點(diǎn)擊下一步,采石磯系統(tǒng)會(huì)開(kāi)始執(zhí)行已選規(guī)則,并進(jìn)入規(guī)則執(zhí)行頁(yè)面。結(jié)果處理規(guī)則執(zhí)行完成后,會(huì)根據(jù)規(guī)則執(zhí)行的結(jié)果自動(dòng)跳轉(zhuǎn)至指定頁(yè)面。如果規(guī)則執(zhí)行的結(jié)果全部為推薦記錄,那么用戶(hù)無(wú)需對(duì)此結(jié)果進(jìn)行處理,直接進(jìn)入到結(jié)果查看頁(yè)面。如果任務(wù)執(zhí)行產(chǎn)生了缺失記錄和執(zhí)行失敗的數(shù)據(jù),那么將會(huì)進(jìn)入到結(jié)果處理頁(yè)面。結(jié)果處理頁(yè)面有三個(gè)頁(yè)簽,分別是推薦記錄、缺失記錄、執(zhí)行失敗的數(shù)據(jù)。推薦記錄、缺失記錄、執(zhí)行失敗的數(shù)據(jù)說(shuō)明:最優(yōu)記錄支持CR規(guī)則和最優(yōu)規(guī)則的執(zhí)行。最優(yōu)規(guī)則是對(duì)現(xiàn)有的實(shí)體記錄的值進(jìn)行排序和加工,從而得到此實(shí)體的最優(yōu)值。當(dāng)最優(yōu)規(guī)則無(wú)法滿足需要時(shí),也就是說(shuō)無(wú)法從實(shí)體記錄中獲取此條實(shí)體的最優(yōu)值,可以選擇CR規(guī)則來(lái)獲取實(shí)體的最優(yōu)值,CR是存在另外一張表作為主表,當(dāng)滿足一定條件時(shí),可以用主表的值去填充某個(gè)實(shí)體的最優(yōu)值。對(duì)于實(shí)體的某一列來(lái)說(shuō),只能選擇CR根據(jù)規(guī)則判斷是否能夠得到最優(yōu)值,如果最優(yōu)規(guī)則定義的不全,系統(tǒng)無(wú)法得到最優(yōu)值,會(huì)認(rèn)為這一列的最優(yōu)值是缺失的,并給出缺失值的可選值,用戶(hù)需在結(jié)果處理步驟中對(duì)缺失的最優(yōu)值進(jìn)行保存。如果此列選擇的是CR時(shí)候,也無(wú)法給出有意義的可選值,因此用戶(hù)無(wú)需在結(jié)果處理步驟對(duì)此類(lèi)值進(jìn)行確認(rèn)。當(dāng)CR此條實(shí)體是執(zhí)行失敗的實(shí)體。否則則會(huì)判斷實(shí)體是否存在需要保存的缺失值時(shí),若存在,則認(rèn)為此條實(shí)體是缺失記錄,用戶(hù)可以在結(jié)果處理步驟中進(jìn)行保存,否則則認(rèn)為此條實(shí)體是推薦記錄。推薦記錄頁(yè)面具體呈現(xiàn)如下圖。最優(yōu)記錄-推薦記錄最優(yōu)記錄執(zhí)行結(jié)果:用戶(hù)可以點(diǎn)擊實(shí)體ID查看具體的實(shí)體數(shù)據(jù),其中第一行帶有BEST記的是規(guī)則執(zhí)行出的最優(yōu)值。圖中綠色高亮顯示的是當(dāng)前列最優(yōu)值來(lái)源的實(shí)體值。的推薦記錄的數(shù)量。返回按鈕:點(diǎn)擊返回按鈕可以返回至項(xiàng)目詳情頁(yè)面。結(jié)束迭代:用戶(hù)可以點(diǎn)擊結(jié)束迭代按鈕結(jié)束當(dāng)前迭代任務(wù),進(jìn)入到結(jié)果查看頁(yè)面。應(yīng)注意的是,若當(dāng)前任務(wù)存在缺失記錄,需要將缺失記錄保存后才可以點(diǎn)擊結(jié)束迭代按鈕,否則按鈕是置灰狀態(tài)。迭代優(yōu)化:若當(dāng)前任務(wù)存在執(zhí)行失敗的數(shù)據(jù),用戶(hù)可以點(diǎn)擊迭代優(yōu)化按鈕對(duì)執(zhí)行失敗的最優(yōu)記錄任務(wù)。缺失記錄頁(yè)面具體呈現(xiàn)如下圖。最優(yōu)記錄-缺失記錄已保存的缺失記錄:若系統(tǒng)中存在缺失記錄,用戶(hù)可以點(diǎn)擊實(shí)體記錄前的單選按鈕選擇此列的最優(yōu)值,點(diǎn)擊保存后會(huì)將此實(shí)體的值存儲(chǔ)到數(shù)據(jù)庫(kù)中,保存后保存按鈕將置灰并顯示當(dāng)前實(shí)體的狀態(tài)為已完成??蛇x值:用戶(hù)可以從可選值中選擇此條實(shí)體的最優(yōu)值。保存按鈕:點(diǎn)擊保存按鈕會(huì)將此實(shí)體的值存儲(chǔ)到數(shù)據(jù)庫(kù)中。的缺失記錄的數(shù)量。返回按鈕:點(diǎn)擊返回按鈕可以返回至項(xiàng)目詳情頁(yè)面。結(jié)束迭代:用戶(hù)可以點(diǎn)擊結(jié)束迭代按鈕結(jié)束當(dāng)前迭代任務(wù),進(jìn)入到結(jié)果查看頁(yè)面。應(yīng)注意的是,若當(dāng)前任務(wù)存在缺失記錄,需要將缺失記錄保存后才可以點(diǎn)擊結(jié)束迭代按鈕,否則按鈕是置灰狀態(tài)。迭代優(yōu)化:若當(dāng)前任務(wù)存在執(zhí)行失敗的數(shù)據(jù),用戶(hù)可以點(diǎn)擊迭代優(yōu)化按鈕對(duì)執(zhí)行失敗的最優(yōu)記錄任務(wù)。執(zhí)行失敗的數(shù)據(jù)頁(yè)面具體呈現(xiàn)如下圖。最優(yōu)記錄-執(zhí)行失敗的數(shù)據(jù)實(shí)體記錄:用戶(hù)可以點(diǎn)擊實(shí)體ID查看實(shí)體記錄。面展示的執(zhí)行失敗的數(shù)據(jù)的數(shù)量。返回按鈕:點(diǎn)擊返回按鈕可以返回至項(xiàng)目詳情頁(yè)面。結(jié)束迭代:用戶(hù)可以點(diǎn)擊結(jié)束迭代按鈕結(jié)束當(dāng)前迭代任務(wù),進(jìn)入到結(jié)果查看頁(yè)面。應(yīng)注意的是,若當(dāng)前任務(wù)存在缺失記錄,需要將缺失記錄保存后才可以點(diǎn)擊結(jié)束迭代按鈕,否則按鈕是置灰狀態(tài)。迭代優(yōu)化:若當(dāng)前任務(wù)存在執(zhí)行失敗的數(shù)據(jù),用戶(hù)可以點(diǎn)擊迭代優(yōu)化按鈕對(duì)執(zhí)行失敗的最優(yōu)記錄任務(wù)。結(jié)果查看點(diǎn)擊結(jié)束迭代按鈕可以進(jìn)入到結(jié)果查看頁(yè)面,在結(jié)果查看頁(yè)面可以看到系統(tǒng)生成的推薦記錄和執(zhí)行失敗的數(shù)據(jù),具體呈現(xiàn)如下圖。最優(yōu)記錄-結(jié)果查看在此頁(yè)面用戶(hù)可以查看推薦記錄和執(zhí)行失敗的數(shù)據(jù),也可以點(diǎn)擊分發(fā)按鈕將推薦記錄分發(fā)給操作員。用戶(hù)點(diǎn)擊此頁(yè)面的分發(fā)按鈕,頁(yè)面會(huì)彈出選擇標(biāo)注人窗口,用戶(hù)可以將推薦記錄分發(fā)給一個(gè)或者多個(gè)操作員進(jìn)行確認(rèn),執(zhí)行失敗的數(shù)據(jù)不會(huì)分發(fā)給操作員去確認(rèn)。分發(fā)結(jié)果頁(yè)面具體呈現(xiàn)如下圖。最優(yōu)記錄-分發(fā)結(jié)果推薦記錄分發(fā)給操作員后,使用操作員的賬號(hào)登錄采石磯系統(tǒng),在我的待辦頁(yè)面可以查看到分發(fā)的任務(wù),具體呈現(xiàn)如下圖。最優(yōu)記錄-操作員我的待辦操作員進(jìn)入到待辦詳情頁(yè),可以查看推薦記錄,具體呈現(xiàn)如下圖。最優(yōu)記錄-操作員推薦記錄最優(yōu)值:若系統(tǒng)執(zhí)行出的最優(yōu)值不滿足預(yù)期,用戶(hù)可以點(diǎn)擊最優(yōu)值進(jìn)行修改的推薦記錄的數(shù)量。返回按鈕:點(diǎn)擊返回按鈕可以返回至我的待辦頁(yè)面。全部確認(rèn)按鈕:當(dāng)用戶(hù)想要確認(rèn)當(dāng)前頁(yè)所有推薦記錄時(shí),可以點(diǎn)擊全部確認(rèn)。確認(rèn)后的數(shù)據(jù)會(huì)放到已確認(rèn)數(shù)據(jù)中,具體呈現(xiàn)如下圖。最優(yōu)記錄-操作員已確認(rèn)記錄操作員確認(rèn)過(guò)數(shù)據(jù)后,管理員可以查看當(dāng)前數(shù)據(jù)的確認(rèn)情況,具體呈現(xiàn)如下圖。最優(yōu)記錄-結(jié)果查看(分發(fā)后)當(dāng)前確認(rèn)進(jìn)度:已確認(rèn)的數(shù)據(jù)在所有待確認(rèn)的數(shù)據(jù)中的占比。全部記錄:用戶(hù)可以點(diǎn)擊全部記錄查看所有推薦記錄。已確認(rèn):用戶(hù)可以點(diǎn)擊已確認(rèn)查看已確認(rèn)的記錄。返回:點(diǎn)擊返回按鈕可以返回至項(xiàng)目詳情頁(yè)面。導(dǎo)出結(jié)果:點(diǎn)擊導(dǎo)出結(jié)果按鈕可以將當(dāng)前任務(wù)的最優(yōu)值導(dǎo)出。導(dǎo)出后可以在我的導(dǎo)出中看到導(dǎo)出結(jié)果,具體呈現(xiàn)如下圖。最優(yōu)記錄-我的導(dǎo)出我的導(dǎo)出:用戶(hù)點(diǎn)擊我的導(dǎo)出可以查看導(dǎo)出結(jié)果列表。下載:用戶(hù)點(diǎn)擊下載按鈕可以將本次導(dǎo)出結(jié)果下載,下載的文件為.csv文件。刪除:用戶(hù)點(diǎn)擊下載按鈕可以刪除本次導(dǎo)出的記錄。字段匹配本章節(jié)主要介紹采石磯系統(tǒng)的字段匹配功能。本系統(tǒng)支持字段匹配功能,輸入一個(gè)主數(shù)據(jù)表選擇需做匹配的字段,再選擇一個(gè)或多個(gè)對(duì)比表;通過(guò)對(duì)字段數(shù)據(jù)進(jìn)行算法分析后判斷字段之間是否存在匹配關(guān)系。通過(guò)完成本章節(jié)步驟,可以了解字段匹配功能及字段匹配任務(wù)的操作方法。前置條件用戶(hù)已登錄;已創(chuàng)建項(xiàng)目。字段匹配操作流程圖字段匹配流程圖在新建工作流頁(yè)面拖入數(shù)據(jù)集組件,選擇數(shù)據(jù)集后,拖入字段匹配任務(wù)組件并連線。保存和啟動(dòng)工作流后,會(huì)進(jìn)入查看工作流頁(yè)面。在查看工作流頁(yè)面點(diǎn)擊字段匹配任務(wù)組件,可以配置任務(wù)信息。字段匹配任務(wù)共有四個(gè)階段,分別是參數(shù)設(shè)置、字段匹配、結(jié)果確認(rèn)和結(jié)果查看,具體操作介紹如下:在查看工作流頁(yè)面點(diǎn)擊字段匹配任務(wù)組件,頁(yè)面窗口會(huì)跳轉(zhuǎn)到參數(shù)設(shè)置頁(yè)面。參數(shù)配置參數(shù)設(shè)置詳細(xì)說(shuō)明選項(xiàng)配置說(shuō)明必要可信度閾值配置任務(wù)可信度閾值是選擇數(shù)據(jù)集需勾選數(shù)據(jù)集和字段名是選擇對(duì)比表需勾選對(duì)比表的數(shù)據(jù)集是參數(shù)設(shè)置完成后,點(diǎn)擊下一步,字段匹配任務(wù)開(kāi)始執(zhí)行。字段匹配任務(wù)完成后,自動(dòng)跳轉(zhuǎn)到結(jié)果查看頁(yè)面。任務(wù)結(jié)果點(diǎn)擊按數(shù)據(jù)源分發(fā)按鈕后,進(jìn)入到數(shù)據(jù)結(jié)果的分發(fā)確認(rèn)頁(yè)面,系統(tǒng)會(huì)將數(shù)據(jù)分發(fā)給數(shù)據(jù)源的責(zé)任人進(jìn)行確認(rèn),管理員用戶(hù)也可對(duì)數(shù)據(jù)進(jìn)行確認(rèn)操作,此時(shí)管理員頁(yè)面顯示數(shù)據(jù)確認(rèn)進(jìn)度和結(jié)果。任務(wù)結(jié)果確認(rèn)中用操作員賬號(hào)進(jìn)行登錄,登錄后點(diǎn)擊我的待辦菜單欄中可看到對(duì)應(yīng)任務(wù),選擇對(duì)應(yīng)的任務(wù)名進(jìn)入到標(biāo)注頁(yè)面。此時(shí)操作員頁(yè)面可看到待辦任務(wù)中存在對(duì)應(yīng)數(shù)據(jù),可對(duì)結(jié)果進(jìn)行標(biāo)記、保存或者提交操作。操作員結(jié)果確認(rèn)界面操作員標(biāo)注完成,總體進(jìn)度達(dá)到100%,可點(diǎn)擊完成按鈕完成整個(gè)字段匹配任務(wù)。結(jié)果確認(rèn)完成此時(shí)字段匹配任務(wù)完成,任務(wù)狀態(tài)為已完成,點(diǎn)擊對(duì)應(yīng)任務(wù)名稱(chēng)可進(jìn)行結(jié)果查看和導(dǎo)出,導(dǎo)出的結(jié)果會(huì)帶上操作員標(biāo)注信息。任務(wù)完成后狀態(tài)規(guī)則管理本章節(jié)主要介紹采石磯系統(tǒng)規(guī)則管理的具體操作流程。本系統(tǒng)定義的規(guī)則管理包括四種規(guī)則,分別是CR規(guī)則、ER規(guī)則、最優(yōu)規(guī)則和正則規(guī)則。其中,CR規(guī)則是用于處理數(shù)據(jù)沖突錯(cuò)誤問(wèn)題的規(guī)則,ER規(guī)則是用于處理數(shù)據(jù)實(shí)體識(shí)別問(wèn)題的規(guī)則,最優(yōu)規(guī)則是用于在已有的實(shí)體記錄中找到每個(gè)實(shí)體的最優(yōu)值的規(guī)則,正則規(guī)則是用于通過(guò)正則表達(dá)式去查找不符合該表達(dá)式的沖突數(shù)據(jù)的規(guī)則。需要特別說(shuō)明的是,通過(guò)本系統(tǒng)的規(guī)則發(fā)現(xiàn)功能對(duì)數(shù)據(jù)進(jìn)行分析,能夠自動(dòng)得出CR、ER規(guī)則和正則規(guī)則,其中正則規(guī)則是包含在CR規(guī)則發(fā)現(xiàn)中的。前置條件用戶(hù)已登錄;已導(dǎo)入數(shù)據(jù)源,已添加數(shù)據(jù)集;已創(chuàng)建實(shí)體。規(guī)則管理操作流程如下圖所示。規(guī)則管理操作流程圖規(guī)則管理頁(yè)面說(shuō)明本章主要介紹規(guī)則管理頁(yè)面。點(diǎn)擊規(guī)則管理按鈕,默認(rèn)展示ER規(guī)則管理頁(yè)面,具體呈現(xiàn)如下圖。規(guī)則管理界面停用和啟用點(diǎn)擊規(guī)則右側(cè)的是否停用按鈕,頁(yè)面窗口會(huì)返回狀態(tài)更改成功的響應(yīng)信息,對(duì)應(yīng)規(guī)則不可用,能夠?qū)σ?guī)則進(jìn)行刪除操作;再次點(diǎn)擊是否停用按鈕,頁(yè)面窗口同樣會(huì)返回狀態(tài)更改成功的響應(yīng)信息,對(duì)應(yīng)規(guī)則恢復(fù)可用,對(duì)應(yīng)刪除按鈕不可用。編輯點(diǎn)擊編輯按鈕,會(huì)跳轉(zhuǎn)到編輯規(guī)則頁(yè)面,可以對(duì)規(guī)則內(nèi)容進(jìn)行編輯,編輯完成后點(diǎn)擊保存按鈕,系統(tǒng)會(huì)對(duì)編輯后的規(guī)則進(jìn)行校驗(yàn),校驗(yàn)通過(guò)后才可保存,校驗(yàn)不通過(guò)會(huì)做出相應(yīng)提示。最優(yōu)規(guī)則不支持編輯。輸入規(guī)則界面刪除點(diǎn)擊刪除按鈕,會(huì)彈出"是否刪除該規(guī)則"的確認(rèn)框。點(diǎn)擊確定,頁(yè)面窗口會(huì)返回刪除成功的響應(yīng)信息。輸入規(guī)則點(diǎn)擊輸入規(guī)則按鈕,會(huì)展示公式輸入規(guī)則頁(yè)面,頁(yè)面具體操作后續(xù)有詳細(xì)介紹。點(diǎn)擊自定義輸入按鈕,會(huì)展示自定義輸入規(guī)則頁(yè)面,頁(yè)面具體操作后續(xù)有詳細(xì)介紹。公式輸入操作說(shuō)明本章介紹公式輸入操作說(shuō)明,包括“CR規(guī)則操作說(shuō)明”、“ER規(guī)則操作說(shuō)明”、“最優(yōu)規(guī)則操作說(shuō)明”、“正則規(guī)則操作說(shuō)明”。CR規(guī)則操作說(shuō)明創(chuàng)建CR規(guī)則在規(guī)則管理頁(yè)面中點(diǎn)擊輸入規(guī)則按鈕,默認(rèn)會(huì)進(jìn)入CR規(guī)則的公式輸入頁(yè)面。CR規(guī)則公式輸入操作介紹點(diǎn)擊添加數(shù)據(jù)集,會(huì)彈出選擇數(shù)據(jù)集的窗口??梢酝ㄟ^(guò)拖動(dòng)滾動(dòng)條查找數(shù)據(jù)集,也可以通過(guò)搜索框輸入數(shù)據(jù)集名稱(chēng)查找,支持模糊查找。點(diǎn)擊數(shù)據(jù)集名稱(chēng),可以預(yù)覽數(shù)據(jù)。點(diǎn)擊數(shù)據(jù)集名稱(chēng)左側(cè)的復(fù)選框,選中數(shù)據(jù)集,支持選中多個(gè)數(shù)據(jù)集。選擇數(shù)據(jù)集界面點(diǎn)擊確定按鈕,添加數(shù)據(jù)集成功,并返回輸入規(guī)則界面。選擇條件選擇列/關(guān)系詞/列時(shí),表示兩個(gè)列的關(guān)系,兩個(gè)列可以是同一張表的兩個(gè)列,也可以是跨表之間的兩個(gè)列;選擇列/關(guān)系詞/常數(shù)時(shí),表示列和常數(shù)之間的關(guān)系。選擇結(jié)果選擇列/關(guān)系詞/列時(shí),同選擇條件,表示兩個(gè)列的關(guān)系,兩個(gè)列可以是同一張表的兩個(gè)列,也可以是跨表之間的兩個(gè)列;選擇列/關(guān)系詞/常數(shù)時(shí),同選擇條件,表示列和常數(shù)之間的關(guān)系。CR規(guī)則公式輸入界面點(diǎn)擊完成按鈕,創(chuàng)建CR規(guī)則成功。備注:采石磯系統(tǒng)支持如下的關(guān)系詞:數(shù)據(jù)類(lèi)型關(guān)系詞舉例數(shù)值型數(shù)據(jù)等于t0.age=t1.age不等于t0.age!=t1.age大于t0.age>t1.age大于等于t0.age>=t1.age小于t0.age<t1.age小于等于t0.age<=t1.age字符串型數(shù)據(jù)相似于similar('jaccard',t0.city,t1.city,0.85)等于t0.city=t1.city不等于t0.city!=t1.city從上方表格可以看到,"相似于"關(guān)系詞和其他關(guān)系詞有不同之處,"相似于"關(guān)系詞用到了相似度算法和機(jī)器學(xué)習(xí)模型。目前采石磯系統(tǒng)支持如下的相似度算法:算法舉例說(shuō)明文本相似度算法的一種,使用向量空間中兩cosinesimilar('cosine',t0.city,t1.city,0.85)個(gè)向量夾角的余弦值作為衡量個(gè)體間差異的大小的度量,用于計(jì)算兩段文本相似的程度。速度較快,準(zhǔn)確度較差,對(duì)于中英文效果類(lèi)似文本相似度算法的一種,使用樣本交并集比值衡量樣本之間的相似性與差異性,用于計(jì)jaccardsimilar('jaccard',t0.city,t1.city,0.85)算兩段中長(zhǎng)文本相似的程度。速度最快,召回率一般。對(duì)于短文本效果較差,長(zhǎng)文本(>100)速度較快。內(nèi)置中文分詞工具,英文效果極差,中文效果較好文本相似度算法的一種,對(duì)相等字符的距離jaro-winklersimilar('jaro-winkler',t0.city,t1.city,0.85)進(jìn)行過(guò)濾作為度量計(jì)算相似度,用于計(jì)算兩段短文本相似的程度。速度一般,召回率較高。對(duì)于短文本效果較好,長(zhǎng)文本速度較慢。中英文效果都較好文本相似度算法的一種,使用兩段文本轉(zhuǎn)換levenshteinsimilar('levenshtein',t0.city,t1.city,0.85)所需的編輯操作次數(shù)作為度量計(jì)算相似度,用于計(jì)算兩段短文本相似的程度。速度較慢,召回率極高。對(duì)于短文本效果較好,長(zhǎng)文本速度較慢。中英文效果都較好支持如下的機(jī)器學(xué)習(xí)模型:模型舉例說(shuō)明model-match-address_dml('model-match-address_d',t0.city,t1.city)地址匹配的機(jī)器學(xué)習(xí)模型1,用于判斷兩個(gè)地址是不是描述了同個(gè)地理位置model-match-company_nameml('model-match-company_name',t0.city,t1.city)公司機(jī)構(gòu)名稱(chēng)的機(jī)器學(xué)習(xí)模型,用于判斷兩個(gè)公司名稱(chēng)叫法是不是同一個(gè)實(shí)體model-match-jobml('model-match-job',t0.address,t1.address)職位匹配的機(jī)器學(xué)習(xí)模型,用于判斷招聘職位或其它職位信息是不是描述了相同崗位model-match-address_nml('model-match-add
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 國(guó)企湖北頂好智慧能源有限公司公開(kāi)招聘10個(gè)崗位多地區(qū)有崗待遇優(yōu)厚筆試參考題庫(kù)附帶答案詳解(3卷合一版)
- 2025湖南攸州水務(wù)有限公司招聘財(cái)務(wù)人員1人筆試參考題庫(kù)附帶答案詳解(3卷)
- 2025浙江湖州市公路水運(yùn)工程監(jiān)理咨詢(xún)有限公司招聘筆試參考題庫(kù)附帶答案詳解(3卷)
- 2025江西江鈴集團(tuán)晶馬汽車(chē)有限公司招聘1人筆試參考題庫(kù)附帶答案詳解(3卷)
- 2025年安徽潁上縣城鄉(xiāng)水務(wù)有限公司公開(kāi)招聘11人筆試參考題庫(kù)附帶答案詳解(3卷)
- 2025中智集團(tuán)財(cái)務(wù)崗位招聘4人筆試參考題庫(kù)附帶答案詳解(3卷)
- 齊齊哈爾市2024上半年黑龍江齊齊哈爾市事業(yè)單位招聘工作人員406人筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 清城區(qū)2024廣東清遠(yuǎn)市清新區(qū)代建項(xiàng)目管理中心招聘工程類(lèi)專(zhuān)業(yè)技術(shù)人員1人筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 岳麓區(qū)2024湖南長(zhǎng)沙市中南大學(xué)實(shí)驗(yàn)動(dòng)物學(xué)部非事業(yè)編制工作人員招聘2人筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 國(guó)家事業(yè)單位招聘2023國(guó)家藥品監(jiān)督管理局南方醫(yī)藥經(jīng)濟(jì)研究所招聘3人筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 中國(guó)卒中學(xué)會(huì)急性缺血性卒中再灌注治療指南2024解讀
- 2025年二十屆四中全會(huì)知識(shí)測(cè)試題庫(kù)(含答案)
- DB23-T 3964-2025 高寒地區(qū)公路工程大體積混凝土冬期施工技術(shù)規(guī)范
- 工程項(xiàng)目監(jiān)理投標(biāo)答辯技巧指南
- 舞臺(tái)現(xiàn)場(chǎng)安全知識(shí)培訓(xùn)課件
- 施工質(zhì)量安全環(huán)保工期售后服務(wù)保障措施及相關(guān)的違約承諾
- JJF(蒙) 真空測(cè)量系統(tǒng)在線校準(zhǔn)規(guī)范
- 溝槽施工安全培訓(xùn)課件
- 送餐車(chē)采購(gòu)方案范本
- 110kv高壓配電網(wǎng)設(shè)計(jì)
- 液流電池原理講解
評(píng)論
0/150
提交評(píng)論