數(shù)據(jù)標注實訓(高級)教案ch01 數(shù)據(jù)處理技術基礎_第1頁
數(shù)據(jù)標注實訓(高級)教案ch01 數(shù)據(jù)處理技術基礎_第2頁
數(shù)據(jù)標注實訓(高級)教案ch01 數(shù)據(jù)處理技術基礎_第3頁
數(shù)據(jù)標注實訓(高級)教案ch01 數(shù)據(jù)處理技術基礎_第4頁
數(shù)據(jù)標注實訓(高級)教案ch01 數(shù)據(jù)處理技術基礎_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《數(shù)據(jù)標注實訓》課程教案課題:數(shù)據(jù)處理技術基礎教學目的:理解數(shù)據(jù)清洗的常見操作及各操作詳細過程,能運用相關方法處理數(shù)據(jù)中的噪聲、缺失值等問題。掌握數(shù)據(jù)安全概念,熟悉制定安全措施流程,知曉保證數(shù)據(jù)安全的常用手段,樹立數(shù)據(jù)安全意識。課型:新授課課時:本章安排8個課時。教學重點:重點:掌握數(shù)據(jù)清洗的常見操作及各操作詳細過程。教學難點:難點:掌握數(shù)據(jù)安全概念,熟悉制定安全措施流程,知曉保證數(shù)據(jù)安全的常用手段。教學過程:教學形式:講授課,教學組織采用課堂整體講授和分組演示。教學媒體:采用啟發(fā)式教學、案例教學等教學方法。教學手段采用多媒體課件、視頻等媒體技術。板書設計:本課標題數(shù)據(jù)處理技術基礎課次4授課方式理論課□討論課□習題課□其他□課時安排8學分共2分授課對象普通高等院校學生任課教師教材及參考資料1.《數(shù)據(jù)標注實訓》;電子工業(yè)出版社。2.本教材配套視頻教程及學習檢查等資源。3.與本課程相關的其他資源。教學基本內容教學方法及教學手段課程引入在當今數(shù)字化時代,數(shù)據(jù)量呈爆炸式增長。從電商平臺的交易記錄,到科研領域的實驗數(shù)據(jù),數(shù)據(jù)無處不在。但原始數(shù)據(jù)常雜亂無章,充斥錯誤與冗余。本章將開啟數(shù)據(jù)處理技術之旅,從數(shù)據(jù)清洗基礎操作入手,探討數(shù)據(jù)安全保障,助大家掌握數(shù)據(jù)處理核心技術,挖掘數(shù)據(jù)潛藏價值。參考以下形式:1.銜接導入2.懸念導入3.情景導入4.激疑導入5.演示導入6.實例導入7.其他形式1.1數(shù)據(jù)清洗在數(shù)據(jù)采集的過程中,無論以何種采集方法得到數(shù)據(jù),都會不可避免地得到“臟數(shù)據(jù)”。這些“臟數(shù)據(jù)”可能包括無效數(shù)據(jù)、缺失數(shù)據(jù)及數(shù)據(jù)不一致等情況,嚴重影響后期標注工作的難度和效率。在數(shù)據(jù)標注領域中,數(shù)據(jù)清洗的目的在于提高數(shù)據(jù)標注的質量,為數(shù)據(jù)標注任務提供一個相對整潔有效的數(shù)據(jù),降低數(shù)據(jù)標注過程中的工作量,提高數(shù)據(jù)標注任務完成的效率。1.1.1數(shù)據(jù)清洗的常見操作數(shù)據(jù)標注領域中的數(shù)據(jù)清洗操作一般需要針對具體項目設計,但根據(jù)不同的數(shù)據(jù)可以歸納出相應的數(shù)據(jù)清洗方法,主要包括以下方面。1.不完整數(shù)據(jù)數(shù)據(jù)在采集或標注的過程中均會出現(xiàn)不同情況的數(shù)據(jù)缺失,這就是不完整數(shù)據(jù),其常見的處理方法包括以下兩種。(1)填補數(shù)據(jù):總體數(shù)據(jù)量不大,但缺失的數(shù)據(jù)很重要,需要重新填補數(shù)據(jù)。(2)刪除數(shù)據(jù):當遇到數(shù)據(jù)規(guī)模很大,數(shù)據(jù)缺失部分占比很小,或者缺失的數(shù)據(jù)無法填補等情況時,需要根據(jù)實際情況對缺失的數(shù)據(jù)進行整體刪除。需要注意的是,針對數(shù)據(jù)不完整問題,優(yōu)先考慮的是填補數(shù)據(jù),減少對采集數(shù)據(jù)量的影響。2.噪聲數(shù)據(jù)噪聲數(shù)據(jù)常見于各種數(shù)據(jù)中,其對模型的影響要根據(jù)實際情況進行分析。在數(shù)據(jù)標注領域中,噪聲數(shù)據(jù)主要集中在異常值的處理中。異常值是指超過明確取值范圍的值。我們可以通過簡單的規(guī)則來檢查噪聲數(shù)據(jù),或者使用不同屬性間的約束、外部數(shù)據(jù)來檢查和清洗噪聲數(shù)據(jù)。002數(shù)據(jù)處理技術基礎3.重復的數(shù)據(jù)第1章在進行數(shù)據(jù)標注前,數(shù)據(jù)重復會產生重復的標注動作,造成標注資源的浪費。數(shù)據(jù)去重操作一般在其他數(shù)據(jù)清洗操作之后,原因在于清洗其他數(shù)據(jù)仍然會造成小概率出現(xiàn)重復數(shù)據(jù)的可能性。4.錯誤數(shù)據(jù)一些數(shù)據(jù)自身存在客觀性錯誤,如錯別字、多余字符、知識性錯誤等。一般處理方式為更改其錯誤或刪除該條數(shù)據(jù)。5.格式不合規(guī)的數(shù)據(jù)項目需求格式與原始數(shù)據(jù)不一致,當出現(xiàn)偏差較大時也需要清洗數(shù)據(jù)。1.1.2數(shù)據(jù)清洗操作詳解數(shù)據(jù)清洗的難點在于數(shù)據(jù)類型的多種多樣,導致不同數(shù)據(jù)、不同項目或不同模型所涉及的數(shù)據(jù)清洗方法完全不一致。下面將根據(jù)數(shù)據(jù)常見形式對應的數(shù)據(jù)清洗操作進行詳細介紹。1.非結構化數(shù)據(jù)非結構化數(shù)據(jù)一般指不完整、不規(guī)則、沒有結構層級的數(shù)據(jù)。采集到的原始數(shù)據(jù)大多數(shù)為非結構化數(shù)據(jù)。與結構化數(shù)據(jù)相比,非結構化數(shù)據(jù)的來源非常廣泛,生產速度更快,因此其清洗更為困難。在數(shù)據(jù)標注領域中,非結構化數(shù)據(jù)常見于數(shù)據(jù)標注之前。通過對非結構化數(shù)據(jù)的標注,生產出包含原始數(shù)據(jù)信息及標注信息的結構化數(shù)據(jù)或半結構化數(shù)據(jù),以便在后續(xù)的數(shù)據(jù)分析及模型訓練時使用。常見的非結構化數(shù)據(jù)包括文本、圖片、音頻、視頻、網頁及各種傳感器數(shù)據(jù)等。1)文本數(shù)據(jù)清洗任何數(shù)據(jù)的清洗都要根據(jù)項目需求進行具體分析。如果是針對中文文本的自然語言處理項目,則要根據(jù)項目需求與數(shù)據(jù)量級,處理文本中出現(xiàn)的不相關英文字符、特殊符號及無意義的數(shù)值。在進行數(shù)據(jù)標注前,需要清洗與需求數(shù)據(jù)不相關的文本數(shù)據(jù),可以讓數(shù)據(jù)更整潔,使標注任務更明確。這里使用的工具是文本編輯器,還可以自行選擇軟件工具,這里不做更多介紹。那么如何對該文本數(shù)據(jù)進行清洗,這里介紹一種強大的文本處理方法——正則表達式。正則表達式是由普通字符和特殊字符(特殊字符也被稱為“元字符”)組成的。(1)分組是指用圓括號“()”把一個子模式括起來,表示這個子模式作為一個整體進行匹配。(2)選擇是指用豎線“|”把兩個子模式分開,表示匹配這兩個子模式中的任意一個。(3)轉義是指在一個特殊含義的字符前面加上反斜杠“\”,表示取消這個字符原本的含義,按照字面值進行匹配。2)圖片、音頻、視頻等數(shù)據(jù)清洗針對圖片、音頻、視頻等非結構化數(shù)據(jù),常見的數(shù)據(jù)清洗操作為去重或去除固定條件下的內容。重復數(shù)據(jù)會給標注任務帶來負擔,固定條件外的數(shù)據(jù)(如大小不足要求的數(shù)據(jù))同樣會造成標注資源的浪費。圖片、音頻、視頻等數(shù)據(jù)在計算機中是二進制編碼,可以通過腳本語言進行清洗操作。針對常見的數(shù)據(jù)去重等清洗操作,可以使用去重工具進行。2.結構化數(shù)據(jù)結構化數(shù)據(jù)也被稱為“行數(shù)據(jù)”,即以二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù)。與非結構化數(shù)據(jù)相比,結構化數(shù)據(jù)更易于查看與搜索,但是也有更嚴格的數(shù)據(jù)格式要求。因此,對二維表的數(shù)據(jù)清洗更為復雜,如圖1-13(a)所示,這里使用Excel進行數(shù)據(jù)清洗,Excel適用于小規(guī)模數(shù)據(jù)、數(shù)據(jù)屬性較多的情況;還可以使用腳本語言等進行更為精細的處理,最終達到如圖1-13(b)所示的效果,具體操作方法不再詳述。1.2數(shù)據(jù)安全1.2.1數(shù)據(jù)安全的概念數(shù)據(jù)安全是指通過采取必要措施,確保數(shù)據(jù)處于有效保護和合法利用的狀011態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。目前,隨著信息技術的飛速發(fā)展,對數(shù)據(jù)的要求及數(shù)據(jù)的價值都在逐漸增加。因此,保障信息資產將會變得愈發(fā)重要。一個完善的數(shù)據(jù)安全體系本身就具有寶貴的價值,不但可以降低數(shù)據(jù)安全風險,還可以提升產品的競爭優(yōu)勢。數(shù)據(jù)具有多樣性,不同數(shù)據(jù)的保密要求及實施辦法也不盡相同。從數(shù)據(jù)安全角度考慮,這里將數(shù)據(jù)分為以下幾類。(1)個人及企業(yè)數(shù)據(jù):如個人隱私、肖像及企業(yè)財務敏感數(shù)據(jù)等。(2)業(yè)務數(shù)據(jù):單位從事各項業(yè)務產生的有價值的數(shù)據(jù)。(3)重要數(shù)據(jù):涉及公共生命安全、國家安全的機密數(shù)據(jù)。這里僅按照數(shù)據(jù)安全受限的等級進行一個簡要分類,其保密等級要根據(jù)業(yè)務需求進行具體劃分。數(shù)據(jù)安全流程包括安全策略的規(guī)劃、構建與執(zhí)行,為訪問數(shù)據(jù)提供身份驗證、授權等操作,以及對過程的監(jiān)管與治理等。目前尚且無法對所有的隱私和保密要求提出一套通用的數(shù)據(jù)安全實施辦法。1.2.2數(shù)據(jù)安全措施的制定流程數(shù)據(jù)安全的主要目的是防止數(shù)據(jù)泄露。一起數(shù)據(jù)泄露事件可以是個人無意中將部分涉密信息遺失在公共環(huán)境;也可以是企業(yè)或個人為了獲取更多利益將數(shù)據(jù)進行私下交易;甚至是黑客組織破壞政府防火墻,竊取政治機密文件。在數(shù)據(jù)標注領域中,數(shù)據(jù)經過標注人員標注后會產生額外的價值,即使原內容不會涉及隱私或機密,在標注后也同樣具有商業(yè)價值,因此數(shù)據(jù)安全在數(shù)據(jù)標注領域尤為重要。通用的數(shù)據(jù)安全措施的制定流程如下。1.分析數(shù)據(jù)安全需求1)業(yè)務需求數(shù)據(jù)標注領域中涉及的數(shù)據(jù)眾多,其中不乏一些隱私或機密數(shù)據(jù)。針對不同的標注項目,要全面分析對數(shù)據(jù)安全的業(yè)務需求。通過對業(yè)務需求的分析及工作流程,針對可能出現(xiàn)的安全風險環(huán)節(jié)提出安全保證措施。2)監(jiān)管需求在考慮業(yè)務需求的同時,還要實時關注政府的監(jiān)管需求。明確政府制定的法律法規(guī),完善業(yè)務需求之外的安全控制。監(jiān)管需求適用于任何數(shù)據(jù),可以在業(yè)務需求之前完善。3)評估當前風險在明確各個項目安全需求的同時,還要評估當前風險,不同的安全需求可能需要不同的保護措施。也就是要評估現(xiàn)有的安全保護措施能否支持當前項目的安全需求,并以此進行改進,降低安全風險。2.制定數(shù)據(jù)安全標準1)制定數(shù)據(jù)安全制度在制定數(shù)據(jù)安全制度時要基于業(yè)務規(guī)范和法律法規(guī)要求,如因未遵守公司制度導致數(shù)據(jù)泄露可能要承擔相應的法律責任。常見的數(shù)據(jù)安全制度包括簽訂保密協(xié)議、數(shù)據(jù)存儲介質的管理等。2)細化數(shù)據(jù)保密等級根據(jù)業(yè)務需求和監(jiān)管需求對保密等級提出分級方案,一般可以細化為從外部公開到絕密的一系列保密等級。數(shù)據(jù)標注領域中的數(shù)據(jù)來源廣泛,提出一個簡單明確的分級方案尤為重要。需要注意的是,數(shù)據(jù)聚合會導致數(shù)據(jù)敏感性的變化,因此要明確數(shù)據(jù)聚合帶來的保密等級影響。3)定義角色權限數(shù)據(jù)訪問權限要根據(jù)角色進行定義,如用戶、管理員或數(shù)據(jù)專員等。數(shù)據(jù)標注領域涉及的角色會比其他領域涉及的角色更多,因此要根據(jù)不同角色進行細化的權限分配。此外,還要額外考慮信任環(huán)境,因為信任環(huán)境會發(fā)生變化。例如,員工離職后,他仍然可以訪問數(shù)據(jù),這樣就會產生數(shù)據(jù)泄露的風險。3.實施數(shù)據(jù)安全管控1)密級的分配與管理根據(jù)保密等級分級方案,對角色進行密級分配。要考慮角色權限變更或角色終止訪問權限、監(jiān)控權限級別等方面;還要根據(jù)密級等級對數(shù)據(jù)進行分類,針對安全漏洞的檢測及如何處理檢測到的數(shù)據(jù)泄露做好管控。2)數(shù)據(jù)安全制度的實施在制定完數(shù)據(jù)安全制度后,要根據(jù)數(shù)據(jù)安全制度,追蹤整個數(shù)據(jù)安全流程,衡量其中管理法規(guī)是否符合規(guī)定,當發(fā)現(xiàn)潛在不符合規(guī)定的問題時要及時上報并妥善修正。在發(fā)布新的管理法規(guī)或現(xiàn)有管理法規(guī)變更后,要對數(shù)據(jù)安全流程進行重新評估。1.2.3保證數(shù)據(jù)安全的手段保證數(shù)據(jù)安全的手段要根據(jù)數(shù)據(jù)類型、數(shù)據(jù)節(jié)點及角色管理等角度進行多維度使用,以達到降低數(shù)據(jù)安全風險的目的。以下對關于數(shù)據(jù)標注領域保證數(shù)據(jù)安全的手段進行分類介紹。1.系統(tǒng)手段在數(shù)據(jù)標注領域中,標注系統(tǒng)是在線管理角色的主要方式,包括對角色進行有效的密級分配、訪問控制及監(jiān)控異常日志等。系統(tǒng)管理一般由專業(yè)人員進行構建及監(jiān)控,需要確保系統(tǒng)不會出現(xiàn)安全漏洞,包括及時檢測并修復出現(xiàn)的安全漏洞,通常采用的手段為構建防火墻或安裝入侵監(jiān)測軟件。2.數(shù)據(jù)手段在數(shù)據(jù)標注領域中,數(shù)據(jù)的移動過程有很多,如任務試標、任務派發(fā)及質檢打回等。根據(jù)項目需求,也并非都是在線任務,離線任務占比也相對較高。通過對敏感信息脫敏與數(shù)據(jù)加密,可以有效地降低數(shù)據(jù)移動過程中的安全風險。常用的數(shù)據(jù)手段如下。1)數(shù)據(jù)脫敏數(shù)據(jù)脫敏是指在保證數(shù)據(jù)原有特征及與其他數(shù)據(jù)關聯(lián)性的原則下,對數(shù)據(jù)中的姓名、電話及身份證號等敏感信息,通過掩碼、刪除、替換等方法進行變更,從而在隱去敏感信息的同時不會影響數(shù)據(jù)的測試及應用。根據(jù)數(shù)據(jù)脫敏的形式又分為“靜態(tài)脫敏”和“動態(tài)脫敏”。其區(qū)別在于靜態(tài)脫敏會永久地改變數(shù)據(jù),而動態(tài)脫敏則是在訪問過程中對數(shù)據(jù)外觀進行改變,014數(shù)據(jù)處理技術基礎第1章并不會改變原始數(shù)據(jù)。常用的數(shù)據(jù)脫敏方法如下。數(shù)據(jù)替換:如將手機號碼統(tǒng)一替換為。無效化:如將地址替換為“************************”。隨機化:如將真實姓名替換為“張三”“李四”等。偏移和取整:如將“2022-08-3113:08:50”替換為“2022-8-3113:00:00”。掩碼屏蔽:如去除身份證號“210102********4567”中的生日信息。靈活編碼:有特定規(guī)則,如用固定的數(shù)字或字母替換真實的合同編號。2)數(shù)據(jù)加密數(shù)據(jù)加密是指通過特定的密鑰及算法將數(shù)據(jù)轉換為復雜代碼以保障數(shù)據(jù)安全。與數(shù)據(jù)脫敏相比,數(shù)據(jù)加密會失去數(shù)據(jù)的原有特征,需要通過密鑰及算法進行解密才可以使用。此外,數(shù)據(jù)脫敏還會更改原始數(shù)據(jù),其過程一般不可逆,而數(shù)據(jù)加密、解密過程通常是可逆過程。常用的加密方法如下。對稱加密:對稱加密是指使用一個密鑰及特定的加密算法來進行加密,在解密時需要使用同一個密鑰及算法進行解密。常見的對稱加密算法有Cypher、Twofish及Serpent等。非對稱加密:與對稱加密相比,非對稱加密也具有加密、解密的過程,但是加密和解密的密鑰不同。加密的密鑰為公鑰,解密的密鑰為私鑰。例如,在提交標注數(shù)據(jù)時,提交方來源眾多而接收方數(shù)量較少,采用非對稱加密方法就會十分有效。哈希加密:哈希加密是指將任意長度數(shù)據(jù)轉換為固定長度的加密數(shù)據(jù),其最重要的特點是加密過程不可逆,常用于比較文件完整性或身份驗證等。常用的哈希算法有MD5及SHA。3)數(shù)字水印數(shù)字水印是指在音頻、視頻或圖片數(shù)據(jù)這類的噪聲耐受信號中隱蔽地嵌入包含版權、標識及身份等信息的特殊標記,通常用于數(shù)據(jù)源追蹤、版權保護及篡改檢測等。圖1-14所示為保護版權而添加的水印。3.管理手段1)設備管理筆記本電腦、移動硬盤、平板電腦及智能手機等移動設備由于人為原因可015能會造成數(shù)據(jù)丟失、被盜及黑客入侵等情況,極大地提高了數(shù)據(jù)安全風險;因此要盡可能使用移動設備遠程連接數(shù)據(jù)源,數(shù)據(jù)要盡可能存儲在安全的環(huán)境中,并且要對移動設備中的重要數(shù)據(jù)進行及時清理。此外,安裝安全軟件和加密軟件,對重要數(shù)據(jù)進行加密可以有效防止黑客攻擊造成的數(shù)據(jù)泄露。2)人員管理幾乎不可能保證數(shù)據(jù)的絕對安全,但是如果具有較強的數(shù)據(jù)安全意識并且結合安全管理手段,就可以極大限度地降低數(shù)據(jù)安全風險。因此增強數(shù)據(jù)安全意識是人員管理的首要工作。用戶可以通過線上測試、線下培訓及經驗分享等方式增強數(shù)據(jù)安全意識,并且要求具有持續(xù)性;此外,還要強調安全法規(guī)要求及事故復盤等操作。3)流程管理數(shù)據(jù)安全管理的成功取決于管理的主動性及協(xié)同合作能力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論