NLP文本語義分析服務技術方案_第1頁
NLP文本語義分析服務技術方案_第2頁
NLP文本語義分析服務技術方案_第3頁
NLP文本語義分析服務技術方案_第4頁
NLP文本語義分析服務技術方案_第5頁
已閱讀5頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

I第一章項目概述 1.1.項目背景 1.2.建設目標 1.3.建設任務 1.4.建設周期 1.5.建設原則 1.6.建設依據(jù) 第二章需求分析 2.1.數(shù)據(jù)需求分析 2.2.技術需求分析 2.3.功能需求分析 3.1.總體技術路線 3.2.總體架構(gòu)和功能 3.5.系統(tǒng)安全建設 Ⅱ 3.5.3.安全管理設計 3.6.系統(tǒng)性能要求 4.1.語義服務內(nèi)容 4.2.語義模型定制及訓練 4.3.標準接口服務 4.4.業(yè)務庫建設 31 5.2.文本語義分析 5.3.案件類型自動分類 5.5.地址標準化 5.5.3.地名識別 5.6.案件文本自動摘要 5.6.3.算法設計 第六章知識獲取與維護 6.1.語言知識自動獲取 6.2.語言知識維護 6.3.語言知識維護管理支撐工具 第七章分析挖掘引擎部署方案 7.1.基礎環(huán)境 7.1.1.硬件環(huán)境 757.1.2.軟件環(huán)境 757.2.安裝文件 7.2.1.數(shù)據(jù)庫腳本 757.2.2.服務安裝包 757.3.系統(tǒng)安裝流程 7.3.1.服務調(diào)用關系 7.3.2.基礎軟件安裝 767.3.3.系統(tǒng)服務安裝 77第八章項目管理方案 8.1.項目組織結(jié)構(gòu)和職責 8.2.項目組織實施管理 8.2.1.項目組織管理 888.2.2.項目溝通管理 898.2.3.項目實施方式 908.2.4.項目人力資源規(guī)劃 918.3.項目溝通管理機制 V 8.4.項目變更機制 8.5.項目跟蹤 8.5.1.問題跟蹤 948.5.2.客戶反饋 94第九章項目質(zhì)量管理 9.2.質(zhì)量管理 9.2.1.質(zhì)量方針 969.2.2.質(zhì)量保證活動(QA職能) 第十章培訓及運行服務方案 10.1.系統(tǒng)培訓 10.1.1.培訓目的 10.1.2.培訓目標及對象 10.1.3.培訓方式 10.1.4.培訓內(nèi)容 10.1.5.應用軟件維護服務內(nèi)容 10.1.6.系統(tǒng)平臺運行維護內(nèi)容 10.2.運行服務措施 10.2.1.故障分類、分析及處理 10.2.2.技術支持和專家技術咨詢服務 10.2.3.應用服務運作流程 10.2.4.應用軟件修改和升級服務 附件 附件1Linux系統(tǒng)JDK安裝 附件2Linux系統(tǒng)下mysq|數(shù)據(jù)庫安裝 附件3CRF++安裝 附件4Tensflow安裝 1第一章項目概述為落實十九大精神和習近平總書記指示要求,直面QZ社會安全穩(wěn)定發(fā)展,全面深化公安警務改革,著力提升服務改革發(fā)展大局的能力,大力實施“智慧新警務”戰(zhàn)略,充分發(fā)揮公安機關社會治理主力軍、生力軍和先鋒隊作用,提升社會治理的智能化、科學化、精準化水平。當前,公安機關已逐步建立了各類公共基礎信息資源庫、人員社會行為動態(tài)信息庫和業(yè)務信息系統(tǒng),積累了大量的數(shù)據(jù)資源,這些數(shù)據(jù)資源和信息系統(tǒng),大大提高了公安機關對案件偵破處理的效率和水平。然而,龐大的數(shù)據(jù)量以及價值信息的獲取,還主要停留在利用經(jīng)驗積累進行人工分析的階段,龐大的數(shù)據(jù)量對進一步提高公安機關案件破獲帶來此外,公安情報工作是公安工作的重要組成部分,是公安機關履行智能職責的重要依據(jù),是完善各項工作的重要手段。利用人工智能相關技術,抓住犯罪特征及犯罪分子的活動特點,從犯罪活動分析著手,研究和建立適于國家執(zhí)法部門偵查需要的情報分析模型,實現(xiàn)從大量的數(shù)據(jù)中智能挖掘潛在的有用的情報信息,提高公安的犯罪活動發(fā)現(xiàn)效率和偵查破案的能力,為構(gòu)建和諧社會保駕護航。升級城安系統(tǒng)七期智能檢索的語義分析功能,本期針對警情案件文本信息,通過利用人工智能的語義分析技術,將案件描述的基本信息進行關鍵要素的自動抽取,如涉案人員名字、作案時間、案件描述性關鍵2詞、涉案工具、涉案金額等,形成有效的案情結(jié)構(gòu)化數(shù)據(jù),供智能感知大數(shù)據(jù)平臺進行綜合分析。通過利用人工智能的語義分析技術,自動抽取案件文本信息的關鍵要素,形成有效的案情結(jié)構(gòu)化數(shù)據(jù)。提供文本結(jié)構(gòu)化、要素抽取、分析挖掘和數(shù)據(jù)標注等服務。1.4.建設周期合同簽定后,將按合同期內(nèi)完成平臺建設。1.5.建設原則要求,統(tǒng)籌考慮市、區(qū)級平臺的匹配銜接。補充必要設施設備,通過系統(tǒng)集成實現(xiàn)平臺的共建、共享、共用。實用性原則。緊緊圍繞QZ市公安局實際工作需要,把滿足工作需求和業(yè)務管理作為第一要素??蓴U展性原則。為適應QZ市公安局未來發(fā)展需求,各子系統(tǒng)具有平滑的擴展能力和良好的可移植性。先進性原則。采用開放式平臺架構(gòu),實現(xiàn)“上聯(lián)下接”的效果,并運用視頻圖像識別、機器深度學習等人工智能技術。為保證文本語義分析服務的建設質(zhì)量,系統(tǒng)設計將遵循相關業(yè)務、技術、數(shù)據(jù)等標準和規(guī)范。3>《數(shù)字化城市管理模式建設導則(試行)》(建城[2009]119號)交通運輸部、公安部、安監(jiān)管理總局三部委2014年第5號令《道4>《公安信息系統(tǒng)應用支撐平臺總體方案設計》(公安部)>《公安部市縣級公安綜合信息系統(tǒng)基本功能》公安部《公安信息系統(tǒng)應用支撐平臺總體方案設計》>《公安信息系統(tǒng)應用日志安全審計技術規(guī)范(試行)》(公傳發(fā)>《全國公安請求服務系統(tǒng)總體建設方案》>《公安信息網(wǎng)電子簽章系統(tǒng)技術規(guī)范(暫行)》(公信通傳發(fā)[2007]31號)>《公安機關辦理刑事案件程序規(guī)定》(公安部令第127號)11310-2005《信息設備資源共享協(xié)同服務》SJ/T11290-2003《面向?qū)ο蟮南到y(tǒng)建模規(guī)范》5《安全防范工程程序與要求》(GA/T75-1994)國務院令147號《中華人民共和國計算機信息安全保護條例》6第二章需求分析(1)公安處理數(shù)據(jù)來源于各個方面:包括網(wǎng)絡監(jiān)控、筆錄、證據(jù)數(shù)據(jù)、電話錄音、歷史案件庫等等。數(shù)據(jù)量大且大部分都為非結(jié)構(gòu)信息,(2)數(shù)據(jù)之間關系復雜,犯罪活動與犯罪人經(jīng)常存在關聯(lián)關系,而(3)噪音數(shù)據(jù)多,特別是信息監(jiān)控數(shù)據(jù)存在大量無效數(shù)據(jù)或干擾數(shù)據(jù),然而當前分析系統(tǒng)不能有效的進行區(qū)分,且警力資源有限,不能及(1)不支持語義搜索,公安機關在長期的信息化進程中積累了大量的數(shù)據(jù)信息,但現(xiàn)階段對數(shù)據(jù)的應用上還停留在只能對「結(jié)構(gòu)化數(shù)據(jù)」進行查詢,尚未對「非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)」開展深度應用,從而導(2)自動化程度低,從龐大的數(shù)據(jù)中獲取有價值的信息手段,還停7留在利用經(jīng)驗積累進行人工分析的階段,警力不足和數(shù)據(jù)量巨大對公安(3)情報識別準確率低,針對大量的分析數(shù)據(jù),目前主要依賴關鍵詞等技術進行分析導致錯誤率很低,并且不能及時有效提取出所需的情(4)沒有構(gòu)建有效的公安知識圖譜和基于知識圖譜的推理分析。公安作為與海量證據(jù)、線索、數(shù)據(jù)、信息打交道的部門,充分發(fā)揮采用先進的語義分析技術,全面而深入挖掘信息之間的關聯(lián)關系,這對于提取關鍵線索、提高辦案效率具有非常重要的現(xiàn)實意義,更對于優(yōu)化警力部署、提前制定預案,將違法犯罪事件扼殺在萌芽狀態(tài)具有重大指(1)文本語義分析隨著社會的進步和技術的發(fā)展,人們不再僅僅滿足于獲取多種信息和簡單的使用信息,而是想在深層次上利用這些信息為組織的決策提供幫助。公安數(shù)據(jù)中存在大量的文本信息,而文本中蘊含著大量有價值的文本語義分析是其他上層應用的基礎,只有解析出每句話的語義結(jié)構(gòu)才能抽取出語句中所需的成分,以及理解語句所表述的內(nèi)容。這里所說的語義分析即對文本內(nèi)容進行解析的過程,而具體怎么使用解析結(jié)構(gòu)8(2)案件類型自動分類隨著信息技術的高速發(fā)展,公安領域的情報信息系統(tǒng)也面臨著海量案效率。而對案件進行自動分類是所有分析工作的基礎,將相同的案件(3)案件文本要素抽取案件要素信息抽取是指將非結(jié)構(gòu)化的文本信息進行結(jié)構(gòu)化處理,使得文本信息可以像結(jié)構(gòu)化信息一樣進行查詢、比對、統(tǒng)計、檢索、展示操作。針對結(jié)構(gòu)化以后的文本信息,提供各種分析挖掘功能,如分類聚主要采用基于要素抽取模型對案件文本的重要信息進行抽取。通過對抽取目標進行系統(tǒng)的分析和定義,并針對抽取的目標(包括時間、地點、人物、物品、群體等要素)分別完成抽取模型的構(gòu)建,識別出與情報業(yè)務相關的案件信息,并將其組織成結(jié)構(gòu)化的數(shù)據(jù),抽取的信息包括常規(guī)命名實體(時間、地址等)、專業(yè)術語(作案工具等)等信息。(4)地址標準化地名在案件信息中屬于一個重要的信息元素,但是案件文本中的地名由于人的描述風格原因經(jīng)常不是標準化的格式,為了統(tǒng)一格式,能過并進行拆分、補全,對指揮中心的接警信息、處警信息等文本信息的地9(5)案件文本自動摘要描述案件信息的文本常常篇幅較長,在案件數(shù)量較大的情況下去全文閱讀占用大量的警務人員時間,為了快速的抓住案件的關鍵信息,提出了對案件文本進行自動摘要的需求。主要目的是通過語義分析技術對各類案件文本信息內(nèi)容,進行特征分析,摘要生成,然后自動推送內(nèi)容摘要信息。辦文人員可以訂閱自己關心的案件類型摘要數(shù)據(jù),并可以在此基礎上修改摘要內(nèi)容。(6)智能串并案案件犯罪數(shù)據(jù)的分析與挖掘主要是通過對犯罪記錄進行分析,從而發(fā)現(xiàn)犯罪行為的規(guī)律、趨勢,了解不同犯罪行為之間的關聯(lián),以及何種狀態(tài)會誘發(fā)何種犯罪行為,進行串并案分析,提供破案線索和情報,預測并預防犯罪。第三章總體設計方案1.經(jīng)濟性:系統(tǒng)在保證性能強大、先進的同時應考慮經(jīng)濟性,保護2.可靠性:系統(tǒng)總體設計必須將可靠性放在第一位,在設計中充分3.完備性:系統(tǒng)總體設計需要保證系統(tǒng)功能和數(shù)據(jù)的齊全、完備,5.可擴充性:任何信息系統(tǒng)需要按照業(yè)務開展的需要不斷調(diào)整、演變,系統(tǒng)設計應充分采用模塊化、組件化設計,便于系統(tǒng)后期的改進與Intelligence)的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科,語義分析任務有助于促進其他自然語言處理任務的快速發(fā)展。人工智能中的語已經(jīng)在圍棋對弈、自動駕駛、圖像識別、語音識別等多個領域取得了突語義分析技術主要分為基礎技術和深度學習技術,其中基礎技術中包括詞語級的語義分析、句子級的語義分析、篇章級的語義分析,深度學習主要包括循環(huán)神經(jīng)網(wǎng)絡。(1)詞語級語義分析詞匯層面上的語義分析主要體現(xiàn)在如何理解某個詞匯的含義,主要包含兩個方面:詞義消歧和詞義表示。1)詞義消歧詞匯的歧義性是自然語言的固有特征。詞義消歧根據(jù)一個多義詞在文本中出現(xiàn)的上下文環(huán)境來確定其詞義,作為各項自然語言處理的基礎步驟和必經(jīng)階段被提出來。詞義消歧包含兩個必要2)詞義表示和學習對于詞義表示,早期的做法將某個詞義表示為,從該詞義在同義詞網(wǎng)絡中出現(xiàn)的位置到該網(wǎng)絡根節(jié)點之間的路徑信息。詞義表示的另一個思路是將其數(shù)字化。最直觀,也是到目前為止最常用的詞表示方法是one-hot表示方法,這種方法把每個詞表示為一個很長的向量。隨著機器學習算法的發(fā)展,目前更流行的詞義表示方式是詞嵌入(WordEmbedding,又稱詞向量)。其基本想法是:通過訓練將某種語言中的每一個詞映射成一個固定維數(shù)的向量,將所有這些向量放在一起形成一個詞向量空間,而每一向量則可視為該空間中的一個點,在這個空間上引入“距離”,則可以根據(jù)詞之間的距離來判斷它們之間的(詞法、語義上的)相似性。(2)句子級語義分析句子級的語義分析試圖根據(jù)句子的句法結(jié)構(gòu)和句中詞的詞義等信息,推導出能夠反映這個句子意義的某種形式化表示。根據(jù)句子級語義分析1)淺層語義分析語義角色標注(SemanticRoleLabeling,簡稱SRL成分,包括核心語義角色(如施事者、受事者等)和附屬語義角色(如地點、時間、方式、原因等)。子,首先得到其句法分析結(jié)果,然后基于該句法分析結(jié)果,再實現(xiàn)SRL。2)深層語義分析以謂詞為中心,而是將整個句子轉(zhuǎn)化為某種形式化表示,例如:謂詞邏輯表達式(包括lambda演算表達式)、基于依存的組合式語義表達式(dependencybasedcompositionalsemanticrepresentation)然各種形式化表示方法采用的理論依據(jù)和表示方法不一樣,但其組成通常包括關系謂詞(如上例中的loc2、river等)、實體(如colorado)等。語義分析通常需要知識庫的支持,在該知識庫中,預先定義了一序(3)篇章級語義分析篇章是指由一系列連續(xù)的子句、句子或語段構(gòu)成的語言整體單位,在一個篇章中,子句、句子或語段間具有一定篇章結(jié)構(gòu)分析旨在分析出其中的層次結(jié)構(gòu)和語義關系。具體來說,給定一段文本,其任務是自動識別出該文本中的所有篇章結(jié)構(gòu),其中每個篇章結(jié)構(gòu)由連接詞,兩個相應的論元,以及篇章關系類別構(gòu)成。篇章結(jié)構(gòu)可進一步分為顯式和隱式,顯式篇章關系指連接詞存在于文本中,而隱式篇章關系指連接詞不存在于文本中,但可以根據(jù)上下文語境推導出合適的連接詞。對于顯式篇章關系類別,連接詞為判斷篇章關系類別提供了重要依據(jù),關系識別準確率較高;但對于隱式篇章關系,由于連接詞未知,關系類別判定較為困難,也是篇章分析中的一個重要研究內(nèi)容和(4)深度學習技術在深度學習技術中,循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetworks,層與層之間是全連接的,每層之間的節(jié)點是無連接的。但是這種普通的出也有關。具體的表現(xiàn)形式為網(wǎng)絡會對前面的信息進行記憶并應用于當前輸出的計算中,即隱藏層之間的節(jié)點不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理RNNs已經(jīng)在實踐中被證明對NLP是非常成功的。如詞向量表達、語句合法性檢查、詞性標注等。在RNNs中,目前使用最廣泛、最成功的模型便是LSTMs(LongShort-TermMemory,長短時記憶模型)模型,該模型通常比vanillaRNNs能夠更好地對長短時記憶模型依賴進行表達,該模型相對于一般的RNNs,只是在隱藏層做了手腳。RNNs可以應用于語言模型與文本生成、文本分類、機器翻譯等自然語言處理任務中。文本語義分析服務,通過利用人工智能的語義分析技術,將案件描述的基本信息進行關鍵要素的自動抽取,如涉案人員名字、作案時間、案件描述性關鍵詞、涉案工具、涉案金額等,形成有效的案情結(jié)構(gòu)化數(shù)據(jù),供智能感知大數(shù)據(jù)平臺進行綜合分析。總體架構(gòu)圖如下?;瘞?1)數(shù)據(jù)層:將會提供基礎語言知識數(shù)據(jù),模型的訓練數(shù)據(jù),測試(2)算法層:主要實現(xiàn)一些基礎的算法封裝,例如tf-idf、crf、(3)功能層:功能層將會根據(jù)實現(xiàn)的功能,靈活調(diào)用相應的算法來(4)接口層:負責系統(tǒng)內(nèi)部的接口調(diào)用協(xié)議整理,以及對外提供的(5)維護層:負責系統(tǒng)的數(shù)據(jù)、功能、接口維護,以及通過語言知(6)應用層:主要用于提供相應的應用能力。知識訓練引擎操作員十庫文本語義分析服務將融入國內(nèi)外先進的技術和管理理念,以人工智語義分析的技術流程主要包括數(shù)據(jù)標注、模型開發(fā)、模型訓練和模訓練好的模型(SVM、CNN等)預置模型開發(fā)環(huán)境庫語義分析服務基本流程如下:1)通過業(yè)務部門提供的原始數(shù)據(jù),分析數(shù)據(jù)特征;2)通過引擎提供的標注功能,根據(jù)數(shù)據(jù)特征對原始數(shù)據(jù)通過引擎提供的開發(fā)算法環(huán)境,進行模型的開發(fā)、優(yōu)化、調(diào)參和測試,或者直接選用模型庫中的模型;4)針對具體的使用場景,選用合適的模型進行訓練,在開始訓練之前,需要進行參數(shù)配置;5)訓練任務完成之后,將訓練好的模型存入數(shù)據(jù)庫中;6)將模型部署為預測接口服務,用戶只需填寫接口路徑和接口的相關參數(shù)(如預測語料),調(diào)用接口服務,系統(tǒng)即可得到相應的推理結(jié)果,并推送到業(yè)務系統(tǒng)(接口調(diào)用方)。系統(tǒng)將對重要的業(yè)務數(shù)據(jù)、操作日志、關鍵數(shù)據(jù)、數(shù)據(jù)庫及操作系在制定備份策略時,將根據(jù)數(shù)據(jù)的運作和使用情況,來確定數(shù)據(jù)的最長有效期、可容忍的數(shù)據(jù)丟失時間,從而確定執(zhí)行備份的時間、每次常見數(shù)據(jù)備份策略有多種:完全備份、增量備份、差分備份等。同時,在備份對象上主要分為:系統(tǒng)備份、數(shù)據(jù)庫備份、文檔備份、應用解決信息系統(tǒng)的安全問題,不僅應從技術方面著手,更應加強信息系統(tǒng)安全的管理工作。建立完善的計算機安全管理條例是安全的重要組成部分,通過管理制度的嚴格實施可以防止人為地泄露機密信息。信息安全管理從制定完善的信息安全管理制度入手,從制度上保證系統(tǒng)的安人員管理是信息安全管理的核心,要對所有有關內(nèi)部辦公人員進行信息系統(tǒng)安全知識的基礎培訓,嚴格按照應用需求對人員進行安全等級劃分,同時指定專人負責系統(tǒng)的安全管理。安全管理人員有變動時,要系統(tǒng)安全相關文檔、文件注意整理和保存,對在實際應用過程中出現(xiàn)的各種信息安全事件和安全狀況進行嚴格記錄,利用安全管理軟件對各種重要性網(wǎng)絡行為、各種涉及系統(tǒng)重要配置的更改進行審核并計入日在系統(tǒng)實施的同時,建立相應的信息安全管理機構(gòu),完善和強化信息安全管理,形成自上向下的信息安全管理組織體系,是系統(tǒng)安全實施系統(tǒng)響應時間小于等于3秒;系統(tǒng)批量任務數(shù)據(jù)量達GB數(shù)量級;>系統(tǒng)數(shù)據(jù)存儲量達TB數(shù)量級系統(tǒng)關鍵信息提取響應時間小于3秒;根據(jù)獨特的語義分析技術,通過基礎語義分析引擎的建模能力、數(shù)搜索、文本結(jié)構(gòu)化、案件要素抽取與挖掘等功能,可支撐公安各業(yè)務應文本分析系統(tǒng)是針對非結(jié)構(gòu)化的情報線索信息提供信息處理與分析使得文本信息可以像結(jié)構(gòu)化信息一樣進行查詢、比對、統(tǒng)計、檢索、展示操作;二是針對結(jié)構(gòu)化以后的文本信息,提供各種分析挖掘功能,如(1)功能描述基于深度學習技術,將圖片上的文字內(nèi)容智能識別成為可編輯的文(2)技術實現(xiàn)步驟1)預處理:對包含文字的圖像進行處理以便后續(xù)進行特征提取、學增強有關信息的可檢測性和最大限度地簡化數(shù)據(jù),從而改進特征抽取、2)二值化:彩色圖像所含信息量巨大,對于圖片的內(nèi)容,可以簡單的分為前景與背景,為了讓計算機更快的、更好的識別文字,需要先對3)噪點去除:對于不同的文檔,對噪點的定義可以不同,根據(jù)噪點4)傾斜校正:由于一般用戶在拍照文檔時,都比較隨意,因此,拍照出來的圖片不可避免地產(chǎn)生傾斜,這就需要進行傾斜校正;傾斜校正是指針對傾斜現(xiàn)象,通過各種圖像處理技術,校正文檔圖像中該傾斜現(xiàn)5)版面分析:版面分析是指分析一幅文本圖像的塊結(jié)構(gòu),以便進行7)字符識別:對圖像上的文字內(nèi)容識別成為可編輯的文本;9)后處理、校對:后處理是有效運用詞組和上下文聯(lián)系對識別的文轎車沿深汕合作區(qū)國道324往鵝埠方向行駛至云臺發(fā)生時間:2019年4月9日上午托車駕歌場死亡,波受傷送熟(1)功能描述其他邊界標記。可以對公安接處警等文本信息進行自動分詞??芍С止?2)技術實現(xiàn)步驟件隨機場等算法來實現(xiàn)自動分詞功能。其中,最大切割分詞的基本原理是詞表匹配,是速度最快的分詞方法,它優(yōu)先選擇字典中最長的詞作為分詞結(jié)果;最短路徑分詞通過使用隱馬爾科夫模型,構(gòu)建出所有可能的分詞路線,組成分詞網(wǎng)絡,通過維特比算法,在網(wǎng)絡中找到總權(quán)重最大征作為經(jīng)驗,在分詞的時候,綜合考慮當前文字及其上下文內(nèi)容,做出根據(jù)給定的指揮中心預設類文本信息,分別采用這三種算法進行效果評2017年2月24日13時05分桃源所接110指揮中心指令:2017年2月24日13時05分桃源所接110指揮中心指令:海英(女,58歲,身份證號碼:42010519601202xxxxx,戶籍所在地:湖北省武漢市漢陽區(qū)墨水湖路17號),2017年2月24日10時30分從居住地(南山區(qū)龍輝花園2印,進屋查看后發(fā)現(xiàn)屋內(nèi)物品被翻動,后撥打“11鏈三條(均為9克左右,于2001年在天虹商場以人民幣案發(fā)時間:2017年2月24日10:30-13:00案發(fā)地點:深圳市南山區(qū)龍輝花園2號樓0403戶籍地址:湖北省武漢市漢陽區(qū)墨水湖路17號身份證號碼:42010519601202xxxx事主回來后發(fā)現(xiàn)窗戶被損壞丟失物品:飾品:24K金項鏈三條(均為9克左右,價值1330元)(1)功能描述(2)技術實現(xiàn)步驟1)采集公安業(yè)務樣本數(shù)據(jù);2)對樣本數(shù)據(jù)進行分析,整理警情數(shù)據(jù),并對樣本進行標注;3)對警情涉及的涉案地址、涉案時間、涉案人員、涉案組織、涉案4)利用深度學習方法來訓練樣本數(shù)據(jù),進行算法匹配、并對文本使5)進行中間件接口開發(fā),提供業(yè)務系統(tǒng)調(diào)用接口和案件要素提取能(1)功能描述(2)技術實現(xiàn)步驟1)采集公安業(yè)務樣本數(shù)據(jù);2)對樣本數(shù)據(jù)進行分析,整理警情數(shù)據(jù),并對樣本進行標注;3)對警情涉及的作案手段、作案地點、作案工具等內(nèi)容進行標注,4)利用深度學習方法來訓練樣本數(shù)據(jù),進行算法匹配、并對文本使5)進行中間件接口開發(fā),提供業(yè)務系統(tǒng)調(diào)用接口和作案特征識別能分類聚類:在語義理解的基礎上,根據(jù)設定的分類規(guī)則對不同文本如圖所示為智能串并案的應用場景,民警在處理新案件時往往需要與老案件進行關聯(lián)分析的,我們通過結(jié)構(gòu)化轉(zhuǎn)換與抽取引擎將案件信息轉(zhuǎn)成結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),并通過案件知識圖譜將案件中的各個屬性進行關聯(lián),如犯案人員畫像關聯(lián)、作案行為關聯(lián)、作案地點關聯(lián)等,發(fā)現(xiàn)新重要地區(qū)案件簡憤線素信意筆錄值惠文本摘要:在語義理解和實體抽取的基礎上,對文本所描述的內(nèi)容如圖所示,系統(tǒng)根據(jù)接處警信息,對警情內(nèi)容進行智能語義訓練,5.16南山區(qū)前海路重大交通事故通報5月是下年15分,我市南山區(qū)的與危險)。(1)功能描述對預設類文本信息中的警情數(shù)據(jù)進行分類模型規(guī)劃建設并訓練優(yōu)化,實現(xiàn)警情數(shù)據(jù)的自動分類。警情信息分類包括:刑事案件、治安案件、治安事件、交通警情、求助咨詢、投訴、舉報、其他、無效、社會聯(lián)動等。語義分析能力通過實時分析轉(zhuǎn)寫后的報警內(nèi)容進行智能警情類別推薦,將推薦結(jié)果以服務方式提供給接處警系統(tǒng)警情類別字段選項。(2)技術實現(xiàn)步驟1)采集公安業(yè)務的樣本數(shù)據(jù),并提供分類體系和分類規(guī)則;2)對樣本數(shù)據(jù)進行分析,整理警情分類標準,并對樣本進行標注;3)對警情涉及的時間、地點、內(nèi)容等進行數(shù)據(jù)分析,根據(jù)數(shù)據(jù)分析內(nèi)容進行分類特征構(gòu)建;4)利用深度學習方法訓練樣本數(shù)據(jù),并對文本分類特征使用分類算法進行分析和分類算法參數(shù)調(diào)優(yōu);(1)功能描述(2)技術實現(xiàn)步驟(1)功能描述地名、機構(gòu)名、電話號、QQ號、銀行卡號、身份證號碼、車牌號碼等。(2)技術實現(xiàn)步驟在語義分析技術中主要采用Bi-LSTM和CRF條件隨機場等算法來實現(xiàn)征輸入給雙向長短記憶網(wǎng)絡,記住字與其上下文的特征,再通過條件隨機場模型綜合考慮上述特征,學習序列(實體)的特征,最終實現(xiàn)文本信息中的命名實體的自動識別功能。4.2.語義模型定制及訓練基礎語義分析引擎是基于“本體-要素-概念”三位一體的建模引擎,能夠提供強大的公安業(yè)務建模能力。該引擎包含語義資源庫和NLP算法資源兩種核心資源。其中語義資源庫為應用建模和應用開發(fā)提供詞典庫、規(guī)則庫、模型等語義資源,提供用戶可干預的引擎,輔助提升模型以及分析接口的語義分析挖掘能力,1、樣本數(shù)據(jù)的標注對警情涉及的涉案地址、涉案時間、涉案人員、涉案組織、涉案物品內(nèi)容進行標注,并進行數(shù)據(jù)分析,根據(jù)數(shù)據(jù)分析內(nèi)容進行特征構(gòu)建,通過人工分詞、詞性定義、特征提取、句式規(guī)則、文法規(guī)則等的定義,編制抽取規(guī)則。每條數(shù)據(jù)的標注大概在5-10分鐘。2、抽取規(guī)則定制利用深度學習方法來訓練樣本數(shù)據(jù),進行算法匹配、并對文本使用實體識別算法進行分析和算法參數(shù)調(diào)優(yōu),預測案件要素,以8000條訓練數(shù)據(jù)為基礎,在標注的內(nèi)容中總結(jié)出較為統(tǒng)一的抽取規(guī)則,并在抽取的要素上進行標簽,再將規(guī)則放入語義抽取引擎中,用8000條訓練數(shù)據(jù)進行驗證,根據(jù)驗證結(jié)果再反復對規(guī)則進行修改比對,從而分析出最佳規(guī)3、抽取規(guī)則驗證以訓練數(shù)據(jù)外的2000條作為測試數(shù)據(jù),模擬在測試集外的真實數(shù)據(jù)的情況下,通過語義抽取進行效果驗證。對驗證結(jié)果再進行分析,再做規(guī)則的修改。樣本數(shù)據(jù)提供的越多,驗證的效果會達到一個上線的最佳此外,該引擎主要提供了實時流式接口(同步調(diào)用)、批量應用接口(異步調(diào)用)、交互查詢接口三種數(shù)據(jù)服務接口類型,能夠提供全方位大數(shù)據(jù)分析能力。4.3.標準接口服務對標簽化的數(shù)據(jù)和要素數(shù)據(jù),與分析平臺的接口對接,通過webservice或SDK集成化接口,向分析平臺傳輸結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)及關聯(lián)關系以本地業(yè)務庫進行存儲。語義理解服務行為描述:語義理解客戶端發(fā)起一個請求,傳入?yún)?shù),返回結(jié)果。要素提取服務行為描述:要素提取客戶端發(fā)起一個請求,傳入?yún)?shù),返回結(jié)果。要素糾正服務行為描述:要素糾正客戶端發(fā)起一個請求,傳入?yún)?shù),返回結(jié)果。智能語義分析服務的海量非結(jié)構(gòu)化數(shù)據(jù)存儲、訪問場景,不僅涉及的數(shù)據(jù)量大而且在特定場景要求下還需要將分析的結(jié)果實時返回,要求庫快速分析、大規(guī)模并行處理等特性的支持,構(gòu)建統(tǒng)一的分布式數(shù)據(jù)庫服務,滿足同時處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的需求。業(yè)務庫的建設需具1)支持自動化云中交付分布式數(shù)據(jù)庫中間件。2)支持按行存儲、按列存儲以及同一個數(shù)據(jù)庫中按行列混合存儲的3)支持key-value鍵值類型,并行數(shù)據(jù)接口模式靈活,無需提前聲4)支持在線擴展,當數(shù)據(jù)量增大現(xiàn)有集群不能滿足需求時,可以對(3)實現(xiàn)途徑第五章業(yè)務場景詳細設計方案文本預處理是指在文本分析處理前對文本進行一些操作,使得待分析的文本能夠符合分析引擎格式和去除一些垃圾數(shù)據(jù),將通用的操作放成性標注后的格式、源數(shù)據(jù)特征向量(基于分詞結(jié)果)。這里提到的特征向量是基于分詞結(jié)果得到的,是為了對源數(shù)據(jù)進行去重和噪音過濾處理。并且用戶可以自定義存儲該輸出結(jié)果,可用于文檔分類、刪選等應用。特征向量生成算法步驟:對分詞結(jié)果進行停用詞過濾處理刪選出詞性為名詞、形容詞、動詞、副詞的詞統(tǒng)計詞在文檔中出現(xiàn)的頻率>標記標題、首段、尾端、句首出現(xiàn)的詞>計算詞第一次出現(xiàn)和最后一次出現(xiàn)的跨度(中間詞的個數(shù))>查找詞在詞典中的詞典頻率>對以上各個因子進行加權(quán)計算,得到權(quán)重topN的詞構(gòu)成文檔特征向量為了快速對大量文檔進行掃描去重,本系統(tǒng)采用simhash去重算法,對每個文檔生成hash指紋,然后根據(jù)指紋對文檔進行判斷是否重復。(1)首先將分詞后的文檔轉(zhuǎn)換為一組加權(quán)的特征值構(gòu)成的向量。(2)初始化一個f維的向量V,其中每一個元素初始值為0。(3)對于文章的特征向量集中的每一個特征,做如下計算:簽名,如果簽名的第i位上為1,則對向量V中第i維加上這個特征的權(quán)值,否則對向量的第i維減去該特征的權(quán)值。2)對整個特征向量集合迭代上述運算后,根據(jù)V中每一維紋的第i維為1,否則為0。3)海明距離計算:二進制串A和二進制串B的海明距離就是AxorB后二進制中1的個數(shù)。(4)當算出所有doc的simhash值之后,需要計算docA和docB據(jù)經(jīng)驗一般取值為3。數(shù)據(jù)去重是為了減少重復數(shù)據(jù)對計算效率的影響和統(tǒng)計結(jié)果的干擾,而用戶手中的數(shù)據(jù)可能來自用戶內(nèi)部整理,也可能來自網(wǎng)絡數(shù)據(jù)。這樣在數(shù)據(jù)收集的過程中就可能產(chǎn)生一些垃圾數(shù)據(jù),為了提升數(shù)據(jù)質(zhì)量,保為了快速對數(shù)據(jù)進行過濾,本系統(tǒng)采用了基于關鍵詞匹配的算法進對源文檔生成文檔特征向量將文檔特征向量與噪音詞進行匹配>若特征向量中含有噪音詞,則提取噪音詞詞以及在特征向量中的權(quán)重對噪音詞進行關聯(lián)分析,分析噪音數(shù)據(jù)在垃圾文檔集和有效文檔>若噪音詞個數(shù)占特征向量詞個數(shù)1/3以上,則直接進行過濾處理。>若噪音詞個數(shù)占特征向量詞個數(shù)1/3以下,則根據(jù)公式求得噪音詞權(quán)重(其中為調(diào)節(jié)因子,經(jīng)驗值取2.5),當噪音詞權(quán)重大于閾值W(經(jīng)驗值取0.3)時,則將該文檔進行過濾處理。本系統(tǒng)主要采用基于規(guī)則和依存句法分析相結(jié)合的方法來對語句進行解析(輔帶深度學習的解析模塊),解析流程如下圖所示:換法構(gòu)基于依存句法:主要采用訓練好的依存語義模型來對語句的依存基于深度學習的解析:由于該方法需要大量的標注數(shù)據(jù),且解析2、語義服務模塊搭建過程5.3.案件類型自動分類1、訓練數(shù)據(jù):標注好類型的案件數(shù)據(jù)文本,要求每個案件的標注樣本盡量均衡。2、測試數(shù)據(jù):標注好類型的案件數(shù)據(jù)文本(可從訓練數(shù)據(jù)中按照一定比例抽取出來作為測試集,也可以后期準備)。5.3.2.算法設計1、基于統(tǒng)計的分類模型這里介紹樸素貝葉斯分類算法對文檔進行自動分類,在分類前需要對用戶指定的類型進行訓練,以提高分類器準確度。樸素貝葉斯分類的定義如下:第一階段——準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據(jù)具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、第二階段——分類器訓練階段,這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結(jié)果記錄。其輸入是特征屬性和訓練第三階段——應用階段。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射(1)模型結(jié)構(gòu)圖如下所示:44(2)模型所采用的技術:1)自編碼器預訓練網(wǎng)絡初始權(quán)重自編碼目的:由于神經(jīng)網(wǎng)絡初始權(quán)重的隨機生成會導致模型的每次訓練得到的模型參數(shù)都會發(fā)生變化,進而影響模型的有效性。自編碼器是一種盡可能復現(xiàn)輸入信號的神經(jīng)網(wǎng)絡,即輸入到輸出的信息損失達到最小,這樣初始化的權(quán)重保留了輸入信息的主要特征,盡可能的避免了隨機初始化對模型的影響。自編碼模型示意圖如下圖所示:YYYY12)多維度詞向量生成技術當前詞向量生成技術是將詞映射到指定維度的向量中,向量是根據(jù)詞在大量語料中的分布屬性進行訓練得到。常規(guī)的詞向量技術沒有考慮到詞在當前領域文本中的表達特性,并且沒有結(jié)合領域特征和詞的類型特征。這里我們結(jié)合常規(guī)詞向量技術并納入詞類型、語義特征、上下文特征、主題特征、領域特征重新生成每個詞在領域內(nèi)的特征向量,使得模型的準確度上升了八個百分點。多維度詞向量技術結(jié)構(gòu)圖如下圖所示:木休詞庫木休詞庫輸入譜句3)復合網(wǎng)絡模型傳統(tǒng)學習模型將所有數(shù)據(jù)統(tǒng)一利用一個模型進行處理,容易受訓練數(shù)據(jù)的影響則導致學習模型擬合效果不是很好,甚至不擬合或者過擬合。經(jīng)研究發(fā)現(xiàn)語句的表達含義不僅僅受所包含的詞的影響,也在很大程度上受表達結(jié)構(gòu)的影響,并且每個語義成分對表達的含義的影響程度不同。另外某些結(jié)構(gòu)成分詞雖然沒有具體的含義,但是直接表明的整個句子的語氣、情感、語義關系等。因此設計出一種復合的網(wǎng)絡模型,該模型由分發(fā)模型、基于學習的模型和基于記憶的模型組成,分發(fā)模型將輸入根據(jù)其表達結(jié)構(gòu)、語義關系分發(fā)給不同的處理模型?;谟洃浀哪P椭饕幚砭哂械湫驼Z義結(jié)構(gòu)、表達形式的輸入語句,基于學習的模型主要處理不同詞語搭配、表達形式常規(guī)化的輸入語句。復合網(wǎng)絡模型結(jié)構(gòu)圖如下圖所示:12345證件號碼敏感詞作案工具手機號碼作案手段4)語義規(guī)則自動生成12345證件號碼敏感詞作案工具手機號碼作案手段語義規(guī)則指能反映明確含義的特定表達結(jié)構(gòu)。利用語義規(guī)則和語義針對本次項目的需求進行了初步評估,主要對以下17類要素進行識別和抽取。要素抽取服務能力后續(xù)可根據(jù)公安實戰(zhàn)需求,并通過抽取規(guī)支持的案情要素抽取信息包括敏感詞、證件號碼、手機號碼、作案手段、作案工具、作案人數(shù)、受害人、報案人、發(fā)案地點、涉案金額、危害程度、體貌特征、車輛號牌、車身顏色、車輛類型、車輛品牌和性別等17項。6作案人數(shù)7受害人8報案人9發(fā)案地點涉案金額危害程度體貌特征車輛號牌車身顏色車輛類型車輛品牌性別由于抽取的案件要素信息較多,而且要素實體的類型存在差異,因此本項目采用多種手段結(jié)合的要素抽取方法,將詞典、規(guī)則、語義、機器學習融合在一起進行綜合分析,對不同類型的實體采取不同的識別方基于詞典的方法:性別、敏感詞、車輛品牌、作案工具等等實體>基于規(guī)則的方法:證件號碼、手機號碼、車輛號碼、涉案金額、>基于語義規(guī)則的方法:受害人、被害人、發(fā)案地點等實體適用?;跈C器學習的方法:發(fā)案地點、危害程度等實體適用。>實體糾纏分析:指對匹配的實體判斷實體是否有效,在語句中作實體冗余分析:指通過多種手段識別的實體之間可能存在交疊和標準地址庫:包括地名之間的層級關系(如:省一>市一>區(qū)縣一>街道……),已經(jīng)標注好的地名訓練樣本數(shù)據(jù)(前期訓練可以采用公開的標注數(shù)據(jù))。候選地名識別地名校正地名標準化別取取(1)基于驅(qū)動信息的地名實體抽?。?)驅(qū)動信息:指具體提示上下文為地名的詞,如:來到、住、在、2)分析步驟:>抽取驅(qū)動信息詞;>提取驅(qū)動詞的依存父節(jié)點;根據(jù)父節(jié)點的依存關系抽取驅(qū)動詞真實父節(jié)點:如:若父節(jié)點為>判定真實父節(jié)點是否為地名實體成分單元:即是否可能為地名的抽取真實父節(jié)點的各修飾成分,主要有:定語修飾、狀語修飾,如:"天河區(qū)馬場路的麥當勞”,其中"天河區(qū)"為“馬場路"的定語,“馬場路"為"麥當勞"的定語。"的”為“馬場路”根據(jù)真實父節(jié)點的語義修飾進行遞歸定中/妝中語義合并處理,(2)基于語義表達形式的實體抽?。?)語義表達形式:即常用帶地址用語表述的形式。2)分析步驟:>對輸入語句進行句法分析;將句法結(jié)構(gòu)進行語義解析,得到語義層次樹,首層為基本語義,>掃描語義層次樹的每層語義結(jié)構(gòu),與語言知識庫中的地址語義表>對匹配中的語義層次還原到原輸入語句;>提取還原語句中匹配中的語義層次的成分作為候選實體詞。(3)基于基礎實體語義關系的實體抽取1)基礎實體:指語句中單個詞作為地名的詞:如"天河員村四橫路2)分析步驟:>對輸入語句進行詞性標注;>提取輸入語句中的基礎實體;>對基礎實體的依存語義進行分析,提取與之關聯(lián)的語義修飾詞;>對提取的語義修飾詞進行語義合并;對合并后的語義進行裁剪,剔除不符合地名的語義成分詞,得到(1)地名層級索引校驗主要思想:根據(jù)識別的地名實體所包含的基礎地名實體的上下位關如:"天河區(qū)公園前地鐵站a出口"=>由于公園前地鐵站位于“越秀區(qū)”,因此該地名無效,若用戶表述確定為該種方式,可以根據(jù)實際上下位關系產(chǎn)生交互"您所說的公園前地鐵站是否是越秀區(qū)的呢?"(2)地名組成成分語義概率校驗主要思想:將識別的地名轉(zhuǎn)換成本體與語義結(jié)構(gòu)詞的形式,然后計算泛化后的結(jié)構(gòu)的語義概率,通過概率閾值來對候選實體的有效性進行地名@機構(gòu)#對面”,其中@表示實體前綴符號,#表示語義結(jié)構(gòu)詞前綴符別Y別N通用地名判別模型是為了對未符合前面兩種情況的地名進行判別的模型。該模型為基于地名語料訓練出來的分類模型,用于判別識別的候需要收集大量的地名樣本,并進行標注。人工成本較高;>對于判別錯誤的地名實體無法快速的進行優(yōu)化。>Lstm、gru:機器要求較高、訓練較慢、準確率較高,可自行構(gòu)Bert:機器要求高、該場景并不需要預先訓練每個詞的詞向量,地址單位融合、地名融合、錯誤名稱融合、相似度計算,對指揮中心的接警信息、處警信息等文本信息的地址進行歸一化處理,實現(xiàn)人為隨意編寫的地址轉(zhuǎn)化為標準地址??芍С衷谌粘=犹幘葢眠M行地址錄入出(1)地名庫層級索引1)索引結(jié)構(gòu):采用多模式匹配樹結(jié)構(gòu)2)索引建立過程多模式匹配樹的構(gòu)建過程是這樣的,當要插入許多模式串的時候,我們要從前往后遍歷整個字符串,當我們發(fā)現(xiàn)當前要插入的字符其節(jié)點再先前已經(jīng)建成,我們直接去考慮下一個字符即可,當我們發(fā)現(xiàn)當前要插入的字符沒有再其前一個字符所形成的樹下沒有自己的節(jié)點,我們就要創(chuàng)建一個新節(jié)點來表示這個字符,接下往下遍歷其他的字符。然后重算法試用與單模式匹配,所謂單模式匹配,就是給出一個模式串,給出在AC自動機中,我們也有類似next數(shù)組的東西就是fail指針,當配,那么就從t->fail這個節(jié)點開始再次這些節(jié)點失配,他們的Fail指針直接指向root即可,其他節(jié)點其Fail則需要找father->fail->fail這個節(jié)點,然后重復上面過程,如果一直4)索引示例:5)模式匹配過程:①當前字符匹配,表示從當前節(jié)點沿著樹邊有一條路徑可以到達目標字符,如果當前匹配的字符是一個單詞的結(jié)尾,我們可以沿著當前字符的fail指針,一直遍歷到根,如果這些節(jié)點末尾有標記(此處標記代表,節(jié)點是一個單詞末尾的標記),這些節(jié)點全都是可以匹配上的節(jié)點。我們統(tǒng)計完畢后,并將那些節(jié)點標記。此時只需沿該路徑走向下一個節(jié)點繼續(xù)匹配即可,目標字符串指針移向下個字符繼續(xù)匹配;②當前字符不匹配,則去當前節(jié)點失敗指針所指向的字符繼續(xù)匹配,匹配過程隨著指針指向root結(jié)束。重復這2個過程中的任意一個,直到模式串走到結(jié)尾為止。a)規(guī)則拆解:通過自定義規(guī)則識別地名中的省、市、區(qū)、街道成分。b)模式匹配拆解:通過地名庫的層級索引結(jié)構(gòu)匹配輸入地名中的省、>地名層次匹配上位地名抽取基礎實體詞庫用戶分詞詞典公開詞的逆文檔頻率>一定規(guī)模的案件文本數(shù)據(jù)短文本。為了適應不同的需要,本方案將兩種形式都進行實現(xiàn)思路的設分詞/詞性標注注齊流(1)特征抽取模塊1)目標:對文本中的一些特征字詞進行抽取,計算各字詞所占的權(quán)重2)處理流程:文本輸入,分詞,詞性標注>根據(jù)特征抽取算法,抽取文本的特征>輸出文本特征3)實現(xiàn)方式>textrank文本特征計算:根據(jù)輸入的文本,計算每個字詞的的>mmr文本特征計算:根據(jù)輸入的文本進行斷>計算當前句在全文中的得分值?;谝?guī)則的方式:根據(jù)指定的特征抽取規(guī)則,對句子進行特征的抽取>數(shù)據(jù)支撐:idf值可能需要外部數(shù)據(jù)訓練,生成一個idf字典。(2)重點句識別模塊1)目標:找出文中比較重要的句子2)處理流程:將文本進行斷句根據(jù)文本特征計算每句話的得分根據(jù)得分,對句子進行排序>數(shù)據(jù)排序后的句子>重點句上下文關聯(lián)分析目標:對識別出來的重點句上下文進行分析,判斷重點句之間的語義、主題關聯(lián)性,若前后關聯(lián)則保留,若不關聯(lián),則抽取的重點句不屬于同一個主題,需要拆分成多個主題分別組合對應的重點句形成摘要。上下文關聯(lián)分析流程如下圖所示:NYY關聯(lián)的重點句要不矢聯(lián)的重點句立NYY3)流程說明:不關聯(lián)的重點句獨立判斷的原因是:①若不關聯(lián)的重點句只有一個,則直接剔除②若不關聯(lián)的重點句有多個,則需要進一步分析多個重點句之間是否存在其他主題關聯(lián)。判斷前后位置是否連續(xù)的目的:①將不連續(xù)且獨立的重點進行剔除②若不連續(xù)的重點句存在多個,若多個重點句存在主題關聯(lián)的重點句子集,則形成獨立的主題摘要內(nèi)容。若不存在,則全部剔除。連續(xù)且關聯(lián)的重點句含義:表示前后重點句描述的是同一個主題的內(nèi)容,且是重點信息,可以說明:該分析流程是為了分析一個對話長文本若涉及到多個主題,4)實現(xiàn)方式:①思想:通過對重點句中的關鍵詞的主題向量相似度來判斷重點句②數(shù)據(jù)支撐:需根據(jù)已經(jīng)分好主題的訓練樣本,訓練應用下常用詞①思想:將重點句映射為句向量,通過句向量之間的主題相似度來②數(shù)據(jù)支撐:需根據(jù)已經(jīng)分好主題的訓練樣本訓練語句主題向量生②數(shù)據(jù)支撐:需整理不同主題下關聯(lián)的語句對,訓練一個重點句關2.生成式摘要(1)預處理模塊:同抽取式摘要處理(2)事件類型識別模塊將預處理后的文本,輸入已訓練好的模型進行預測>輸出預測結(jié)果基于模式匹配:基于統(tǒng)計-機器學習:基于統(tǒng)計-深度學習:(3)事件信息抽取模塊1)語義結(jié)構(gòu)分析①目標:對文本進行語義分析,提取文本的基本語義,將用于信息抽?、谔幚砹鞒虛Q法義層次結(jié)構(gòu)將時間,數(shù)量,郵箱,電話等常見實體泛化,避免對語義分析造成干擾將括號、引號單獨提出來,書名號中內(nèi)容泛化基于語義規(guī)則的方法a.思想:中文語句是由語義詞和語法詞組成,其中語義詞指語句中能夠被替換的實體詞或修飾詞,語法詞指語句中承擔語義結(jié)構(gòu)而無實際含義的詞,如:因為。。。所以。。。,并且中文語句是由基本語義和要投訴上次購買商品發(fā)的物流",中物流帶有定語嵌套成分。b.形式:將常用表述形式整理稱規(guī)則,例如“我要投訴物流”=>c.數(shù)據(jù)支撐:整理常見的表述方式對應的規(guī)則>基于依存句法分析a)基本思想:依存句法通過分析語言單位內(nèi)成分之前的依存關系解釋其句法結(jié)構(gòu),主張句子中核心動詞是支配其他成分的中心成分。而它本身卻不受其他任何成分的支配,所有受支配成分都以某種關系從屬于支配者基于深度學習的語義分析b.支持數(shù)據(jù):標注好語義結(jié)構(gòu)的樣本數(shù)據(jù)5.7.智能串并案就是一系列不同的案件,但是通過對作案手段、痕跡、物證等分析,存在聯(lián)系,而將這些案件放在一起偵破。串案指的是一方當事人相同,案由相同,案情相似,為節(jié)約司法資源,審判員會將所有的一批案件都統(tǒng)一審理的系列案件。不同于一般案件,串案的當事人有其特別之處一一觀望、跟風的當事人所占比例不小,這些當事人的調(diào)解條件非常容易受到其他案件當事人的影響。因此串案的調(diào)解方法與一般案件也不盡相就是兩個不同的案件,但是通過作案手段、痕跡、物證,存在聯(lián)系,而將兩個案件放在一起偵破。并案偵查要達到迅速破案的目的,必須有一個前提條件,即這些所并案件必須為同一個或同一伙犯罪分子所為,實質(zhì)上就是對各案的犯罪分子做出同一認定的過程。根據(jù)能否直接對犯罪主體同一認定,可將客觀事實分為兩大類:一類是特定并案條件,即能夠直接、確鑿地證實數(shù)個案件為一人或一伙犯罪分子所為的客觀事實,它所反映的犯罪人的特征一般都是特殊的、獨有的。另一類是一般并案條件,是通過對案件中相同或相似體貌特征、作案手法等綜合分析比對,所做出的同一認定。由于主、客觀因素的影響,犯罪分子多會形成具有警務人員在處理新案件時往往需要與老案件進行關聯(lián)分析的,我們通過結(jié)構(gòu)化轉(zhuǎn)換與抽取引擎將案件信息轉(zhuǎn)成結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),并通過案件知識圖譜將案件中的各個屬性進行關聯(lián),如犯案人員畫像關聯(lián)、作案行為關聯(lián)、作案地點關聯(lián)等,發(fā)現(xiàn)新案件與老緊年行為局律第勢地區(qū)等素作見景件置喻年難戶見累件類型:陀動累件類型:陀動累發(fā)時間:今天上年系件動速:素發(fā)比:回東路上作黑工具:刀敏包揉髓人持征:年鐘:中年早上上狐論中調(diào)返兩個羅健的材刀地動,手提電勵、手機、故包規(guī)板地走,乏他一米七作天稅上回末途中版一個羅健包部版地走,動醫(yī)身高一米七左右,朵賞色頭發(fā)。年930多,手材一把尖刀。材刀陀動,手機、貴區(qū)頭發(fā)進行分析,挖掘案件特征與犯罪人員特征的潛在關聯(lián)關系,構(gòu)建“高危租車軌跡,違法犯罪人員機動車經(jīng)過卡口(電子警察)軌跡,違法犯罪人員手機經(jīng)過電子圍欄(基站)軌跡,違法犯罪人員上網(wǎng)、住宿、社??ㄏM、公交(公共自行車)軌跡,重點人員本地金融活動軌跡,違法犯罪人員室外活動軌跡(基于天網(wǎng)工程人像比對發(fā)現(xiàn))。備注:違法犯罪人員機動車包含其本人所有車輛、同住人和同戶人關聯(lián)規(guī)則算法指數(shù)據(jù)中兩個或多個變量取值之間暗含的某種規(guī)律性。以挖掘關聯(lián)規(guī)則為目標的挖掘過程一般包含兩個階段,第一階段,從資料庫中找出所有的高頻項目組,它們出現(xiàn)的頻率相對于所有組而言,達到或超過所設定的最小支持度。第二階段,從高頻項目組中產(chǎn)生關聯(lián)規(guī)則,保證應用該規(guī)則得到的結(jié)果可以達到最小的置信度。關聯(lián)規(guī)則在公安情報分析中的典型應用是對犯罪行為規(guī)律的挖掘。運用關聯(lián)規(guī)則可以發(fā)現(xiàn)犯罪分子的身份、年齡、地域等特征與其在實施犯罪行為中所使用的手段、特點、選擇的地點以及侵害對象等方面的關聯(lián)規(guī)律性,把具有聚類分析方法主要是研究對象中各點之間存在的程度不同的相似性,根據(jù)對象屬性找出各點間相似程度的序列,把一些相似程度較大的點聚合為一類。在公安情報分析中,聚類分析方法應用最廣泛??梢詫Ψ缸锸侄?、特點、作案時間等關鍵要素進行挖掘,幫助分析人員確定具有較高相似度的案件,刻畫嫌疑人特征,并把看似不相關的案件進行合并偵查??梢酝诰虬l(fā)現(xiàn)案件的高發(fā)時段、高發(fā)地區(qū)以及高發(fā)的作案手段,指協(xié)同過濾分析方法是在用戶群中找到指定用戶興趣相似的用戶,綜合這些相似用戶對某一信息的評價,形成該指定用戶對此信息的喜好程安實戰(zhàn)中,我們可以將案件(一串案件)發(fā)生軌跡視為“項目”,將嫌疑人活動軌跡視為“對項目的偏好”,通過計算軌跡吻合度,推薦可能分類與回歸分析主要用于找出描述并區(qū)分數(shù)據(jù)類的模型(或函數(shù)),以便能夠使用模型預測未知的對象類。分類分析的目的是學會一個分類模型,該模型能把數(shù)據(jù)庫中的項映射到給一組類別中的某一個類。在公前科人員)映射到“高危人群"中,當“高危人群”出現(xiàn)時,出符合“犯1.分析目標(1)分析影響案件發(fā)案率的的主要因素(2)分析當?shù)匕讣l(fā)生的時間、地點分布情況(3)分析不同案件類型常用作案工具、作案方式(4)分析不同案件類型的嫌疑人特征2.分析方法根據(jù)需求分析,實現(xiàn)業(yè)務應用功能總體設計思路為:對數(shù)據(jù)進行匯(1)數(shù)據(jù)獲?。簩?shù)據(jù)挖掘的數(shù)據(jù)源進行搜集整理。根據(jù)業(yè)務需求,搜集案件、嫌疑人、嫌疑人活動軌跡信息,獲取數(shù)據(jù)源連接和訪問權(quán)限,對數(shù)據(jù)結(jié)構(gòu)進行分析,完成找到數(shù)據(jù)的工作。根據(jù)需求和數(shù)據(jù)源狀況,確定數(shù)據(jù)更新方法、ETL刑事案件信息刑事案件現(xiàn)場勘驗信息違法犯罪人員(本地)按身份證去重,用于挖掘高危人群特征違法犯罪人員(全國)公安部下發(fā)按身份證去重,用于挖掘高危人群特征戶籍人口錄入(修改)時間、每日、員同戶人實有人口錄入(修改)時間、每日、員同住人出租車軌跡以及乘客照片照片比對確定身份,發(fā)現(xiàn)軌跡卡口過車信息電子警察抓拍信息電子圍欄和話單經(jīng)過(通話)時間、每日、增量網(wǎng)吧上網(wǎng)記錄下網(wǎng)時間、每日、增量錄公交(公共自行車)刷卡記錄公安部下發(fā)違法犯罪人員圖像挖掘、圖片比對確定身份,發(fā)現(xiàn)軌跡(2)預處理:為數(shù)據(jù)挖掘提供符合要求數(shù)據(jù),包括數(shù)據(jù)清洗、轉(zhuǎn)換(標準化)、裝載、建模。在此基礎上對數(shù)據(jù)進行關聯(lián)、建模,為情報分析研判提供可用的數(shù)據(jù)。根據(jù)業(yè)務特性,確定案件、犯罪人員以及犯罪人員活動軌跡三個主題,區(qū)分維度數(shù)據(jù)表和事實數(shù)據(jù)表,建立數(shù)據(jù)倉庫模型。下圖為案件事(3)數(shù)據(jù)挖掘:使用挖掘算法進行挖掘,找出有用的信息。1)運用聚類分析方法,對已破刑事案件進行分析,構(gòu)建刑事案件空間向量矩陣,矩陣的行為一起刑事案件的一個空間向量,矩陣的列為作案手段、選擇處所、選擇時間、作案特點等特征。采用聚類操作后,如果多個案件的多個或全部屬性都有相似性,就可以認為這是一串案件,2)運用關聯(lián)規(guī)則分析方法,對已破刑事案件特征(I1:作案手段、地行政區(qū)劃)進行關聯(lián),構(gòu)建數(shù)據(jù)庫事務集合D。運用Apriori算法,掃描事務數(shù)據(jù)庫,產(chǎn)生候選項集,設置minsup=50,逐步迭代,產(chǎn)生頻繁k數(shù)據(jù)庫。下表展示了運用關聯(lián)規(guī)則分析方法分析的高危人群部分數(shù)據(jù)樣迷信多人作案詐騙安徽樅陽縣單人作案盜竊車內(nèi)財物冒充軍人、干部單人作案詐騙撬防盜門入室盜竊入室盜竊居民小區(qū)飛車搶奪多人作案多人作案入室盜竊夜間攀爬翻窗多人作案入室盜竊居民小區(qū)四川涼山籍3)運用串并案模板對現(xiàn)行案件進行串并,并根據(jù)案件特征(作案手段、作案特點、案件類型、選擇處所等)比對高危人群數(shù)據(jù)庫,推薦出4)建立符合可能作案的高危人群特征(戶籍地)的違法犯罪人員活動通過計算矢量距離,推導出與案件時間、軌跡吻合度最高,且符合案件嫌疑人1案件1案件2案件3通過對上表的數(shù)據(jù)進行分析,可以初步判定嫌疑人1、嫌疑人2、嫌疑人3具有重大嫌疑。在實際操作中,單一種類軌跡構(gòu)成的矩陣可能非第六章知識獲取與維護語言知識自動獲取是指通過對語料文本進行分析處理獲取語料中所蘊含的知識的過程。利用語言知識自動獲取技術可以從語料中自動的獲取生成候選語義模式(語義模式是對語言表達方式的一種抽象結(jié)構(gòu),通過語義模式可以理解語句的各層次語義結(jié)構(gòu))。另外還可以獲取實體和實體關系圖、實體結(jié)構(gòu)組成、候選等價集等。通過語言知識自動獲取技術對語料進行掃描分析可以不斷的豐富、擴充我們的知識庫內(nèi)容,糾正或提示知識庫可能存在的問題,另外還可以獲取文本中常用詞的搭配關系、統(tǒng)計信息和主題信息,為語義分析能力提供扎實的基礎。語言知識自動獲取流程圖下圖所示:答情失模識寶傳關最什幫幫x4h果的輸入層:分詞后的向量窗口層隱含層輸出層該模型從輸入的句子中自動學習一系列抽象的特征,并通過后向傳播算法來訓練模型參數(shù)。第一層抽取每個詞的特征,第二層從詞窗口中抽取特征,并看成是一系列的局部和全局結(jié)構(gòu),從而區(qū)別傳統(tǒng)的詞袋模型。隱含層可以是多層,圖中只畫了一層進行描述,輸出層需要用激活(2)模型結(jié)構(gòu)分析與推導:為了方便推導,將上圖的神經(jīng)網(wǎng)絡模型簡化為下圖所示的三層結(jié)構(gòu),去掉最外層輸入層(因為這一層可以通過查找表實現(xiàn))。神經(jīng)網(wǎng)絡三層11標簽1nbkakblhl簡化模型中j、k、1分別別是窗口層、隱含層、輸出層的節(jié)點下標。激活函數(shù)可以取雙曲正切或sigmoid函數(shù)。V和b1分別是第二層網(wǎng)絡(也就是隱含層到輸出層)的權(quán)重和偏置項,n也是激活函數(shù),一般取為則模型的數(shù)學描述如下:說明:sigmoid函數(shù)logistic而softmax函數(shù)是多分類函數(shù),它將一個K維的數(shù)映射到一個K維并且每個維度都是(0,1)的數(shù)。因此一般用softmax來當神經(jīng)網(wǎng)絡最后一層的激活函數(shù)。(3)損失函數(shù):如果把樣本的分布看作多項分布,則容易寫出樣本聯(lián)合概率的解析這里按照目標函數(shù)的通常處理方法,將極大化似然轉(zhuǎn)化為極小化負對數(shù)似然。取對數(shù)的目的是簡化后面的求導公式,取負號將極大問題轉(zhuǎn)化為標準的極小問題。在損失函數(shù)中除了極小化負對數(shù)似然,還增加了W和V的L2正則項(公式后面那一部分)。原因是softmax函數(shù)的參數(shù)存在冗余,也就是極小點不唯一,為了將解唯一化,增加該正則項。另一方面,L2正則從概率角度看相當于對參數(shù)增加了高斯先驗,控制了參數(shù)的方差,懲罰過大的參數(shù),對于提高模型的泛化能力有幫助。罰因子入調(diào)節(jié)正則項的權(quán)重,取值越大,對大參數(shù)的懲罰越大。這里可以簡單的將λ取作c。需要注意的是正則項中不包含偏置參數(shù)bk和bl。(4)算法分析模型的訓練采用隨機梯度下降法,每次只更新一個樣本,因此目標函數(shù)可以化簡為下式:梯度計算公式為:則可以計算出每個變量的變化情況,重復迭代直到目標函數(shù)收斂。6.2.語言知識維護語言知識維護是指對語義計算服務涉及的知識進行管理與維護。語義計算服務涉及的知識包括:樣本標注,訓練集、測試集的編組管理,樣本自動分類、聚類,等價表達,測試結(jié)果,語言知識(包括語義模式、本體詞庫等),以及領域知識(包括業(yè)務模型等)。語義計算服務的知識工程活動,是包括采集樣本,標注樣本,評估效果,投產(chǎn)發(fā)布,診斷運行質(zhì)量等一系列任務在內(nèi)的循環(huán)迭代過程。具有信息瑣碎、結(jié)構(gòu)復雜,數(shù)據(jù)量大、任務繁多、循環(huán)迭代的特點,非??简炛喂芾砉ぞ叩耐晟菩院椭悄苄?。我們通過對樣本數(shù)據(jù)的多角度綜合管理,多元化綜合利用,實現(xiàn)專家式引導,全流程管理,事件化驅(qū)動和語義化交互能力,為知識工程活動提供簡單易懂,好用易用的一站式集成化實施和管理環(huán)境,為語義計算服務在企業(yè)應用中充分發(fā)揮作用保通過多維標簽和靜態(tài)分類,實現(xiàn)動靜結(jié)合,幫助用戶輕松地多角度全面管控碎片化的知識點。多維標簽可以簡化分類結(jié)構(gòu)的管理。靜態(tài)分綜合使用包括知識驅(qū)動,樣本驅(qū)動,數(shù)據(jù)驅(qū)動在內(nèi)的多種自動化方自動生成多維架構(gòu)、業(yè)務模型;充分利用已有自動構(gòu)造語義事件以便形成多輪交互;以及利用業(yè)務模型和多維標簽進具有專家式引導,全流程管理,事件化驅(qū)動等特點。從用戶錄入或?qū)霕颖鹃_始,經(jīng)過樣本標注,效果評估,到形成服務能力,可以全部在該環(huán)境中實現(xiàn)。導入樣本后,系統(tǒng)可自動進行標注樣本,并根據(jù)樣本自動生成業(yè)務模型、多維架構(gòu),并能引導用戶提供必要的信息以完成標擴充本體詞庫,優(yōu)化本體結(jié)構(gòu)等,還能幫助用戶將樣本劃分為訓練集和測試集,并進行分組管理。完成上述工作后,用戶只需點擊訓練按鈕即可發(fā)布訓練集,并實現(xiàn)新的語義計算服務實例的熱切換,達到即訓練即發(fā)布即生效的效果。訓練集發(fā)布后,用戶還可以選擇測試集執(zhí)行批量測試,系統(tǒng)將自動記錄測試結(jié)果,并評估訓練效果,系統(tǒng)還可以根據(jù)測試集執(zhí)行情況引導用戶補充知識或補充訓練集。在語義計算服務投產(chǎn)后,系統(tǒng)以事件的形式提示相關人員失敗交互,或以通過分編審發(fā)機制實現(xiàn)除了使用常規(guī)的可視化菜單來實施并管理知識工程活動,還允許用功能,查詢資料,補充知識,完善樣本等功能,達到輕松易懂,簡單易>生成多維架構(gòu)語言知識爬蟲,針對語料和已有數(shù)據(jù)。樣本管理及樣本標注批量測試及統(tǒng)計分析>HMI(人機交互接口)配置centos6.864位,8核CPU,16G內(nèi)存centos6.864位,8核CPU,32G內(nèi)存centos6.864位,8核CPU,64G內(nèi)存說明:服務器數(shù)量:根據(jù)實際分析要求和數(shù)據(jù)量進行調(diào)整。使用Yarn調(diào)度框架python注冊中心系統(tǒng)資源文件夾配置中心Sidecarspringcloud用于注入python服務到eureka中自定義組件http模式對應微服務Userk--調(diào)用App一調(diào)用--Inter見附件1見附件2見附件3見附件4操作啟動服務&命令介紹>eureka.log:表示將標準輸出流內(nèi)容輸出到eureka.log文件中。2>&1:表示將標準錯誤流中的內(nèi)容重定向到標準輸出流中。&:表示將進程轉(zhuǎn)為后臺進程,防止終端關閉后進程關閉默認端口

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論