下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
附件:擬轉(zhuǎn)讓專利簡介專利一、一種多入口醫(yī)學(xué)問句模板裝置及其方法技術(shù)領(lǐng)域本發(fā)明屬于計算機的人工智能領(lǐng)域,尤其是是一種多入口醫(yī)學(xué)問句模板裝置及其方法,可以廣泛應(yīng)用于醫(yī)學(xué)行業(yè)的智能信息檢索與自動問答系統(tǒng)中。背景技術(shù)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,使網(wǎng)絡(luò)信息呈指數(shù)的增長,為了從這些海量信息中快速、準確的獲得需要的信息,傳統(tǒng)的搜索引擎已不能滿足用戶的需求,智能信息檢索與自動問答系統(tǒng)因其能夠準確、直接地回答用戶問題,正逐漸成為研究的重點和熱點,然而由于用戶問句的多樣性與隨意性,造成準確獲取用戶問句的語義與預(yù)期相差較大,因此目前自動問答與智能信息檢索答案的準確率還不高。問句處理與理解是智能信息檢索與自動問答系統(tǒng)中的第一個執(zhí)行階段,它的目標(biāo)是讓計算機理解用戶的問句,獲取用戶的提問意圖,為后面的信息檢索提供依據(jù)。問句的理解一般包含詞法分析、句法分析和語義分析,目前,語義分析是自然語言處理的瓶頸。在面向領(lǐng)域的信息檢索與問答系統(tǒng)中,用戶的查詢具有很多相似性,例如在基于本體的知識庫中,很多都是對概念或?qū)嶓w的屬性進行查詢,還有對概念之間的關(guān)系以及屬性之間的關(guān)系,可以把這些問句抽取成基于領(lǐng)域本體的、具有代表性、封裝有語義信息的問句模板,從而有效地避免復(fù)雜的詞法分析、句法分析和語義分析。因此,研究基于語義關(guān)系和問句模板的問句理解方法具有十分重要的意義。目前基于語義關(guān)系和問句模板的問句理解方法,普遍采用一個模板對應(yīng)領(lǐng)域本體或領(lǐng)域知識庫中的一個語義關(guān)系。然而,在一個醫(yī)學(xué)信息系統(tǒng)中,知識和關(guān)系較為復(fù)雜,一個問句語義需要通過多種語義關(guān)系給出解釋。例如,在詢問疾病的相關(guān)癥狀時,就需要多種語義關(guān)系來表達,單一語義關(guān)系對于疾病癥狀的表達不全面,不能對疾病癥狀進行較為全面的描述。為了使得模板的語義更為全面、明確和清晰,同時也為提高模板模板匹配精度與設(shè)計效率,減少模板庫的規(guī)模,尋找一種基于醫(yī)學(xué)概念與醫(yī)學(xué)關(guān)系的多入口醫(yī)學(xué)問句模板裝置與應(yīng)用方法是十分有必要的。發(fā)明內(nèi)容本發(fā)明公開了一種多入口醫(yī)學(xué)問句模板裝置及其方法,所述模板裝置是一種基于醫(yī)學(xué)概念與醫(yī)學(xué)關(guān)系的醫(yī)學(xué)問句轉(zhuǎn)換機構(gòu),它將主模板結(jié)構(gòu)、近義模板結(jié)構(gòu)、多入口聯(lián)合結(jié)構(gòu)中的推理規(guī)則與推理函數(shù)綁定在一起,實現(xiàn)將多種近義用戶問句轉(zhuǎn)換為一個多入口醫(yī)學(xué)問句模板,以根據(jù)轉(zhuǎn)換獲得的多入口醫(yī)學(xué)問句模板從UMLS醫(yī)學(xué)知識庫中抽取相應(yīng)答案。本發(fā)明是為解決醫(yī)學(xué)行業(yè)的智能信息檢索與自動問答系統(tǒng)中,知識和關(guān)系較為復(fù)雜、一個問句語義需要通過多種語義關(guān)系給出解釋的問題而設(shè)計的,同時也為提高模板設(shè)計效率、減少模板庫的規(guī)模,以及最大限度地滿足用戶的提問意圖,如下圖所示。專利二、基于維基百科與WordNet的論述題自動評卷方法技術(shù)領(lǐng)域本發(fā)明涉及教育技術(shù)與計算機應(yīng)用技術(shù)領(lǐng)域,具體是基于維基百科與WordNet的論述題自動評卷方法。背景技術(shù)考試試卷中的試題從答案組成的形式上,被普遍分為客觀題與主觀題兩大類。答案以選項編號表示的單選題、多選題、判斷題等試題被稱為客觀題,而答案采用自然語言表示的簡答題、名詞解釋和論述題等試題被稱為主觀題。由于單選題、多選題、判斷題等客觀題目的答案都是以選項編號表示,目前計算機對于此類題型進行自動閱卷時,只需將標(biāo)準答案的選項編號與學(xué)生答案的選項編號進行簡單的匹配運算,匹配成功則答案正確,該處理技術(shù)已經(jīng)取得較好的成果。但對于答案采用自然語言表示的主觀題自動閱卷技術(shù),如:對簡答題、名詞解釋和論述題等自動評卷,由于其受到自然語言理解、模式識別等理論與技術(shù)瓶頸影響,效果不是很理想。主觀題不同于客觀題,不僅需要采用自然語言表示答案,而且具有一定的主觀性,允許學(xué)生在一定的范圍內(nèi)答題,因此答案往往不是唯一的,而且學(xué)生答題的方式會有多種形式。另一方面,教師在批閱試卷的時候,還可能會受到主觀因素的影響,以及學(xué)生字體是否美觀、卷面是否整潔等的影響,使得教師在評分時,出現(xiàn)不合理的加分或扣分現(xiàn)象,有失考試的公正性和公平性。主觀題的計算機自動閱卷,既減輕了教師人工閱卷的勞動強度,又減少人為因素的影響,保證了閱卷的客觀性、公正性,因此主觀題計算機自動閱卷技術(shù)的研究,具有重要的意義。然而,由于主觀題學(xué)生答案的多樣性與隨意性,目前還沒有使用計算機對主觀題進行自動閱卷的成熟技術(shù)。目前,在各類主觀題計算機自動閱卷系統(tǒng)中,普遍采用關(guān)鍵字匹配技術(shù)實現(xiàn)簡答題與名詞解釋類的短文本主觀題自動閱卷,即在答案中標(biāo)注出若干關(guān)鍵字或關(guān)鍵詞,將其與學(xué)生答案進行匹配,并根據(jù)匹配成功的多少對學(xué)生答案進行評分,由于自然語言的多樣性與隨意性,這種方法的評分準確率非常低。為提高評卷的準確率,目前出現(xiàn)了少量的基于詞語相似度、語法分析與依存關(guān)系等語義技術(shù)的主觀題自動閱卷方法,這類評卷方法雖然可以在評卷過程中融入語義技術(shù),提高評卷的準確率,但大多仍默認學(xué)生的答題方式與標(biāo)準答案都是以完整的單個句子形式給出,并采用統(tǒng)一的基于句子相似度的方法進行評卷,一旦主觀題的答案由多個句子組成,這類語義技術(shù)的系統(tǒng)的評分效果仍然很差。論述題是一種答案由多個句子、甚至多個段落的長文本所構(gòu)成的主觀題,例如,主觀題“試詳細說明程序設(shè)計的基本過程”的答案就由多個段落的長文本所組成,對于這類長文本的論述題,目前仍然沒有理想的方法實現(xiàn)準確地自動評卷。為解決這一難題,本發(fā)明提出了一種基于維基百科與WordNet的論述題自動評卷方法。維基百科Wikipedia是一個允許用戶自由編輯、全球最大的多語種網(wǎng)絡(luò)百科全書,自2001年推出后得到了迅猛增長,截止目前,共涵蓋299種語言,具有近5000萬個頁面,其中英文頁面超過500萬個。且維基百科每月發(fā)布兩次數(shù)據(jù)庫備份轉(zhuǎn)儲(Databasebackupdumps),為基于維基百科數(shù)據(jù)資源的研究和應(yīng)用提供了便利。作為全球最大的多語種網(wǎng)絡(luò)百科全書,維基百科Wikipedia在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用,其中一個重要的應(yīng)用就是使用Wikipedia進行詞語與文本的語義相似度與相關(guān)度計算?;诰S基百科的文本相關(guān)度計算的重要算法是Gabrilovich等人提出的顯性語義分析ESA(ExplicitSemanticAnalysis),其基本思想是將維基百科的頁面視為以人類認知為基礎(chǔ)的顯性概念,并以維基百科所有頁面(概念)作為維度,將文本的意義解釋為其所包含詞在所有概念頁面中的權(quán)重向量,從而將計算文本之間的相關(guān)性轉(zhuǎn)化為計算相應(yīng)的概念權(quán)重向量之間的夾角。研究表明基于維基百科的ESA是目前最好的文本語義相關(guān)度方法。此外,維基百科中的文章是按學(xué)科進行分類與組織的,因此維基百科是一種天然的學(xué)科語料庫。因此,以維基百科中的學(xué)科文章作為語料,通過ESA方法將主觀題自動評卷問題轉(zhuǎn)換為學(xué)生答卷文本與答案文本之間的相關(guān)度計算,可有效解決長文本的論述題自動評卷問題。但由于Wikipedia的分類圖結(jié)構(gòu)是由志愿者而非專家構(gòu)建的,沒有由專家構(gòu)建的WordNet分類結(jié)構(gòu)可靠,并且語義關(guān)系不全面、結(jié)構(gòu)過于松散,無法通過Wikipedia的分類圖結(jié)構(gòu)導(dǎo)出某個學(xué)科的完整概念結(jié)構(gòu)。為解決這一問題,本發(fā)明提出了一種結(jié)合WordNet與Wikipedia的學(xué)科概念空間與概念頁面集的形成方法。WordNet是由美國普林斯頓大學(xué)的心理學(xué)家、語言學(xué)家和計算機工程師聯(lián)合設(shè)計的大型認知語言學(xué)同義詞詞典,囊括了名詞、動詞、形容詞、副詞共計15萬多個英語詞條,并被組織成以同義詞為ID的分類結(jié)構(gòu)。WordNet詞匯豐富、結(jié)構(gòu)嚴謹、語義關(guān)系全面,被廣泛應(yīng)用于自然語言處理的各種任務(wù)當(dāng)中,并被許多國家翻譯和本地化,如歐洲研究理事會(ERC)資助開發(fā)的多語言百科全書字典BabelNet中包含有271種語言對照的WordNet。在WordNet的“知識分支branchofknowledge”同義詞組的is-a分類層次結(jié)構(gòu)中,包含有700多個不同學(xué)科種類,并且每個學(xué)科通過主題詞TOPICTERM關(guān)系,將本學(xué)科的重要概念關(guān)聯(lián)在一起,形成本學(xué)科的概念圖譜,但并沒有相關(guān)報道將其應(yīng)用于自動評卷中。發(fā)明內(nèi)容 本發(fā)明提供了一種基于維基百科與WordNet的論述題自動評卷方法,通過WordNet形成領(lǐng)域?qū)W科的初始主干概念空
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026海南安??毓捎邢挢?zé)任公司招聘11人備考考試題庫及答案解析
- 2026春季夢想靠岸招商銀行中山分行校園招聘參考考試題庫及答案解析
- 2026廣東深圳市龍崗區(qū)婦幼保健院招聘142人(2026年第一批次)參考考試題庫及答案解析
- 創(chuàng)業(yè)聚會活動策劃方案(3篇)
- 酒精生產(chǎn)質(zhì)量管理制度(3篇)
- 2026貴州遵義清華中學(xué)教師招聘4人考試參考試題及答案解析
- 2026年東北電力大學(xué)公開招聘博士人才1號(73人)備考考試試題及答案解析
- 2026國家電投云南國際校園招聘48人筆試備考試題及答案解析
- 2026中冶堃元(重慶)金屬材料研究院有限公司招聘40人備考考試試題及答案解析
- 2026貴州省康復(fù)醫(yī)院面向社會引聘高層次人才考試備考題庫及答案解析
- 掛靠工程合同范本
- “大唐杯”全國大學(xué)生新一代信息通信技術(shù)競賽題庫
- 數(shù)字經(jīng)濟學(xué)-課件 第4章 網(wǎng)絡(luò)效應(yīng)
- 2025企業(yè)年會總結(jié)大會跨越新起點模板
- GB/T 27728.1-2024濕巾及類似用途產(chǎn)品第1部分:通用要求
- 中建三局工程標(biāo)準化施工手冊(安裝工程部分)
- FZ∕T 54007-2019 錦綸6彈力絲行業(yè)標(biāo)準
- DZ∕T 0148-2014 水文水井地質(zhì)鉆探規(guī)程(正式版)
- 空調(diào)水系統(tǒng)設(shè)備的安裝
- 基于流行音樂元素的動畫電影娛樂性研究
- 讀書分享讀書交流會 《鄉(xiāng)村教師》劉慈欣科幻小說讀書分享
評論
0/150
提交評論