版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ICS17.140.99
CCSL70
T/AHAI
安徽省人工智能協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)
T/XXXX—XXXX
面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)
技術(shù)規(guī)范
Technicalspecificationforknowledgegraphconstructionsystemoflifelonglearning
(征求意見稿)
在提交反饋意見時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
安徽省人工智能協(xié)會(huì)??發(fā)布
T/XXXX—XXXX
面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)技術(shù)規(guī)范
1范圍
本文件規(guī)定了面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)的框架、技術(shù)要求、功能要求和非功能要求。
本文件適用于教育行業(yè)面向終身學(xué)習(xí)的知識(shí)圖譜系統(tǒng)設(shè)計(jì)、開發(fā)與測試。
2規(guī)范性引用文件
GB/T5271.17-2010信息技術(shù)詞匯第17部分?jǐn)?shù)據(jù)庫;
GB/T42131-2022人工智能知識(shí)圖譜框架;
YD/T4044-2022基于人工智能的知識(shí)圖譜構(gòu)建技術(shù)要求。
3術(shù)語和定義
GB/T5271.17-2010界定的以及以下術(shù)語和定義適用于本文件。
3.1
終身學(xué)習(xí)lifelonglearning
終身學(xué)習(xí)是一種持續(xù)不斷的學(xué)習(xí)過程,在人的整個(gè)生命周期中不斷獲取新知識(shí)、技能和經(jīng)驗(yàn),使個(gè)
體能夠持續(xù)提升能力、拓展視野,并保持競爭力。
3.2
實(shí)體entity
存在或者可能存在的任何具體或抽象的事務(wù),包括這些事物間的關(guān)聯(lián)。
[來源:GB/T5271.17-2010,17.02.05]
3.3
實(shí)體類型entitytype
一組具有相同屬性的實(shí)體集合的抽象。
[來源:GB/T42131-20223.3]
3.4
關(guān)系relation
具有相同屬性的各實(shí)體值的集合以及這些屬性。
[來源:GB/T5271.17-2010,17.04.01]
1
T/XXXX—XXXX
3.5
知識(shí)圖譜knowledgegraph
一種以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系的方式。它將互聯(lián)網(wǎng)的海量信息表達(dá)成更
接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。
[來源:YD/T4044-2022,3.1]
3.6
精確率precision
評(píng)價(jià)機(jī)器學(xué)習(xí)模型效果的參數(shù),反映的是在預(yù)測為正例的樣本中,預(yù)測正確的比例。
注:計(jì)算公式為準(zhǔn)確率=正確預(yù)測的正例樣本數(shù)量/預(yù)測為正例的樣本數(shù)量。
3.7
召回率recallrate
評(píng)價(jià)機(jī)器學(xué)習(xí)模型效果的參數(shù),反映的是在所有正例樣本中,能夠正確地識(shí)別為正例的比例。
注:計(jì)算公式為召回率=正確預(yù)測的正例樣本數(shù)量/(正確預(yù)測的正例樣本數(shù)量+錯(cuò)誤預(yù)測的負(fù)例樣本數(shù)量)。
3.8
F1值F1-score
綜合應(yīng)用精確率和召回率,為二者的調(diào)和均值。
注:計(jì)算公式為F1值=2*精確率*召回率/(精確率+召回率)。
4縮略語
下列縮略語適用于本文件。
NLP自然語言處理(NaturalLanguageProcessing)
API應(yīng)用編程接口(ApplicationProgrammingInterface)
RDF資源描述語言(ResourceDescriptionFramework)
OWL網(wǎng)絡(luò)本體語言(WebOntologyLanguage)
SPARQL數(shù)據(jù)獲取協(xié)議和查詢語言(SPARQLProtocolandRDFQueryLanguage)
5構(gòu)建框架
面向終身學(xué)習(xí)的知識(shí)圖譜系統(tǒng)以底層技術(shù)基礎(chǔ)作為支撐,其構(gòu)建需經(jīng)過數(shù)據(jù)獲取、數(shù)據(jù)清洗和去重、
知識(shí)抽取、知識(shí)表示、實(shí)體鏈接、知識(shí)存儲(chǔ)、知識(shí)更新等階段,各階段間的邏輯結(jié)構(gòu)如圖1所示。
2
T/XXXX—XXXX
圖1面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)結(jié)構(gòu)圖
標(biāo)引序號(hào)說明:
1——數(shù)據(jù)獲取。通過數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、API接口、第三方數(shù)據(jù)提供商等手段獲取所需的數(shù)據(jù)。
2——數(shù)據(jù)清洗與去重。針對(duì)獲取的數(shù)據(jù)集中的殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行清洗。
3——知識(shí)抽取。知識(shí)抽取是使用識(shí)別、理解、過濾和歸納的方法從不同來源的結(jié)構(gòu)化、半結(jié)構(gòu)
化和非結(jié)構(gòu)化數(shù)據(jù)中將信息提取出來
4——知識(shí)表示。將知識(shí)圖譜中的實(shí)體和它們之間的關(guān)系轉(zhuǎn)換為數(shù)學(xué)表示,從而使得計(jì)算機(jī)可以
更加方便地處理和分析這些信息,能夠?qū)?fù)雜的實(shí)體和關(guān)系映射到一個(gè)低維度向量空間中,從而能夠有
效處理大規(guī)模的知識(shí)圖譜。
5——實(shí)體鏈接。實(shí)體鏈接是一種確定兩個(gè)實(shí)體是否指向現(xiàn)實(shí)世界中同一對(duì)象的過程,用于判斷
不同數(shù)據(jù)集中的實(shí)體是否相同。
6——知識(shí)存儲(chǔ)。知識(shí)存儲(chǔ)是指將知識(shí)以某種結(jié)構(gòu)化的形式存儲(chǔ)在計(jì)算機(jī)系統(tǒng)或其他媒體中,以
便于組織、管理和檢索,旨在有效地保存和利用知識(shí)資源。
7——知識(shí)更新。知識(shí)更新是指不斷對(duì)知識(shí)庫、知識(shí)圖譜或其他知識(shí)存儲(chǔ)結(jié)構(gòu)中的信息進(jìn)行修訂、
添加、刪除或修改,以確保其中所包含的知識(shí)與最新的實(shí)際情況和領(lǐng)域知識(shí)相符。
6技術(shù)要求
6.1知識(shí)獲取
終身學(xué)習(xí)過程中涉及到多種知識(shí)獲取途徑,知識(shí)獲取階段應(yīng)明確知識(shí)圖譜構(gòu)建的數(shù)據(jù)來源,針對(duì)不
同來源的數(shù)據(jù)定制不同的獲取規(guī)則。
知識(shí)獲取階段的技術(shù)要求如下:
a)應(yīng)明確數(shù)據(jù)獲取的來源和途徑。應(yīng)明確數(shù)據(jù)獲取的目標(biāo)來源,包括但不限于數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、
API接口、第三方數(shù)據(jù)提供商等。對(duì)于每個(gè)來源,需要了解數(shù)據(jù)的結(jié)構(gòu)、格式、訪問方式等具
體信息;
b)應(yīng)明確數(shù)據(jù)粒度和維度。應(yīng)根據(jù)數(shù)據(jù)使用場景和需求,明確數(shù)據(jù)獲取輸出的粒度和維度,以滿
足后續(xù)知識(shí)圖譜構(gòu)建的需求;
3
T/XXXX—XXXX
c)應(yīng)確保數(shù)據(jù)輸出的規(guī)范化和標(biāo)準(zhǔn)化,包括字段命名、數(shù)據(jù)編碼、單位統(tǒng)一等,以便后續(xù)數(shù)據(jù)集
成和應(yīng)用;
d)應(yīng)確保數(shù)據(jù)獲取的合法性和可靠性,避免侵犯他人隱私或知識(shí)產(chǎn)權(quán)。特別是在涉及第三方數(shù)據(jù)
提供商時(shí),需要明確數(shù)據(jù)授權(quán)方式和使用條款;
e)應(yīng)設(shè)置異常處理和改進(jìn)機(jī)制。確保對(duì)數(shù)據(jù)獲取過程中出現(xiàn)的問題和異常進(jìn)行記錄和分析,及時(shí)
糾正和改進(jìn)數(shù)據(jù)獲取的流程和方法;
f)應(yīng)對(duì)采集到的數(shù)據(jù)進(jìn)行存儲(chǔ),以便后續(xù)分析。
6.2數(shù)據(jù)清洗與去重
面向終身學(xué)習(xí)的知識(shí)圖譜數(shù)據(jù)清洗與去重,應(yīng)滿足數(shù)據(jù)來源與途徑明晰化、數(shù)據(jù)粒度和維度確認(rèn)、
數(shù)據(jù)規(guī)范化與標(biāo)準(zhǔn)化以及合法性和可靠性保障等技術(shù)要求,以確保清洗與去重后的數(shù)據(jù)質(zhì)量和可用性,
為知識(shí)圖譜的構(gòu)建和應(yīng)用奠定基礎(chǔ)。
數(shù)據(jù)清洗與去重階段的技術(shù)要求如下:
a)數(shù)據(jù)來源與途徑明晰化:應(yīng)明確數(shù)據(jù)清洗與去重的目標(biāo)數(shù)據(jù)來源,包括已有知識(shí)圖譜、自然語
言文本、結(jié)構(gòu)化數(shù)據(jù)庫等。對(duì)于每個(gè)來源,需要了解數(shù)據(jù)的結(jié)構(gòu)、格式、獲取方式和訪問權(quán)限
等具體信息。
b)數(shù)據(jù)粒度和維度確認(rèn):應(yīng)根據(jù)知識(shí)圖譜的應(yīng)用場景和需求,明確數(shù)據(jù)清洗與去重輸出的粒度(如
實(shí)體、關(guān)系等)和維度(如時(shí)間、地點(diǎn)、屬性等),以滿足后續(xù)知識(shí)圖譜構(gòu)建的需求。
c)數(shù)據(jù)規(guī)范化與標(biāo)準(zhǔn)化:應(yīng)確保清洗與去重后的數(shù)據(jù)輸出符合統(tǒng)一的規(guī)范和標(biāo)準(zhǔn),包括字段命名
一致、數(shù)據(jù)編碼統(tǒng)一、單位規(guī)范等,以便后續(xù)數(shù)據(jù)集成和應(yīng)用。
d)合法性和可靠性保障:應(yīng)確保數(shù)據(jù)清洗與去重過程中的合法性和可靠性,避免侵犯他人隱私或
知識(shí)產(chǎn)權(quán)。特別是在涉及第三方數(shù)據(jù)提供商時(shí),需要明確數(shù)據(jù)授權(quán)方式、使用條款和合規(guī)性,
以保證數(shù)據(jù)的合法獲取和使用。
e)缺失值填充:應(yīng)對(duì)于存在缺失值的數(shù)據(jù),需要進(jìn)行適當(dāng)?shù)奶畛洳僮鳎员3謹(jǐn)?shù)據(jù)完整性。常見
的缺失值填充方法包括使用均值、中位數(shù)或眾數(shù)進(jìn)行填充,或者根據(jù)數(shù)據(jù)的特點(diǎn)和背景知識(shí)進(jìn)
行合理推測和插補(bǔ)。
f)異常值處理:異常值會(huì)對(duì)后續(xù)分析和應(yīng)用造成不利影響,因此需要識(shí)別和處理異常值。常見的
異常值處理方法包括使用統(tǒng)計(jì)學(xué)方法(如3σ原則、箱線圖等)進(jìn)行判斷和剔除,或者根據(jù)領(lǐng)
域知識(shí)和實(shí)際情況進(jìn)行異常值的修正或標(biāo)記。
6.3知識(shí)抽取
6.3.1實(shí)體抽取
實(shí)體抽取是自然語言處理中的一項(xiàng)重要任務(wù),其主要目標(biāo)是從文本中識(shí)別和提取出具有特定意義的
實(shí)體,如人名、地名、組織名、時(shí)間、數(shù)量等。
實(shí)體抽取的技術(shù)要求如下:
a)實(shí)體抽取的結(jié)構(gòu)和形式輸出實(shí)體應(yīng)包括類型、起始位置、結(jié)束位置等信息,以便于后續(xù)處理和
應(yīng)用。實(shí)體抽取結(jié)果應(yīng)采用統(tǒng)一的格式和標(biāo)注規(guī)范,以支持不同系統(tǒng)間的交互和整合;
b)數(shù)據(jù)類型和規(guī)模。文本數(shù)據(jù)應(yīng)涵蓋多個(gè)領(lǐng)域和主題,包括但不限于新聞、社交媒體、學(xué)術(shù)文獻(xiàn)
等,覆蓋范圍廣泛。數(shù)據(jù)規(guī)模應(yīng)確保充分覆蓋各類實(shí)體,包括人物、地點(diǎn)、組織、時(shí)間等;
c)利用命名實(shí)體識(shí)別技術(shù),從文本中識(shí)別出具體的實(shí)體,包括人名、地名、組織名等,以支持多
種實(shí)體類型的識(shí)別,滿足不同場景下的實(shí)體抽取需求;
4
T/XXXX—XXXX
d)實(shí)體分類。對(duì)抽取出的實(shí)體進(jìn)行分類,確定實(shí)體的具體類型,如人物、地點(diǎn)、時(shí)間等,以便后
續(xù)處理和應(yīng)用;
e)實(shí)體抽取的準(zhǔn)確性評(píng)估。建立實(shí)體抽取的精確率、召回率和F1值等指標(biāo),對(duì)實(shí)體抽取結(jié)果進(jìn)行
全面評(píng)估和比對(duì)。
6.3.2關(guān)系抽取
在終身學(xué)習(xí)過程中,面對(duì)海量多領(lǐng)域知識(shí),實(shí)體間的關(guān)聯(lián)起到了重要的鏈接作用。關(guān)系抽取是自然
語言處理領(lǐng)域的重要任務(wù)之一,通過對(duì)應(yīng)算法與模型自動(dòng)識(shí)別和提取文本中的實(shí)體之間的關(guān)系,以構(gòu)建
結(jié)構(gòu)化的知識(shí)表示,進(jìn)而支持信息檢索、問答系統(tǒng)、知識(shí)圖譜構(gòu)建等應(yīng)用。
關(guān)系抽取的技術(shù)要求如下:
a)關(guān)系抽取的結(jié)構(gòu)和形式。輸出關(guān)系應(yīng)包括關(guān)系類型、關(guān)系持有實(shí)體(實(shí)體對(duì))、關(guān)系置信度等
信息,以便于后續(xù)處理和應(yīng)用;
b)關(guān)系抽取結(jié)果應(yīng)采用統(tǒng)一的格式和標(biāo)注規(guī)范,以支持不同系統(tǒng)間的交互和整合;
c)關(guān)系類型的定義。定義一套完整的關(guān)系類型體系,涵蓋常見的關(guān)系類型,同時(shí)支持自定義擴(kuò)展,
以應(yīng)對(duì)不同領(lǐng)域和應(yīng)用場景的需求;
d)上下文信息的利用。應(yīng)利用關(guān)系在上下文中的語境和邏輯,通過利用句法結(jié)構(gòu)、語義信息等,
提高關(guān)系抽取的準(zhǔn)確性和連貫性;
e)應(yīng)進(jìn)行關(guān)系分類器設(shè)計(jì)。構(gòu)建關(guān)系分類器,用于將抽取出的關(guān)系進(jìn)行進(jìn)一步分類和驗(yàn)證。應(yīng)關(guān)
注特征選擇、模型訓(xùn)練和評(píng)估等環(huán)節(jié),確保分類器的準(zhǔn)確性和泛化能力;
f)應(yīng)進(jìn)行可信度計(jì)算。對(duì)于抽取出的關(guān)系,應(yīng)引入可信度計(jì)算模型,評(píng)估關(guān)系的真實(shí)性和可靠性,
排除噪聲和錯(cuò)誤信息;
g)交叉驗(yàn)證和測試。利用交叉驗(yàn)證或者留出測試集的方式,對(duì)關(guān)系抽取系統(tǒng)進(jìn)行全面的性能評(píng)估,
包括精確率、召回率、F1值等指標(biāo)。
6.4知識(shí)表示
知識(shí)表示是指將自然語言中的信息、概念和關(guān)系以一種計(jì)算機(jī)可理解的形式進(jìn)行表達(dá)和存儲(chǔ)的過程。
在NLP任務(wù)中,知識(shí)表示起著至關(guān)重要的作用,它直接影響到文本理解、推理和應(yīng)用的效果。
知識(shí)表示階段的技術(shù)要求如下:
a)應(yīng)明確知識(shí)表示的結(jié)構(gòu)和形式。知識(shí)表示應(yīng)采用統(tǒng)一的格式和結(jié)構(gòu),如圖譜、知識(shí)庫、向量空
間模型等,以便于計(jì)算機(jī)進(jìn)行有效的理解和處理。應(yīng)采用語義網(wǎng)絡(luò)、本體、三元組等形式對(duì)知
識(shí)進(jìn)行表達(dá),以支持語義推理和信息檢索;
b)應(yīng)對(duì)多模態(tài)信息的整合。融合文本、圖像、語音等多模態(tài)信息,構(gòu)建跨模態(tài)的知識(shí)表示,以滿
足不同應(yīng)用場景下的需求。應(yīng)關(guān)注多模態(tài)信息之間的關(guān)聯(lián)和交互,提高知識(shí)表示的豐富度和復(fù)
雜性;
c)應(yīng)明確語義和關(guān)系的表達(dá)。確保知識(shí)表示能夠準(zhǔn)確表達(dá)實(shí)體之間的語義關(guān)系和屬性,包括同義
關(guān)系、層次關(guān)系、關(guān)聯(lián)關(guān)系等,以支持語義推理和信息抽?。?/p>
d)知識(shí)表示建模。應(yīng)利用自然語言處理技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行建模,形成結(jié)構(gòu)化的知識(shí)表示;
e)應(yīng)進(jìn)行知識(shí)的補(bǔ)充和更新。不斷更新和補(bǔ)充知識(shí)表示,及時(shí)引入新的知識(shí)和信息,確保知識(shí)表
示的時(shí)效性和全面性。結(jié)合領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn),對(duì)知識(shí)表示進(jìn)行修正和完善,提高知識(shí)表
示的準(zhǔn)確性和有效性;
f)確保對(duì)知識(shí)表示中出現(xiàn)的問題和異常進(jìn)行記錄和分析,及時(shí)糾正和改進(jìn)知識(shí)表示的方法和模型。
6.5實(shí)體鏈接
5
T/XXXX—XXXX
實(shí)體鏈接是自然語言處理中的一項(xiàng)任務(wù),旨在將文本中提及的實(shí)體鏈接到知識(shí)庫中相應(yīng)的實(shí)體。在
文本中,實(shí)體可以是具體的人、地點(diǎn)、組織、時(shí)間等事物的提及,而知識(shí)庫中存儲(chǔ)了這些實(shí)體的結(jié)構(gòu)化
信息,如實(shí)體的屬性、關(guān)系、分類等。實(shí)體鏈接的目標(biāo)是將文本中的實(shí)體與知識(shí)庫中的實(shí)體進(jìn)行對(duì)應(yīng),
從而豐富文本的語義表達(dá),幫助計(jì)算機(jī)理解和推理文本內(nèi)容。
實(shí)體鏈接的技術(shù)要求如下:
a)應(yīng)了解系統(tǒng)是否需要額外的上下文信息,如句子級(jí)別的上下文、語義信息等,以提高實(shí)體鏈
接的準(zhǔn)確性;
b)應(yīng)確定實(shí)體鏈接系統(tǒng)的輸出格式,如實(shí)體標(biāo)識(shí)符、實(shí)體類型、鏈接的知識(shí)庫實(shí)體等;
c)應(yīng)關(guān)注到對(duì)未鏈接實(shí)體進(jìn)行處理,系統(tǒng)對(duì)于無法鏈接的實(shí)體應(yīng)當(dāng)給出相應(yīng)的處理方式,如標(biāo)
記為未知實(shí)體、進(jìn)行后續(xù)人工處理等;
d)候選實(shí)體生成模塊應(yīng)確定實(shí)體鏈接系統(tǒng)如何生成候選實(shí)體集合,可以是基于文本上下文的實(shí)
體候選集合或者利用外部知識(shí)庫進(jìn)行實(shí)體匹配;
e)系統(tǒng)應(yīng)當(dāng)包括實(shí)體消歧模塊,用于在候選實(shí)體集合中識(shí)別出正確的鏈接實(shí)體,應(yīng)關(guān)注上下文
語境、實(shí)體描述信息等;
f)確保有合適的標(biāo)注數(shù)據(jù)集用于對(duì)實(shí)體鏈接系統(tǒng)進(jìn)行訓(xùn)練和評(píng)估。
g)確定實(shí)體鏈接系統(tǒng)的評(píng)估指標(biāo),如精確率、召回率、F1值等,以及如何計(jì)算這些指標(biāo)。
6.6知識(shí)存儲(chǔ)
知識(shí)存儲(chǔ)是支撐終身學(xué)習(xí)知識(shí)長久保存與維護(hù)的關(guān)鍵技術(shù)。知識(shí)圖譜是一種用于表示實(shí)體之間關(guān)系
的知識(shí)存儲(chǔ)結(jié)構(gòu),以三元組(subject,predicate,object)的形式來表示事實(shí)或關(guān)系,其中主語和賓
語表示實(shí)體,謂語表示它們之間的關(guān)系。知識(shí)圖譜中的實(shí)體和關(guān)系可以通過唯一的標(biāo)識(shí)符鏈接到外部的
知識(shí)庫或數(shù)據(jù)源,從而構(gòu)成了一個(gè)具有豐富語義信息的知識(shí)存儲(chǔ)結(jié)構(gòu)。
知識(shí)存儲(chǔ)的技術(shù)要求如下:
a)采用圖結(jié)構(gòu)和本體表示等合適的數(shù)據(jù)結(jié)構(gòu)和語義模型,以清晰地表達(dá)實(shí)體之間的關(guān)系和語義信
息;
b)應(yīng)滿足豐富的語義信息,如存儲(chǔ)實(shí)體的屬性、關(guān)系的類型、層次結(jié)構(gòu)等,提供清晰的語義表示,
以支持多樣化的知識(shí)圖譜任務(wù)需求;
c)應(yīng)支持多種查詢和推理操作。提供適當(dāng)?shù)腁PI或查詢接口,支持復(fù)雜的語義查詢和推理操作,
例如基于SPARQL的查詢語言;
d)結(jié)構(gòu)化數(shù)據(jù)。采用RDF或OWL等標(biāo)準(zhǔn)化格式,以便進(jìn)行統(tǒng)一的存儲(chǔ)和查詢。
e)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的準(zhǔn)確性。采用人工審核、自動(dòng)校對(duì)等手段,確保知識(shí)圖譜中的信息準(zhǔn)確無
誤;
f)應(yīng)考慮到知識(shí)存儲(chǔ)的完整性。通過與已知領(lǐng)域知識(shí)庫對(duì)比、自動(dòng)生成的知識(shí)驗(yàn)證等方式,評(píng)估
知識(shí)圖譜的信息完整性;
g)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的一致性。建立嚴(yán)格的邏輯規(guī)則和一致性檢查機(jī)制,確保知識(shí)圖譜中的信息
不會(huì)相互矛盾或沖突;
h)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的更新性。建立自動(dòng)化的更新機(jī)制,定期對(duì)知識(shí)圖譜進(jìn)行更新和維護(hù);
i)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的可信度。評(píng)估知識(shí)來源的可信度,并設(shè)立權(quán)威信息標(biāo)識(shí)機(jī)制,以提高知識(shí)
圖譜的可信度和權(quán)威性。
6.7知識(shí)更新
6
T/XXXX—XXXX
在終身學(xué)習(xí)過程中,海量的領(lǐng)域知識(shí)具有一定的時(shí)效性,因此知識(shí)的增量更新對(duì)終身學(xué)習(xí)知識(shí)圖譜
的構(gòu)建至關(guān)重要。知識(shí)更新是指不斷對(duì)知識(shí)庫、知識(shí)圖譜或其他知識(shí)存儲(chǔ)結(jié)構(gòu)中的信息進(jìn)行修訂、添加、
刪除或修改,以確保其中所包含的知識(shí)與最新的實(shí)際情況和領(lǐng)域知識(shí)相符。更新知識(shí)的目的是保持知識(shí)
庫的準(zhǔn)確性、完整性和時(shí)效性,以滿足學(xué)習(xí)者的終身學(xué)習(xí)需求并反映最新的知識(shí)和信息。
知識(shí)更新技術(shù)要求如下:
a)采用人工審核、自動(dòng)校對(duì)等手段,應(yīng)確保知識(shí)圖譜中的信息準(zhǔn)確無誤。人工審核可以通過專家
審查、領(lǐng)域知識(shí)驗(yàn)證等手段進(jìn)行,以確保添加到知識(shí)圖譜中的信息符合專業(yè)標(biāo)準(zhǔn)和事實(shí)真相。
自動(dòng)校對(duì)技術(shù)如數(shù)據(jù)一致性檢查、邏輯推理等,以發(fā)現(xiàn)潛在的錯(cuò)誤或沖突信息,并及時(shí)予以修
正。
b)評(píng)估知識(shí)圖譜的信息完整性,應(yīng)采用知識(shí)補(bǔ)全技術(shù),通過分析知識(shí)圖譜中的結(jié)構(gòu)和內(nèi)容,發(fā)現(xiàn)
缺失的實(shí)體、關(guān)系或?qū)傩?,并利用各種技術(shù)手段從外部文本、數(shù)據(jù)庫等來源中提取相關(guān)信息,
使知識(shí)圖譜更加完備和全面。
c)應(yīng)建立嚴(yán)格的邏輯規(guī)則和一致性檢查機(jī)制,定義實(shí)體之間的合法關(guān)系和屬性取值范圍,確保知
識(shí)圖譜在補(bǔ)全和更新中信息不會(huì)相互矛盾或沖突,保持?jǐn)?shù)據(jù)一致性。
d)應(yīng)建立自動(dòng)化的更新機(jī)制,定期對(duì)知識(shí)圖譜進(jìn)行更新和維護(hù)。通過自動(dòng)化更新技術(shù),以實(shí)現(xiàn)知
識(shí)的增量更新、錯(cuò)誤修正、新知識(shí)的添加等操作,保證知識(shí)圖譜與實(shí)際領(lǐng)域知識(shí)的同步。
e)評(píng)估知識(shí)來源的可信度,并設(shè)立權(quán)威信息標(biāo)識(shí)機(jī)制,標(biāo)記來源于可靠渠道和權(quán)威機(jī)構(gòu)的知識(shí)信
息,以提高知識(shí)圖譜的可信度和權(quán)威性。
7基本功能要求
面向終身學(xué)習(xí)的知識(shí)圖譜交互系統(tǒng)的基本功能如下:
a)應(yīng)支持知識(shí)圖譜的可視化展示;
b)應(yīng)支持對(duì)知識(shí)的管理功能,包括知識(shí)查詢、知識(shí)增添、知識(shí)更新、知識(shí)刪除等;
c)應(yīng)支持模型訓(xùn)練優(yōu)化,包括支持模型組合和調(diào)參,提高模型性能和泛化能力。在評(píng)測知識(shí)圖譜
模型時(shí),可以結(jié)合精確值(Precision)、召回值(Recall)和F1值來進(jìn)行綜合評(píng)估;
d)應(yīng)保證模型的可用性,即無論輸入什么樣的數(shù)據(jù),模型都能返回一個(gè)結(jié)果,供系統(tǒng)進(jìn)行決策處
理;
e)應(yīng)支持對(duì)機(jī)器學(xué)習(xí)服務(wù)模塊的管理,保證據(jù)傳輸過程安全、開發(fā)框架安全,支持權(quán)限管理和服
務(wù)接口規(guī)范制定等。
8基本非功能要求
8.1可擴(kuò)展性要求
8.1.1應(yīng)具備良好的可擴(kuò)展性,根據(jù)需求隨時(shí)進(jìn)行擴(kuò)展和收縮。
8.1.2應(yīng)支持橫向擴(kuò)展,用戶通過API可以直接接入。
8.2可靠性要求
8.2.1應(yīng)確保數(shù)據(jù)只能按約定好的行為進(jìn)行使用,避免數(shù)據(jù)濫用。
7
T/XXXX—XXXX
8.2.2應(yīng)具備在出現(xiàn)故障(比如服務(wù)器故障、硬盤故障、網(wǎng)絡(luò)故障、關(guān)機(jī)、重啟等)后系統(tǒng)進(jìn)行自動(dòng)容災(zāi)
恢復(fù)的能力,包括數(shù)據(jù)備份和恢復(fù)等。
8.3兼容性要求
8.3.1應(yīng)能在業(yè)界主流硬件上正常運(yùn)行。
8.3.2應(yīng)支持多數(shù)據(jù)源的批量數(shù)據(jù)導(dǎo)入與更新。
8.3.3應(yīng)兼容主流商業(yè)及開源社區(qū)版操作系統(tǒng)。
8.4性能要求
8.4.1應(yīng)支持通過集群化方案解決在線服務(wù)的負(fù)載均衡、故障轉(zhuǎn)移、動(dòng)態(tài)擴(kuò)縮容等問題。
8.4.2可支持億級(jí)或者以上規(guī)模數(shù)據(jù)的秒級(jí)查詢。
8.5易用性要求
8.5.1可提供API及算法封裝,如知識(shí)查詢、知識(shí)增添、知識(shí)更新、知識(shí)刪除等。
8.5.2應(yīng)提供應(yīng)用運(yùn)行時(shí)動(dòng)態(tài)修改配置的服務(wù),并提供圖形化的集中化管理界面。
8.5.3可支持?jǐn)?shù)據(jù)并行加載及增量加載。
8.6安全性要求
8.6.1應(yīng)支持將知識(shí)圖譜中數(shù)據(jù)的傳輸限制在特定授權(quán)實(shí)體間。
8.6.2應(yīng)確保知識(shí)圖譜數(shù)據(jù)的完整性和可用性。
8.6.3應(yīng)保證知識(shí)圖譜輸入數(shù)據(jù)及輸出返回結(jié)果的保密性和完整性,確保不被未授權(quán)用戶非法獲取。
8
團(tuán)體標(biāo)準(zhǔn)《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》
編制說明
一、工作簡況
一)項(xiàng)目背景
知識(shí)圖譜作為機(jī)器認(rèn)知智能實(shí)現(xiàn)的基礎(chǔ)之一,是人工智能的重要
組成部分,有助于實(shí)現(xiàn)知識(shí)的自動(dòng)化和智能化獲取、挖掘和應(yīng)用。知
識(shí)圖譜是以結(jié)構(gòu)化的形式描述客觀世界中的概念、實(shí)體及其關(guān)系的大
型知識(shí)網(wǎng)絡(luò),將信息表達(dá)成更接近人類認(rèn)知的形式,提供了一種更好
地組織、管理和理解海量信息的能力。在教育信息化的時(shí)代,將知識(shí)
圖譜運(yùn)用在教育領(lǐng)域顯得尤為重要。
2019年2月23日,中共中央國務(wù)院印發(fā)《中國教育現(xiàn)代化2035》,
提出了推進(jìn)教育現(xiàn)代化的八大基本理念:更加注重以德為先,更加注
重全面發(fā)展,更加注重面向人人,更加注重終身學(xué)習(xí),更加注重因材
施教,更加注重知行合一,更加注重融合發(fā)展,更加注重共建共享。
到2035年建成服務(wù)全民終身學(xué)習(xí)的現(xiàn)代教育體系、普及有質(zhì)量的學(xué)
前教育、實(shí)現(xiàn)優(yōu)質(zhì)均衡的義務(wù)教育、全面普及高中階段教育、職業(yè)教
育服務(wù)能力顯著提升、高等教育競爭力明顯提升、殘疾兒童少年享有
適合的教育、形成全社會(huì)共同參與的教育治理新格局。
2022年10月16日,習(xí)近平總書記在黨的二十大報(bào)告中提出,
推進(jìn)教育數(shù)字化,建設(shè)全民終身學(xué)習(xí)的學(xué)習(xí)型社會(huì)、學(xué)習(xí)型大國。終
身學(xué)習(xí)理念是指讓學(xué)習(xí)貫穿于人的一生,在更好適應(yīng)經(jīng)濟(jì)社會(huì)全面發(fā)
展的基礎(chǔ)上不斷學(xué)習(xí)。當(dāng)前,我國已經(jīng)構(gòu)建起完整的教育體系,包括
學(xué)前教育、義務(wù)教育、高中教育、高等教育、職業(yè)教育、繼續(xù)教育等,
對(duì)培養(yǎng)勞動(dòng)者的勞動(dòng)技能、全面素質(zhì)、終身學(xué)習(xí)習(xí)慣等,具有重要作
用。
2019年9月11日,中國電子技術(shù)標(biāo)準(zhǔn)化研究院正式發(fā)布了《知
識(shí)圖譜標(biāo)準(zhǔn)化白皮書》(2019版),根據(jù)當(dāng)前知識(shí)圖譜技術(shù)發(fā)展情況
及在多個(gè)領(lǐng)域的成功實(shí)踐,從哲學(xué)層面、政策層面、產(chǎn)業(yè)層面、行業(yè)
層面、技術(shù)層面、工具層面、支撐技術(shù)等多個(gè)層面對(duì)知識(shí)圖譜的實(shí)際
需求、關(guān)鍵技術(shù)、面臨的問題與挑戰(zhàn)、標(biāo)準(zhǔn)化需求、展望與建議等進(jìn)
行了梳理,涉及智慧金融、智慧醫(yī)療、智能制造、智慧教育、智慧政
務(wù)、智慧司法、智慧交通等十五個(gè)領(lǐng)域,并初步提出了知識(shí)圖譜技術(shù)
架構(gòu)和標(biāo)準(zhǔn)體系框架等,對(duì)未來知識(shí)圖譜在更多行業(yè)的推廣應(yīng)用及標(biāo)
準(zhǔn)研制提供支撐。
2021年12月10日,中國電子技術(shù)標(biāo)準(zhǔn)化研究院依托全國信標(biāo)
委人工智能分委會(huì)知識(shí)圖譜工作組聯(lián)合東軟集團(tuán)股份有限公司、北京
華宇元典信息服務(wù)有限公司、華為云計(jì)算技術(shù)有限公司、浙商銀行股
份有限公司等49家企事業(yè)單位、高校和研究院所共同編制《知識(shí)圖
譜選型與實(shí)施指南》(2021年版)。緊密圍繞知識(shí)圖譜應(yīng)用企業(yè)面臨
的概念模糊、基礎(chǔ)薄弱、需求不清、選型困難、評(píng)估缺失、管理困難
等問題,從知識(shí)圖譜應(yīng)用現(xiàn)狀與可能存在的挑戰(zhàn)、知識(shí)圖譜應(yīng)用系統(tǒng)
構(gòu)建、建設(shè)基礎(chǔ)能力評(píng)估、選型準(zhǔn)則與關(guān)鍵性能指標(biāo)、建設(shè)與管理過
程、建設(shè)服務(wù)方選擇等方面進(jìn)行了闡述。同時(shí),從國家支持、行業(yè)部
署、產(chǎn)學(xué)研協(xié)同等層面給出了建議,對(duì)未來知識(shí)圖譜的產(chǎn)業(yè)化、工程
化和標(biāo)準(zhǔn)化提供支撐。
目前,面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)存在如下問題:
1.數(shù)據(jù)質(zhì)量參差不齊。在數(shù)據(jù)采集、存儲(chǔ)、處理等環(huán)節(jié)存在不科
學(xué)、不規(guī)范等問題,導(dǎo)致錯(cuò)誤數(shù)據(jù)、異常數(shù)據(jù)、缺失數(shù)據(jù)等臟數(shù)據(jù),
由于知識(shí)圖譜構(gòu)建流程繁雜,數(shù)據(jù)存在準(zhǔn)確性和一致性問題。
2.知識(shí)抽取技術(shù)多樣。知識(shí)抽取包括實(shí)體抽取和關(guān)系抽取兩個(gè)子
任務(wù),現(xiàn)有的抽取技術(shù)路線繁多,但如何在深度學(xué)習(xí)時(shí)代與神經(jīng)網(wǎng)絡(luò)
模型優(yōu)勢相結(jié)合,有力拓展神經(jīng)網(wǎng)絡(luò)知識(shí)抽取模型的泛化能力,值得
更多深入探索。
3.多源異構(gòu)數(shù)據(jù)處理復(fù)雜。知識(shí)融合是解決異構(gòu)問題的主要途徑,
對(duì)多源知識(shí)庫中的實(shí)體進(jìn)行比較和關(guān)系匹配,并將知識(shí)進(jìn)行有機(jī)結(jié)合,
將異構(gòu)的知識(shí)進(jìn)行消歧、對(duì)齊、整合等。通過知識(shí)融合進(jìn)一步提高數(shù)
據(jù)間的結(jié)構(gòu)性,減少數(shù)據(jù)的冗余。
4.數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)多樣。評(píng)估時(shí)選擇的維度更多,就更能全面
地評(píng)價(jià)數(shù)據(jù)的質(zhì)量,然而太多的標(biāo)準(zhǔn)會(huì)給實(shí)際操作帶來困難,比如合
理性、適用性等維度無法通過計(jì)算來客觀分析,缺乏可操作性。因此
應(yīng)當(dāng)將評(píng)估手段或方法類似的維度進(jìn)行合并,在滿足要求的前提下,
盡可能地減少非必要的評(píng)估維度。
5.缺乏知識(shí)圖譜生命周期管理功能。伴隨著互聯(lián)網(wǎng)資源以及教學(xué)
知識(shí)的復(fù)雜多變,流程化構(gòu)建后的知識(shí)圖譜需要不斷更新知識(shí)體系。
完備的知識(shí)圖譜生命周期管理方法可以實(shí)現(xiàn)知識(shí)動(dòng)態(tài)補(bǔ)全以及關(guān)系
動(dòng)態(tài)補(bǔ)全操作,達(dá)到知識(shí)圖譜對(duì)實(shí)時(shí)性的要求。
二)任務(wù)來源
為規(guī)范面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)的實(shí)施,西安電子科技
大學(xué)牽頭發(fā)起了《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》團(tuán)體標(biāo)準(zhǔn),
并邀請(qǐng)湖南大學(xué)共同參與編制。
1.3、主要起草單位
本標(biāo)準(zhǔn)主要起草單位:西安電子科技大學(xué)、湖南大學(xué)。
1.4、主要工作過程
2023年11月6日,西安電子科技大學(xué)組織團(tuán)體標(biāo)準(zhǔn)委員會(huì)召開
會(huì)議,確定《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》提案和立項(xiàng)。
2023年11月7日,西安電子科技大學(xué)標(biāo)準(zhǔn)編制組成立。
2023年11月8日,編制組集中召開編制會(huì)議,討論確定標(biāo)準(zhǔn)總
體框架和內(nèi)容,分工開展編制初稿工作,每周進(jìn)行編制內(nèi)容討論。
2023年12月8日,標(biāo)準(zhǔn)編制組在西安電子科技大學(xué)網(wǎng)安大樓
A614室組織標(biāo)準(zhǔn)討論會(huì)。
2023年12月15日,標(biāo)準(zhǔn)編制組根據(jù)討論會(huì)修改意見完成標(biāo)準(zhǔn)
初稿編制,提交安徽省人工智能協(xié)會(huì),協(xié)會(huì)組織相關(guān)專家評(píng)審。
2024年1月10日,協(xié)會(huì)在西安電子科技大學(xué)網(wǎng)安大樓A614室
組織召開標(biāo)準(zhǔn)編制組第一次會(huì)議,按專家意見進(jìn)一步修改。
2024年1月26日,在西安電子科技大學(xué)網(wǎng)安大樓A614室召開
標(biāo)準(zhǔn)編制組第二次會(huì)議,對(duì)標(biāo)準(zhǔn)評(píng)審修改稿進(jìn)行再次討論修改,并形
成征求意見稿。
二、標(biāo)準(zhǔn)編制原則和主要內(nèi)容的論據(jù)及解決的主要問題
2.1、編制原則
a)全面性原則:本標(biāo)準(zhǔn)在編制過程中充分考慮了標(biāo)準(zhǔn)的全面性,
保證能夠覆蓋到面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)涉及的各個(gè)方面,
保證內(nèi)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 46385.2-2025光路板第2部分:基本試驗(yàn)和測量程序光學(xué)特性測量條件導(dǎo)則
- GB/T 46384.1-2025電子氣體中酸度的測定第1部分:傅里葉變換紅外光譜法
- GB/T 714-2025橋梁用結(jié)構(gòu)鋼
- GB/T 46803.2-2025信息技術(shù)基于極化碼的低功耗無線通信網(wǎng)絡(luò)第2部分:數(shù)據(jù)鏈路層
- 2026年浙江育英職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試題庫參考答案詳解
- 2026年貴州水利水電職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試題庫及答案詳解1套
- 2026年西安城市建設(shè)職業(yè)學(xué)院單招職業(yè)傾向性測試題庫及參考答案詳解一套
- 2026年汕頭職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案詳解1套
- 2026年甘肅畜牧工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫及參考答案詳解一套
- 2026年廈門安防科技職業(yè)學(xué)院單招綜合素質(zhì)考試題庫及完整答案詳解1套
- 2025天津大學(xué)管理崗位集中招聘15人筆試備考重點(diǎn)題庫及答案解析
- 2026年人教版(2024)初中美術(shù)七年級(jí)上冊期末綜合測試卷及答案(四套)
- 供應(yīng)飯菜應(yīng)急預(yù)案(3篇)
- 2026廣東東莞市公安局招聘普通聘員162人筆試考試參考試題及答案解析
- 《馬原》期末復(fù)習(xí)資料
- 管理信息系統(tǒng)(同濟(jì)大學(xué))知到智慧樹章節(jié)測試課后答案2024年秋同濟(jì)大學(xué)
- 甄嬛傳(滴血認(rèn)親臺(tái)詞1)
- 樓板鑿除重新澆筑方案
- 學(xué)校-全套安全隱患檢查記錄表(附依據(jù))
- 油層物理西安石油大學(xué)吐血整理
- 馬海濤中國稅制習(xí)題與答案
評(píng)論
0/150
提交評(píng)論