版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DB44DB44/T1888—2016標準文獻全文XML解析規(guī)范2016-09-08發(fā)布2017-01-01實施廣東省質(zhì)量技術(shù)監(jiān)督局發(fā)布 Ⅲ Ⅴ 1 1 1 2 3 7 14 28 31 33ⅠⅢV隨著網(wǎng)絡技術(shù)、計算機技術(shù)和信息技術(shù)的飛速發(fā)展,標準文獻的信息組織模式已從卡片式目錄手工檢索的模式轉(zhuǎn)換為數(shù)據(jù)庫存儲計算機檢索的模式,通過題錄加工和全文掃描,建立了題錄數(shù)據(jù)庫和全文數(shù)據(jù)庫,實現(xiàn)了題錄信息的計算機檢索和相關(guān)標準文本的自動鏈接,但是檢索結(jié)果往往是與目標信息相關(guān)的標準文獻,還需要進一步通過瀏覽文本獲取最終的目標信息,難以實現(xiàn)知識管理和知識發(fā)現(xiàn)。標準信息挖掘是通過數(shù)字化和結(jié)構(gòu)化的信息加工,實現(xiàn)多途徑和多維度的信息檢索,全方位和細粒度的信息抽取,如圖1所示。信息加工結(jié)構(gòu)化信息檢索標準信息挖掘信息抽取圖1標準信息挖掘針對采集的資源的格式不同,在綜合考慮加工時間、成本和效益的基礎(chǔ)上,建立標準文獻全文結(jié)構(gòu)化解析模型,提出了采用XML(即可擴展置標語言)描述的半結(jié)構(gòu)化和全結(jié)構(gòu)化兩種標準全文結(jié)構(gòu)化數(shù)據(jù)格式。1本標準規(guī)定了標準信息挖掘過程中的標準文獻全文結(jié)構(gòu)化解析模型,以及半結(jié)構(gòu)化和全結(jié)構(gòu)化標本標準適用于半結(jié)構(gòu)化和全結(jié)構(gòu)化標準文獻全文格式和存儲格式的定義,支持不同的數(shù)字化標準下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本GB2312-1980信息交換用漢字GB13000-2010信息技術(shù)通用多八位編碼GB/T18793-2002信息技術(shù)可擴展置標語言標準文獻經(jīng)過數(shù)字化、結(jié)構(gòu)化的信息加工,實現(xiàn)多途徑多維度的信息檢索,以及全方位和細粒度2標準通用置標語言(SGML)的子集,是一種用于標記電子文件使其具有結(jié)構(gòu)性的標記語言,它為描述和交換結(jié)構(gòu)化數(shù)據(jù)提供統(tǒng)一方法。3.5元素element在諸如HTML和SGML之類的標記語言中,一組標記、標記之間的內(nèi)容以及標記所含的所有屬性的組3.6只包含了標準全文部分的內(nèi)容和結(jié)構(gòu)信息的文檔,稱為半結(jié)構(gòu)化標準全文。3.7完全包含標準全文內(nèi)容和結(jié)構(gòu)信息的文檔,稱為全結(jié)構(gòu)化標準全文。4標準全文結(jié)構(gòu)化解析模型綜合考慮標準化對象、技術(shù)要素和標準文本三個方面,在內(nèi)容層面和展現(xiàn)層面建立了如圖2所示的標準全文結(jié)構(gòu)化解析模型。分類方法1分類方法1標準全文分類方法Schema文件分類方法3標準全文分類方法XML文件條文標準全文Schema文件標準全文XML文件公式分類方法2展現(xiàn)層面圖表圖1標準全文結(jié)構(gòu)化解析模型3標準的可選元素,以標準類型進行組織,(預留今后擴SpecialStandard的子節(jié)點,可為A3,...第一個標準類型的擴展元素第二個標準類型的擴展元素Text/Image/Table/Form4約束定義別名Section的子元素,可選Section的子元素,可選定義Section的子元素,可選b)元素的Id、名稱、是否必須著錄、是否多值等屬性應進行設(shè)定,這些設(shè)置決定結(jié)構(gòu)化標準全層次結(jié)構(gòu)NormalStandardSpecialStand名稱類型使用默認固定注解5.2.2元素StructTextDocu層次結(jié)構(gòu)5層次結(jié)構(gòu)名稱類型使用默認固定注解層次結(jié)構(gòu)NameOther-NamesTagDefineNelementsNormalStandardS6使用固定注解層次結(jié)構(gòu)目類型父元素5.2.6元素StructTextDocument/NormaIStandard/Section/Other-Names層次結(jié)構(gòu)父元素5.2.7元素StructTextDocument/NormaIStandard/Section/Tag7層次結(jié)構(gòu)類型5.2.9元素StructTextDocume層次結(jié)構(gòu)目類型5.2.10元素StructTextDocument/NormalStandard/Section/Other-Names/Alias層次結(jié)構(gòu)約束定義半結(jié)構(gòu)化標準文獻XML文件的根節(jié)點8約束定義條文信息用于描述元素中的圖片信息圖片所在頁數(shù)圖片路徑,一般僅著錄文件名用于描述元素中的表格信息表格圖片路徑,一般僅著錄文件名用于描述元素中的公式信息公式所在頁數(shù)公式圖片路徑,一般僅著錄文件名Image,Table,Formula的子元素Image,Formula的子元素圖片和公式的說明信息層次結(jié)構(gòu)使用<xs:elementref="Section”maxOccurs=<xs:attributename="std_no"type="xs:string"use<xs:attributename="name"type="xs:string"use9層次結(jié)構(gòu)使用默認固定注解<xs:elementref="Image”maxOccurs=<xs:elementref="Table"max0<xs:elementref="Formula”maxOccurs=<xs:attributename="id"type="xs:string"use<xs:attributename="name"type="xs:string"use<xs:attributename="t<xs:restrictionbase<xs:enumerationvalu層次結(jié)構(gòu)曰attributes使用默認固定注解<xs:attributename="page"type="xs:string"use層次結(jié)構(gòu)名稱類型使用默認固定注解pathxs:stringrequi<xs:elementref="Title"type=<xs:elementref="Desc<xs:attributename=“path”type="xs:string"use<xs:attributename=“page”type=<s:attributename="1eft<xs:attributename="top”type=<xs:attributename="right"type=<xs:attributename="bottom層次結(jié)構(gòu)使用<xs:elementref="Title"type=<xs:elementref="Content"type=<xs:attributename=“page”type="xs:stri<xs:attributename="path"type=”xs:stri<xs:attributename="left"type=<xs:attributename="top<xs:attributename="right<xs:attributename="bottom"type=層次結(jié)構(gòu)<xs:elementref="Title"type="xs:<xs:elementref="Desc"type="<xs:attributename="path"type="xs:string"use="re<xs:attributename="page"type="xs:string"use="re<xs:attributename="left"type="xs:<xs:attributename="top"type="xs:<xs:attributename="right"type="xs:<xs:attributename="bottom"type="xs:6.2.7元素Standard/Sectio<xs:elementname="Content"type="xs:6.2.8元素Standard/Section/Formula/Title類型<xs:elementname="Titl類型<xs:elementname="Des7.1.4文檔元素的屬性、約束與頁面元素的關(guān)系見表3。123415617819圖表注條1圖表注圖注11a圖表注層次結(jié)構(gòu)范圍封面目次前言引言范圍引用文件正文條款附錄參名稱類型LanguageXS:languaUpdatetimeXS:datetTiUpdateuserXS:string<xs:elementname="文檔"><xs:documentation>Commentdescribingyourrootelement</xs:d<xs:elementname=“目次”mi<xs:elementname=“引言”mi<xs:elementname="范圍"/><xs:elementname="引用文件”minOccurs="0"/><xs:elementname="正文條款”maxOccurs="unbounded"/><xs:elementname="附錄"minOccurs="0"maxOccurs="unbounded"/><xs:elementname=“參考文獻”minOccurs="0”/><xs:elementname="索引”minOccurs="0"maxOccurs="unbounded"/><xs:elementname="修改單”minOccurs="0"maxOccurs="unbounded"/><xs:attributename="ID"type="xs:ID"use<xs:attributename="language"type=”xs:langua<xs:attributename="updatetime"type="xs:dateTime"use<xs:attributename="updateuser"type="xs:string"use7.2.2元素封面層次結(jié)構(gòu)性質(zhì)被替代標準號三注備案號 中文名稱英文名稱標準號被替代標準號采用名稱類型可用性性質(zhì)XS:documentElementAttribute<xs:elementname="封面"><xs:elementref="中文名稱"minOccurs="0"/><xs:elementref=“英文名稱”minOccurs="0”/><xs:elementref=“標準號”/><xs:elementref="被替代標準號"minOccurs="0"/><xs:elementref="采用標準號”minOccurs="0"/><xs:elementref=”備案號”minOccurs="0"/><xs:elementref=“發(fā)布日期”/><xs:elementref=”實施日期”minOccurs="0"/><xs:elementref=“發(fā)布組織”minOccurs="0”/><xs:attributeref=“性質(zhì)”default="資料性概述”/>7.2.3元素目次性質(zhì)性質(zhì)XS:documentElementAttribute<xs:elementname="目次"minOccurs="0"><xs:elementref=“條文”/><xs:attributeref=”性質(zhì)”/>7.2.4元素前言性質(zhì)性質(zhì)XS:documentElementAttribute<xs:elementname="前言"><xs:elementref="條文"/><xs:attributeref=“性質(zhì)”/>7.2.5元素引言層次結(jié)構(gòu)引言白性質(zhì)圖表0..0性質(zhì)XS:DocumentElementAttribute<xs:elementname="引言"m<xs:elementref="條文"maxOccurs=<xs:elementref="圖”minOccurs="0"maxOccurs=<xs:elementref="表”minOccurs="0"maxOccurs=<xs:elementref=“注”minOccurs="0"maxOccurs="unbounded"/><xs:attributeref=“性質(zhì)”default="資料性概述”/>7.2.6元素范圍層次結(jié)構(gòu)性質(zhì)性質(zhì)XS:DocumentElementAttribute<xs:elementname="范圍"><xs:elementref=“條文”/><xs:attributeref=“性質(zhì)”fi7.2.7元素引用文件性質(zhì)性質(zhì)XS:DocumentElementAttribute<xs:elementname=“引用文件”min0ccurs="0"><xs:elementref=“條文”/><xs:attributeref=”性質(zhì)”default=”規(guī)范性一般”/>7.2.8元素正文條款性質(zhì)土性質(zhì)XS:DocumentEleme<xs:elementname="正文條款"maxOccurs="unbounded"><xs:elementref=“條文”maxOccurs="unbounded”/><xs:elementref="圖"minOccurs="0"maxOccurs="unbounded"/><xs:elementref="表”minOccurs="0"maxOccurs="unbounded"/><xs:elementref="注”minOccurs="0"maxOccurs="unbounded"/><xs:attributeref="性質(zhì)”default="規(guī)范性技術(shù)"/>7.2.9元素附錄層次結(jié)構(gòu),性質(zhì)圖表名稱類型可用性性質(zhì)XS:DocumentElementAttribute<xs:elementname="附錄"minOccurs="0"maxOccurs="unbounded"><xs:elementref="條文”minOccurs="0"maxOccurs=<xs:elementref="圖”minOccurs="0"maxOccurs=<xs:elementref="表”minOccurs="0"maxOccurs=<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"/><xs:attributeref=“性質(zhì)”/>7.2.10元素參考文獻層次結(jié)構(gòu)性質(zhì)性質(zhì)XS:DocumentElementAttribute<xs:elementname=“參考文獻”m<xs:elementref=“條文”/><xs:attributeref=”性質(zhì)”default=“資料性補充”/>7.2.11元素索引層次結(jié)構(gòu)性質(zhì)索引性質(zhì)XS:DocumentElementAttribute<xs:elementname=”索引”minOccurs="0"maxOccurs="unbounded"><xs:elementref="條文”maxOccurs="unbounded"/><xs:attributeref=“性質(zhì)”/>7.2.12元素修改單層次結(jié)構(gòu)性質(zhì)圖表注性質(zhì)XS:DocumentEleme<xs:elementname="修改單”minOccurs="0"maxOccurs<xs:elementref="條文”maxOccurs="unbounded"/><xs:elementref="圖"minOccurs="0"maxOccurs="unbounded"/><xs:elementref="表”minOccurs="0"maxOccurs=<xs:elementref="注”minOccurs="0"maxOccurs=<xs:attributeref=“性質(zhì)”/>層次結(jié)構(gòu) 巨名稱類型可用性<xs:elementname="圖"><xs:elementname="titl<xs:elementname="descriptio<xs:attributename="foreword<xs:attributename="page"type="xs:str<xs:attributename="path"type="xs:str層次結(jié)構(gòu) TitleDescriptionConte名稱類型可用性<xs:elementname="表"><xs:elementname="titl<xs:elementname="conten<xs:elementname="descriptio<xs:attributename="foreword<xs:attributename="page"type="xs:str<xs:attributename="path"type="xs:str層次結(jié)構(gòu)曰曰attributes注,條文條文BeNotedID名稱類型可用性<xs:elementname="注"><xs:elementref=“條文”/><xs:elementname="beNotedI<xs:attributename="noteTag"type="xs:boolean"use="opt7.2.16元素條文層次結(jié)構(gòu)E<xs:elementname="條文"><xs:elementname="title"type="xs:string"mi<xs:elementname="Content"type="xs:string"mi<xs:attributename="ID"t<xs:attributename="forewordI<xs:attributename="page"type="xs:string"use<xs:schemaxmlns:xs="/2001/XMLSchema"elementFormDefault="qualifi<xs:elementname="Alias"type="xs:strin<xs:elementname="Define"type="xs:stri<xs:elementname="Name"type="xs:string<xs:elementname="NormalStanda<xs:elementref="Section"maxOccurs="unbounde<xs:elementname="Note"type="xs:string<xs:elementname="Other-Nam<xs:elementref="Alias"maxOccurs="unbounde<xs:elementname="Sectio<xs:elementref="Nam<xs:elementref="Other-Names"minOccurs="<xs:elementref="Tag"minOccurs=<xs:elementref="Define"minOccurs="0<xs:elementref="Note"minOccurs=<xs:attributename="id"type="xs:string"use="require<xs:attributename="necessary"default="Fa<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tru<xs:enumerationvalue="Fal<xs:attributename="section-type"default="T<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tex<xs:enumerationvalue="Image<xs:enumerationvalue="Table<xs:enumerationvalue="Formul<xs:attributename="multi-value"default="Fal<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tru<xs:enumerationvalue="Fals<xs:attributename="sub-sect<xs:restrictionbase="xs:stri<xs:enumerationvalue="Image<xs:enumerationvalue="Tabl<xs:enumerationvalue="Formu<xs:elementname="SpecialStanda<xs:elementref="Section"maxOccurs="unbounde<xs:attributename="std-type"type="xs:string"use="requi<xs:elementname="StructTextDocum<xs:elementref="NormalStandard<xs:elementref="SpecialStandard"minOccurs="0"maxOccurs="unbounded"<xs:attributename="updatetime"type="xs:str<xs:attributename="updateuser"type="xs:strin<xs:elementname="Tag"type="xs:string<?xmlversion="1.0"encoding="UTF-8"standalone="y<xs:schemaxmlns:xs="/2001/XMLSchema"elementFormDefault="qualifi<xs:elementname="Content"type="xs:strin<xs:elementname="Desc"type="xs:strin<xs:elementname="Title"type="xs:strin<xs:elementname="Form<xs:elementref="Title<xs:elementref="Des<xs:attributename="path"type="xs:string"use="required<xs:attributename="page"type="xs:string"use="required<xs:elementname="Ima<xs:elementref="Title<xs:elementref="Des<xs:attributename="path"type="xs:string"use="required<xs:attributename="page"type="xs:strin<xs:elementname="Sectio<xs:complexTypemixed="tr<xs:elementref="Text<xs:elementref="Image"maxOccurs="unbound<xs:elementref="Table"maxOccurs="unbounde<xs:elementref="Formula"maxOccurs="unbounde<xs:attributename="id"type="xs:string"use="require<xs:attributename="name"type="xs:string"use="required<xs:attributename="type"use="require<xs:restrictionbase="xs:stri<xs:enumerationvalue="Tex<xs:enumerationvalue="Imag<xs:enumerationvalue="Ta<xs:enumerationvalue="Formu<xs:elementname="Standa<xs:elementref="Section"maxOccurs="unbounde<xs:attributename="std_no"type="xs:string"use="requi<xs:attributename="name"type="xs:string"use="required<xs:elementname="Tabl<xs:elementref="Title<xs:elementref="Content<xs:attributename="page"type="xs:string"use="require<xs:elementname="Tex<xs:complexTypemixed="tr<xs:attributename="page"type="xs:string"use="require<?xmlversion="1.0"encoding="utf-<!--editedwithXMLSpyv2009()byAlbert(EMBRACE)-<xs:schemaxmlns:xs="/2001/XMLSchema"elementFormDefault="qualifieattributeFormDefault="unqualified"><xs:elementname="文<xs:documentation>Commentdescribingyourrootelement</xs:documentati<xs:elementref="中文名稱"minOccurs="0<xs:elementref="英文名稱"minOccurs="0<xs:elementref="標準號<xs:elementref="被替代標準號"minOccurs="0<xs:elementref="采用標準號"minOccurs="0"<xs:elementref="ics"minOccurs="<xs:elementref="ccs"minOccurs="0<xs:elementref="備案號"minOccurs="0<xs:elementref="發(fā)布日期"<xs:elementref="實施日期"minOccurs="0<xs:elementref="發(fā)布組織"minOccurs="0<xs:attributeref="性質(zhì)"default="資料性概述"<xs:elementname="目次"minOccurs<xs:elementref="條文"<xs:attributeref="性質(zhì)"<xs:elementref="條文"maxOccurs="unbounded"<xs:attributeref="性質(zhì)"<xs:elementname="引言"minOccurs<xs:elementref="條文"maxOccurs="unbounded"<xs:elementref="圖"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性質(zhì)"default="資料性概述"<xs:elementref="條文"maxOccurs="unbounded"<xs:attributeref="性質(zhì)"fixed="規(guī)范性一般"<xs:elementname="引用文件"minOccurs=<xs:elementref="條文"<xs:attributeref="性質(zhì)"default="規(guī)范性一般"<xs:elementname="正文條款"maxOccurs="unbound<xs:elementref="條文"maxOccurs="unbounded"<xs:elementref="圖"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性質(zhì)"default="規(guī)范性技術(shù)"<xs:elementname="附錄"minOccurs="0"maxOccurs="unbounde<xs:elementref="條文"minOccurs="0"maxOccurs="unbounded"<xs:elementref="圖"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性質(zhì)"<xs:elementname="參考文獻"minOccurs=<xs:elementref="條文"<xs:attributeref="性質(zhì)"default="資料性補充"<xs:elementname="索引"minOccurs="0"maxOccurs="unbounde<xs:elementref="條文"maxOccurs="unbounded"<xs:attributeref="性質(zhì)"<xs:elementname="修改單"minOccurs="0"maxOccurs="unbounde<xs:elementref="條文"maxOccurs="unbounded"<xs:elementref="圖"minOccurs="0"maxOccurs="unbounded"<xs:elementref="表"minOccurs="0"maxOccurs="unbounded"<xs:elementref="注"minOccurs="0"maxOccurs="unbounded"<xs:attributeref="性質(zhì)"<xs:attributename="id"type="xs:ID"use="required"/><xs:attributename="language"type="xs:language"use="required"<xs:attributename="updatetime"type="xs:dateTime"use="optional"<xs:attributename="updateuser"type="xs:string"use="optional"<xs:elementname="title"type="xs:strin<xs:elementname="content"type="xs:strin<xs:elementname="description"type
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年翠屏區(qū)敘戎社會工作服務中心招聘工作人員大??蛇M五險一金備考題庫及一套答案詳解
- 2026年黔西市水西中學招聘各學科教師備考題庫及參考答案詳解1套
- 2026年西華大學美術(shù)與設(shè)計學院碩士教師招聘備考題庫及答案詳解1套
- 2026年月份編外招聘備考題庫及一套答案詳解
- 塔里木大學2026專任教師公開招聘備考題庫及完整答案詳解一套
- 中學學生社團活動檔案管理制度
- 2026年玉環(huán)市流動人口服務中心招聘流動人口專管員備考題庫及完整答案詳解1套
- 2026年英德市浛洸醫(yī)院(英德市醫(yī)療衛(wèi)生共同體浛洸分院)合同聘用制人員招聘備考題庫及1套參考答案詳解
- 中誠建川(涼山)電力有限公司公開招聘20名工作人員備考題庫及答案詳解1套
- 養(yǎng)老院老人康復設(shè)施維修人員晉升制度
- 重慶市渝中區(qū)(2025年)輔警協(xié)警筆試筆試真題(附答案)
- 暴雪車輛行駛安全培訓課件
- 2026年七臺河職業(yè)學院單招綜合素質(zhì)筆試模擬試題帶答案解析
- 2026年吉林司法警官職業(yè)學院單招職業(yè)技能考試備考試題帶答案解析
- 房地產(chǎn)樓盤介紹
- 2025內(nèi)蒙古潤蒙能源有限公司招聘22人考試題庫附答案解析(奪冠)
- 2026年國家電網(wǎng)招聘之電網(wǎng)計算機考試題庫500道有答案
- (2025年)遼寧省葫蘆島市輔警招聘警務輔助人員考試題庫真題試卷公安基礎(chǔ)知識及答案
- 年味課件教學課件
- 鋼結(jié)構(gòu)施工組織方案大全
- 江蘇省徐州市2025-2026學年高二上學期期中考試信息技術(shù)試卷(含答案)
評論
0/150
提交評論