T-CAPT 010-2024 新聞行業(yè) 大規(guī)模預(yù)訓練模型語言模型實.用性要求

上傳人：饅*** IP屬地：河北上傳時間：2025-03-18 格式：DOCX 頁數(shù)：33 大?。?0.04KB 積分：15 舉報 版權(quán)申訴

T-CAPT 010-2024 新聞行業(yè) 大規(guī)模預(yù)訓練模型語言模型實.用性要求_第2頁

T-CAPT 010-2024 新聞行業(yè) 大規(guī)模預(yù)訓練模型語言模型實.用性要求_第3頁

T-CAPT 010-2024 新聞行業(yè) 大規(guī)模預(yù)訓練模型語言模型實.用性要求_第4頁

T-CAPT 010-2024 新聞行業(yè) 大規(guī)模預(yù)訓練模型語言模型實.用性要求_第5頁

已閱讀5頁，還剩28頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

ICS35.240CCSL67CAPTRequirementsforpracticaloflarge-scalepre-trainedlanguagemodelsinnewsIT/CAPT010—2024 2規(guī)范性引用文件 3術(shù)語和定義 4使用場景要求 4.1概述 4.2媒體文本創(chuàng)作 4.3媒體文本編輯 34.4媒體文本理解 64.5媒體數(shù)據(jù)增強 75效果要求 5.1專業(yè)性要求 5.2可靠性要求 5.3適用性要求 6產(chǎn)品化要求 6.1模型部署的要求 6.2模型數(shù)據(jù)庫的要求 6.3模型界面的要求 6.4模型產(chǎn)品的數(shù)據(jù)保護和隱私保護要求 6.5模型的性能和效率要求 6.6模型的可擴展性和可維護性要求 T/CAPT010—2024本文件按照GB/T1.1—2020《標準化工作導則第1部分：標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任。本文件由中國新聞技術(shù)工作者聯(lián)合會新聞信息標準化分會秘書處和新華通訊社通信技術(shù)局聯(lián)合提本文件由中國新聞技術(shù)工作者聯(lián)合會歸口。本文件起草單位：新華通訊社通信技術(shù)局、新華社媒體融合生產(chǎn)技術(shù)與系統(tǒng)國家重點實驗室（新華融合媒體科技發(fā)展（北京）有限公司）、上海算法創(chuàng)新研究院、傳播大腦科技（浙江）股份有限公司、上海交通大學媒傳學院、北京北大方正電子有限公司、大眾報業(yè)集團（大眾日報社）、海南廣播電視總臺、北京中科聞歌科技股份有限公司、中國互聯(lián)網(wǎng)新聞中心、北京智途云天科技有限公司、中聯(lián)超清（北京）科技有限公司、中國傳媒大學、深圳市創(chuàng)意智慧港科技有限責任公司（深圳報業(yè)集團技術(shù)公司）、福建理工大學。本文件主要起草人：路海燕、王仲豪、鄧海瀅、余鈺、唐波、劉麗芳、張健、陳夢、劉可、鄭偉、賈艾婧、湯代祿、張震、李夢瑤、彭佳柱、王一剛、王建平、丁峰、羅毅、林波、成鵬、王峰、王付生、王熠、熊立波、王慕維、孫心桐、王宇琦、劉瓊、張鵬洲、曹娟、鄭創(chuàng)偉、瞿曦、黃菁、孫天一、付蓉、王志民。T/CAPT010—2024《新聞行業(yè)大規(guī)模預(yù)訓練模型》系列標準由語言模型實用性要求、語言模型評測要求、語言模型安全性要求和研發(fā)數(shù)據(jù)要求、多模態(tài)要求5部分組成。分別從實用性、評測、安全性、研發(fā)數(shù)據(jù)和多模態(tài)等多個角度出發(fā)，構(gòu)建了一個完整的標準體系，確保大規(guī)模預(yù)訓練模型在新聞行業(yè)中的有效、安全和規(guī)范使用。旨在為新聞領(lǐng)域大規(guī)模預(yù)訓練模型的研發(fā)、應(yīng)用和評估提供全面而系統(tǒng)的指導?！缎侣勑袠I(yè)大規(guī)模預(yù)訓練模型語言模型實用性要求》明確了預(yù)訓練語言模型在完成新聞任務(wù)時的使用場景要求、效果要求以及產(chǎn)品化要求。該標準為模型的實際應(yīng)用提供了具體指導，確保模型在真實新聞生產(chǎn)過程中具備足夠的實用性和效果。《新聞行業(yè)大規(guī)模預(yù)訓練模型語言模型評測要求》為評估這些預(yù)訓練語言模型提供了詳盡的方法和指標。該標準規(guī)定了新聞行業(yè)預(yù)訓練語言模型的評測指標和評測方法要求，并給出了具體的評測示例，以確保評測過程的科學性和規(guī)范性?！缎侣勑袠I(yè)大規(guī)模預(yù)訓練模型語言模型安全性要求》詳細規(guī)定了在內(nèi)容、數(shù)據(jù)、合規(guī)和技術(shù)等環(huán)節(jié)中所涉及的安全性要求。該標準旨在保障預(yù)訓練模型在新聞領(lǐng)域的應(yīng)用中，能夠遵守相關(guān)法律法規(guī)，確保數(shù)據(jù)安全、內(nèi)容合規(guī)?！缎侣勑袠I(yè)大規(guī)模預(yù)訓練模型研發(fā)數(shù)據(jù)要求》針對用于訓練、微調(diào)和評估預(yù)訓練模型的所有數(shù)據(jù)，提出了技術(shù)要求。該標準確保了在預(yù)訓練模型研發(fā)過程中，數(shù)據(jù)的質(zhì)量和規(guī)范性，從而提升模型的性能和可靠性?！缎侣勑袠I(yè)大規(guī)模預(yù)訓練模型多模態(tài)要求》規(guī)定了預(yù)訓練模型在研發(fā)、應(yīng)用、評測和安全性等方面的要求，特別是在處理多模態(tài)數(shù)據(jù)時的技術(shù)標準。該標準的制定，進一步拓展了預(yù)訓練模型的應(yīng)用范圍，使其在多模態(tài)新聞內(nèi)容生成和處理方面也能高效、可靠地發(fā)揮作用。5個標準的緊密銜接和相互配合，為新聞行業(yè)的大規(guī)模預(yù)訓練模型構(gòu)建了一個全面而系統(tǒng)的框架，為新聞領(lǐng)域大規(guī)模預(yù)訓練模型的開發(fā)和應(yīng)用提供了堅實的基礎(chǔ)和有力的保障。1T/CAPT010—2024新聞行業(yè)大規(guī)模預(yù)訓練模型語言模型實用性要求本文件規(guī)定了新聞行業(yè)中大規(guī)模預(yù)訓練模型的語言模型實用性要求。本文件適用于開發(fā)人員、使用人員、監(jiān)管人員進行大規(guī)模預(yù)訓練模型語言模型在新聞媒體行業(yè)中的實用性分析。本文件的使用對象包括報刊、廣播、電視、通訊社、新聞網(wǎng)站、自媒體等新聞媒體內(nèi)容提供商及媒體應(yīng)用與研究機構(gòu)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日期的引用文件，僅該日期對應(yīng)的版本適用于本文件；不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。GB/T7714信息與文獻參考文獻著錄規(guī)則GB/T20093中文新聞信息分類與代碼3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1大規(guī)模預(yù)訓練語言模型large-scalepre-trainedlanguagemodels一種通過在海量文本數(shù)據(jù)上進行預(yù)訓練而構(gòu)建的自然語言處理模型，通?；谏疃葘W習框架，通過自監(jiān)督學習從無標注的數(shù)據(jù)中學習語法、語言和知識等，可通過零樣本（zero-shot）方式進行交互、并可以通過微調(diào)（finetune）進行特定任務(wù)加強。3.2大規(guī)模預(yù)訓練模型large-scalepre-trainedmodel一種具有大規(guī)模參數(shù)和復(fù)雜計算結(jié)構(gòu)的超大型機器學習模型（一般超過10億個參數(shù)通常由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建，對海量數(shù)據(jù)進行預(yù)訓練處理。3.3指令/提示詞prompt給預(yù)訓練模型提示輸入模型的參數(shù)信息，描述問題需求類型，幫助模型更好地理解輸入的意圖，并作出相應(yīng)的響應(yīng)。4使用場景要求4.1概述新聞行業(yè)中大規(guī)模預(yù)訓練模型的語言模型實用性要求的使用場景根據(jù)新聞業(yè)務(wù)場景進行設(shè)計，分為媒體文本創(chuàng)作、媒體文本編輯、媒體文本理解、媒體數(shù)據(jù)增強四個類別進行要求。4.2媒體文本創(chuàng)作4.2.1經(jīng)典新聞創(chuàng)作類新聞行業(yè)大規(guī)模預(yù)訓練語言模型應(yīng)當能夠適應(yīng)并處理多種類型的經(jīng)典新聞創(chuàng)作任務(wù)。這些任務(wù)包括但不限于簡訊、消息、通訊、特寫、專訪、公文公報、社論、評論員文章、專欄評論、短評和述評。模型需要具備生成不同類型新聞文本的能力，具體要求應(yīng)符合表1的規(guī)定。2T/CAPT010—2024表1經(jīng)典新聞創(chuàng)作類的不同文體類型要求指令：規(guī)定任務(wù)長度、時效性、語言風格、核要求：生成通過標題、導語、主體三層報道事情概貌的消息，500～800結(jié)果：內(nèi)容真實，全面準確，具備完整的標題要求：生成運用敘述、描寫、抒情、議論等手法反映新指令：規(guī)定核心主題、新聞要素、語言風格，并要求：生成政策文章、領(lǐng)導人講話稿、公報等指令：規(guī)定核心主題、寫作主體、格式、語指令：規(guī)定核心主題、篇幅、核心觀點、語指令：規(guī)定核心主題、觀點立場、語言風格4.2.2新媒體創(chuàng)作類本章節(jié)規(guī)定了新聞行業(yè)大規(guī)模預(yù)訓練語言模型在新媒體創(chuàng)作類應(yīng)用中的算法能力要求。新媒體創(chuàng)作不僅要求內(nèi)容的及時性和準確性，還需注重內(nèi)容的創(chuàng)新性和互動性，以滿足多樣化的用戶需求和不斷變化的媒體環(huán)境。模型對于新媒體創(chuàng)作類任務(wù)的具體要求應(yīng)符合表2的規(guī)定。表2新媒體創(chuàng)作類的不同類型要求腳本應(yīng)緊湊有趣，適合短時間內(nèi)傳達信息。需具備簡潔的場景文案應(yīng)實時反映直播內(nèi)容，具備互動性，能夠引導觀眾生成內(nèi)容應(yīng)圖文結(jié)合，直觀易懂。需具備簡潔的文字描3T/CAPT010—2024表2新媒體創(chuàng)作類的不同類型要求（續(xù)）文案應(yīng)富有創(chuàng)意，具備互動性。需具備吸引眼球的標題4.3媒體文本編輯4.3.1新聞翻譯新聞翻譯功能要求新聞翻譯功能要求包括：a)多語言處理能力，模型需要支持多種語言的翻譯，包括主流語言和小語種，以滿足全球范圍內(nèi)的新聞翻譯需求。模型應(yīng)能夠處理不同語言之間的語法、詞匯和語義差異，確保翻譯的準確性和流暢性；b)模態(tài)翻譯技術(shù)，能夠處理圖像、音頻轉(zhuǎn)文本后再翻譯，或者直接處理帶有圖像信息的圖文混排新聞內(nèi)容；c)領(lǐng)域適應(yīng)性，新聞翻譯涉及多個領(lǐng)域，如政治、經(jīng)濟、科技、體育等，模型需要具備跨領(lǐng)域的翻譯能力。通過引入領(lǐng)域特定的語料庫和知識庫，模型可以更好地理解和翻譯特定領(lǐng)域的術(shù)語和概念；d)上下文感知能力，新聞文本通常具有復(fù)雜的上下文關(guān)系，模型需要能夠理解和捕捉這些關(guān)系，以進行準確的翻譯。通過引入注意力機制、記憶網(wǎng)絡(luò)等技術(shù)，模型可以更好地利用上下文信息進行翻譯；e)實時性與效率，新聞翻譯通常需要實時進行，模型需要具備高效的處理速度和低延遲。通過優(yōu)化模型結(jié)構(gòu)和算法，以及利用并行計算和分布式處理等技術(shù)，可以提高模型的翻譯速度和效率；f)數(shù)據(jù)驅(qū)動與可訓練性，模型的設(shè)計應(yīng)便于利用大量新聞翻譯數(shù)據(jù)進行訓練和優(yōu)化，以提高翻譯性能。采用合適的模型架構(gòu)和學習算法，確保模型能夠從數(shù)據(jù)中學習到有效的翻譯規(guī)則和模式；g)可解釋性與可控性，為了增強用戶對翻譯結(jié)果的信任度，模型應(yīng)具備一定程度的可解釋性，能夠解釋翻譯決策的依據(jù)。通過引入可視化工具、解釋性算法等技術(shù)，可以幫助用戶更好地理解模型的翻譯過程；h)魯棒性與穩(wěn)定性，新聞文本中可能包含噪聲、錯別字、不規(guī)范表達等，模型需要具備一定的魯棒性，能夠檢測并修正翻譯過程中可能出現(xiàn)的錯誤，如語法錯誤、拼寫錯誤等；i)自適應(yīng)學習與優(yōu)化，模型應(yīng)能持續(xù)從用戶反饋和新數(shù)據(jù)中學習，不斷優(yōu)化翻譯效果，提供友好的用戶界面，允許用戶對翻譯進行反饋和校正，以便模型能夠根據(jù)用戶的需求進行調(diào)整。新聞翻譯結(jié)果的要求新聞翻譯結(jié)果的要求包括：a)翻譯準確性：文本內(nèi)容忠實度，模型應(yīng)確保翻譯后的新聞內(nèi)容準確反映原文含義，不遺漏重要信息，不產(chǎn)生誤導性內(nèi)容；專業(yè)術(shù)語翻譯，針對新聞報道中的特定領(lǐng)域術(shù)語和專有名詞，模型應(yīng)具備準確識別與翻譯的能力；語法結(jié)構(gòu)正確性，翻譯后文本應(yīng)遵循目標語言的語法規(guī)則，保持句式結(jié)構(gòu)完整且符合新聞寫作規(guī)范；b)風格一致性：新聞文體保持，模型需保證翻譯后的新聞稿風格與原文一致，即保持新聞報道應(yīng)有的客觀、正式和簡潔；語境適應(yīng)性，能夠根據(jù)新聞類別和受眾定位調(diào)整翻譯策略，確保譯文符合相應(yīng)文化和社會背景；4T/CAPT010—2024c)實時性與效率：快速響應(yīng)，模型應(yīng)具備快速翻譯大量新聞稿件的能力，滿足新聞發(fā)布時效要求。自動更新與優(yōu)化，具備持續(xù)學習和自我優(yōu)化機制，隨新詞匯、短語的出現(xiàn)及時更新翻譯效果；d)安全與合規(guī)性：數(shù)據(jù)安全，在處理新聞翻譯的過程中，嚴格遵守國家信息安全法律法規(guī)，保護新聞數(shù)據(jù)隱私；內(nèi)容審查，翻譯輸出應(yīng)避免不良信息傳播，支持可配置的內(nèi)容過濾與審查機制；e)可維護性與擴展性：模型更新與升級，允許模型進行定期更新與優(yōu)化，并能無縫集成到現(xiàn)有新聞翻譯工作流程中；多語言支持，支持多種源語言到多種目標語言的新聞翻譯服務(wù)，且易于添加新的語言對。4.3.2新聞改寫新聞行業(yè)大規(guī)模預(yù)訓練語言模型進行新聞改寫應(yīng)遵循包括但不限于內(nèi)容補全、結(jié)構(gòu)調(diào)整、精煉語言、突出重點、呈現(xiàn)細節(jié)、增加引用等對內(nèi)容進行增加、刪除或調(diào)整等操作，具體要求如下：a)內(nèi)容補全設(shè)計提示詞令模型根據(jù)原文和指令，補充完善相關(guān)信息，為讀者提供更詳盡的細節(jié)，使文章更具理解性。指令應(yīng)明確補全內(nèi)容方向，如人物背景、事件細節(jié)、相關(guān)數(shù)據(jù)等，確保內(nèi)容與原文風格和情感一致。補全后的內(nèi)容應(yīng)緊密連結(jié)原文核心信息，提供有價值的補充，增強文章的全面性和吸引力；b)結(jié)構(gòu)調(diào)整設(shè)計提示詞令模型調(diào)整文章結(jié)構(gòu)，提高閱讀體驗。指令應(yīng)明確結(jié)構(gòu)調(diào)整的要求，如總分結(jié)構(gòu)等，并可提供參考文章。生成結(jié)果應(yīng)保持原文連貫性和一致性，使文章更具可讀性和邏輯性，不改變原文信息；c)精煉語言設(shè)計提示詞令模型優(yōu)化語言，通過簡化句子、刪減冗詞、提煉核心信息，使文章簡潔明了。指令應(yīng)明確優(yōu)化內(nèi)容部分。生成結(jié)果應(yīng)保留原文核心信息，簡潔清晰，不影響流暢性和可讀d)突出重點設(shè)計提示詞令模型突出關(guān)鍵信息，通過強調(diào)核心觀點、重要細節(jié)，使文章更凝練有力。指令應(yīng)明確突出重點部分。生成結(jié)果應(yīng)準確傳達原文核心意思，邏輯連貫，吸引讀者注意；e)呈現(xiàn)細節(jié)設(shè)計提示詞令模型優(yōu)化細節(jié)，通過添加具體細節(jié)、豐富描述、提供背景信息，使文章生動具體。指令應(yīng)明確添加細節(jié)部分并提供相關(guān)信息。生成結(jié)果應(yīng)豐富文章內(nèi)容，與原文主題一致，描述具體生動，背景信息全面，信息準確；f)增加引用設(shè)計提示詞令模型添加引用，通過引用相關(guān)資料、專家觀點、研究成果等，增加文章權(quán)威性和可信度。指令應(yīng)明確引用內(nèi)容部分并提供相關(guān)資料。生成結(jié)果應(yīng)與原文主題相關(guān)，引用可靠來源，進一步豐富和深化文章內(nèi)容。4.3.3風格轉(zhuǎn)換新聞行業(yè)大規(guī)模預(yù)訓練語言模型進行風格轉(zhuǎn)換應(yīng)遵循包括但不限于通俗易懂、專業(yè)嚴謹、批判思維、增加網(wǎng)感、理論增強、情感共鳴等要求：a)通俗易懂設(shè)計模型使用簡潔明了的語言闡述原內(nèi)容，降低閱讀難度，使更多讀者輕松理解。明確要求模型避免專業(yè)術(shù)語和復(fù)雜句子，保持核心信息不變。語言簡潔，避免冗長和難懂的術(shù)語，保留核心信息，確保普通讀者易懂，不簡化到失去意義；b)專業(yè)嚴謹設(shè)計模型使用專業(yè)精確的語言闡述原內(nèi)容，提升文章專業(yè)性和權(quán)威性。明確要求模型使用專業(yè)術(shù)語和嚴謹結(jié)構(gòu)，保持核心信息不變。語言精確，適當使用專業(yè)術(shù)語，確保專業(yè)讀者準確理解，不過度復(fù)雜化；c)批判思維5T/CAPT010—2024設(shè)計模型在理解原文后，提出批判性觀點和深度分析，增加文章深度和思辨性，明確指定批判內(nèi)容和方向。觀點客觀公正，基于充分論據(jù)，清晰闡述邏輯，增強文章深度，引發(fā)讀者思考和討論，連貫且不矛盾；d)增加網(wǎng)感設(shè)計模型使用網(wǎng)絡(luò)文化和流行語言，貼近網(wǎng)民閱讀習慣和偏好。明確要求在保持專業(yè)性的同時，加入網(wǎng)絡(luò)流行語，保持核心信息不變。語言貼近網(wǎng)絡(luò)文化，使用流行語和網(wǎng)絡(luò)梗，結(jié)合網(wǎng)絡(luò)熱點，提高吸引力和傳播力，不過度娛樂化，保持專業(yè)性；e)理論增強設(shè)計模型對原內(nèi)容進行理論補充，引用權(quán)威資料，提升文章專業(yè)性和可信度。明確指定補充內(nèi)容和理論框架。補充理論應(yīng)與主題相關(guān)，深化理解，來源可靠，保持風格和情感一致，連貫且不矛盾，提升專業(yè)性和可信度；f)情感共鳴設(shè)計模型使用富有情感的語言闡述原內(nèi)容，通過感人故事、情感描寫等引起共鳴。明確要求使用富有情感的語言，保持核心信息和深層意義不變。語言引起共鳴，情感表達真實自然，避免過度煽情，增強感染力和說服力。4.3.4擴寫擴寫要求包括：a)設(shè)計相應(yīng)提示詞令模型進行符合“在原有內(nèi)容的基礎(chǔ)上，通過增加信息、細節(jié)、描述、背景等，使文章更加豐富和完整，以增強讀者的理解和參與感”要求的“擴寫”工作。擴寫旨在保持原文的風格和情感，同時豐富內(nèi)容，使之更具吸引力和深度；b)提示詞需要包括但不限于規(guī)定擴寫的主題、方向、語言風格、篇幅的要求，并可以提供相關(guān)的事實素材；c)“擴寫”類生成結(jié)果需要保證就新內(nèi)容合理性而言，擴寫內(nèi)容在邏輯上應(yīng)與原文一致，不引入矛盾或不相關(guān)信息；就文章流暢度而言，擴寫后的文章應(yīng)各部分之間過渡自然，讀者可以輕松跟隨故事的發(fā)展；就內(nèi)容的易讀性而言，添加的內(nèi)容應(yīng)能夠加深讀者對新聞事件或相關(guān)主題信息的理解，提供足夠的背景信息；就信息的準確性而言，新增內(nèi)容應(yīng)準確，不涉及錯誤、臆測或誤導性陳述。4.3.5摘要摘要要求包括：a)設(shè)計相應(yīng)提示詞令模型進行符合“對原文中的關(guān)鍵信息和主要內(nèi)容進行精簡提煉，生成符合以簡潔明了的語言表達，幫助讀者迅速了解文章的核心觀點、事件和重要數(shù)據(jù)”要求的“摘要”工作。摘要旨在在盡量減少文字量的情況下，保持原文的主旨和邏輯結(jié)構(gòu)；b)提示詞指令需要包括但不限于規(guī)定“摘要”的核心主題、篇幅、原文遵從度的要求；c)“摘要”類生成結(jié)果需要保證關(guān)鍵信息概括度，摘要中應(yīng)包含了原文中的主要事件、觀點和數(shù)據(jù)等關(guān)鍵信息；就簡潔而言，摘要應(yīng)用簡明扼要的表達方式，使讀者能在短時間內(nèi)獲取主要內(nèi)容；就意義的保持度而言，摘要應(yīng)保持原文的主題、情感和重要細節(jié)，不偏離原文核心；就信息的準確性而言，摘要中提供的信息應(yīng)準確，不得捏造、省略或曲解。4.3.6潤色潤色要求包括：a)設(shè)計相應(yīng)提示詞令模型進行符合“修飾文章語言、風格、結(jié)構(gòu)，提升文章表達效果和可讀性”要求的“潤色”任務(wù)；b)提示詞指令需要包括但不限于規(guī)定“潤色”的修改方式、修改方向、語言風格的要求；c)“潤色”類生成結(jié)果需要保證語法和拼寫，潤色后文章中應(yīng)不存在拼寫和語法錯誤；就表達的清晰度而言，修飾后的文章應(yīng)句子結(jié)構(gòu)清晰，邏輯連貫；就語言風格而言，潤色后的文章應(yīng)能根據(jù)原文的風格，保持適當?shù)男侣?、專業(yè)或通俗風格；就表達的精練度而言，修飾后的文章應(yīng)用詞精準，不出現(xiàn)啰嗦或冗長表達。6T/CAPT010—20244.3.7續(xù)寫續(xù)寫要求包括：a)設(shè)計相應(yīng)提示詞令模型進行符合“在原文的基礎(chǔ)上，進一步延伸事件、主題或觀點，補充額外的信息、分析或展望，以豐富內(nèi)容并引發(fā)讀者的興趣”要求的“續(xù)寫”任務(wù)。續(xù)寫要求與原文保持一致的風格和立場，同時為讀者提供更深入的理解和更全面的信息；b)提示詞指令需要包括但不限于規(guī)定“續(xù)寫”的核心主題、續(xù)寫方向、表達方式、語言風格的要求；c)“續(xù)寫”類生成結(jié)果需要保證主題的延伸性，續(xù)寫內(nèi)容在邏輯上應(yīng)與原文一致，延伸了事件或主題的發(fā)展；就信息的補充而言，添加后的內(nèi)容能夠提供額外的背景、數(shù)據(jù)、專家觀點等與原來的新聞文本相一致的信息；就邏輯的連貫性而言，續(xù)寫的內(nèi)容與原文之間應(yīng)過渡自然，不引發(fā)信息不匹配問題；就信息的準確性而言，新增信息應(yīng)準確，不引入錯誤或不實陳述。4.3.8核校核校要求包括：a)設(shè)計相應(yīng)提示詞令模型進行符合“對文章進行仔細的校對和檢查，以確保內(nèi)容的準確性、一致性和規(guī)范性”要求的“核?！惫ぷ?。核校包括拼寫、語法、標點、事實核實、引用規(guī)范等方面的檢查，以確保文章在發(fā)布之前沒有錯誤，同時滿足行業(yè)標準和讀者的期望；b)提示詞指令需要包括但不限于規(guī)定“核校”的規(guī)則、效果要求；c)“核?！鳖惿山Y(jié)果需要保證事實核實，核校內(nèi)容需要經(jīng)過事實核實，文章中提到的信息應(yīng)準確無誤；就信息的一致性而言，核校后的文章內(nèi)部信息在邏輯上保持一致，避免矛盾；就格式的規(guī)范度而言，核校后的文章應(yīng)在排版、標點和引用等方面符合規(guī)范標準；就語言使用的正確性而言，核校后的文章中應(yīng)不存在拼寫、語法錯誤或標點符號使用問題。4.4媒體文本理解4.4.1新聞內(nèi)容標簽提取新聞內(nèi)容標簽提取要求包括：a)設(shè)計相應(yīng)提示詞令大模型理解新聞內(nèi)容，并準確提煉文章的內(nèi)容標簽，符合以下要求：提取文章的標題、摘要、時間、涉及人物、事件地點、起因、經(jīng)過和結(jié)果，同時提煉文章的情感傾向、領(lǐng)域主題和主要觀點；b)大模型應(yīng)當可以提取覆蓋新聞文章各方面的內(nèi)容標簽，包括但不限于：標題、摘要、時間等基本要素，到人物關(guān)系、事件細節(jié)，以及文章的情感和主題觀點；c)生成的內(nèi)容標簽提取結(jié)果應(yīng)嚴格基于原文。無論是直接引用的信息還是基于原文理解的總結(jié)，都應(yīng)確保準確性和相關(guān)性。提取的情感和觀點應(yīng)與原文邏輯一致，不產(chǎn)生矛盾或不相關(guān)信息。為滿足后續(xù)應(yīng)用需求，這些關(guān)鍵信息需以標準化格式（如JSON等）穩(wěn)定輸出，確保數(shù)據(jù)的可用性和可讀性。4.4.2新聞要素識別新聞要素識別要求包括：a)設(shè)計提示詞令模型完成“從新聞中提取出六要素時間、地點、人物、事件的起因、經(jīng)過、結(jié)果”的工作；b)提示詞指令需要包括但不限于規(guī)定模型提取的要素類型、提取范圍的要求，并應(yīng)提供需要模型理解的新聞文本；c)“新聞要素識別”類結(jié)果需要保證識別出的要素完整、真實、準確。4.4.3新聞類型判別新聞類型判別要求包括：a)設(shè)計提示詞令模型進行以下三種方式的判別任務(wù)：1)體裁：根據(jù)新聞的手法、口吻和組織材料結(jié)構(gòu)來判斷新聞體裁，包括消息、通訊、評論、公文公報等；7T/CAPT010—20242)范圍：基于新聞發(fā)生的地區(qū)與影響范圍進行分類，可分為國際新聞和國內(nèi)新聞。在此，港澳臺被歸類為國內(nèi)新聞；3)主題：基于新聞的主題進行分類，應(yīng)符合GB/T20093的要求。b)提示詞指令需要包括但不限于規(guī)定模型判別的任務(wù)類型，并應(yīng)提供需要模型判別的新聞文本；c)“新聞類型判別”類生成結(jié)果需要保證從三種分類方式準確判斷新聞類型。4.4.4新聞核心信息提取新聞核心信息提取要求包括：a)設(shè)計提示詞令模型完成“從新聞中提取關(guān)鍵詞或摘要”的工作：1)關(guān)鍵詞：新聞報道中的關(guān)鍵性內(nèi)容，包括實體詞、謂詞、具有關(guān)鍵信息的詞語；2)摘要：最關(guān)鍵的新聞元素，時間、地點、主要人物/組織、發(fā)生的事件等，以完整的句段表述。b)提示詞指令需要包括但不限于規(guī)定模型提取信息的任務(wù)類型及具體篇幅或個數(shù)要求，并應(yīng)提供需要模型提取信息的新聞文本；c)“新聞核心信息提取”類生成結(jié)果需要保證關(guān)鍵詞要求選擇具有檢索意義的詞匯，有較特殊意義的詞、詞組、縮略語，不宜拆開。若新聞中有其他類別的詞、短語甚至熟語也能夠提示文章的關(guān)鍵內(nèi)容，也應(yīng)作為關(guān)鍵詞處理。摘要要求言簡意賅，能體現(xiàn)新聞主要內(nèi)容，字數(shù)在100～150字左右。4.4.5新聞傾向判斷新聞傾向判斷要求包括：a)設(shè)計提示詞令模型完成“判斷新聞報道中新聞主要人物或機構(gòu)對事件的感情、態(tài)度、意向或立場”的工作。感情傾向可分為正面、負面、中性；b)提示詞指令需要包括但不限于規(guī)定模型提取信息的任務(wù)類型，并應(yīng)提供具有較明顯情感傾向的新聞文本；c)“新聞傾向判斷”類生成結(jié)果需要保證通過文本可觀測明顯情感傾向，分析準確、合理。4.5媒體數(shù)據(jù)增強4.5.1媒體創(chuàng)意/熱點推薦媒體創(chuàng)意/熱點推薦包括但不限于熱點推薦、脈絡(luò)梳理、主題擴散、內(nèi)容創(chuàng)作建議、傳播效果預(yù)測5個子類別，其中：a)熱點推薦：1)通過檢索當前的社交媒體討論、新聞頭條、搜索引擎趨勢等，收集當前的熱點事件和話題，再設(shè)計相應(yīng)提示詞引導模型分析當前社會、文化、經(jīng)濟、政治等領(lǐng)域中的流行趨勢和事件，篩選出具有廣泛關(guān)注度和討論價值的熱點事件；2)提示詞指令需要明確要求模型根據(jù)收集的數(shù)據(jù)，綜合考慮話題的時效性、社會影響力，以及可能引起的公眾興趣和參與度，推薦當前最受關(guān)注的熱點事件；3)“熱點推薦”類生成結(jié)果應(yīng)能夠清晰展示當前最受關(guān)注的熱點事件，并提供簡要的背景信息和討論點。b)脈絡(luò)梳理：1)通過聯(lián)網(wǎng)搜索，獲取與熱點事件相關(guān)的新聞報道、社交媒體討論和各類公開權(quán)威信息。根據(jù)這些信息，設(shè)計相應(yīng)提示詞使模型針對熱點事件清晰地梳理其來龍去脈，包括事件的起因、發(fā)展、關(guān)鍵的轉(zhuǎn)折點和影響事件進程的主要因素、當前狀態(tài)以及參與推動或影響事件發(fā)展的關(guān)鍵個人、團體或組織；2)提示詞指令需要明確要求模型獲取數(shù)據(jù)的范圍和方式，確保數(shù)據(jù)的準確性和全面性。指導模型如何根據(jù)收集的數(shù)據(jù)進行脈絡(luò)梳理的要點，并確定相應(yīng)的呈現(xiàn)方式，以詳盡、直觀地展示事件的整個發(fā)展脈絡(luò)；3)“脈絡(luò)梳理”類生成結(jié)果應(yīng)全面、直觀地反映出事件從起始到當前狀態(tài)的整體發(fā)展路徑，以全面地了解事件的全貌，而不僅僅是表面的現(xiàn)象。8T/CAPT010—2024c)主題擴散：1)基于熱點事件和關(guān)聯(lián)數(shù)據(jù)，設(shè)計相應(yīng)提示詞引導模型分析和挖掘出與熱點事件緊密相關(guān)或由此引申出的其他主題、話題和觀點，并圍繞這些新發(fā)現(xiàn)的主題或話題進行廣泛的聯(lián)想和擴展，生成一系列與這些主題緊密相關(guān)的概念、創(chuàng)新想法、深入探討的問題以及具有啟發(fā)性的討論點；2)提示詞指令需要明確要求模型從給定的熱點事件中提煉出核心主題，并根據(jù)這些核心主題，從社會、文化、經(jīng)濟、技術(shù)等多個角度和層面進行發(fā)散性思考，以產(chǎn)生新的、有趣且深入的觀點和討論點；3)“主題擴散”類生成結(jié)果應(yīng)能夠提供與原始熱點事件主題緊密相關(guān)的多元化視角和深入探討，從而豐富內(nèi)容的層次和深度，提供更加全面、多維度的信息解讀和觀點闡述。d)內(nèi)容創(chuàng)作建議：1)根據(jù)熱點事件及其相關(guān)聯(lián)的主題，設(shè)計相應(yīng)提示詞引導模型從不同角度和層面提供內(nèi)容創(chuàng)作的靈感和實用的建議，包括文章標題的構(gòu)思、內(nèi)容框架的搭建、觀點的深度闡述，以及精選案例的引用等多個方面，以輔助內(nèi)容創(chuàng)作者打造出高質(zhì)量的內(nèi)容作品；2)提示詞指令需要明確要求模型結(jié)合熱點事件和關(guān)聯(lián)主題，給出具有針對性、新穎性和吸引力的內(nèi)容創(chuàng)作建議，以提升內(nèi)容的吸引力和傳播力；3)“內(nèi)容創(chuàng)作建議”類生成結(jié)果應(yīng)能夠為內(nèi)容創(chuàng)作者提供具體、實用且具有高度可操作性的建議和靈感，幫助創(chuàng)作出更加引人入勝、觀點鮮明、結(jié)構(gòu)清晰的高質(zhì)量內(nèi)容。e)傳播效果預(yù)測：1)結(jié)合歷史數(shù)據(jù)和當前媒體報道聲量，設(shè)計相應(yīng)提示詞引導模型分析預(yù)測該熱點內(nèi)容在媒體平臺上的傳播效果，包括可能的閱讀量、轉(zhuǎn)發(fā)量、討論熱度等；2)提示詞指令需要明確要求模型依據(jù)已有的相關(guān)數(shù)據(jù)和數(shù)據(jù)分析方法，對熱點事件及其相關(guān)內(nèi)容的傳播效果進行合理預(yù)測，并提供相應(yīng)的數(shù)據(jù)支持和解釋，確保預(yù)測結(jié)果的可解釋性和可信度；3)“傳播效果預(yù)測”類生成結(jié)果應(yīng)能夠提供客觀、科學的傳播效果預(yù)測和分析，以幫助內(nèi)容創(chuàng)作者和發(fā)布者更好地制定發(fā)布和推廣策略，最大限度地提升內(nèi)容的曝光度和影響力。4.5.2輿情分析輿情分析要求包括：a)新聞媒體文章觀點分析：1)設(shè)計相應(yīng)提示詞令模型生成符合指定級別的新聞媒體傾向的觀點自聚類分析內(nèi)容；2)提示詞指令需要包括但不限于規(guī)定新聞媒體級別的要求，建議新聞媒體級別按照中央媒體、省級媒體、市級媒體和商業(yè)媒體進行劃分；3)觀點自聚類分析生成結(jié)果需要保證內(nèi)容上，只分析指定級別的新聞媒體；在觀點上，應(yīng)當根據(jù)文章內(nèi)容，高度自聚類，建議以三至四個觀點為宜；在分析上，應(yīng)當言簡意概，突出主要觀點指向；4)支持批量數(shù)據(jù)的導入分析，數(shù)據(jù)宜包括新聞媒體級別、新聞媒體名稱、新聞標題、新聞?wù)?，建議支持數(shù)量在100條左右。b)自媒體文章內(nèi)容分析：1)設(shè)計相應(yīng)提示詞令模型生成符合指定平臺的自媒體文章自聚類分析內(nèi)容；2)提示詞指令需要包括但不限于規(guī)定分析文章內(nèi)容的意見、態(tài)度、情感等多維度指標；3)文章自聚類分析生成結(jié)果需要保證在內(nèi)容上，應(yīng)當與輸入的待分析文章數(shù)據(jù)一致，不得有虛構(gòu)、幻想的成分；在結(jié)果上，應(yīng)當準確反映針對具體事件或話題的思想動向，能夠挖掘出對事件或話題的興趣點；4)支持批量數(shù)據(jù)的導入分析，數(shù)據(jù)宜包括平臺名稱、自媒體文章標題、自媒體文章正文，建議支持數(shù)量在100條左右。c)商業(yè)平臺文章評論分析：1)設(shè)計相應(yīng)提示詞令模型生成符合指定平臺的文章評論觀點聚類分析內(nèi)容；2)提示詞指令需要包括但不限于規(guī)定評論觀點的立場屬性為正面、中性和負面；9T/CAPT010—20243)文章評論觀點聚類生成結(jié)果需要保證在對待文章中所討論事件的觀點立場判定準確；在評論內(nèi)容情緒判斷上精準，建議將情緒具體劃分為8類：高興、悲傷、大笑、憤怒、討厭、震驚、擔心和平和；在內(nèi)容上，應(yīng)當能夠提煉出每種觀點的核心要素，洞察出評論者普遍心態(tài)；4)支持批量數(shù)據(jù)的導入分析，數(shù)據(jù)宜包括平臺名稱、文章評論正文，建議支持數(shù)量在500條左右。d)歷史事件回溯：1)設(shè)計相應(yīng)提示詞令模型生成符合準確描述的突發(fā)事件，回溯出歷史相似事件的詳細內(nèi)容；2)提示詞指令需要包括但不限于規(guī)定事件主體，回溯時間段，事件發(fā)生的地域以及事件相似性程度等屬性；3)歷史事件回溯生成結(jié)果需要保證在內(nèi)容上包括簡要的事件概括、發(fā)展過程和最后的結(jié)果；在順序上，按照時間線依次列出；在相關(guān)性上，應(yīng)當能夠根據(jù)指定的事件相關(guān)度，增減回溯的歷史事件數(shù)量。e)熱搜詞條生成：1)設(shè)計相應(yīng)提示詞令模型生成符合準確描述的突發(fā)事件詳情，符合不同平臺熱搜榜特征的熱搜詞條；2)提示詞指令需要包括但不限于規(guī)定平臺名稱；3)熱搜詞條生成結(jié)果需要保證在內(nèi)容上能準確反映突發(fā)事件核心要素；在形式上，符合指定平臺的熱搜詞條特征；在邏輯上，應(yīng)當能夠反映社會公眾興趣所在。4.5.3新聞事實核查新聞事實核查是指新聞采編人員通過多種方式，對已公開的新聞、聲明、公告、報告、統(tǒng)計數(shù)據(jù)及其他公共言論或信息的真實性和準確性進行系統(tǒng)評估的活動。大模型應(yīng)當能輔助或代替人工完成新聞事實核查的各項任務(wù)，包括：信息篩選、資料收集、驗證來源、檢查事實、分析證據(jù)、撰寫報告和發(fā)布結(jié)果。在信息篩選環(huán)節(jié)，大模型應(yīng)當可以迅速篩選出具有公共關(guān)注度和重要性的新聞主題或內(nèi)容。在資料收集階段，模型能夠快速查找并整理相關(guān)的原始來源、背景信息和佐證資料。在驗證來源和檢查事實過程中，大模型可以高效地核實信息來源的可靠性和權(quán)威性，并對涉及的事實和數(shù)據(jù)進行多方比對和驗證。通過分析證據(jù)，模型應(yīng)當可以綜合多來源證據(jù)資料，識別新聞的準確性和真實性，減少人為主觀偏差。大模型應(yīng)當能夠生成清晰簡明的事實核查報告，準確展示核查過程和結(jié)論。模型還應(yīng)當可以協(xié)助發(fā)布和傳播核查結(jié)果，及時向公眾提供準確的信息，減少虛假信息的傳播和影響。4.5.4優(yōu)先采用可信數(shù)據(jù)源可信數(shù)據(jù)源是指具有權(quán)威性、準確性和時效性的數(shù)據(jù)信息來源。通常包括專業(yè)新聞機構(gòu)、官方媒體、政府數(shù)據(jù)庫、研究機構(gòu)或經(jīng)驗證的第三方數(shù)據(jù)服務(wù)機構(gòu)?？尚艛?shù)據(jù)源應(yīng)滿足以下條件：——權(quán)威性：數(shù)據(jù)源應(yīng)來自政府機關(guān)、知名新聞機構(gòu)、國際認可的非營利組織或行業(yè)權(quán)威研究機——準確性：數(shù)據(jù)源提供的信息應(yīng)經(jīng)過核實，準確無誤，不傳播未經(jīng)證實的消息或謠言?！皶r性：數(shù)據(jù)源應(yīng)能提供最新信息，保證內(nèi)容時效性。——透明性：數(shù)據(jù)源應(yīng)公開原始信息來源、采集方法和時間，便于驗證和追溯，如公布調(diào)查研究的抽樣方法和樣本數(shù)量，指明數(shù)據(jù)可能存在的偏差與局限?！暾裕簲?shù)據(jù)源提供的信息應(yīng)全面，不應(yīng)有故意的遺漏或剪輯，避免誤導讀者?！谛侣?wù)Z言大模型的數(shù)據(jù)增強過程中，應(yīng)遵循以下原則：.優(yōu)先采用原則：在使用媒體數(shù)據(jù)進行語言模型訓練或增強時，應(yīng)優(yōu)先考慮符合上述標準的數(shù)據(jù)源，確保模型的準確性和可靠性。.多元化和平衡：應(yīng)注意數(shù)據(jù)源的多元化和平衡，避免依賴單一數(shù)據(jù)源，結(jié)合多個高質(zhì)量數(shù)據(jù)源，以獲得全面和客觀的數(shù)據(jù)輸入。.持續(xù)監(jiān)控與評估：對選定的數(shù)據(jù)源實施持續(xù)監(jiān)控和評估，定期審查其信息的準確性和可靠性，并根據(jù)需要更新可信數(shù)據(jù)源名單。T/CAPT010—2024.數(shù)據(jù)更新：追蹤可靠數(shù)據(jù)源提供的最新數(shù)據(jù)，保證模型接收和提供的信息不過時，能反映最新情況。——建議的可信數(shù)據(jù)源包括：政府官方數(shù)據(jù)庫：如國家統(tǒng)計局網(wǎng)站提供的《中國統(tǒng)計年鑒》、地區(qū)數(shù)據(jù)、普查數(shù)據(jù)，美國食品藥品管理局提供的藥品數(shù)據(jù)等?！侣剻C構(gòu)：可信的新聞機構(gòu)數(shù)據(jù)源參考網(wǎng)信辦互聯(lián)網(wǎng)新聞信息稿源?！芯繖C構(gòu)：包括高校研究所驗證的報告與文獻、聯(lián)合國與世界衛(wèi)生組織等國際非營利組織、行業(yè)內(nèi)權(quán)威研究機構(gòu)的資料。4.5.5使用外部數(shù)據(jù)的輸出需要提供引證素材來源在使用外部數(shù)據(jù)進行內(nèi)容輸出時，引證素材應(yīng)增強內(nèi)容的可靠性、可驗證性和可追溯性。具體要求如下：a)引證來源的靈活性與可控性：靈活選擇不同的外部數(shù)據(jù)源作為引證素材。若外部數(shù)據(jù)無相關(guān)內(nèi)容，需拒絕回答，確保引證準確有效；b)數(shù)據(jù)來源的明確性：所有引文應(yīng)明確標注引用來源，精確到原文中的具體數(shù)據(jù)片段，包括作者、出版物名稱、出版日期等，以便快速準確定位參考內(nèi)容；c)引證數(shù)據(jù)的適當性：生成內(nèi)容應(yīng)與引文緊密相關(guān)，具備邏輯關(guān)聯(lián)，避免無關(guān)引文；d)引證內(nèi)容的完整性：引證內(nèi)容應(yīng)完整、可讀，不遺漏關(guān)鍵信息或截取部分。需對每個觀點標注支持的引文，確保所有引用信息完整呈現(xiàn)。同一觀點的相關(guān)引文應(yīng)并排標注，便于全面了解信息來源。e)引證來源的可回溯：提供引證信息的元數(shù)據(jù)，確保可找到原文；引文與原文一致，不進行改寫或修改，保證內(nèi)容可追溯。f)引證格式的標準性：引文標注應(yīng)清晰易懂，避免歧義或混淆。采用阿拉伯數(shù)字順序夾注法關(guān)聯(lián)引證來源，方便讀者查閱。元數(shù)據(jù)標注根據(jù)數(shù)據(jù)類型不同進行區(qū)分。參考文獻按引用順序排序，提高邏輯性和可讀性。遵循GB/T7714要求，確保引證格式規(guī)范統(tǒng)一。根據(jù)指定格式自動生成引用，提升操作便捷性和準確性。表3數(shù)據(jù)類型和引文所需字段枚舉頁面標題（PageTitle）、網(wǎng)站名稱（WebsiteName）、發(fā)布Publication）、URL、訪問日期（AccessDate）、引文段落（Quota作者（Author）、文檔標題（DocumentTitle）、頁碼范圍（Page5效果要求5.1專業(yè)性要求專業(yè)性要求旨在判斷大模型生成結(jié)果的新聞行業(yè)專業(yè)標準和價值取向體現(xiàn)情況。5.1.1內(nèi)容專業(yè)模型生成的新聞信息內(nèi)容質(zhì)量能夠匹配新聞行業(yè)中的主要應(yīng)用場景下的需求，保證模型生成新聞信息的真實、準確。T/CAPT010—20245.1.2結(jié)構(gòu)專業(yè)模型生成的新聞信息結(jié)構(gòu)符合新聞專業(yè)標準，保證模型生成新聞信息符合新聞體裁規(guī)范。5.1.3語言專業(yè)大模型生成的新聞信息的語言應(yīng)符合新聞傳播場景的風格需求，保證模型生成新聞信息的語言風格不含違禁詞、并符合媒體、欄目風格定位。5.1.4準確專業(yè)大模型生成的內(nèi)容應(yīng)基于事實和數(shù)據(jù)，避免虛假信息和不實報道；在處理新聞報道時，模型應(yīng)能夠識別和引用權(quán)威的信息源，如官方發(fā)布、專業(yè)研究報告等；對于歷史事件、數(shù)據(jù)統(tǒng)計、人物言論等，模型應(yīng)確保引用信息的時間、地點、背景和上下文的準確無誤。5.1.5可信專業(yè)模型生成的新聞內(nèi)容應(yīng)具備一定的可信度，模型應(yīng)能夠解釋其生成新聞內(nèi)容的過程和依據(jù)，從而保證讀者或用戶能夠信賴該內(nèi)容的真實性和有效性；應(yīng)定期對模型進行校準和更新，以適應(yīng)不斷變化的新聞環(huán)境和信息準確性的要求；當模型出現(xiàn)錯誤時，應(yīng)能夠識別錯誤類型并給出合理解釋，以便用戶或開發(fā)者進行修正。5.1.6客觀專業(yè)模型處理和生成多樣的文本時保持新聞客觀性的能力，以提供更加廣泛的視角和代表性；數(shù)據(jù)預(yù)訓練階段要引入內(nèi)容過濾機制，避免由于數(shù)據(jù)選擇、數(shù)據(jù)清洗等過程中的不當操作而引入歧視，應(yīng)使用不同類型的可靠數(shù)據(jù)類信源以保證數(shù)據(jù)質(zhì)量；生成內(nèi)容時應(yīng)通過算法保證信息來源的多樣性和獨立性，避免偏見和誤導性信息。5.2可靠性要求可靠性要求應(yīng)保證大模型在新聞行業(yè)使用過程中的安全、合法、可信賴，減少、防止大模型的不良輸出或侵權(quán)行為。5.2.1安全性大模型生成內(nèi)容應(yīng)符合國家法律法規(guī)和行業(yè)規(guī)范，尊重知識產(chǎn)權(quán)和個人隱私，遵守道德和公序良俗，符合社會主義核心價值觀，可參考法律法規(guī)等相關(guān)文件對前述要求作出具體規(guī)定和建立負面清單，具體要求可參考《新聞行業(yè)大規(guī)模預(yù)訓練模型語言模型安全性要求》。5.2.2可控性大模型在進行媒體工作時，應(yīng)當滿足指令提示詞內(nèi)的限制性、傾向性需求，保證大模型的輸出是可被輸入控制的，且專業(yè)性不發(fā)生明顯衰減。建立健全的內(nèi)容審查機制，對大語言模型產(chǎn)出的內(nèi)容進行人工審核，確保內(nèi)容的生成結(jié)果安全能夠由用戶掌控；對于發(fā)現(xiàn)的不適合產(chǎn)出的內(nèi)容，應(yīng)及時進行修改或刪除，防止其傳播，并從技術(shù)層面判斷根源，盡量杜絕類似內(nèi)容的再生產(chǎn)；可識別具有不良誘導性內(nèi)容的提示詞并給出正向提示和拒絕，并額外建立預(yù)警機制，讓用戶可知可控。5.2.3可解釋性大模型在進行媒體工作時，應(yīng)能夠清楚地說明其在新聞行業(yè)中的工作原理和邏輯推理過程，以便用戶進行核查檢驗，從而提高大模型的可信度。5.2.4保護數(shù)據(jù)隱私大模型在預(yù)訓練集和實際應(yīng)用中均應(yīng)遵循、符合對個人隱私數(shù)據(jù)保護和機構(gòu)內(nèi)部或敏感數(shù)據(jù)保護的相關(guān)要求。對于處于不同國家和地區(qū)的具體情況，應(yīng)遵照并符合當?shù)叵嚓P(guān)法律法規(guī)的要求；對于涉及個人隱私或個人隱私數(shù)據(jù)的新聞報道或輸出，應(yīng)遵循個人隱私數(shù)據(jù)保護的要求，對個人隱私數(shù)據(jù)進行匿名處理或模糊化處理，包括但不限于：姓名、身份證號、家庭住址、通訊地址、電話號碼、DNA數(shù)據(jù)、銀T/CAPT010—2024行賬號、個人病歷、照片、視頻等。建立中央監(jiān)管系統(tǒng)，通過人力和各種人工智能檢測機制的輔助，發(fā)現(xiàn)和記錄隱私泄露或違規(guī)使用的行為。5.2.5保證數(shù)據(jù)可信加強對新聞內(nèi)容的真實性審核，如引入專業(yè)的新聞編輯和審核團隊進行把關(guān)，確保其真實性和準確性。同時，也可以借助自然語言處理等技術(shù)，對新聞內(nèi)容進行自動化分析和驗證，確保不產(chǎn)出虛假新聞或誤導性信息，對于未經(jīng)證實的信息，應(yīng)明確標注其未經(jīng)驗證，避免誤導讀者；建立可信度評級體系，度量輸出內(nèi)容的可信度，供讀者判斷；提供用戶反饋渠道，鼓勵用戶對不適宜及真實性存疑的內(nèi)容進行舉報和提示；對用戶反饋的內(nèi)容進行快速響應(yīng)和處理，必要時進行公開澄清或道歉。5.2.6尊重數(shù)據(jù)版權(quán)尊重知識產(chǎn)權(quán)，嚴格遵守《中華人民共和國著作權(quán)法》，未經(jīng)著作權(quán)人許可，大模型不得以復(fù)制、通過信息網(wǎng)絡(luò)向公眾傳播其作品等形式侵害著作權(quán)人權(quán)利；建立版權(quán)信息的查詢功能：訓練過程中不僅僅要學習數(shù)據(jù)本身，還需要將數(shù)據(jù)的來源以及產(chǎn)權(quán)信息送入；對于引用或轉(zhuǎn)載的內(nèi)容，應(yīng)明確標注來源，并確保符合版權(quán)法規(guī)定的合理使用范圍；使用開源數(shù)據(jù)集時，應(yīng)取得開源授權(quán)協(xié)議。5.3適用性要求適用性要求大模型應(yīng)適應(yīng)新聞行業(yè)的領(lǐng)域多樣性和用戶需求多樣化，反映大模型在新聞行業(yè)中的實際效果和用戶體驗。5.3.1靈活適用大模型在進行不同領(lǐng)域的媒體工作時，應(yīng)當對于差異性領(lǐng)域的新聞需求、多樣性的新聞素材輸入，均能給出符合領(lǐng)域?qū)I(yè)性的回答。5.3.2兼容適用大模型在進行媒體工作時，對于同樣需求、不同風格描述語言的提示詞輸入，應(yīng)當都能給出符合需求的回答。生成的內(nèi)容在模型內(nèi)部需要保持一致，不包含自相矛盾的信息，模型應(yīng)保持持續(xù)穩(wěn)定的性能，不因數(shù)據(jù)量增大或計算資源變化而影響生成速度和質(zhì)量。5.3.3創(chuàng)新適用大模型在媒體行業(yè)中的應(yīng)用也應(yīng)當顯示自身的創(chuàng)新能力和價值貢獻，尤其是對于開放性生成任務(wù)，如用戶有需要，則大模型應(yīng)有創(chuàng)新性或出彩性的生成結(jié)果，如生成多樣性、內(nèi)容新穎性等。6產(chǎn)品化要求6.1模型部署的要求6.1.1云服務(wù)的要求云服務(wù)需要保證服務(wù)的穩(wěn)定性。大模型的云服務(wù)應(yīng)具備高可用性架構(gòu)，保證7x24小時可靠，或根據(jù)使用單位工作時間具體確定，同時確保系統(tǒng)能夠在高并發(fā)訪問情況下依然保持穩(wěn)定運行，避免因服務(wù)中斷導致的新聞事故。此外，云服務(wù)需要具備良好的擴展性，以應(yīng)對新聞行業(yè)中突發(fā)事件和重大新聞報道期間的流量高峰。服務(wù)商還應(yīng)提供全天候技術(shù)支持和快速響應(yīng)機制，及時解決用戶在使用過程中遇到的問題，確保新聞行業(yè)大規(guī)模預(yù)訓練語言模型的部署和運行過程平穩(wěn)順利。6.1.2私有化服務(wù)的要求能私有化部署的，要保證部署方案的可用性和推理效率。私有化部署需要確保在不同的硬件環(huán)境下都能夠穩(wěn)定運行，并且具備良好的可擴展性和靈活性，以適應(yīng)新聞機構(gòu)不同規(guī)模和需求的變化。在部署過程中，需要考慮數(shù)據(jù)安全和隱私保護，確保新聞數(shù)據(jù)不會在傳輸和存儲過程中泄露。此外，私有化部署的模型應(yīng)具備高效的推理能力，能夠快速響應(yīng)用戶的查詢和請求，確保新聞內(nèi)容的實時性和準確性，為新聞工作者提供高效的工具支持。T/CAPT010—20246.2模型數(shù)據(jù)庫的要求6.2.1數(shù)據(jù)庫的上游數(shù)據(jù)可靠性新聞行業(yè)要求事實，因此新聞行業(yè)大模型所采用的數(shù)據(jù)庫應(yīng)當具備可靠的上游數(shù)據(jù)來源。具體而言，數(shù)據(jù)庫中的數(shù)據(jù)應(yīng)當來自權(quán)威、可信的新聞機構(gòu)和信息源，經(jīng)過嚴格的驗證和篩選，以確保數(shù)據(jù)的真實性和可靠性。此外，數(shù)據(jù)庫還應(yīng)保持實時更新，及時收錄最新的新聞事件和動態(tài)，確保模型生成的內(nèi)容具有時效性和準確性。對數(shù)據(jù)庫中的數(shù)據(jù)進行定期審核和清洗，剔除過時、錯誤或不可靠的信息，也是確保數(shù)據(jù)質(zhì)量的重要措施

人人文庫> 全部分類> 行業(yè)資料 > 各類標準

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

T-CAPT 010-2024 新聞行業(yè) 大規(guī)模預(yù)訓練模型 語言模型實.用性要求

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

T-CAPT 010-2024 新聞行業(yè) 大規(guī)模預(yù)訓練模型語言模型實.用性要求