2025中國人工智能學(xué)會(huì)系列白皮書?語言智能_第1頁
2025中國人工智能學(xué)會(huì)系列白皮書?語言智能_第2頁
2025中國人工智能學(xué)會(huì)系列白皮書?語言智能_第3頁
2025中國人工智能學(xué)會(huì)系列白皮書?語言智能_第4頁
2025中國人工智能學(xué)會(huì)系列白皮書?語言智能_第5頁
已閱讀5頁,還剩277頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中國人工智能學(xué)會(huì)系列白皮書—語言智能前言 第一章語言智能概述 第二章語言智能學(xué)科 第三章語言智能技術(shù) 第四章語言智能應(yīng)用 V 4.2.3東南亞低資源語言大模型機(jī) 第五章總結(jié)與展望 1前言2第一章語言智能概述口。2013年首都師范大學(xué)周建設(shè)教授首次提出人工智能范疇的語言智能概念,近年來,GPT、BERT等預(yù)訓(xùn)練模型推動(dòng)語言智能邁向通用能力,2022年的內(nèi)在邏輯,旨在為理解語言智能的發(fā)展規(guī)律與未1.2語言智能的發(fā)展階段劃分與核心演進(jìn)技術(shù)特征與發(fā)展歷程中的關(guān)鍵節(jié)點(diǎn),其演進(jìn)歷程可1.2.1早期探索階段:規(guī)則驅(qū)動(dòng)與符號(hào)主義(1950s-1990s)局限于小范圍實(shí)驗(yàn)或理論研究階段,未能廣泛1.2.2理論奠基與初步嘗試(1950s-1970s)31.2.3統(tǒng)計(jì)方法的初步滲透(1980s-1990s)數(shù)據(jù)基礎(chǔ),其研發(fā)的隱馬爾可夫模型(HMM)成功應(yīng)用于詞性標(biāo)注任務(wù),標(biāo)志計(jì)算復(fù)雜度隨特征維度呈指數(shù)增長,導(dǎo)致語言深層1.3統(tǒng)計(jì)學(xué)習(xí)階段:特征工程與淺層模型(2000s-2010s中期)1.3.1統(tǒng)計(jì)學(xué)習(xí)模型的廣泛應(yīng)用4模型泛化能力受限,且難以有效捕捉語言的上下文依賴關(guān)系。2003年,Yoshua1.3.2語料庫建設(shè)與評(píng)估體系完善出了機(jī)器翻譯領(lǐng)域的BLEU評(píng)價(jià)指標(biāo)。2004年,Lin等人確立了文本摘要的年發(fā)布的PennTreebank語料庫包含詳盡1.4神經(jīng)網(wǎng)絡(luò)崛起階段:詞向量與序列建模(2013-2017)1.4.1詞向量技術(shù)的語義革命2013年,GoogleMikolov團(tuán)隊(duì)提出Word2Vec模型。該模型通過Skip-通過向量運(yùn)算示例“國王-男人+女人≈女王”,首次證實(shí)了模型能夠有效1.4.2序列建模的技術(shù)突破5而能夠建模更長的上下文依賴關(guān)系。2014年,Cho等人提出的門控循環(huán)單元(GRU)通過簡化LSTM結(jié)構(gòu),在保持模型性能的同時(shí)顯著提升了訓(xùn)練效率。1.4.3注意力機(jī)制的初步探索該機(jī)制為后續(xù)Transformer架構(gòu)的提1.5Transformer革命階段:預(yù)訓(xùn)練范式與模型規(guī)模化(2017-2022)1.5.1Transformer架構(gòu)的革命性突破2017年,Vaswani等人在《AttentionIsAllYouNeed》一文全基于注意力機(jī)制的Transformer架構(gòu),摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與Transformer在WMT2014英德翻譯任務(wù)上取得了當(dāng)1.5.2預(yù)訓(xùn)練語言模型的雙路徑發(fā)展基于Transformer架構(gòu),2018年語言智能領(lǐng)域涌現(xiàn)出兩大標(biāo)志性模(1)理解型模型代表:BERT6Google團(tuán)隊(duì)提出的BERT(BidirectionalEncoderRepreTransformers)模型采用Transformer編碼器架構(gòu),通過兩種預(yù)訓(xùn)練任務(wù)學(xué)習(xí)語言表示:掩碼語言模型(MaskedLanguageModeling,M行無監(jiān)督預(yù)訓(xùn)練,隨后針對(duì)下游具體任務(wù)進(jìn)行有監(jiān)督微調(diào)。該范式使BERT在GLUE(GeneralLanguageUnders了人類基線表現(xiàn),迅速成為情感分析、問答等自然語言理解任務(wù)的主導(dǎo)模型。(2)生成型模型代表:GPT系列樣本學(xué)習(xí)(Zero-shotLearning)能力;GPT-3(2020)憑借高達(dá)1751.5.3預(yù)訓(xùn)練技術(shù)的持續(xù)迭代2019年后,預(yù)訓(xùn)練語言模型呈現(xiàn)快速迭代態(tài)勢。Facebook公司提出的),升了BERT模型的性能;百度公司研發(fā)的ERNIE引入知識(shí)增強(qiáng)掩碼策略,將實(shí)建模能力與BERT的雙向表征優(yōu)勢,有效解決了掩碼語言模型的預(yù)訓(xùn)練偏差問模型規(guī)模、訓(xùn)練數(shù)據(jù)量與計(jì)算資源的協(xié)同優(yōu)化構(gòu)成1.6生成式AI爆發(fā)階段:大語言模型與生態(tài)構(gòu)建(2022至今)1.6.1ChatGPT的技術(shù)突破與生態(tài)影響7提升:指令微調(diào)技術(shù)(InstructionTuning)使有效適應(yīng)多樣化任務(wù)需求;基于人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLH本、圖像等多模態(tài)輸入,并在律師資格考試、SAT等人類標(biāo)準(zhǔn)化測試中展現(xiàn)出1.6.2全球大模型生態(tài)的構(gòu)建展格局。在國際領(lǐng)域,Meta公司發(fā)布開源LLaMA系列模型(其中LLaMA-2參),列模型則聚焦于安全對(duì)齊(safetyalignment)與長上下大模型等基礎(chǔ)模型相繼推出,標(biāo)志著中國在人工智能生成內(nèi)容(AIGC)技術(shù)領(lǐng)2024年標(biāo)志著生成式人工智能從基礎(chǔ)研究向應(yīng)用探索的關(guān)鍵轉(zhuǎn)折,研究重心轉(zhuǎn)向垂直領(lǐng)域適配。典型案例如下:Codex模型驅(qū)動(dòng)的GitMed-PaLM2)在臨床問答評(píng)估任務(wù)中達(dá)到專業(yè)醫(yī)師水平。這些應(yīng)用均展現(xiàn)出生1.6.3訓(xùn)練方法學(xué)的優(yōu)化與效率提升特性顯著提升了技術(shù)可訪問性,推動(dòng)了人工智能技術(shù)的普惠化進(jìn)程與領(lǐng)域進(jìn)步,8意力(NativeSparseAttention,NSA)與混合塊注意力(MixedBlockAttention,MoBA)技術(shù),則利用稀疏注意力機(jī)制有效緩解了長序列建模的計(jì)算瓶頸問題。模型壓縮領(lǐng)域亦取得顯著進(jìn)展:基于知識(shí)蒸餾的模型(如DistilBERT、技術(shù)通過降低參數(shù)精度(如從32位浮點(diǎn)FP32降至4位整型INT4),顯著提升1.7語言智能的未來1.7.1高效訓(xùn)練與推理技術(shù)硬件與軟件協(xié)同優(yōu)化為關(guān)鍵支撐:專用AI芯片(如TPUv5、昇算效率,內(nèi)存優(yōu)化技術(shù)(如FlashAttent1.7.2可信AI與可解釋性技術(shù)1.7.3多模態(tài)融合與通用智能91.7.4垂直領(lǐng)域的深度適配的生成式大模型,每一次技術(shù)突破都源于算法、數(shù)據(jù)與計(jì)算力的協(xié)同進(jìn)步。Transformer架構(gòu)的提出奠定了現(xiàn)代語言智能的基礎(chǔ),預(yù)訓(xùn)練范式的建立實(shí)現(xiàn)了僅依賴于技術(shù)的持續(xù)創(chuàng)新,更需要倫理、法律、教育等社表1-1語言智能發(fā)展歷程中的重要事件與影響(1954-2024)如何將語言學(xué)算機(jī)實(shí)現(xiàn)自動(dòng)標(biāo)志著計(jì)算語言學(xué)成為獨(dú)立學(xué)科,是語言學(xué)與計(jì)算機(jī)科20世紀(jì)中葉計(jì)算機(jī)科學(xué)與認(rèn)知科學(xué)的交叉發(fā)展,以圖靈測試、神經(jīng)網(wǎng)絡(luò)模型和達(dá)特茅斯會(huì)議為標(biāo)志,為模擬人類智能提供了理如何在技術(shù)層面實(shí)現(xiàn)機(jī)器的同時(shí)解決倫理層面的責(zé)任歸人機(jī)關(guān)系平衡服務(wù)優(yōu)化和科技創(chuàng)新推動(dòng)社會(huì)進(jìn)步;AI作為人類探索智能本質(zhì)的工具,重塑生產(chǎn)方式、社會(huì)成為第四次工業(yè)革生成無限句子”的內(nèi)在語言機(jī)為計(jì)算語言學(xué)提供了形式化基礎(chǔ),其“先天論”觀點(diǎn)主導(dǎo)學(xué)界半個(gè)世紀(jì)性早期規(guī)則翻譯方法質(zhì)量粗糙,遭遇瓶頸基于規(guī)則的機(jī)器翻譯能否達(dá)機(jī)器翻譯研究投入大幅減少,領(lǐng)域進(jìn)算力提升,雙語語能否用統(tǒng)計(jì)概率而非人工規(guī)機(jī)器翻譯研究復(fù)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”別領(lǐng)域證明其實(shí)用性如何讓機(jī)器更準(zhǔn)確地識(shí)別非特定人的連續(xù)計(jì)算機(jī)輔助翻譯如何將機(jī)器翻譯與人工翻譯奠定了人機(jī)協(xié)同的現(xiàn)代翻譯工作流,機(jī)器作為輔助工具人工智能發(fā)展至認(rèn)實(shí)現(xiàn)人機(jī)語義重塑人機(jī)交互,推深度學(xué)習(xí)興起,分如何讓計(jì)算機(jī)語義和關(guān)系實(shí)現(xiàn)了詞語向量化,詞義可以用數(shù)學(xué)計(jì)算,極大推動(dòng)深度學(xué)習(xí),序列到能否用端到端的神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)兩種語機(jī)器翻譯質(zhì)量取得飛躍性提升,譯文如何讓模型在處理長序列時(shí)更好地捕捉全突破了句法樹分析GPT等一切大語言模型,是里程碑式Transformer編碼如何讓模型深層地理解上下中刷新紀(jì)錄,證明了預(yù)訓(xùn)練模型的強(qiáng)Transformer解碼器架構(gòu),海量參數(shù)與模型能否不經(jīng)過特定任務(wù)訓(xùn)AI變?yōu)檎Z言學(xué)研究動(dòng)了AI賦能的深粒突破傳統(tǒng)符號(hào)計(jì)算框架,建立認(rèn)知規(guī)律的數(shù)學(xué)模型,應(yīng)對(duì)數(shù)據(jù)稀疏基于GPT系列模如何讓大模型與人類進(jìn)行自推動(dòng)AI進(jìn)入大語言模型時(shí)代,使非專業(yè)人士也能快速基于深度學(xué)習(xí)與Diffusion模型,通過引入時(shí)空補(bǔ)丁技術(shù),將視頻數(shù)據(jù)統(tǒng)一為可擴(kuò)展的潛在空間表示,實(shí)現(xiàn)了對(duì)不同時(shí)長、分辨率和寬高比視頻模擬物理交互間視頻的連貫?zāi)B(tài)數(shù)據(jù)(文及訓(xùn)練數(shù)據(jù)規(guī)模與算力需求標(biāo)志著AI在視頻生成領(lǐng)域取得重大突破,推動(dòng)了影視行業(yè)的智能化轉(zhuǎn)型,為通用人工智“參數(shù)規(guī)模與推理成本的最優(yōu)化”突破傳統(tǒng)模型性能與成本的模態(tài)生成等任務(wù)上的泛化能推動(dòng)了AI技術(shù)的參考文獻(xiàn)[2].ShannonCE.Atechnicaljournal,1948,2speechrecognition[J].ProceedingsoftheIEEE,2002,77(2):257-286.computingusingimprovedinfoandexplainableartificialintelligence[J].InformarXivpreprintarXiv:2305.174[10].BahdanauD,ChoK,BengioY.Neuralmachinetranslatalignandtranslate[J].arXivpreprintarXiv:1409.0transformersforlanguageunderstanding[C]//Proceedingsofthe2019conferenceoftheNorthAmericanchapteroftheassociationforcomputationallinguistics:AdvancesinneuralinformationprocessiBridgingthegapbetweenhumanandmachinetranslation[J].arXivpreprint[16].AhmedJ,NadeemG,MajeedMK,etal.THERISQUICKREVIEWOFGPT-4VANDGESciences,2025,3(6)[17].LeMensG,Kovácse2309350120.[18].McGiffJ,NikolovNS.OvercomingDataScarcityinGModellingforLow-ResourceLanguages:ASystematicJournalofMachineLearningRephrasesandtheirco[21].VaswaniA,ShazeerN,Parmarneuralinformationprocessingsystems.2017:5998-60bygenerativepre-training[J].OpenAI,2018.withhumanfeedback[J].arXivpreprintarXiv:2203.02155,20multilingual,predictable,andgeneralizabarXivpreprintarXiv:2211.feedback[J].arXivpreprintarXiv:2212.08第二章語言智能學(xué)科2.1語言智能學(xué)科概念的提出會(huì)議與學(xué)術(shù)活動(dòng)機(jī)學(xué)會(huì)、中國人工智能學(xué)會(huì)、上海外國語大學(xué)和上海交通大學(xué)等舉辦了“語言“語言智能與技術(shù)的發(fā)展、應(yīng)用及使命”。學(xué)術(shù)期刊與論文出版北京外國語大學(xué)人工智能與人類語言重點(diǎn)實(shí)驗(yàn)室推出“人工智能與人類語言系機(jī)構(gòu)成立研究中心”;同年,教育部批準(zhǔn)該校自設(shè)語言智能學(xué)?2019年4月:四川外國語大學(xué)成立全國首個(gè)“語言智能學(xué)院”。2.2語言智能概念的基本內(nèi)涵2.2.1狹義理解交互,使得機(jī)器在一定程度上擁有理解、應(yīng)用和分析人類語言的能人類語言能力為基礎(chǔ)、實(shí)現(xiàn)增強(qiáng)與互聯(lián)的深度人機(jī)結(jié)合的綜合智能行為,是“與工、存儲(chǔ)和特征分析,同構(gòu)人機(jī)意識(shí)關(guān)系模型,讓機(jī)器模仿人類自然語言活動(dòng),最終實(shí)現(xiàn)機(jī)器寫作、翻譯、測評(píng)以及人機(jī)語言交互[12.2.2廣義理解語言能力的自然維度,把語言能力看作是人類生命體在自然進(jìn)化基礎(chǔ)上的先天、稱的學(xué)科,就可視作屬于致力于語言人工智能研究的學(xué)科。2.3語言智能學(xué)科概念提出的意義2.3.1語言智能研究的歷史[8]。根據(jù)姜孟的梳理,在“語言智能”圖2-1語言人工智能發(fā)展的一個(gè)歷史方位[9]第一個(gè)歷史階段,思想烏托邦(前機(jī)器翻譯)時(shí)期(是不可能的。到了1966年11月,美國科學(xué)院自動(dòng)語言處理顧問委員會(huì)名的國際計(jì)算語言學(xué)委員會(huì)(InternationalCommitteofComputationalLinguistics,簡稱ICCL)。該學(xué)會(huì)每兩年召開一次國際會(huì)議,會(huì)議名稱為“International后改名為《國際計(jì)算語言學(xué)雜志》(InternationalJournalofComputational第四個(gè)歷史階段,計(jì)算機(jī)科學(xué)主導(dǎo)的連接主義(自然語言處理)時(shí)期(1980的方法,嘗試從已經(jīng)翻譯好的文檔中找出相似部分來幫助新的翻譯。1984年長尾真(MakotoNagao)提出了基于實(shí)例的機(jī)器翻譯方法(example-bas大規(guī)模語料庫的統(tǒng)計(jì)自然語言處理。在此潮流的帶動(dòng)下,1993年,美國IBM研Model1-5變?yōu)榱爽F(xiàn)實(shí)。隨后,更加復(fù)雜的IBMModel6、更加優(yōu)化的軟件包研究越來越遠(yuǎn)的道路。為此,著名的機(jī)器翻譯學(xué)者、GoogleTranslate的設(shè)計(jì)者都開始引入概率并且采用從語音識(shí)別和信息檢索中借過來的基于概率和數(shù)據(jù)驅(qū)這一歷史階段實(shí)際上是語言學(xué)主導(dǎo)的符號(hào)主義研究方法在其紅利快要耗盡2.3.2語言智能學(xué)科概念提出的價(jià)值與意義現(xiàn)狀[9]。首先來看這一術(shù)語對(duì)指示語言人工智能研究歷史新方位的作用。如前所述,統(tǒng)計(jì)為主導(dǎo),繞開語言的語義難題,走連接主義之路,完成了東方不亮西方亮、我們認(rèn)為,這一新的歷史方位就是“智能科所取得的突破性進(jìn)展不多,整體上采取的是一條“繞道走”的研究路線。工智能研究的其他技術(shù)缺乏彼此融合3)基于大數(shù)據(jù)的自然語言處理和智能的本質(zhì)上為自然語言處理尋求依據(jù)[16]?!币陨袑W(xué)者舒利.維系。與此同時(shí),腦科學(xué)、生命科學(xué)等方面的新進(jìn)展已經(jīng)使智能科學(xué)應(yīng)運(yùn)而生。旗幟。[16]非指稱統(tǒng)攬語言人工智能昨天、今天和明天廣類特有的書面形式和口頭形式的自然語言的信息進(jìn)行各種類型的處理和加工的語言學(xué)的問題,廣泛牽涉其它學(xué)科領(lǐng)域的方法與技術(shù),如信息檢索、輿情分析、語音識(shí)別、文語轉(zhuǎn)換、說話人識(shí)別/認(rèn)證/驗(yàn)證等。嚴(yán)格意義上,它還應(yīng)包括語音法分析、語義分析等[21]。2.4語言智能學(xué)科框架2.4.1研究對(duì)象分析人類語言,實(shí)現(xiàn)人機(jī)語言交互[22]。語言學(xué)和語言技術(shù)提出的挑戰(zhàn)[23]。2.4.2研究內(nèi)容與范圍鍵技術(shù)研究以及應(yīng)用創(chuàng)新研究[23]。圖2-2語言智能學(xué)科研究內(nèi)容圖[23]2.4.3研究方法2.4.4學(xué)科性質(zhì)與定位2.5語言智能學(xué)科建設(shè)現(xiàn)狀2.5.1總體概況不少技術(shù)應(yīng)用成果[6]??梢哉f,語言智能目前在我國已經(jīng)受到開設(shè)了語言智能相關(guān)課程[22][8]。2.5.2建設(shè)案例案例一:首都師范大學(xué)(1)學(xué)科概述 語言文字學(xué)(北京市重點(diǎn)學(xué)科)以及計(jì)算機(jī)科學(xué)與技術(shù)(含“計(jì)算機(jī)應(yīng)用技術(shù)” (2)發(fā)展歷程①基礎(chǔ)奠基期(1980–2010年)研究。學(xué)科建設(shè)的重要里程碑為2003年成功獲批設(shè)立“語言學(xué)及應(yīng)用語言學(xué)”②體系形成期(2011–2016年)此階段是學(xué)科體系化建設(shè)的關(guān)鍵時(shí)期。2010年,學(xué)科團(tuán)隊(duì)承擔(dān)國家社科基③快速提升期(2017年至今)陽區(qū)等多個(gè)區(qū)縣中小學(xué),占據(jù)大陸地區(qū)90%以上市場份額,(3)問題與挑戰(zhàn)提出了嚴(yán)峻挑戰(zhàn),也為構(gòu)建安全可信的語言智能生(4)不足與未來發(fā)展(1)學(xué)科交叉融合突破:著力打破傳統(tǒng)學(xué)科壁壘,深化與認(rèn)知科學(xué)、腦科(2)核心技術(shù)攻堅(jiān):集中突破關(guān)鍵技術(shù)瓶頸,重點(diǎn)聚焦國家亟需的大規(guī)模(3)產(chǎn)業(yè)生態(tài)體系構(gòu)建:積極整合產(chǎn)學(xué)研用多方資源,構(gòu)建開放協(xié)同、可(4)高層次人才培養(yǎng)體系優(yōu)化:系統(tǒng)完善人才選拔、培育與激勵(lì)機(jī)制,著案例二:四川外國語大學(xué)(1)前“語言智能”時(shí)期的探索2009年,四川外國語大學(xué)申報(bào)并成功獲批2010年全面建成并投入使用,是全國外語界最早建成的三個(gè)同類實(shí)驗(yàn)室之一。為促進(jìn)語言學(xué)與腦科學(xué)的交叉融合,2016年,學(xué)校以“外語學(xué)習(xí)認(rèn)知神經(jīng)備。(2)語言智能時(shí)期的探索策,大力實(shí)施以大數(shù)據(jù)智能化為引領(lǐng)的創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略行動(dòng)計(jì)劃。2019年,在此背景下,四川外國語大學(xué)于2019年4月在全國率先成立“語言智能為外國語言文學(xué)一級(jí)學(xué)科下二級(jí)學(xué)科并報(bào)教育部備2020年,學(xué)校又進(jìn)一步將全?!坝?jì)算機(jī)教研室”期活動(dòng),采用專家授課、學(xué)習(xí)分享等方式,就AI數(shù)學(xué)基礎(chǔ)、AI模型與算法、腦、開發(fā)語言腦、模擬語言腦”四位一體的學(xué)科發(fā)展基本格局。2022年,學(xué)?!罢Z言智能”在重慶市“人工智能+學(xué)科群”首輪建設(shè)終期驗(yàn)收中獲得“優(yōu)秀”合十余家企事業(yè)單位發(fā)起成立了全國首個(gè)語言腦機(jī)接口研究院——重慶市沙坪2.5.4不足與未來發(fā)展2.6語言智能與外語學(xué)科智能化轉(zhuǎn)型范式,更加追求批判、創(chuàng)造審美、溝通、合作但對(duì)不掌握智能工具的外語從業(yè)者會(huì)帶來沖擊;外語教育(包括第二語言教育)應(yīng)與時(shí)俱進(jìn),將語言智能的挑戰(zhàn)作為轉(zhuǎn)型發(fā)展的契機(jī)。堅(jiān)持語言教育的工具性、人文性的雙重屬性,重視語言運(yùn)用能力、跨文化交際能力和文化包容心的教育,要充分利用現(xiàn)代技術(shù),建立基于語言智能研究圖2-3基于語言智能研究的智能化教育教學(xué)體系[4]關(guān)能力融入人才培養(yǎng)的全過程[2]。方法、路徑的巨大變革,外語教育的智能化轉(zhuǎn)型2.7語言智能研究的新動(dòng)向2.7.1語言人文基因計(jì)算條件變化反過來也促使人文基因自身變化;調(diào)節(jié)人文基因,可以改變精神質(zhì)量,2.7.2語言產(chǎn)業(yè)素。包括語言數(shù)據(jù)產(chǎn)業(yè)在內(nèi)的語言產(chǎn)業(yè),將成2.7.3語言智能治理種語言數(shù)據(jù)治理模式,來破解困境、彌補(bǔ)經(jīng)典數(shù)據(jù)挖掘模式的短板[32]。為推動(dòng)智能技術(shù)和產(chǎn)品進(jìn)步的重要手段,已形成“數(shù)據(jù)?技術(shù)?評(píng)測”閉環(huán),但我參考文獻(xiàn)[5].梁曉波,鄧禎.美軍語言智能處理技術(shù)的發(fā)展策略與啟示[J].國防科[13].李沐,劉樹杰,張冬冬,周[16].宗成慶.2019.統(tǒng)計(jì)自然語言處理[M[17].鐘義信.2018.機(jī)制主義人工智能理論——一種通用的人工智能理論[J].智[18].Wintner,S.[J]ComputationalLingui[19].莫宏偉徐立芳2020.《人工智能[23].李佐文,梁國杰.語言智能學(xué)科的內(nèi)涵與建設(shè)路徑[J].外語電化教版).[25].周建設(shè).人文基因智能計(jì)算將成為語言文字資源建設(shè)的新途徑[J].語言戰(zhàn)略[26].劉利.語言智能的學(xué)科建設(shè)與發(fā)展方向[EB/OL].Retrievedfromhttps:///a/32[29].饒高琦周立煒.論語言智[30].饒高琦、胡星雨、易子琳.語言資源視角下[31].耿立波,劉濤,俞士汶,孫茂松,楊亦鳴.當(dāng)代機(jī)器語言能力的研究現(xiàn)狀與[33].張雄偉,孫蒙,楊吉斌.智能語音處理[M].第三章語言智能技術(shù)3.1基礎(chǔ)支撐技術(shù)詞準(zhǔn)確率[2]。詞性標(biāo)注則為詞語賦予語法角色標(biāo)簽,為后續(xù)的句法與語義分析奠定基Transformer模型能夠結(jié)合上下文長距離依賴關(guān)系,對(duì)歧義詞進(jìn)行更準(zhǔn)確的詞性常是動(dòng)詞)以及與之相關(guān)的論元(如施事、受事、工具、地點(diǎn)、時(shí)間等并為計(jì)的解析器發(fā)展到基于神經(jīng)網(wǎng)絡(luò)的解析器,2014年提出的神經(jīng)網(wǎng)絡(luò)高效依存解的解析器進(jìn)一步提升了長句依存關(guān)系的捕捉能力現(xiàn)代語義角色標(biāo)注系統(tǒng)在大模型的支持下,已經(jīng)能跨領(lǐng)域、跨語言遷移,展現(xiàn)出廣泛的適用性[5]。3.1.2語音信號(hào)處理技術(shù)的角度來看,語音識(shí)別(Automati語音合成任務(wù)是將輸入的文字轉(zhuǎn)化為自然、流暢且富有表現(xiàn)力的語音輸出。色彩和個(gè)性特征的語音[10],為教育、客服、虛擬人等應(yīng)用提供了更強(qiáng)支撐。3.1.3圖像視覺處理[22]等新一代方法迅速崛起,使得視覺識(shí)別與分析的準(zhǔn)確性究的突破性進(jìn)展來自于大規(guī)模多模態(tài)預(yù)訓(xùn)練模型的優(yōu)化,如OpenAI提出的CLIP[16]、Google提出的ALIGN[17],Salesforce提強(qiáng)大的視覺-語言對(duì)齊能力[16]。這種能力不僅使機(jī)器能夠生成對(duì)圖像的自然語3.1.4詞向量技術(shù)模型在大規(guī)模語料中學(xué)習(xí)詞的分布式表示,主要包括兩種訓(xùn)練框架:CBOW比運(yùn)算的能力[22]。得更加穩(wěn)定和精確的語義表示[23]。3.1.5預(yù)訓(xùn)練語言模型預(yù)訓(xùn)練語言模型(Pre-trainedLanguageModels,PLMs)是近年訓(xùn)練目標(biāo)進(jìn)行學(xué)習(xí):MaskedLanguageModel(MLM)讓能力和零樣本/少樣本學(xué)習(xí)性能[27][28]。3.1.6大語言模型AnthropicClaude3.5Sonnet和谷歌Gemini-2.0-Flash-Exp。DeepSeekV3和Qwen2.5-32B-Instruct的推理能力領(lǐng)先,同時(shí)保持極快的推理速語音等模態(tài)的多模態(tài)大模型(LMMs使人工智能逐步具備跨模態(tài)推理與交互不同于傳統(tǒng)模型需要通過參數(shù)更新來適應(yīng)新任務(wù),LLM可以僅憑輸入提示型具備“即學(xué)即用”的特點(diǎn),能夠在零樣本(Zero-shot)或小樣本(Few-shot)(ChainofContinuousThought,Coconut)[43]等擴(kuò)展方法,進(jìn)一多路徑推理和復(fù)雜問題求解中的穩(wěn)健性。相比傳統(tǒng)思維鏈只能沿單一路徑推理,在需要頻繁回溯和規(guī)劃的復(fù)雜推理任務(wù)中,Coc第四,后訓(xùn)練機(jī)制。2024年,大語言模型的訓(xùn)練范式已從“預(yù)訓(xùn)練+微調(diào)”的形式,普遍轉(zhuǎn)變?yōu)椤邦A(yù)訓(xùn)練+后訓(xùn)練”的形式。預(yù)訓(xùn)練繼續(xù)采[37]。言模型生成的合成數(shù)據(jù)。合成數(shù)據(jù)的生成流程分為提示工程與多步驟生成兩種效方法,混合專家模型(MixtureofExperts,MoE化神經(jīng)網(wǎng)絡(luò)多采用預(yù)定義的模塊功能劃分。而最新研究表明,標(biāo)準(zhǔn)預(yù)訓(xùn)練Transformer內(nèi)部自然存在隱式模塊化結(jié)構(gòu),即“涌現(xiàn)模塊化(Emergent大語言模型對(duì)長序列輸入的處理能力,同時(shí)避免計(jì)算需求的成比例增加[41][42]。3.2語言智能應(yīng)用技術(shù)3.2.1機(jī)器翻譯使翻譯結(jié)果在準(zhǔn)確性和流暢性上大幅提升。如今主流的翻譯系統(tǒng)均采用基于近年來,結(jié)合語音識(shí)別(ASR)與語音合成(TTS)的實(shí)時(shí)語音翻譯系統(tǒng)也3.2.2智能問答戶,代表了早期搜索引擎式問答2)基于閱讀理解(MachineReading的推理能力。近年來,預(yù)訓(xùn)練—微調(diào)范式和多任3.2.3對(duì)話系統(tǒng)缺乏語言理解能力,無法適應(yīng)開放領(lǐng)域;2)統(tǒng)計(jì)學(xué)習(xí)方法:隨著數(shù)據(jù)驅(qū)動(dòng)的興隱馬爾可夫模型(HMM)等,用于對(duì)話狀態(tài)建模和意圖識(shí)別。這一階段使對(duì)話能力,例如ChatGPT系列模型就代使系統(tǒng)在多輪對(duì)話中保持邏輯一致性;對(duì)話管理(DialogueManagement,DM言生成(NLG將系統(tǒng)內(nèi)部語義表示轉(zhuǎn)化為自然、流暢的人類3.2.4文本分類3.2.5主題建模絡(luò)的發(fā)展,研究者提出了神經(jīng)主題模型(Neural據(jù)。隨著深度學(xué)習(xí)的發(fā)展,研究者提出了神經(jīng)主題模型(NeuralTopicModels,NTM以克服傳統(tǒng)方法的局限。NTM通常借助變分自編碼器(Variational達(dá)力的語義結(jié)構(gòu)。的對(duì)齊,顯著提升了抽取式問答的性能。Transformer架構(gòu)的引入進(jìn)一步推動(dòng)了3.2.7多模態(tài)理解與生成得多模態(tài)理解與生成在通用人工智能(AGI)參考文獻(xiàn)detectionusingconditionalrandomfields.InProconferenceonComputationalLinguistics,2004,pp.memoryneuralnetworksforChinesewordsegmentation.InProceedingsofthenferenceonEmpiricalMethodsinNaturalLanguageProce–[4]ChenD,ManningCD.Afastanetworks[C]//Proceedingsofthe2014conferelanguageprocessing(EMNLP).2014:740-7comprehension[J].arXivpreprintarXivspeechrecognition:Thesharedviewsprocessingmagazine,2012,29(6):82-97.recurrentneuralnetworks.Proceedingso[8]Bahdanau,D.,Cho,K.,&Bengio,Y.(2learningtoalignandtranslate.ICsynthesis[J].arXivpreprintarXiv:1703models[J].Proceedinspeech[J].arXivpreprintarXiv:2006[13]Dalal,N.,&Trdetection.CVPR2005,InternationalJournalofComputerVisiwithDeepConvolutionalNeuralNetworks.AdvancesinNeuralInformaupvisualandvision-languagerepresentatiR–imagepre-trainingforunifiedvision–languageunderstandingandgeneration.RFlorence:AnewfoundationSurveyofPromptingMethodsinNaturalLanwords:Transformersforimagerecognitionatscale.LearningRepresentations(ICLR).representation[C]//Proceedingsofthe2014conferencanevaluationofBERTatransformersforlanguageunderstanding[C]//Proceedingsofthe2NorthAmericanchapteroftheassociationforcomputationallinguistics:humanlanguagetechnologies,volume1(longandshorAdvancesinneuralinformationprocessiofThoughtReasoninginLanguageModels.AdvancesinNeuralfReasoningLargeLanguageModels",arXiv:2ScalingLawsofCompoundInferenceSystems",arReinforcementLearning:Concept,Generation,Curation,andEvaluation:ASufTechniquestoExtendtheContextLengthinGeneralizationforLargeLanguaReasoninaContinuousLatentSpace"第四章語言智能應(yīng)用這一章以中國人工智能學(xué)會(huì)語言智能專委會(huì)常務(wù)委員擅長的研究領(lǐng)域?yàn)榇?.1語言能力評(píng)價(jià)作文批改是教育智能領(lǐng)域的重要研究方向,其多種創(chuàng)新方法以提升批改效果:在篇章分析方面,通過取,識(shí)別作文的篇章邏輯與內(nèi)容關(guān)聯(lián);在評(píng)分任務(wù)上,型和對(duì)比學(xué)習(xí)方法被廣泛應(yīng)用,以增強(qiáng)評(píng)分的魯棒性和度與可解釋性研究則關(guān)注評(píng)分依據(jù)的可追溯性,如特征測。此外,對(duì)比回歸學(xué)習(xí)方法通過優(yōu)化特征表示空間,影響;而基于思維圖的評(píng)分方法則利用圖結(jié)構(gòu)建模作文提升了評(píng)分的準(zhǔn)確性。這些技術(shù)的發(fā)展為智能化、個(gè)性4.1.1作文批改(1)作文篇章要素與關(guān)系抽取論點(diǎn)、論據(jù)、結(jié)論等)以及它們之間的邏輯關(guān)聯(lián)(如因果、轉(zhuǎn)折、并列等以摘要等領(lǐng)域,幫助評(píng)估文章質(zhì)量并提供優(yōu)化建標(biāo)是從議論文等長文檔中,精準(zhǔn)識(shí)別出各類要素(如論點(diǎn)、論據(jù)、結(jié)論等并中往往具有篇幅長、分布跨度廣的特點(diǎn),這就對(duì)模型提出了更高的要求-不僅要習(xí)的方法有:基于序列建模的方法(如Transformer它能夠捕捉文本的序列依在語篇要素關(guān)系識(shí)別方面,典型的范式是將其視為分類任務(wù)[4-5],即判斷兩交互,通常將要素識(shí)別和關(guān)系識(shí)別視為兩個(gè)獨(dú)立的任務(wù),兩者不共享信息[9-11],意力的網(wǎng)絡(luò)替代了BiLSTM,以更好地學(xué)習(xí)要素之(2)作文評(píng)分深入分析,從中提煉出關(guān)鍵的評(píng)分經(jīng)驗(yàn)和標(biāo)準(zhǔn),并將作文進(jìn)行評(píng)分。這項(xiàng)技術(shù)與傳統(tǒng)的人工評(píng)分相比具有了評(píng)分效率,能在極短的時(shí)間內(nèi)完成大量作文的評(píng)分來看,計(jì)算機(jī)運(yùn)行的成本遠(yuǎn)低于人力資源,且隨著技細(xì)粒度評(píng)分方面的能力將進(jìn)一步提高;最后,這項(xiàng)觀的評(píng)價(jià)體系,有效避免了主觀評(píng)分的影響,確保了Grade)為開端[13]。這種早期的作文自動(dòng)評(píng)分系統(tǒng)作文的語義特征成為重要的研究內(nèi)容[15]。比如利用自然語言處理任務(wù)中常用的Word2Vec[16]與GloVe[在最近的研究中,由于基于Transf(BidirectionalEncoder為解決這一問題,后續(xù)研究提出了提示無關(guān)的跨提示作文自動(dòng)評(píng)分方法共同推動(dòng)了自動(dòng)作文評(píng)分技術(shù)的發(fā)展,為解決數(shù)據(jù)稀缺這限制了模型在處理新提示時(shí)的分布遷移能力,影響了圖4-1同提示作文評(píng)分研究和跨提示作文自動(dòng)評(píng)分研究的區(qū)別[24]對(duì)于作文自動(dòng)評(píng)分任務(wù)而言,獲取作文的向量化特自動(dòng)評(píng)分關(guān)鍵。因此,針對(duì)作文自動(dòng)評(píng)分方法的設(shè)的技術(shù)進(jìn)行結(jié)合是必不可少的。同時(shí),針對(duì)跨提示其本質(zhì)其實(shí)還是關(guān)于領(lǐng)域泛化的研究問題。因此,了要介紹以往的與文本處理相關(guān)的技術(shù)內(nèi)容,包括①基于提示無關(guān)特征的方法過過濾提示相關(guān)的主題信息,保留通用質(zhì)量②基于對(duì)比學(xué)習(xí)與分布對(duì)齊的方法層級(jí)感知對(duì)比學(xué)習(xí)(PLAES針對(duì)不同提示下作文質(zhì)③基于元學(xué)習(xí)的域泛化方法習(xí)器,再基于最大均值差異(MMD)選擇與目標(biāo)提示分布最接近的元學(xué)習(xí)器進(jìn)行優(yōu)化,確保模型向目標(biāo)提示方向偏移。同時(shí),結(jié)合大語言模型(LLMs)進(jìn)行④基于手工特征與規(guī)則的方法從句比例、連接詞頻率等結(jié)合簡單神經(jīng)網(wǎng)絡(luò)或回歸模型進(jìn)行評(píng)分。其核⑤基于大語言模型(LLMs)的零樣本方法⑥元學(xué)習(xí)自動(dòng)作文評(píng)分運(yùn)用該學(xué)習(xí)算法調(diào)整基礎(chǔ)學(xué)習(xí)器,使其適應(yīng)只有少量示例的新任務(wù)。MAML基于元學(xué)習(xí)提出了元學(xué)習(xí)跨提示作文自動(dòng)評(píng)分方法(Prompt-adaptiveMeta-(3)自動(dòng)作文評(píng)分的細(xì)粒度與可解釋性探索①細(xì)粒度與可解釋性集了以自然語言序列形式呈現(xiàn)的人類常識(shí)推理解釋,構(gòu)建了名為常識(shí)解釋(CoS-可應(yīng)用于新穎的常識(shí)自動(dòng)生成解釋(CAGE)框架的訓(xùn)練和作文評(píng)分的細(xì)粒度與可解釋性是提升評(píng)分模型實(shí)用性和可信度的兩個(gè)核心圖4-2篇章級(jí)規(guī)則解釋方法[28]②基于對(duì)比回歸學(xué)習(xí)的作文評(píng)分方法對(duì)比學(xué)習(xí)是一種通過讓模型區(qū)分?jǐn)?shù)據(jù)相似性來學(xué)習(xí)學(xué)習(xí)方法。其核心在于構(gòu)建正負(fù)樣本對(duì)進(jìn)行對(duì)比訓(xùn)練:正據(jù)的不同增強(qiáng)版本或語義相似的實(shí)例,而負(fù)樣本則來自不通過優(yōu)化對(duì)比損失函數(shù)(如InfoNCE損失在特征空間中拉近正樣本之間的距離,同時(shí)推遠(yuǎn)負(fù)樣本之間的距離,從而形成結(jié)構(gòu)化的特法模擬了人類通過比較來認(rèn)知事物的學(xué)習(xí)機(jī)制,能夠在不語言處理等領(lǐng)域展現(xiàn)出強(qiáng)大的表征學(xué)習(xí)能力,特別是在數(shù)景中具有顯著優(yōu)勢。在作文評(píng)分任務(wù)中,對(duì)不同質(zhì)量作文之間的細(xì)微差異,通過構(gòu)建分?jǐn)?shù)相近的作異大的作文作為負(fù)樣本,使模型學(xué)習(xí)到更具判別力的作評(píng)分模型的準(zhǔn)確性和魯棒性。這種學(xué)習(xí)方式不僅增強(qiáng)了分辨能力,還能有效緩解標(biāo)注數(shù)據(jù)不足的問題,為自動(dòng)用均方誤差或平均絕對(duì)誤差作為損失函數(shù)逐步調(diào)整模型參數(shù)以獲得最優(yōu)的擬有人工評(píng)分的作文語料后,按主題、體裁等維度最后是模型訓(xùn)練與優(yōu)化,訓(xùn)練中模型會(huì)交替學(xué)③基于思維圖的作文評(píng)分方法思維圖的復(fù)雜度與簡潔度平衡也是重要評(píng)分維度-過度冗余的節(jié)點(diǎn)可能反映內(nèi)容4.1.2兒童語言能力評(píng)價(jià)(1)兒童敘事能力評(píng)價(jià)任務(wù)概述兒童全面發(fā)展起到了核心作用[30][31][32][33]。敘事能力評(píng)估不僅能客觀衡量兒童語言發(fā)展水平,更在語言障礙的早期診斷與干預(yù)中發(fā)揮著關(guān)鍵作用[34][35]。在臨床語言學(xué)領(lǐng)域,敘事能力評(píng)估始終是研究重點(diǎn)?,F(xiàn)有研究較易量化,研究重點(diǎn)已逐漸轉(zhuǎn)向宏觀結(jié)構(gòu)的連貫性[40]與完整性[41]。兒童敘事能力評(píng)價(jià)任務(wù)與多維度自動(dòng)作文評(píng)分(AES)存在相似之處——后采用主題建模預(yù)測語言障礙與連貫性[44],Jones事圖的兒童敘事能力自動(dòng)化評(píng)估框架。我們首次提出了敘事圖(narrativegraph)圖4-3敘事圖示例構(gòu)建敘事邊。此外,我們將敘事圖與金標(biāo)圖對(duì)比,為敘事圖敘事評(píng)分模塊采用多視角對(duì)比學(xué)習(xí)策略預(yù)訓(xùn)練的圖編碼器編碼敘事圖,通過圖4-4敘事能力評(píng)估系統(tǒng)框架圖(2)兒童敘事能力評(píng)價(jià)語料庫構(gòu)建因此,該語料庫不僅要有一定的數(shù)據(jù)規(guī)模,還需要①語料庫的收集的閱讀材料是在兒童語言能力評(píng)測中被廣泛使用的《Frog而來,在轉(zhuǎn)錄過程中參考了國際標(biāo)準(zhǔn)的兒童語言數(shù)據(jù)交流系統(tǒng)(ChildLanguage體部分還對(duì)詞語省略、話語重復(fù)、語句糾正等現(xiàn)象因此,在開始標(biāo)注之前還需要將主體部分轉(zhuǎn)錄出的敘事文本進(jìn)行保留,清洗掉對(duì)無文字圖畫書《Frog,whereareyou?》的講述,后續(xù)的對(duì)敘事文本中事件、事②語料庫標(biāo)注規(guī)范的設(shè)計(jì)③標(biāo)注過程為確保標(biāo)注的準(zhǔn)確性與可靠性,標(biāo)注過程分為兩個(gè)階段實(shí)施1)敘事準(zhǔn),使得針對(duì)不同兒童樣本的敘事能力評(píng)估更④統(tǒng)計(jì)分析敘事文本體現(xiàn)出的敘事質(zhì)量的評(píng)估和分?jǐn)?shù)、評(píng)語等信息仍需專家進(jìn)圖4-5兒童敘事能力評(píng)價(jià)語料庫中的文檔長度分布統(tǒng)計(jì)(3)可解釋的兒童敘事能力評(píng)價(jià)方法設(shè)計(jì)圖4-6兒童敘事能力評(píng)價(jià)框架流程圖將編碼后的節(jié)點(diǎn)表征與原始文本融合后輸入經(jīng)指令微調(diào)的①兒童敘事圖構(gòu)建模塊于敘事圖的結(jié)構(gòu)導(dǎo)致的數(shù)據(jù)稀疏性,加之兒童口頭表述不規(guī)范引發(fā)的節(jié)點(diǎn)缺失、②敘事圖輔助的敘事能力評(píng)估模塊述敘事圖輔助評(píng)分任務(wù)主要面臨三大挑戰(zhàn)1)敘事能力涉及多維度評(píng)估,4.2東南亞低資源語言機(jī)器翻譯技術(shù)4.2.1東南亞低資源語言機(jī)器翻譯概述機(jī)器翻譯(MachineTranslation,MT)[53]作為人工智能與自然語言處理(NaturalLanguageProcessing,N機(jī)實(shí)現(xiàn)不同語言間的自動(dòng)轉(zhuǎn)換。該技術(shù)歷經(jīng)了從基于規(guī)則、統(tǒng)計(jì)機(jī)器翻譯(StatisticalMachineTranslation,SMT)[55]到當(dāng)前主流的神經(jīng)機(jī)器翻譯(Neural 低資源語言(Low-ResourceLanguages)構(gòu)成嚴(yán)峻挑戰(zhàn)步加大了機(jī)器翻譯的難度[58]。使用的機(jī)器翻譯系統(tǒng)將在東南亞地區(qū)發(fā)揮更加關(guān)鍵的基礎(chǔ)設(shè)施作用[61]。4.2.2東南亞低資源語言神經(jīng)機(jī)器翻譯技術(shù)(1)數(shù)據(jù)增強(qiáng)的低資源語言神經(jīng)機(jī)器翻譯能力[62-64]。(extract-edit)雙語數(shù)據(jù)抽取方法[65]。該方法并非專門針對(duì)東南圖4-7抽取-編輯(extract-edit)雙語數(shù)據(jù)抽取方法了利用樞軸語言[66]、融入句子結(jié)構(gòu)特征[67]和語言模型[68]等策略,以提升對(duì)齊質(zhì)(2)語言知識(shí)增強(qiáng)的東南亞語言神經(jīng)機(jī)器翻譯實(shí)體單元,并引入多任務(wù)學(xué)習(xí)機(jī)制,有效緩解實(shí)體稀疏與粒度不匹配問題[73]。圖4-8基于子實(shí)體粒度的知識(shí)增強(qiáng)神經(jīng)機(jī)器翻譯框架良好的通用性與魯棒性[74]。圖4-9語法感知的詞表示方法機(jī)器翻譯模型框架應(yīng)性[76]。圖4-10雙塔架構(gòu)的雙交叉編碼器模型示意圖通過無監(jiān)督學(xué)習(xí)和跨語言遷移等途徑,持續(xù)提(3)多語言協(xié)同的東南亞語言神經(jīng)機(jī)器翻譯在技術(shù)演進(jìn)過程中,研究者提出了一系列創(chuàng)新框架。Dong等人[77圖4-11面向多目標(biāo)語言翻譯的多任務(wù)學(xué)習(xí)框架力。Firat等人[79]則引入共享注意力機(jī)制,避免注意力模塊隨語言對(duì)數(shù)量增長而為優(yōu)化多語言模型的性能平衡,后續(xù)研究聚焦于知識(shí)遷移與效率提升。Tan等人[81]采用知識(shí)蒸餾技術(shù),通過教師-學(xué)生模型框架在減少參數(shù)量的同時(shí)保持翻下實(shí)現(xiàn)有效遷移;Neubig和Hu[83,84]則通過相似語言正則化策略,利用高資源語(4)東南亞低資源語言機(jī)器翻譯系統(tǒng)性能分析表4-2東南亞語言機(jī)器翻譯評(píng)測結(jié)果32.461.154.699.844.838.821.850.862.337.433.027.856.951.531.260.156.323.856.661.999.739.835.042.669.639.243.267.640.550.066.499.838.534.535.662.147.1--41.765.644.128.659.259.340.635.599.635.548.472.1--42.467.6--36.7-43.1-31.337.252.032.657.298.443.1-36.5-60.7-62.0-42.2-48.7-31.244.429.274.723.4-35.8-56.1-62.0-60.4-49.0-30.344.527.074.022.1-28.0-50.8-56.1-60.5-60.8-9.033.241.530.875.5-30.8-49.6-59.2-63.4-55.9-從技術(shù)路線發(fā)展來看,當(dāng)前機(jī)器翻譯領(lǐng)域呈現(xiàn)出明顯的技術(shù)路線分化態(tài)勢。與專業(yè)化并進(jìn)"的發(fā)展格局,反映了當(dāng)前技術(shù)前數(shù)據(jù)資源分布的現(xiàn)實(shí)狀況,也凸顯了低資源語言機(jī)器翻譯面圖4-12中文和英文到不同東南亞語言機(jī)器翻譯BLEU值評(píng)價(jià)圖4-13東南亞語言到中文和英文機(jī)器翻譯BLEU值評(píng)價(jià)持續(xù)推動(dòng)低資源語言信息處理能力提升,為區(qū)域數(shù)字化發(fā)展提供更有力的支撐。4.2.3東南亞低資源語言大模型機(jī)器翻譯技術(shù)(1)基于提示的大模型機(jī)器翻譯方法基于提示的優(yōu)化方法中,上下文學(xué)習(xí)(ICL)通過不修改模型內(nèi)部參數(shù)的情況下有效激發(fā)大模型的翻譯潛力。該方法通過提供"源圖4-14上下文學(xué)習(xí)示意圖圖4-15思維鏈?zhǔn)疽鈭D(2)基于參數(shù)微調(diào)的大模型機(jī)器翻譯方法圖4-16LoRA微調(diào)示意圖LoRA(Low-RankAdaptation)微調(diào)通過低秩矩陣分解實(shí)現(xiàn)參數(shù)高合低資源語言的翻譯場景,能夠在有限數(shù)據(jù)條件下(3)東南亞低資源語言大模型機(jī)器翻譯性能分析表現(xiàn)相對(duì)較弱。這一現(xiàn)象凸顯了大模型在跨表4-3使用CHRF評(píng)測指標(biāo),各模型在ALT數(shù)據(jù)集下Zero-Shot的性能值得注意的是,經(jīng)過亞洲語料專門微調(diào)的Seal表4-4各模型在單樣本提示下,CHRF性能表現(xiàn)表4-5經(jīng)過提示學(xué)習(xí)后,模型易出現(xiàn)的錯(cuò)誤持續(xù)學(xué)習(xí)能力,但也暴露出在凍結(jié)參數(shù)設(shè)置表4-6各模型在五樣本提示下,CHRF性能表現(xiàn)4.2.4東南亞低資源語言語音翻譯技術(shù)(1)基于級(jí)聯(lián)框架的語音翻譯方法語言的聲學(xué)表征能力[92]。針對(duì)錯(cuò)誤傳遞問題,可在MT訓(xùn)錯(cuò)誤以增強(qiáng)模型容錯(cuò)性,或在ASR與MT之間加入逆文本歸一化、口語規(guī)范化等中間處理模塊,以彌合模態(tài)差異,提升輸入文本質(zhì)量[93]。(2)端到端語音翻譯方法了傳統(tǒng)級(jí)聯(lián)系統(tǒng)中獨(dú)立的語音識(shí)別與機(jī)器翻譯模塊。其典型架構(gòu)基于編碼器-解碼器結(jié)構(gòu)(如Transformer或Conformer首先提取語音信號(hào)的聲學(xué)特征并編碼聲學(xué)建模與語義理解構(gòu)成挑戰(zhàn),導(dǎo)致翻譯性能受限聲學(xué)語義知識(shí)遷移至低資源任務(wù)[94]。多任務(wù)學(xué)習(xí)通過聯(lián)合訓(xùn)練語音識(shí)別等輔助目前,端到端方法在資源相對(duì)豐富的語對(duì)上已取得顯著進(jìn)展,如英語-越南(3)基于大語言模型的語音翻譯方法(4)東南亞低資源語言語音翻譯性能分析4.3負(fù)面情感分析技術(shù)4.3.1負(fù)面情感分析概述情感分析(SentimentAnalysis,SA)作Processing,NLP)領(lǐng)域的重要研究方向,旨在通過計(jì)算方法對(duì)文經(jīng)歷了從基于詞典與規(guī)則的方法到深度學(xué)習(xí)范式的顯主流研究往往將情感極性簡化為正、中、負(fù)三Ekman六類體系,忽視了一個(gè)關(guān)鍵事實(shí):負(fù)面情感在語言表層現(xiàn)更復(fù)雜的表征模式,且其社會(huì)代價(jià)遠(yuǎn)高于正面情感[105]。分析(NegativeSentimentAnaly對(duì)文本中負(fù)面情感傾向的自動(dòng)化識(shí)別與解析,其研究價(jià)視角出發(fā),負(fù)面情感并非單一極性,而是涵蓋憤怒、恐感具有強(qiáng)烈的語境依賴性。同一詞匯在特定語域或文化為中性,甚至正面;例如,“sick”在標(biāo)準(zhǔn)英語中多含負(fù)面語等間接表達(dá)策略呈現(xiàn),導(dǎo)致表層極性與深層情緒顯著背離[108]。其在多個(gè)應(yīng)用場景中具有特殊重要性。社交媒體中負(fù)面潛在的社會(huì)風(fēng)險(xiǎn),通過對(duì)其進(jìn)行分析可以輔助政府部門理。在心理健康領(lǐng)域,臨床心理學(xué)研究發(fā)現(xiàn)社交媒體的發(fā)病率存在顯著相關(guān)性,這使得負(fù)面情感分析在心理健用前景。此外,在教育、醫(yī)療、金融等多個(gè)領(lǐng)域,負(fù)面近年來,隨著在線文本體量的爆炸式增長,網(wǎng)絡(luò)暴感分析不僅被視為情感分析的自然延伸,更成為理又具有強(qiáng)烈的應(yīng)用導(dǎo)向。下文將針對(duì)負(fù)面情感分別、抑郁癥傾向識(shí)別和網(wǎng)絡(luò)輿情分析等任務(wù),系4.3.2負(fù)面情感分析技術(shù)(1)反諷識(shí)別①任務(wù)定義來越多的用戶習(xí)慣在網(wǎng)絡(luò)社交媒體上發(fā)帖分享自己再局限于使用簡單的情感詞來進(jìn)行表達(dá),而會(huì)伴隨達(dá)手法。研究者認(rèn)為諷刺是一種經(jīng)過偽裝的毒性言論境之間顯而易見的不一致性來隱含地表達(dá)輕蔑[110]。諷刺是語言學(xué)領(lǐng)域備受關(guān)注的一種交際現(xiàn)象。它常被視為一種復(fù)雜的語言用法字面意思相反的內(nèi)容。在語言學(xué)中,諷刺有多種表現(xiàn)形式和分類。威爾遜[111]指諷刺(Sarcasm)是言語反諷(VerbalIrony面意義和真正意義之間的差異。這類諷刺性語言的識(shí)別稱為諷刺識(shí)別(SarcasmDetection)。諷刺識(shí)別分為單模的單模態(tài)諷刺識(shí)別任務(wù)就是根據(jù)文本信息來判斷某條單本的某條內(nèi)容是否帶有諷刺情感。但單純的文本信息,調(diào)以及說話人的狀態(tài)信息,有時(shí)難以判斷是否是反諷。的諷刺識(shí)別也成為常見的任務(wù)類型。多模態(tài)數(shù)據(jù)通常來情感分析中具有重要意義,還因?yàn)樵谖谋局袡z測諷刺存在一定的等人[112]首次對(duì)自動(dòng)諷刺檢測領(lǐng)域的既往研究成果進(jìn)行了整理。該論文闡述了諷刺檢測領(lǐng)域的各類數(shù)據(jù)集、研究方法、發(fā)展趨勢以及存在檢測研究主要集中在使用語用規(guī)則來檢測文本前后的不一領(lǐng)域和固定的模式來識(shí)別諷刺,基于特征的機(jī)器學(xué)習(xí)方法的活躍研究已經(jīng)從傳統(tǒng)的基于規(guī)則和特征的方法轉(zhuǎn)向了基一方面有利于補(bǔ)充語境及外部知識(shí)以提高檢息之間的交互和融合[114-115]。此外,隨著大型語言模Models,LLMs)和大型視覺-語言模型(LargeVision-LanguageMLVLMs)的快速發(fā)展,研究人員開始探索利用這些模型的強(qiáng)大能下文和背景知識(shí)的依賴;跨文化和跨語言的差異;多模戰(zhàn)使得諷刺檢測成為自然語言處理領(lǐng)域中一個(gè)活躍的研②數(shù)據(jù)集IAC-V1[118]等)主要關(guān)注文本諷刺,而近年來的數(shù)據(jù)集(如MMSD[126]、MUStARD[117]等)開始關(guān)注多模態(tài)諷刺。此外,數(shù)據(jù)集的規(guī)模和質(zhì)量也在不斷提高,從自動(dòng)收集到人工標(biāo)注,從單一語言到多語1)文本諷刺檢測數(shù)據(jù)集的特性,確保了大量觀點(diǎn)的存在,而諷刺是其中現(xiàn),為數(shù)據(jù)集構(gòu)建提供了豐富素材。以下是IAC的書面語言為英語。每個(gè)實(shí)例,通常是一個(gè)句子,都標(biāo)注有諷刺標(biāo)簽,即iSarcasmEval[119]:第一個(gè)針對(duì)有意諷刺檢測的共享任務(wù)數(shù)),以及訓(xùn)練和評(píng)估諷刺檢測系統(tǒng)的大型語料庫。該語料庫包含F(xiàn)LUTE[122]:包含諷刺解釋的標(biāo)準(zhǔn)英語數(shù)據(jù)集,不僅提供包含了對(duì)諷刺表達(dá)的解釋。這對(duì)于研究諷刺BESSTIE[123]:用于英語變體(澳大利亞英語、印度英語情感和諷刺分類的基準(zhǔn)。這個(gè)數(shù)據(jù)集特別關(guān)注了跨文化和2)多模態(tài)諷刺檢測數(shù)據(jù)集),住虛假的相關(guān)性。為了解決第二個(gè)問題,作者直接努力MUStARD是一個(gè)帶有諷刺標(biāo)簽注釋的視聽話語集合。為了測的多模態(tài)方法進(jìn)行研究,卡斯特羅等人[117]提出了這個(gè)新的諷刺數(shù)據(jù)集,該數(shù)據(jù)集是從熱門電視節(jié)目中整理而來。數(shù)據(jù)集中的視頻行了人工標(biāo)注。該數(shù)據(jù)集由話語組成,每一條話景,這為話語出現(xiàn)的情境提供了更多信息。每一的發(fā)展和泛化能力;②標(biāo)注挑戰(zhàn):諷刺的標(biāo)簽有時(shí)依賴于),大規(guī)模、專門針對(duì)純語音場景的諷刺言語標(biāo)注數(shù)據(jù)集。問題,Li等人[126]提出了一套利用大語言模型輔助標(biāo)注的自動(dòng)化流程,以高效地創(chuàng)建一個(gè)大規(guī)模諷刺語音數(shù)據(jù)集。該流程包含三個(gè)主要階③文本諷刺檢測方法1)傳統(tǒng)諷刺檢測方法在深度學(xué)習(xí)尚未興起的時(shí)期,基于規(guī)則與傳統(tǒng)機(jī)器活。然而,由于其無法自動(dòng)挖掘和提取復(fù)雜基于規(guī)則的諷刺檢測方法通常是指基于語言學(xué)、的知識(shí)和經(jīng)驗(yàn),手工設(shè)計(jì)規(guī)則來識(shí)別諷刺的潛在特征。Bharti等人[127]創(chuàng)建句子語法樹來檢測句子前后的情緒化短語是否矛盾,這種取文本特征持續(xù)產(chǎn)生影響。由于對(duì)機(jī)器學(xué)習(xí)的廣泛關(guān)到機(jī)器學(xué)習(xí)模型中,并強(qiáng)調(diào)了模型的自動(dòng)學(xué)習(xí)能力而器學(xué)習(xí)算法被應(yīng)用于提取到的數(shù)值特征以建立對(duì)文本是其中最為常用的分類算法[128],其他算法如邏輯回歸、決策樹、隨機(jī)森林[129]等也在諷刺檢測中得到了應(yīng)用,選擇適當(dāng)?shù)乃惴ㄍ?)基于深度學(xué)習(xí)的諷刺檢測方法相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)通常需要雜的模型,在處理NLP任務(wù)中表現(xiàn)出了卓越的能力。句文本中尋找諷刺線索,早期研究大多將其作為一然而,通過對(duì)比分析發(fā)現(xiàn)句子級(jí)的諷刺檢測可性受到限制。這是因?yàn)樯缃幻襟w中的許多諷刺言論可能結(jié)合特定語境或背景信息才能被完全理解。為了減少句解,存在不少基于深度學(xué)習(xí)的諷刺檢測模型是經(jīng)過上下強(qiáng)的。Hazarika等人[130]提出了一個(gè)上下文諷刺檢測器,添加了額外的用戶信息嵌入,用于編碼用戶的寫作風(fēng)格和個(gè)性特征來增強(qiáng)特征代表性,而Du等人同樣認(rèn)為檢測諷刺的關(guān)鍵問題是檢查目標(biāo)文本的Potamias等人[132]在其論文中,對(duì)基于T絡(luò)(RCNN)相結(jié)合,通過對(duì)預(yù)訓(xùn)練嵌入的時(shí)間依果。在SARC2.0數(shù)據(jù)集的“Po的模型表現(xiàn)優(yōu)異,而上述所提架構(gòu)進(jìn)一步提升了檢測性能。此外,Yue等人[133]與任務(wù)相關(guān)的知識(shí)。提示調(diào)優(yōu)包括將下游任務(wù)轉(zhuǎn)化正是許多預(yù)訓(xùn)練語言模型(PLMs)的預(yù)訓(xùn)練目標(biāo)。是通俗的常識(shí)。由于諷刺語言與外部知識(shí)的語言通常是一致的,Li等人[134]創(chuàng)建C3KG,可為中文諷刺檢測數(shù)據(jù)集生成相關(guān)中文常識(shí)。API檢索外部知識(shí)源(維基百科、紐約時(shí)報(bào)和BBC)的公開知④多模態(tài)諷刺檢測方法1)傳統(tǒng)深度學(xué)習(xí)檢測方法力,因此多模態(tài)方法成為必然趨勢。在社交媒體上,圖文表達(dá)反諷的一種常見方式。通過這種媒介表達(dá)的反諷,Cai等人[114]提取了圖像屬性并將其作為第三種模態(tài)引入,以提升模型性層融合機(jī)制改進(jìn)了這一問題。Pan等人[136]指出,模態(tài)間和模態(tài)內(nèi)的不一致性在型,該模型能夠聚焦于模態(tài)間和模態(tài)內(nèi)的不一致性。在視聽與文本模態(tài)中,反諷是通過帶有文字字幕的檢測的。這類反諷在情景喜劇、電視節(jié)目和單口喜劇中極為常見。[117]開展的研究首次表明,音頻、視頻以及相關(guān)上下文均有助于提升多模態(tài)反諷檢測(MSD)的性能。作為該領(lǐng)域的早期研究,他們提量機(jī)(SVM)實(shí)現(xiàn)預(yù)測。Alnajjar[137]采用了類似的方法,即訓(xùn)練SVM從拼接的特定模態(tài)特征中預(yù)測反諷,他們是唯一研究非英語(2)基于多模態(tài)注意力的檢測方法能夠?qū)⑽谋竞蛨D像編碼到共同特征空間的多模青睞。Qin等人[125]提出了多視圖CLIP,這證明有助于提升多模態(tài)反諷檢測性能”這一觀的多模態(tài)特征提取器,并結(jié)合Transformer的Chen等人[138]提出了InterCLIP-MEP框架,結(jié)和記憶增強(qiáng)預(yù)測器(MEP)。該框架通過將跨模態(tài)更善于從數(shù)據(jù)中識(shí)別模態(tài)內(nèi)和模態(tài)間的依賴關(guān)系。Bhosale等人[139]采用了ViFi-CLIP[140](一種視頻-文本編碼器將視頻幀和文本編碼到一個(gè)共同的表征空間中。作者還使用了Wav2vec2.0一種基于Transformer的自監(jiān)督語音編碼器,該編碼器在語音情感識(shí)別任務(wù)上進(jìn)行了微調(diào),⑤基于大模型的檢測方法近年來,隨著大型語言模型和大型視覺-語言模型的始探索利用這些模型的強(qiáng)大能力來解決諷刺檢測問的預(yù)訓(xùn)練知識(shí)和強(qiáng)大的上下文理解能力,為諷刺任務(wù)上進(jìn)行了全面評(píng)估。他們使用了三種不同的提示方本提示和思維鏈(ChainofThought)提示。實(shí)驗(yàn)結(jié)果表明,當(dāng)前基于提示的測。一些研究將諷刺檢測任務(wù)分解為多個(gè)子任務(wù),如,Zhang等人[142]受軍事策略啟發(fā),提出的多模態(tài)Commander-GPT框架將諷刺檢測任務(wù)分解為六個(gè)不同的子任務(wù),由中央指揮官(大語言模型處理每個(gè)特定子任務(wù),最終聚合各模型的檢測結(jié)果。在MMMMSD2.0上使用四種多模態(tài)大語言模型和六種提示策略的實(shí)驗(yàn)表明,通過任務(wù)分解和模型協(xié)作,可以充分發(fā)揮上的推理能力。Liu等人[143]提出了CAF-I,一個(gè)旨在通過模擬人類多維度分析過程來解決諷刺檢測的限業(yè)化智能體,分別負(fù)責(zé)上下文分析、語義分析和修辭分成決策機(jī)制整合觀點(diǎn)。Jana等人[144]提出了MiDRE模型,整合內(nèi)部推理專家(IR)和外部推理專家(ER其中IR直接從輸入中捕獲諷刺線索,ER利用通過大型視覺-語言模型生成的結(jié)構(gòu)化理由。在兩個(gè)(2)仇恨言論識(shí)別①任務(wù)定義增長趨勢。這些內(nèi)容一方面豐富了人們的網(wǎng)絡(luò)生活聯(lián)合國教科文組織將仇恨言論定義為“基于種族發(fā)布者更容易對(duì)特定群體產(chǎn)生極端心理[147]。而仇恨言論的泛濫也會(huì)造成大眾對(duì)面對(duì)仇恨言論的泛濫,各國政府和相關(guān)的互聯(lián)言論,對(duì)發(fā)布者制定了刑事處罰條款,同時(shí)要求互聯(lián)網(wǎng)對(duì)仇恨言論進(jìn)行有效處理。我國也已經(jīng)通過立法嚴(yán)令禁微博等國內(nèi)外社交媒體平臺(tái)也先后出臺(tái)了限制仇恨言近年來,仇恨言論檢測同樣引發(fā)了廣大自然語言處高質(zhì)量的數(shù)據(jù)集相繼構(gòu)建,多種有效的檢測方法不域的發(fā)展。本文將重點(diǎn)綜述仇恨言論檢測中的關(guān)鍵②仇恨言論識(shí)別技術(shù)角度分析,仇恨言論識(shí)別方法主要分為三個(gè)研究階段、深度學(xué)習(xí)階段和大模型階段。下面分別介紹在三個(gè)在最初的研究中,研究者們主要基于傳統(tǒng)的機(jī)器學(xué)識(shí)別。首先針對(duì)給定的語料庫設(shè)計(jì)和選擇與仇恨言論相用機(jī)器學(xué)習(xí)方法作為分類器識(shí)別仇恨言論。在特征工程的提取是研究的重點(diǎn)。Nobata等人[150]指出,將字符級(jí)和單詞級(jí)n-gram特征與匯、話題標(biāo)簽、emoji符號(hào)的數(shù)量和評(píng)論長度等信息,模型的性能。在此基礎(chǔ)上,Unsv?g等人[151]進(jìn)一步引入用戶信息,包括用戶的性別、活躍度等特征,取得了較好的效果。Djuric等人[152]受到分布式語義特征表示方法Paragraph2Vec的啟發(fā),引入神經(jīng)語言模型CBoW學(xué)習(xí)社交媒體文本的低維向量表示,使語義相近的用戶評(píng)論和單詞在向量利用訓(xùn)練好的向量表示對(duì)文本進(jìn)行特征編碼,并輸入到用機(jī)器學(xué)習(xí)方法進(jìn)行仇恨言論檢測時(shí),模型的性能主要程的影響,決策具有較強(qiáng)的可解釋性。然而,仇恨言論現(xiàn)象,通常依賴于特定的社會(huì)、文化、歷史和政恨言論的識(shí)別。周險(xiǎn)兵等人[153]分別利用CNN和自注意力機(jī)制捕捉仇恨言論的字符級(jí)拼寫特征和句子級(jí)語義特征,并結(jié)合早期融合和征表示進(jìn)行識(shí)別。Mozafari等人[154]將BERT和不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括全連接層、CNN等,以識(shí)別仇恨言論,并取得了較言論樣本通常來源于社交媒體,Barbieri等人[155]利用取自Twitter平臺(tái)的有標(biāo)簽數(shù)據(jù)對(duì)RoBERTa進(jìn)行有監(jiān)督訓(xùn)練,得到Tw基于深度學(xué)習(xí)的仇恨言論檢測方法對(duì)于樣本上下文的理解能力顯著增強(qiáng)。然而,這些方法通常在單一的數(shù)據(jù)源上進(jìn)行訓(xùn)練,模于自身的“黑盒”屬性,這些方法大多缺乏可解釋最近,大模型技術(shù)的突破給仇恨言論識(shí)別帶來了新的技術(shù)支持[比于一般的預(yù)訓(xùn)練模型,大模型具有更加豐富的世界知此,直接使用大模型進(jìn)行識(shí)別依然存在潛在的風(fēng)險(xiǎn)。由于自身的“幻覺”問題,在識(shí)別的過程中大模型會(huì)缺乏明確依據(jù)時(shí)給出看似合理種幻覺不僅影響檢測結(jié)果的準(zhǔn)確性,還可能導(dǎo)致用戶內(nèi)下降。因此,如何在充分利用大模型豐富知識(shí)的同時(shí)③仇恨檢測模型去偏本中包含一些高頻的詞匯標(biāo)記,例如針對(duì)特定群體的提及(含特定詞匯的樣本直接歸類為仇恨言論,影響了模使模型在無偏的環(huán)境下進(jìn)行訓(xùn)練。Dixon等人[158]利用對(duì)抗數(shù)據(jù)平衡原始的仇恨樣本,構(gòu)建包含侮辱性詞匯和身份提及的非仇恨樣本,Zhou等人[159]采用了AFLite和DataMaps等多種數(shù)據(jù)清洗的方法,根據(jù)模型決策的難易程度過濾掉包含偏見的樣本。Ramponi等人[160]對(duì)原始樣本的偏見詞匯分別進(jìn)行移除和掩碼操作,以去除數(shù)據(jù)中的偏除了利用數(shù)據(jù)工程解決去偏問題以外,一些研究者在原始數(shù)據(jù)的基礎(chǔ)上,對(duì)模型訓(xùn)練的過程進(jìn)行干涉,以減輕模型對(duì)詞性偏見的依賴。Vaidya等人[161]提出了一個(gè)多任務(wù)框架,同時(shí)預(yù)測評(píng)論中涉及的身份和型根據(jù)身份信息判斷樣本是否表達(dá)仇恨,提升模型的公平性。Zhou等人[159]受只根據(jù)樣本中的偏見詞匯進(jìn)行決策,充分捕捉偏見,并這些去偏方法在實(shí)際應(yīng)用中通常需要引入高頻作為先驗(yàn)知識(shí),用以捕捉詞匯偏見。然而,模型的生,而不是由人工確定的。因此,外部詞表與實(shí)際不引入詞表的前提下,減輕詞匯偏見對(duì)模型的影響。Attanasio等人[162]提出了一種熵注意力正則化(Entropy-bas析樣本中各個(gè)詞匯對(duì)于模型預(yù)測結(jié)果的貢獻(xiàn)程度,并則化懲罰,使模型更加關(guān)注全局信息。Chang),④多模態(tài)仇恨模因檢測相比于一般的仇恨言論,多模態(tài)仇恨模因更具有煽動(dòng)性,傳播,導(dǎo)致嚴(yán)重的社會(huì)危害。因此,采取相應(yīng)的檢測措施在早期的工作中,研究者們直接采用已有的多模態(tài)信息以外,研究者們還注重挖掘模因中圖像和文本的潛仇恨模因的攻擊對(duì)象。一些研究者將模因的攻擊對(duì)象作模型中。Lee等人[166]引入人臉識(shí)別技術(shù)的輔助任務(wù)。Pramanick等人[167]提出一種多任時(shí)對(duì)攻擊對(duì)象識(shí)別和仇恨模因檢測兩個(gè)任務(wù)進(jìn)行優(yōu)這些方法充分地利用了圖像和文本的特征,增強(qiáng)了而,它們通常對(duì)圖片和文本采用不同的編碼器,導(dǎo)知識(shí)輔助模型進(jìn)行檢測。Blaier等人[168]采用圖像字幕工具捕獲圖像內(nèi)容,實(shí)驗(yàn)表明在微調(diào)過程中結(jié)合圖像標(biāo)題信息可以明顯改善各種基礎(chǔ)上,一些研究者將標(biāo)題與原始文本以及圖片實(shí)體特型的檢測效果。Cao等人[169]提出了基于提示學(xué)習(xí)的PromptHate方法,利用CLIP模型獲得模因圖的標(biāo)題,將原始的模因文本與圖像實(shí)體信息統(tǒng)一輸入到提示模板中,利用文本編碼器中進(jìn)恨模因檢測轉(zhuǎn)化成文本分類任務(wù)。受此啟發(fā),Ji等人[170]進(jìn)一步在提示模板中引入創(chuàng)作模因的背景知識(shí),利用BLIP模型補(bǔ)充圖片背景相關(guān)的屬性信息。這些方法連接了圖像和文本的語義信息,有助于模型的優(yōu)化易受到標(biāo)題質(zhì)量的影響,忽略圖像中的細(xì)節(jié)信息,對(duì)于近年來,隨著多模態(tài)大模型(MLLM)的快速發(fā)展其強(qiáng)大的推理能力來增強(qiáng)模型的可解釋性。Lin等人[171]提出了一種生成式框架,借助大語言模型為模因內(nèi)容生成合理的解釋,模模型進(jìn)行知識(shí)蒸餾,從而提升其檢測性能。隨后,Lin等人[172]又提出了一種此輔助模型做出更具推理能力的判斷。盡管上述方法在取得了一定進(jìn)展,但與傳統(tǒng)仇恨識(shí)別方法類似,這類研身可能存在的“幻覺”問題,即生成內(nèi)容缺乏事實(shí)依Hee等人[173]通過大量的定量實(shí)驗(yàn)和定性分析,深入探究了文本和視覺特征在檢測任務(wù)中的貢獻(xiàn)程度,模型對(duì)模因中侮辱性詞匯的理解見和錯(cuò)誤分類情況等問題,并提出傳統(tǒng)的端到端分類的模型是否能夠?qū)δR虻暮x進(jìn)行正確分析。為此,他們仇恨模因數(shù)據(jù)集(HatReD)[174],并定義了仇恨模因解釋生成任務(wù),旨在讓模(3)抑郁癥傾向識(shí)別①任務(wù)定義抑郁癥是一種常見的心理障礙,長期未被識(shí)別并癥影響[175],然而由于傳統(tǒng)診斷方法(如面容,為識(shí)別其心理健康狀態(tài)提供了可能。尤其理(NLP)的快速發(fā)展,使得從社交媒體數(shù)據(jù)中挖掘抑郁傾向成為研究熱點(diǎn)[175-176]。的建模方案,廣泛探索了不同的信息模態(tài)與建模機(jī)制基于用戶發(fā)布的文本內(nèi)容,通過語言特征建模實(shí)現(xiàn)抑郁傾向的分類或預(yù)測[175-態(tài)信號(hào),以捕捉更豐富的心理線索并提升識(shí)別精度[177,184]升和實(shí)際應(yīng)用需求增強(qiáng),越來越多研究開始關(guān)注模度,嘗試從模型中提取情緒線索或癥狀映射,以增強(qiáng)預(yù)干預(yù)性[179-180]。盡管相關(guān)研究已取得諸多進(jìn)展,但由于社交媒何根據(jù)輸入模態(tài)與建模目標(biāo)選擇合適的建模范式,布內(nèi)容的語言特征建模;第二類引入語音、圖像等輔助框架;第三類強(qiáng)調(diào)模型的可解釋性與臨床可用性,探索特征、技術(shù)路徑與實(shí)際挑戰(zhàn),揭示當(dāng)前研究的演②基于文本的抑郁識(shí)別作為抑郁傾向識(shí)別研究中最早且最為廣泛的方賴用戶在社交媒體上發(fā)布的語言內(nèi)容,通過挖掘文本中征以預(yù)測其抑郁風(fēng)險(xiǎn)。相關(guān)研究在模型架構(gòu)上經(jīng)歷了從習(xí)方法到預(yù)訓(xùn)練語言模型(PLMs)再到大語言模型(LL在早期研究中,研究人員專注于挖掘抑郁相關(guān)的特習(xí)方法進(jìn)行抑郁識(shí)別[181-183],這種方法可解釋性強(qiáng),但需要人工設(shè)計(jì)特征耗時(shí)耗力,并且需要很強(qiáng)的專業(yè)知識(shí)。隨著,深度學(xué)習(xí)的積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、注意本建模,以避免人工特征工程。Zhou等人[184]提出一種端到端的深度卷積神經(jīng)向。Tejaswini等人[185]提出一種結(jié)合FastTeTrotzek等人[186]提出將卷積神經(jīng)網(wǎng)絡(luò)與用戶語言元特征結(jié)合,用于社交平臺(tái)文本的抑郁早期檢測任務(wù)。模型利用不同詞嵌入構(gòu)建文本表立的語言統(tǒng)計(jì)特征進(jìn)行用戶建模,最終通過集成方法融合二者練語言模型的語言理解能力,建模用戶在文本中高準(zhǔn)確度的分類預(yù)測。Teck等人[188]采用預(yù)訓(xùn)練的BERT模型,探索其在中文Shah等人[189]采用指令微調(diào)策略對(duì)LLMs進(jìn)行適配優(yōu)化,使模型能有效識(shí)別用③多模態(tài)抑郁識(shí)別嘗試引入多模態(tài)數(shù)據(jù),包括語音、圖像、用戶行為的抑郁識(shí)別模型。多模態(tài)方法不僅豐富了模型輸入在文本與語音模態(tài)結(jié)合方面,Gan等人[177]提出一種基于教師-學(xué)生架構(gòu)的多模態(tài)抑郁檢測模型,融合文本與音頻模態(tài),并引入多移學(xué)習(xí)以優(yōu)化模態(tài)融合與特征提取。Shen等人[190]作者提出一種結(jié)合音頻特征與語言內(nèi)容的抑郁檢測方法,利用采訪過程中的語音與模態(tài)深度學(xué)習(xí)模型,并基于此設(shè)計(jì)了一個(gè)雙路徑結(jié)構(gòu),分別使用GRU和等人[191]提出一種以文本為主導(dǎo)的多模態(tài)抑郁檢測框架,設(shè)計(jì)跨模態(tài)融合模塊將視覺特征注入文本表達(dá),并通過多層感知器混合單元實(shí)現(xiàn)深層特分別進(jìn)行回歸與分類任務(wù),用于預(yù)測抑郁嚴(yán)重程度(別。Hu等人[193]提出一種融合用戶文本與圖像的多模態(tài)抑郁檢測方法,通過顯整體來看,多模態(tài)抑郁識(shí)別方法突破了文本建對(duì)齊難度大等挑戰(zhàn),未來研究可進(jìn)一步探索跨模態(tài)對(duì)齊④可解釋的抑郁識(shí)別受到越來越多關(guān)注。相比于單純的分類結(jié)果,臨床心供推理依據(jù)與行為線索解釋。因此,已有研究逐步探法,包括引入癥狀標(biāo)簽、注意力機(jī)制、情緒建模以Zhang等人[194]提出一種知識(shí)感知的深度學(xué)習(xí)系統(tǒng)(Deep-Knowledge-AwareDepressionDetection),通過融合抑郁領(lǐng)域郁風(fēng)險(xiǎn)用戶的識(shí)別與影響因子解釋。該研究以信息系統(tǒng)設(shè)計(jì)科學(xué)領(lǐng)域知識(shí)在特征提取與模型解釋中的作用,提升了模型的檢測準(zhǔn)力。Lan等人[195]提出一種結(jié)合醫(yī)學(xué)知識(shí)與大語言模型的抑郁檢測系統(tǒng)DORIS,利用LLM對(duì)用戶文本進(jìn)行診斷標(biāo)準(zhǔn)標(biāo)注、情緒軌跡建模與摘要提取,并融合傳統(tǒng)分類器實(shí)現(xiàn)預(yù)測與解釋。Bao等人[179]提出多種基于Transformer的模型架構(gòu),以支持在社交媒體文本中同時(shí)進(jìn)行的解釋生成,包括分離式和統(tǒng)一式兩類建模方案務(wù)中的應(yīng)用潛力。該關(guān)注模型的可解釋性,通過釋結(jié)果結(jié)構(gòu)不一致、缺乏統(tǒng)一評(píng)估指標(biāo)等挑戰(zhàn),未來應(yīng)類理解的一致性評(píng)估機(jī)制,并推動(dòng)該類模型在真實(shí)場法、多模態(tài)方法與可解釋方法。每一類方法具有各也面臨不同的技術(shù)挑戰(zhàn)與研究瓶頸。首先,基于文式上最為簡單,易于部署,適用于數(shù)據(jù)資源有限或一類研究聚焦于語言特征的表達(dá)能力,重點(diǎn)在于如境理解能力。從傳統(tǒng)RNN/CNN架構(gòu)到T其次,多模態(tài)方法通過引入語音、圖像、社交心理狀態(tài)呈現(xiàn)上的不足。這類方法更貼近用戶全貌協(xié)同建模與時(shí)序依賴。其主要優(yōu)勢在于識(shí)別精度的感知能力增強(qiáng),但在模態(tài)對(duì)齊、數(shù)據(jù)缺失、特的因果溯源與人類可讀的解釋輸出。這類方法多結(jié)合射或生成式語言模型輸出,使模型輸出不再是黑箱。致性差與缺乏統(tǒng)一評(píng)估指標(biāo)的問題,但其在應(yīng)用中應(yīng)進(jìn)一步融合三類范式的優(yōu)點(diǎn),構(gòu)建性能強(qiáng)、4.3.3總結(jié)與展望別、仇恨言論識(shí)別、抑郁癥

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論