2024ChatGPT能力分析未來展望_第1頁
2024ChatGPT能力分析未來展望_第2頁
2024ChatGPT能力分析未來展望_第3頁
2024ChatGPT能力分析未來展望_第4頁
2024ChatGPT能力分析未來展望_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

T能力分析與未來展望自然語言處理e,是研究如何利用計算機技術對語言文本進行處理加工和轉換的一門學科。由于該學科在理論上面臨巨大的挑戰(zhàn)而其技術應用前景極其廣泛,因此被譽為人工智能皇冠上的明珠。自然語言處理技術自0世紀0年代末期誕生以來經歷了0多年的曲折歷程先后經歷了以符號邏輯方法為主導的理性主義時期以統(tǒng)計學習理論為基礎的經驗主義時期和以深度學習方法為驅動的連結主義時期。隨著自然語言處理技術的進步語言建模eM技術已經經歷了從最初的統(tǒng)計語言模型e,發(fā)展至神經網絡語言模型eM再到預訓練語言模型deM的演進過程。近年來通過擴展預訓練語言模型得到的大模型將語言建模技術推向了一個新的發(fā)展高度其發(fā)展速度之快模型能力之強和通用程度之高都遠遠超越任何一個歷史時期的任何一種方法令人瞠目。大語言模型eM通常指參數(shù)量為百億級甚至更大規(guī)模的神經網絡組成的語言模型它采用自監(jiān)督學習方式利用大量未標注數(shù)據(jù)訓練而成。盡管在擴展預訓練語言模型時主要是增大模型參數(shù)量模型架構和訓練方法基本不變但這些大規(guī)模的預訓練語言模型表現(xiàn)出與較小規(guī)模的預訓練語言模型例如0M參數(shù)的和B參數(shù)的不同的行為并且在解決一系列復雜任務時展現(xiàn)出令人驚訝的能力這種能力被業(yè)界稱為涌現(xiàn)能力t。例如少樣本和零樣本學習能力即在給定下游任務時可不依賴任何特定領域的訓練數(shù)據(jù)而只是通過適當?shù)奶崾菊{節(jié)模型的行為。隨著模型規(guī)模的進一步增大大語言模型在各個任務上的性能也逐漸提高這一現(xiàn)象被稱為規(guī)模效應g。目前的研究表明大語言模型有望成為解決各種任務的通用基礎模型是實現(xiàn)通用人工智能一條可行的希望之路。2年1月底美國I公司發(fā)布的聊天生成型預訓練模型①在世界范圍內引發(fā)了轟動。該模型是在生成型預訓練模型eg]系列模型的基礎之上通過指令微調n并從調試人員的反饋中強化學習gmn]訓練建立起來的T一經發(fā)布立刻成為史上用戶增長速度最快的消費應用。同其他大模型相比由于其采用了指令微調和F等技術T具有更加強大的理解人類用戶意圖和偏好的能力既可以根據(jù)指令生成高質量的回復也可以針對不恰當?shù)妮斎刖芙^回答甚至更正對話中的錯誤。其超乎尋常的理解和會話能力讓部分人認為T的出現(xiàn)標志著通用人工智能的奇點時刻已經到來。然而作為通用模型的與專用模型的性能對比其表現(xiàn)如何?以T為代表的大模型能否成為一個通用模型同時完成所有不同的下游任務換句話說通用大模型能否成為學科T在機器翻譯文本摘要情感分析和信息T在自然語言處理任務上的性能自T發(fā)布以來已有工作評估了T在自然語言處理任務上的性能。其中部分工作]主要關注T的通用性能針對大量任務做了簡單測試。另一些工作3則聚焦于某一具體任務。為了評估T在自然語言處理任務上的實際表現(xiàn)本文選擇了4種常見的也是典型的自然語言處理任務機器翻譯信息抽取文本摘要和情感分析。這4項任務既涵蓋了語言生成序列表示和文本分類三項自然語言處理的基礎任務也涉及到不同語言之間的轉換。下面依次介紹T在這些任務上的性能表現(xiàn)。機器翻譯機器翻譯e是將一種語言源語言自動翻譯成另外一種語言目標語言的技術是自然語言處理中最具挑戰(zhàn)性的研究課題其性能表現(xiàn)體現(xiàn)著模型處理跨語言理解轉換和生成的綜合能力n等和g等對比了T模型和商業(yè)翻譯模型的性能差異。他們的實驗結果表明T在高資源場景下的翻譯性能可與最優(yōu)秀的商業(yè)翻譯模型相媲美但在低資源場景下的性能則顯著落后。在具體語言上,T更擅長處理目標語言為英語的翻譯任務。為了研究T多語言翻譯的能力尤其是在中低資源語言翻譯方面的能力本文選取了的測試集進行評估。該測試集包含2個句子在4種語言上的翻譯。為了對T在不同資源語言上的翻譯性能進行分析,本文根據(jù)3訓練使用的數(shù)據(jù)集中不同語言所占比例將語言劃分為高資源占比1中等資源1 >占比>1和低資源占比<1三類并從每個類別中選擇了兩種語言測試T將其翻譯成英語->的能力。這6種語言是)高資源語言中文德語中等資源語言愛沙尼亞語立陶宛語低資源語言僧伽羅語尼泊爾語抽取等多個自然語言處理任務上的性能表現(xiàn)分析了T與專用模型相比的優(yōu)勢和不足并對未

。對比測試選用國際上公認的基于詞序列

-學科方向的發(fā)展進行了展望。

對比的評價指標和基于句子表示相似度計算的評價指標作為評價準則以谷歌翻譯e為比較對象。對比結

T在實體關系三元組抽取任務上的1值僅有8與最優(yōu)模型的性能1值為果如表1所示。觀察表1所展示的結果可以得到如下兩個結論:,T傾向于生成比人工標注更長的文本片段,總體而言T的翻譯性能遜色于谷歌翻譯。在高資源如中—英德—英和中等資源情況下如愛沙尼亞語—英語和立陶宛語—英語的翻譯性能T與谷歌翻譯模型相差不大。隨著資源量逐漸減少T與谷歌翻譯的性能差距逐漸增大這與已有的對比結論相吻合。T在低資源語言的翻譯中出現(xiàn)了嚴重的幻覺翻譯y問題,即譯文表述流暢但語義與原文并不一致屬于無中生有的臆想。為進一步探究T與谷歌翻譯的性能差異我們對僧伽羅語—英語和尼泊爾語—英語這兩個低資源語言對的翻譯結果進行了樣例分析。分析結果發(fā)現(xiàn)T不僅在低資源語言的翻譯中出現(xiàn)了幻覺現(xiàn)象在其它各項自然語言處理任務中均存在不同程度的幻覺。信息抽取信息抽取n是指從非結構化或半結構化的文本中自動識別抽取出實體實體屬性實體之間關系以及事件等事實信息并形成結構化表示的一種文本挖掘技術。g等對T在信息抽取任務中的性能做了全面評估其中包括命名實體識別dy,R關系抽取n和事件抽取t,三項任務。實驗結果表明在這三項任務上,T的性能最高只能達到專門訓練出來的最優(yōu)模型性能的50和3。我們選取國際公開的數(shù)據(jù)集分析T在關系抽取任務上的表現(xiàn)。結果表明,

以更接近人類的語言習慣。同時T也表現(xiàn)出了引入世界知識的特性例如對地理位置或組織機構名稱縮寫進行擴寫。為了測試T所學習到的世界知識對其執(zhí)行信息抽取任務的影響我們遵循g等中的實驗設置通過調換一對關系中兩個實體的位置構建了一組反事實測試樣例測試結果表明T在調換實體位置后仍能生成正確的關系三元組。這表明T所包含的世界知識使其在執(zhí)行信息抽取時更具魯棒性。自動文本摘要自動文本摘要ct)是利用計算機自動將文本或文本集合轉換成簡短摘要的一種信息壓縮技術。文本摘要技術在信息爆炸時代具有重要的應用價值。已有的測試表明,整體而言T已經能夠完成多種文摘任務,但在多數(shù)情況下仍然低于現(xiàn)有最好的摘要模型。n等和等對T的通用型摘要能力的測試結果表明,T生成的摘要明顯不如經過微調后的T模型以]指標值衡量。n等進一步研究了T在查詢式文本摘要d和要素級文本摘要d等更多樣化任務上的性能。結果表明在除社交媒體領域以外的三個基準數(shù)據(jù)集上T的E分數(shù)接近于微調模型只是在新聞數(shù)據(jù)集上超過了微調模型。而對于抽取式文本摘要o等的測試表明T的摘要性能同樣低于目前最好的抽取式摘要模型。T谷歌翻譯性能比*T谷歌翻譯性能比中→英743667

表1T的多語言翻譯性能德→英 7 0 7 0 3 9愛→英 1 7 3 9 5 1立→英 1 2 6 6 3 9尼→英 4 2 8 5 3 7僧→英 3 5 7 5 5 7*表中的性能比表示根據(jù)相應的計算指標T的性能與e的性能之間的比值??紤]到上述對比測試主要集中在英文摘要任務上本文在中文對話摘要數(shù)據(jù)集]上對T的摘要能力進行了測試并與該數(shù)據(jù)集上目前最好的模型進行了對比。采用基于詞序列的評價指標和基于文本表示的評價指標對生成摘要的質量進行評價實2,T在中文對話摘要上的性能同樣不如目前最優(yōu)的自動文摘模型這與英文數(shù)據(jù)集上的測試結果基本一致。另外我們還分析發(fā)現(xiàn)T生成的摘要平均長度為7詞遠長于人工給出的結果9詞。盡管我們曾嘗試在提示詞中加入對摘要長度的限制但T并不能遵循給定長度的約束而且添加的長度限制影響降低了生成摘要的質量。在我們的實驗中T更偏向于生成流利度高敘述詳細的文本這與人們希望的摘要應盡量簡潔的要求存在一定的沖突。情感分析情感分析t是對文本中蘊含的情感態(tài)度情緒等主觀信息進行自動提取分析歸納和推理的處理過程如分析歸納客戶評論社交媒體帖子和新聞文章中的觀點情感和情緒等。y等從4個方面對T的情感分析能力進行了具體評估包括標準評估極性轉換評估和開放領域評估以及情感推斷評估。他們利用自動評價指標得到的對比結果表明在傳統(tǒng)的情感分類任務上T的性能與微調后的T模型相當?shù)月浜笥谠谔囟I域內專門訓練出來的有監(jiān)督模型。而在情緒信息抽取任務上T的準確度相對較低。但是在人工評估中T在這些任務上的表現(xiàn)并不是太差。在引入極性轉換例如否定或推測后T通常能夠正確的理解情感極性變化并做出正確預測而微調的模型則不能這說明T具有更強的魯棒性。在開放領域測試中傳統(tǒng)方法在特定領域訓練出來

務上的表現(xiàn)我們使用數(shù)據(jù)集測試了其在要素級情感分析三元組抽取l任務上的性能。結果表明T的性能約為該數(shù)據(jù)集上最優(yōu)模型的8。我們進一步隨機選取了0個樣本進行人工評價。結果表明T的預測準確率為2與S所得到的8準確率仍有一定差距。T能力分析根據(jù)已有專家的測試和本文上述分析不難看出T作為通用模型在幾乎所有的自然語言處理任務上都展示了較好的性能和優(yōu)勢以至于讓很多人感覺到以T為代表的大模型會很快實現(xiàn)通用人工智能。但是具體到任何一個專項任務上如機器翻譯文本摘要和情感分析以及信息抽取等T的性能表現(xiàn)距離人類理想的通用人工智能技術依然有較大的差距。我們認為,T的主要優(yōu)勢體現(xiàn)在如下兩個方面:強大的通用處理能力。以T為代表的大模型能夠通過人類指令執(zhí)行任何用戶希望完成的自然語言處理任務而且性能表現(xiàn)都在上乘盡管大部分情況下都不及目前最優(yōu)的專用模型但其通用的人工智能能力足以讓人們刮目相看。無論其寬廣的知識面和淵博的知識儲備還是規(guī)范流暢的語言表達能力均已超出人們的想象甚至超越一般人的表現(xiàn)。其處理翻譯語言的種類之多并行回復用戶和問題類型的數(shù)量之大更是讓專用模型和人類所望塵莫及。準確的用戶意圖理解能力和隨機應變的交互能力T幾乎能夠準確理解和把握人類用戶的意圖且能夠根據(jù)人類的指令和上下文進行自然流暢的人機交互可隨時根據(jù)用戶的問題和反饋修改模型自身的輸出其看似縝密的推理過程和滴水不漏的應答能力都是已有模型所未能做到的。盡管有時候它也會胡說八道但其表現(xiàn)仍然的模型通常難以泛化到其它領域而T反而

本正經。,展現(xiàn)出了較強的泛化能力。為了進一步分析T在情緒信息抽取任表2T的文本摘要性能l 2 L eT 5 1 4L 4 1 8

正如上面所述T等大模型的研究和使用所面臨的問題和挑戰(zhàn)也是顯而易見的:技不如人T的性能不如目前最優(yōu)的專用模型。無中生有T容易引發(fā)的幻覺影響了其輸出的忠實度和簡潔性由此產生的臆想結論和事實性錯誤極易以假亂真混淆視聽。厚多薄寡由于在訓練T時不同語言的樣本比例嚴重不平衡導致T在完成多語言處理翻譯任務時存在明顯的語言敏感的性能差異。價值趨同由于T在訓練時需要借助于調試人員的反饋強化學習實現(xiàn)模型學到的知識與調試人員的標準和要求之間的對齊因此模型建立的價值觀意識形態(tài)和社會倫理觀極易受調試人員的影響而不同國家不同民族和不同文化的價值趨向是不同的因此模型很難很好地處理多元價值觀問題。隱私泄露在訓練大模型時需要大規(guī)模的多樣化訓練樣本而這些樣本中難免存在涉及個人隱私的信息這些信息一旦被模型使用極有可能產生隱私泄露問題對相關人員造成傷害。除了上述問題之外如何判斷被大模型使用的知識和數(shù)據(jù)是否被侵權有效保護知識和數(shù)據(jù)持有者的合法權益如何界定T等大模型生成內容的知識產權建立合情合理的知識產權保護法規(guī)如何制定大模型使用的明確規(guī)定既充分發(fā)揮大模型的強大能力而又不破壞應有的學術誠信體系等等都是大模型研究和使用無法回避的問題。另外大模型建立和維護的昂貴成本是制約技術落地的重要因素。據(jù)半導體研究公司s估計訓練一次有0億參數(shù)的3基礎模型所需要的最低費用約為4萬美元①。而T是在3模型的基礎上經過反復的試錯迭代得到的其開發(fā)成本據(jù)估約為0萬美元②。IOmn也曾在社交媒體上表示,T每與用戶互動一次約需數(shù)美分③。對于擁有億級月活躍用戶規(guī)模的情況而言資金投入量將是一個極為龐大的數(shù)字。設想一下一個特定的用戶尤其是某個特定領域或行業(yè)的用戶是需要一個知識面寬泛卻在解決本領域問題時表現(xiàn)并非最優(yōu)的系統(tǒng)還是更愿意有一個針對性強性能優(yōu)越的專用系統(tǒng)呢?P技術未來展望正如前文所述盡管大模型并不完美但看起來前景光明于是針對大模型的研究正如火如荼。以下問題是當前研究人員關注的熱點或將是未來很長時期領域研究的問題:

模型通用性和專用性的均衡方法以及通用領域和垂直領域的權衡問題。問題描述如前文所述。大模型的輕量化方法T等大語言模型在實際應用中存在計算和存儲資源消耗過高的問題。為了解決這一問題模型的輕量化方法如模型壓縮和推理加速成為了研究的重要方向。模型壓縮旨在減少大語言模型的參數(shù)量和模型規(guī)模以降低模型在部署和推理階段的計算存儲開銷從而提高模型的推理效率使大語言模型更廣泛地應用于邊緣設備移動終端和實時應用場景。大模型的終身學習與高效微調。語言是一個動態(tài)的領域新詞匯新概念和新語言現(xiàn)象不斷出現(xiàn)。為使T等大語言模型能夠適應不斷變化的數(shù)據(jù)和任務探索持續(xù)學習和高效微調方法至關重要。通過持續(xù)學習大語言模型可以從新數(shù)據(jù)中學習并更新自身的知識庫以更好地理解和生成新的語言內容。高效微調則能夠將大語言模型的通用知識與特定任務的要求相結合提高模型在特定任務上的性能。對于持續(xù)學習和高效微調的探索將使大語言模型更好地適應變化的語言數(shù)據(jù)和任務要求以提高模型的性能和適應性滿足人們對于新的語言內容的需求。大模型的可解釋性與可控性T的發(fā)展也引發(fā)了對模型可解釋性和可控性的關注。由于T的訓練基于大規(guī)模數(shù)據(jù)其生成結果可能受到不當或有害內容的影響。因此如何確保模型生成的內容符合倫理和準則成為了研究和探討的重點。研究模型的可解釋性旨在把控模型的決策過程和內部機制以幫助研究者和用戶更好地把握模型生成結果的原因和邏輯??煽匦匝芯縿t是為了實現(xiàn)對模型生成內容和風格的有效控制限制模型生成含有不當偏見敏感甚至虛假信息的內容或冒犯性言論等從而確保模型生成的內容更加合乎倫理準則也更加真實可靠。與其他學科領域的交叉融合T作為一種強大的自然語言處理模型不僅局限于解決自然語言處理領域內的問題而且可以為其他學科領域的交叉研究提供有力支撐。由于模型學習到的知識來自巨大的樣本空間先驗知識之豐富各種要素組合關系之復雜因果關系推斷之千奇百怪遠遠超出人的想象這種超乎尋常的能力完全可以為特定學科領域如生物醫(yī)學制藥化學等提供重要幫助包括提出問題預測結論和找到重要發(fā)現(xiàn)等真正讓為科學研究建立功勛。大模型的產業(yè)化應用。在自然語言處理的理論方法研究中研究者主要利用實驗室收集標注的數(shù)據(jù)進行模型訓練和測試而這些數(shù)據(jù)和方法往往與產業(yè)化實際應用中的情況有一定的隔離和差距①e②等一系列人工智能生成內容le產品所取得的空前成功表明聚焦真實世界的實際問題比在學術界建立的簡單數(shù)據(jù)集上比拼性能更為重要。因此未來工作應該更加聚焦于彌補大語言模型與實際應用場景之間的差距包括探索多模態(tài)的人機交互模式研發(fā)工

結 語T作為一種具有強大能力的預訓練模型對于自然語言處理領域的發(fā)展帶來了深遠影響,引領了新的研究范式創(chuàng)造了新的發(fā)展機遇。同時,T的缺陷也為P研究留下了極大的探索空間。值得說明的是T之所以被如此關注是因為其強大的通用性和與之前同類技術相比超乎尋常的性能表現(xiàn)而與人的實際要求相比尤其是針對具體任務的高標準要求它還有相當大的差距。而且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論