2025亞馬遜云科技中國峰會:負責任的生成式AI評估:最佳實踐與工具_第1頁
2025亞馬遜云科技中國峰會:負責任的生成式AI評估:最佳實踐與工具_第2頁
2025亞馬遜云科技中國峰會:負責任的生成式AI評估:最佳實踐與工具_第3頁
2025亞馬遜云科技中國峰會:負責任的生成式AI評估:最佳實踐與工具_第4頁
2025亞馬遜云科技中國峰會:負責任的生成式AI評估:最佳實踐與工具_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

負責任的生成式AI評估:最佳實踐與工具技術(shù)客戶經(jīng)理亞馬遜云科技*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外全新創(chuàng)新,但與此同時,*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外生成式AI應(yīng)用程序變得愈加復(fù)雜能夠處理:幻覺在可信文檔存儲中搜索相關(guān)信息,以響應(yīng)用戶的查詢。將結(jié)果插入到Prompt中,能夠處理:推理、幻覺向模型解釋可用的外部工具(例如計算器、數(shù)據(jù)庫等),并讓模型逐能夠處理:不可預(yù)測的行為用,增加—道防線,防止出現(xiàn)有毒、有損品*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外構(gòu)建由生成式AI提供支持的應(yīng)用程序……然后擴大規(guī)?!鳌骺谒阉饕?前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外解決方案架構(gòu)師需要進行權(quán)衡還要花這么多錢來進行微調(diào)?”維護和升級還要花這么多錢來進行微調(diào)?”如何才能找出問題所在?”“好吧,沒錯,它的速度挺慢,如何才能找出問題所在?”“好吧,沒錯,它的速度挺慢,都通過了——沒問題的!”從原型到生產(chǎn)*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外生成式AI評估基礎(chǔ)知識*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外需要評估的主要方面資金花費相關(guān)風險是可接受的資金花費相關(guān)風險是可接受的表現(xiàn)達到或優(yōu)于預(yù)期速度足以勝任相關(guān)用途*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外負責任的AI*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外C*也會生成新的數(shù)據(jù)!*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外自由格式文本查詢自由格式文本查詢基于規(guī)則的啟發(fā)法快速、可擴展、運行成本低廉快速、可擴展、運行成本低廉利用標準指標(F1、ROUGE……)或輔助模型(情緒、毒性……)各項指標能否很好地與人類偏好對齊?自由格式文本提取用于評估指標自由格式文本提取用于評估指標查詢靈活、可自定義的檢查靈活、可自定義的檢查檢查答案通常比創(chuàng)建答案更容易答案是否存在由評估者造成的偏見?運行成本是否經(jīng)濟實惠?*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外常用指標相關(guān)性BERTScoreMoverScore流暢性連貫性語義相似性ROUGEMETEOR相關(guān)性BERTScoreMoverScore流暢性連貫性語義相似性ROUGEMETEORBLEUWER困惑度??上下文召回率?上下文相關(guān)性?上下文精確性?答案相關(guān)性?忠實度?噪音敏感度*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外負責任AI的常用評估指標Min-Max安全性/毒性序列-日志概率安全性/毒性*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外公開排行榜可能有助于縮小模型選擇范圍論文/報告*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外衡量推理速度(和成本)?整體響應(yīng)與生成第—個Token的時間對比(流式處理)?容量、配額和優(yōu)雅降級規(guī)模更小/成本更低的模型能否在大幅降低成本的同時確保響應(yīng)質(zhì)量過關(guān)??基于Token的定價與基于實例的定價對比?運營成本與開發(fā)成本對比*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外針對您的使用場景,進行評估和比較,新增:112345使用精選數(shù)據(jù)集或自備數(shù)據(jù)集,獲得量身定使用自動化(算法或LLM)或人工評估方法*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外評估方法選擇贊/踩|5分李克特量表贊/踩|5分李克特量表*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外通過工作團隊管理和預(yù)構(gòu)建的標注門戶,實現(xiàn)人工評估通過可配置的全托管式作業(yè),實現(xiàn)評估自動化從內(nèi)置標準數(shù)據(jù)集中選擇,或使用自備數(shù)據(jù)集使用SageMaker上的開源fmeval庫,構(gòu)建全定制化的*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外借助亞馬遜云科技進行無代碼自動化評估自動化模型評估作業(yè)在AmazonBedrock自動化模型評估作業(yè)在AmazonBedrock或AmazonSageMaker上數(shù)據(jù)集準確性穩(wěn)健性毒性●●●●●●●●●XSUM●●●●●●●●●●●●●●*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外借助亞馬遜云科技進行無代碼自動化評估自動化模型評估作業(yè)在AmazonBedrock或自動化模型評估作業(yè)在AmazonBedrock或AmazonSageMaker上數(shù)據(jù)集準確性穩(wěn)健性毒性定制數(shù)據(jù)集是可選項,但強烈建議選擇該項!?定制數(shù)據(jù)集是可選項,但強烈建議選擇該項!?標準的基準測試數(shù)據(jù)集可能與您的使用場景?公共數(shù)據(jù)集可能會滲透到較新模型的訓(xùn)練中使用特定于任務(wù)的數(shù)據(jù),可以得出更有用的指標!●●●●●●●●●●●●●●*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外不可輕信自動化指標,必須驗證其可靠性可擴展的評估,助力快速進行原型開發(fā)和Prompt工程可信的性能,經(jīng)過真人評估者驗證可擴展的評估,助力快速進行原型開發(fā)和Prompt工程可信的性能,經(jīng)過真人評估者驗證*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外查詢擴展對搜索性能的影響?傳統(tǒng)搜索指標,例如查詢擴展對搜索性能的影響?傳統(tǒng)搜索指標,例如Recall@N、nDCG等搜索引擎搜索查詢(可選)查詢變換搜索引擎搜索查詢答案合成/答案合成/生成文檔片段標準問答/文本生成指標?AI標準問答/文本生成指標?*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外對您的知識庫技術(shù)棧進行全面評估,優(yōu)化112345使用自備數(shù)據(jù)集,獲得量身定制的結(jié)果選擇LLM-as-a-judge,并使用它來單獨評估檢索,或綜合評估檢索+生成*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外評估指標的選擇*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外覆蓋率*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外△△△O口工具和APIAI*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外便捷、可擴展的方法,用于測試虛擬Agent的功能支持,包括Amazon并發(fā)多輪對話,同時評估Agent的響應(yīng)集成到CI/CD中,生成測試結(jié)果摘要,*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外評估風險并在上線時樹立信心*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外在上線時樹立信心*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外緩解策略如果我們對發(fā)布缺乏信心,該怎么做?緩解緩解*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外緩解策略支持定制的設(shè)計篩選結(jié)果AI系統(tǒng)專為X設(shè)計篩選結(jié)果*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外設(shè)置閾值篩選機制,濾除不良和潛在有害的文本與圖像內(nèi)容,并防止“越獄”和Prompt攻擊新功能!使用自動化推理,識別、糾正并解釋響應(yīng)中的事實斷言新功能!移除生成式AI應(yīng)用程序中的個人身份信息(PII)和敏感信息設(shè)置敏感詞黑名單,自動檢測并阻止用戶輸入和模型響應(yīng)中的不當詞語基于上下文評估模型回復(fù)的接地性和相關(guān)性,以過濾“幻覺”內(nèi)容*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外緩解策略生成指標生成指標*前述特定亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外緩解策略*前述特定亞馬遜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論