版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
課次:第講課程教案授課主題第十一章大語言模型的評(píng)估(概述與評(píng)估體系)章節(jié)內(nèi)容11.1概述、11.2大語言模型評(píng)估體系及相關(guān)指標(biāo)地點(diǎn)課時(shí)教學(xué)目的與要求1、了解大語言模型評(píng)估的重要性及行業(yè)挑戰(zhàn);2、掌握四大評(píng)估維度的核心內(nèi)涵;3、熟練記憶各維度關(guān)鍵評(píng)估指標(biāo)及適用場(chǎng)景;4、能夠區(qū)分不同評(píng)估指標(biāo)的應(yīng)用邊界。教學(xué)重點(diǎn)1、功能性、性能、對(duì)齊性、安全性評(píng)估的核心定義;2、自然語言理解、推理、生成能力的關(guān)鍵指標(biāo);3、性能評(píng)估中吞吐量、延遲等指標(biāo)的實(shí)際意義;4、對(duì)齊性與安全性評(píng)估的核心關(guān)注要點(diǎn)。教學(xué)難點(diǎn)1、不同評(píng)估指標(biāo)的適用場(chǎng)景區(qū)分;2、推理能力與生成能力評(píng)估的邏輯差異;3、對(duì)齊性評(píng)估中倫理合規(guī)與事實(shí)一致性的平衡。教學(xué)方法1、多媒體教學(xué)演示2、案例分析法3、討論法教學(xué)手段網(wǎng)絡(luò)資源應(yīng)用、在線教學(xué)平臺(tái)教學(xué)過程課程思政元素說明:*號(hào)標(biāo)注的是課程思政的融入點(diǎn)一、情境導(dǎo)入,引出核心主題(一)教師通過醫(yī)療AI誤診、生成式AI傳播虛假信息等案例,引出大語言模型評(píng)估的必要性。(二)介紹張鈸院士在人工智能領(lǐng)域的奠基性貢獻(xiàn),強(qiáng)調(diào)AI技術(shù)評(píng)估的嚴(yán)謹(jǐn)性與責(zé)任感。(三)明確本章節(jié)學(xué)習(xí)目標(biāo):掌握多維度評(píng)估體系,具備基礎(chǔ)評(píng)估實(shí)踐能力。二、核心知識(shí)講解(一)11.1概述1、大語言模型評(píng)估的核心價(jià)值:明確性能邊界、保障應(yīng)用安全、推動(dòng)技術(shù)優(yōu)化。2、行業(yè)挑戰(zhàn):價(jià)值觀對(duì)齊、魯棒性不足、多模態(tài)適配、低資源語言支持等。3、傳統(tǒng)評(píng)估與現(xiàn)代評(píng)估方法的差異:自動(dòng)評(píng)估、人工評(píng)估、LLM評(píng)估的互補(bǔ)性。(二)11.2評(píng)估體系及指標(biāo)1、功能性評(píng)估:分自然語言理解(準(zhǔn)確率、語義相似度等)、推理能力(MRR、Hit@K等)、生成能力(ROUGE、BLEU等)展開,結(jié)合SST-2、HotpotQA等數(shù)據(jù)集案例。2、性能評(píng)估:詳解吞吐量、延遲、并發(fā)數(shù)、能耗等指標(biāo),對(duì)比GPT-3與TinyLlama的性能差異。3、對(duì)齊性評(píng)估:涵蓋倫理合規(guī)(RAI指標(biāo))、偏見消減、毒性過濾、事實(shí)一致性四大模塊。4、安全性評(píng)估:聚焦魯棒性驗(yàn)證(對(duì)抗性攻擊)與風(fēng)險(xiǎn)預(yù)警(紅隊(duì)測(cè)試)。三、歸納總結(jié)與隨堂練習(xí)(一)回顧四大評(píng)估維度及核心指標(biāo),梳理指標(biāo)適用場(chǎng)景思維導(dǎo)圖。(二)隨堂練習(xí):判斷不同應(yīng)用場(chǎng)景(如智能客服、醫(yī)療輔助)的核心評(píng)估指標(biāo)。(三)布置課后任務(wù):查閱C-Eval基準(zhǔn)官方文檔,了解其數(shù)據(jù)集結(jié)構(gòu)。課程導(dǎo)入環(huán)節(jié),通過案例對(duì)比醫(yī)療AI誤診、生成式AI虛假信息傳播等風(fēng)險(xiǎn)事件,引出評(píng)估必要性后,過渡到張鈸院士的科研事跡,強(qiáng)化“嚴(yán)謹(jǐn)評(píng)估是AI技術(shù)落地前提”的認(rèn)知。教學(xué)后記
課次:第講課程教案授課主題第十一章大語言模型的評(píng)估(評(píng)估方法與基準(zhǔn))章節(jié)內(nèi)容11.3大語言模型評(píng)估方法、11.4評(píng)估基準(zhǔn)地點(diǎn)課時(shí)教學(xué)目的與要求1、掌握人工評(píng)估、LLM評(píng)估、對(duì)比評(píng)估的實(shí)施流程;2、理解麥克尼馬爾檢驗(yàn)等對(duì)比評(píng)估方法的原理;3、熟悉C-Eval、MMLU等主流評(píng)估基準(zhǔn)的特點(diǎn);4、能夠根據(jù)任務(wù)需求選擇合適的評(píng)估方法與基準(zhǔn)。教學(xué)重點(diǎn)1、人工評(píng)估的評(píng)分設(shè)計(jì)與結(jié)果校準(zhǔn);2、LLM評(píng)估的指令設(shè)計(jì)與結(jié)果解析;3、主流評(píng)估基準(zhǔn)的適用場(chǎng)景對(duì)比;4、對(duì)比評(píng)估的實(shí)操步驟。教學(xué)難點(diǎn)1、LLM評(píng)估與人工評(píng)估的結(jié)果一致性驗(yàn)證;2、評(píng)估基準(zhǔn)的選擇與任務(wù)匹配邏輯;3、對(duì)比評(píng)估的統(tǒng)計(jì)學(xué)意義解讀。教學(xué)方法1、多媒體教學(xué)演示2、案例分析法3、討論法教學(xué)手段網(wǎng)絡(luò)資源應(yīng)用、在線教學(xué)平臺(tái)教學(xué)過程課程思政元素說明:*號(hào)標(biāo)注的是課程思政的融入點(diǎn)一、回顧舊知,導(dǎo)入新知(一)回顧四大評(píng)估維度及核心指標(biāo),提問:"如何科學(xué)驗(yàn)證不同模型在同一指標(biāo)上的差異?"引出評(píng)估方法主題。(二)明確本講目標(biāo):掌握三類評(píng)估方法,熟悉主流基準(zhǔn)的應(yīng)用。二、核心知識(shí)講解(一)11.3評(píng)估方法1、人工評(píng)估:講解評(píng)估團(tuán)隊(duì)組建、評(píng)分標(biāo)準(zhǔn)設(shè)計(jì)(如5級(jí)李克特量表)、結(jié)果一致性檢驗(yàn),分析其優(yōu)缺點(diǎn)。2、LLM評(píng)估:演示基于GPT-4的評(píng)估流程,包括指令設(shè)計(jì)、樣本輸入、結(jié)果解析,對(duì)比其與人工評(píng)估的效率差異。3、對(duì)比評(píng)估:介紹麥克尼馬爾檢驗(yàn)的核心邏輯,結(jié)合模型A與模型B在文本分類任務(wù)上的表現(xiàn)案例,演示對(duì)比步驟。(二)11.4評(píng)估基準(zhǔn)1、基準(zhǔn)核心作用:性能衡量、能力診斷、比較競(jìng)爭(zhēng)、應(yīng)用指導(dǎo)。2、主流基準(zhǔn)詳解:-C-Eval:中文高級(jí)推理能力評(píng)估,涵蓋多學(xué)科領(lǐng)域;-MMLU:多任務(wù)準(zhǔn)確率評(píng)估,覆蓋基礎(chǔ)數(shù)學(xué)、計(jì)算機(jī)科學(xué)等;-GSM8K:小學(xué)數(shù)學(xué)推理任務(wù),測(cè)試數(shù)值計(jì)算與邏輯能力;-HumanEval:代碼生成功能正確性評(píng)估。3、基準(zhǔn)選擇原則:匹配任務(wù)場(chǎng)景、覆蓋核心能力、兼顧數(shù)據(jù)多樣性。三、歸納總結(jié)與隨堂練習(xí)(一)梳理評(píng)估方法與基準(zhǔn)的對(duì)應(yīng)關(guān)系,形成選擇決策樹。(二)隨堂練習(xí):為"中文智能客服模型"選擇合適的評(píng)估方法與基準(zhǔn)。(三)布置課后任務(wù):準(zhǔn)備C-Eval評(píng)估環(huán)境搭建所需的依賴庫(kù)清單。講解“評(píng)估基準(zhǔn)”模塊時(shí),對(duì)比主流基準(zhǔn)的適用場(chǎng)景,重點(diǎn)分析C-Eval的數(shù)據(jù)集設(shè)計(jì)邏輯與應(yīng)用價(jià)值,組織小組討論“為什么中文AI模型需要專屬評(píng)估基準(zhǔn)”,深化對(duì)科技自主創(chuàng)新意義的理解。教學(xué)后記課次:第講課程教案授課主題第十一章大語言模型的評(píng)估(實(shí)踐操作與案例分析)章節(jié)內(nèi)容11.5大語言模型評(píng)估實(shí)踐、章節(jié)案例分析地點(diǎn)課時(shí)教學(xué)目的與要求1、掌握基于opencompass的C-Eval基準(zhǔn)部署流程;2、能夠獨(dú)立完成環(huán)境配置、數(shù)據(jù)準(zhǔn)備、評(píng)估執(zhí)行與結(jié)果分析;3、熟練運(yùn)用評(píng)估知識(shí)分析實(shí)際場(chǎng)景案例;4、具備多維度評(píng)估指標(biāo)的權(quán)衡與優(yōu)化能力。教學(xué)重點(diǎn)1、opencompass環(huán)境配置與C-Eval數(shù)據(jù)集部署;2、評(píng)估結(jié)果的關(guān)鍵指標(biāo)解讀;3、醫(yī)療、教育等場(chǎng)景的評(píng)估案例分析;4、多維度指標(biāo)的權(quán)衡策略。教學(xué)難點(diǎn)1、評(píng)估環(huán)境的依賴沖突解決;2、評(píng)估結(jié)果的深度分析與問題定位;3、實(shí)際場(chǎng)景中評(píng)估維度的優(yōu)先級(jí)排序。教學(xué)方法1、多媒體教學(xué)演示2、案例分析法3、討論法教學(xué)手段網(wǎng)絡(luò)資源應(yīng)用、在線教學(xué)平臺(tái)教學(xué)過程課程思政元素說明:*號(hào)標(biāo)注的是課程思政的融入點(diǎn)一、明確實(shí)踐目標(biāo),導(dǎo)入實(shí)操環(huán)節(jié)(一)強(qiáng)調(diào)評(píng)估實(shí)踐的核心價(jià)值:將理論轉(zhuǎn)化為實(shí)操能力,保障模型應(yīng)用可靠性。(二)明確本講實(shí)踐任務(wù):基于opencompass完成C-Eval基準(zhǔn)評(píng)估,分析評(píng)估結(jié)果。二、實(shí)操環(huán)節(jié)講解與演示(一)環(huán)境配置1、服務(wù)器開發(fā)環(huán)境創(chuàng)建與獨(dú)立工作空間分配;2、Python、PyTorch、Transformers等依賴庫(kù)安裝;3、opencompass倉(cāng)庫(kù)克隆與工具安裝,解決常見依賴沖突。(二)數(shù)據(jù)準(zhǔn)備1、C-Eval數(shù)據(jù)集下載與解壓;2、數(shù)據(jù)集結(jié)構(gòu)解析(訓(xùn)練集、測(cè)試集、驗(yàn)證集劃分)。(三)評(píng)估執(zhí)行1、支持模型與數(shù)據(jù)集查詢(pythontools/list_configs.pyinternlmceval);2、評(píng)估命令執(zhí)行與過程監(jiān)控,常見錯(cuò)誤排查。(四)結(jié)果分析1、評(píng)估報(bào)告解讀:準(zhǔn)確率、召回率等核心指標(biāo)分析;2、模型優(yōu)勢(shì)與不足定位,提出優(yōu)化方向。三、案例分析與綜合應(yīng)用(一)醫(yī)療診斷輔助系統(tǒng)案例:1、評(píng)估重點(diǎn):功能性(醫(yī)學(xué)術(shù)語理解、推理準(zhǔn)確性)、對(duì)齊性(倫理合規(guī))、安全性(魯棒性);2、權(quán)衡策略:優(yōu)先保障安全性與對(duì)齊性,適當(dāng)優(yōu)化性能指標(biāo)。(二)智能教育平臺(tái)案例:1、評(píng)估重點(diǎn):生成能力(答案準(zhǔn)確性、可讀性)、偏見消減(性別/地域無偏見);2、權(quán)衡策略:平衡功能性與教育引導(dǎo)性。四
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年杭州余杭區(qū)倉(cāng)前中學(xué)第一批公開招聘事業(yè)編制教師2人考試參考題庫(kù)及答案解析
- 2026河南許昌市魏都區(qū)北大社區(qū)衛(wèi)生服務(wù)中心招聘1人考試參考題庫(kù)及答案解析
- 2026廣東惠州博羅縣第三人民醫(yī)院招聘石灣鎮(zhèn)湖山村鄉(xiāng)村衛(wèi)生從業(yè)人員1人考試備考試題及答案解析
- 2026云南師范大學(xué)實(shí)驗(yàn)中學(xué)盤龍校區(qū)面向教育部直屬師范大學(xué)開展公費(fèi)師范畢業(yè)生招聘考試參考題庫(kù)及答案解析
- 2026年蕪湖市西灣中學(xué)招聘頂崗教師1名考試參考試題及答案解析
- 2026重慶渝高中學(xué)校招聘教師考試備考試題及答案解析
- 2026年豐城市市屬國(guó)企下屬公司管理崗及專業(yè)技術(shù)崗招聘【24人】筆試模擬試題及答案解析
- 2026年漯河市第六人民醫(yī)院(市心血管病醫(yī)院)人才引進(jìn)備考題庫(kù)有答案詳解
- 2026年鄭州高新區(qū)科學(xué)大道第二小學(xué)教師招聘?jìng)淇碱}庫(kù)完整參考答案詳解
- 天津醫(yī)科大學(xué)口腔醫(yī)院2026年人事代理制(第二批)招聘實(shí)施備考題庫(kù)及答案詳解一套
- 賈俊平《統(tǒng)計(jì)學(xué)》第7版復(fù)習(xí)筆記和課后習(xí)題答案+習(xí)題及詳解
- 教學(xué)第九章-人體寄生蟲概述課件
- 2020年華為采購(gòu)物料環(huán)保規(guī)范?V4
- 綠化養(yǎng)護(hù)、保潔服務(wù)重點(diǎn)難點(diǎn)分析及解決措施
- 企業(yè)管理GoldenSample管理辦法
- 湖北大學(xué)教職工登記表
- 2020年注冊(cè)會(huì)計(jì)師(CPA)16第十六章收入、費(fèi)用和利潤(rùn)(2020新教材版)課件
- 隧道穿越大型活動(dòng)斷裂帶的技術(shù)對(duì)策
- 匯川伺服追剪控制指導(dǎo)說明完整版
- GB∕T 5273-2016 高壓電器端子尺寸標(biāo)準(zhǔn)化(高清版)
- GB 190-2009 危險(xiǎn)貨物包裝標(biāo)志(高清版)
評(píng)論
0/150
提交評(píng)論