2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告

上傳人：L*** IP屬地：江蘇上傳時(shí)間：2025-05-06 格式：DOCX 頁(yè)數(shù)：38 大小：11.20MB 積分：25 舉報(bào) 版權(quán)申訴

2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第2頁(yè)

2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第3頁(yè)

2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第4頁(yè)

2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第5頁(yè)

已閱讀5頁(yè)，還剩33頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

圖40：GPT-4o與Bemyeyes結(jié)合為盲人提供實(shí)時(shí)助 57“PC 交互型多模態(tài)大模型是指跨越單一模態(tài)的限制，支持文本、音頻、圖像、視頻等各種模AI的4P4o”是i也就是“全能”的意思，接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音交互型多模態(tài)大模型的核心在于其極強(qiáng)的多模態(tài)理解與生成能力，即能夠融合各種類(lèi)型的信息進(jìn)行統(tǒng)一的語(yǔ)義、情景分析和上下文關(guān)聯(lián)，從而更好地理解用戶(hù)意圖、實(shí)現(xiàn)接近人類(lèi)的復(fù)雜情境理解和反應(yīng)，然后生成自然流暢、富有情感的語(yǔ)音輸出，使機(jī)器的反饋聽(tīng)起來(lái)像人類(lèi)，增強(qiáng)交互的真實(shí)感。這類(lèi)模型可以同時(shí)分析處理語(yǔ)音、手勢(shì)、面部表情等多種輸入方式，甚至它能感受到用戶(hù)的呼吸節(jié)奏；而輸出時(shí)，它能模仿人類(lèi)的情感狀態(tài)如喜悅、悲傷或憤怒等，然后通過(guò)調(diào)整語(yǔ)調(diào)、節(jié)奏和音量來(lái)表達(dá)相應(yīng)的情緒，使交互原生多模態(tài)：跨文本、視頻和音頻等模態(tài)端到端訓(xùn)練的大模型，所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理?！鶳35P4→35或4最后再由另一個(gè)簡(jiǎn)單模型將該文本轉(zhuǎn)換回音頻。但這種方法意味著信息順勢(shì)，即這三個(gè)模型中最關(guān)鍵的大模型在處理時(shí)會(huì)丟失大量信息，大模型無(wú)法直接觀察用戶(hù)的語(yǔ)氣、停頓、音調(diào)、背景音等等，而這些在純文本環(huán)境中難以被準(zhǔn)確捕捉和表達(dá)的信息對(duì)理解對(duì)原生多模態(tài)的Po在訓(xùn)練過(guò)程中，這些不同模態(tài)的數(shù)據(jù)被統(tǒng)一輸入給模型內(nèi)部學(xué)習(xí)。當(dāng)不同模態(tài)的信息相關(guān)且指向同一類(lèi)事物時(shí)，它們的內(nèi)部表征是非常相似的。在生成階段，模型可以更加靈iiiimi進(jìn)行預(yù)訓(xùn)練，并利用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào)以提升有效性，包括圖像、圖表、截圖、PF和視頻等，并能產(chǎn)生文本和圖像輸出，所以i可以泛化并無(wú)縫理解分析不同模mila戶(hù)輸入的示例和問(wèn)題，示例內(nèi)容是當(dāng)給定藍(lán)色和黃色兩種顏色毛線團(tuán)時(shí)，可以織成藍(lán)貓和黃耳朵的藍(lán)狗。隨后，ii Gemini:AFamilyofHighlyCapableMultimodalModels

Gemini:AFamilyofHighlyCapableMultimodalModelsMeta20245Chameleon-34Btokentransformer的架構(gòu)針對(duì)10tokens對(duì)應(yīng)的混合模態(tài)數(shù)據(jù)從頭開(kāi)始進(jìn)行端到端訓(xùn)練。因此，Chameleon能夠?qū)θ我饣旌夏B(tài)文檔進(jìn)行推理以及生成。Chameleon的核心在于其完全token-based的架構(gòu)，圖像和文本都被表示為一組離散的tokens，這種設(shè)計(jì)允許模型使用統(tǒng)一transformer架構(gòu)來(lái)處理圖像和文本序列，而不需要單獨(dú)的圖像或文本編碼器。:快速響應(yīng)：大模型能做到極低延遲，響應(yīng)速度比肩人類(lèi)，且可以做到對(duì)話隨時(shí)打斷GPT-4o232320毫秒的時(shí)間內(nèi)響應(yīng)音GPT-3.5平均延2.8秒、GPT-45.4秒。PoP4要等待用戶(hù)說(shuō)完一句話才能完成整句識(shí)別；識(shí)別完成后，將整句話輸入到后續(xù)的大模型Po成到一個(gè)模型中，各部分之間的依賴(lài)性降低，因?yàn)槟Ｐ蛢?nèi)部表征已經(jīng)融合在一起，所以簡(jiǎn)單來(lái)說(shuō)，端到端大模型一般采用流式輸入的方式，即在接收到部分信息時(shí)就開(kāi)始處理；同時(shí)，隨著對(duì)話繼續(xù)進(jìn)行，模型將不斷地吸收新的信息，對(duì)回復(fù)進(jìn)行實(shí)時(shí)調(diào)整。這種設(shè)計(jì)讓大模型具備了邊聽(tīng)邊說(shuō)的能力，即在用戶(hù)講話的過(guò)程中就開(kāi)始準(zhǔn)備回應(yīng)，一旦用戶(hù)暫停，模型可以立即給出反饋。這種機(jī)制極大地減少了響應(yīng)延遲，使交互變得更加自然流暢。 P4o隨著用戶(hù)的情緒激動(dòng)起來(lái)，語(yǔ)氣中充滿(mǎn)了細(xì)節(jié)。在發(fā)布會(huì)上，當(dāng)測(cè)試者要求Po用“最戲劇性”的方式去講故事的時(shí)候，它表現(xiàn)得很像話劇演員，能給故事各個(gè)情節(jié)配上P4o在探討大模型發(fā)展及影響時(shí)，我們往往傾向于聚焦技術(shù)層面的突破、性能的提升，然而AI除了提供實(shí)用的知識(shí)價(jià)值之外，還能夠?yàn)橛脩?hù)帶來(lái)另一種更為微妙但卻至關(guān)重要的價(jià)值——情感價(jià)值。用戶(hù)與技術(shù)之間的關(guān)系不僅僅只有單純的信息層面的連接，還有情感層面的連接。對(duì)于許多用戶(hù)來(lái)說(shuō)，他們期望的不僅僅是高效的數(shù)據(jù)處理和信息檢索，更交互型多模態(tài)大模型在此方面展現(xiàn)出巨大的潛力，它能夠通過(guò)細(xì)微的個(gè)性化調(diào)整，讓用戶(hù)體驗(yàn)到被理解和關(guān)懷的感覺(jué)，從而在用戶(hù)心中建立起更強(qiáng)的情感紐帶，我們認(rèn)為這對(duì)增強(qiáng)用戶(hù)粘性具有不可忽視的作用。用戶(hù)會(huì)開(kāi)始依賴(lài)大模型，因?yàn)樗粌H能夠快速收集整理信息，更重要的是它能夠在關(guān)鍵時(shí)刻給予用戶(hù)情感上的支持。這種情感上的聯(lián)結(jié)，AIAIProjectAstraI/O2024大會(huì)的演示視頻中，Astra展示了其對(duì)周?chē)h(huán)境的快速理解和響應(yīng)能力，如識(shí)別并描述物體、讀Astra到，但攝像頭掃過(guò)的時(shí)候Astra曾“看”到過(guò)眼鏡，并且以視覺(jué)的形式“記”住了，所以ProjectAstra可以通過(guò)連續(xù)編碼視頻幀并將視頻和語(yǔ)音組合成事件時(shí)間線來(lái)做到這大模型降本趨勢(shì)顯著。OpenAIGPT-4omini2年內(nèi)讓大模型成本下降兩個(gè)數(shù)量級(jí)。2024719日，OpenAIAIGPT-4ominiGPT-3.5Turbo。GPT-4ominiGPT-4o的更小參數(shù)量簡(jiǎn)化版本，OpenAI宣布企業(yè)版客戶(hù)也將獲得使用GPT-4omini的權(quán)限。OpenAIGPT-4omini是目前功能最強(qiáng)大、性?xún)r(jià)比最高GPT-4GPT-3.5Turbo60%50種不同語(yǔ)言。目前，GPT-4omini現(xiàn)已作為文本和視覺(jué)模型在AssistantsAPI、ChatCompletionsAPIBatchAPI100tokens15美分，每100tokens60美分（2500頁(yè)。003GPT-4omini100倍——也就是說(shuō)大模型成本在99%。OpenAI分享的基準(zhǔn)測(cè)試結(jié)果來(lái)看，GPT-4ominiMMLU、數(shù)學(xué)推理和編程任務(wù)、多模態(tài)推理等測(cè)試上的表現(xiàn)比較出色，得分優(yōu)于GeminiFlash、ClaudeHaiku。值得注意的是，GPT-3.5TurboGPT-4omini，GPT-4omini更具性?xún)r(jià)比的同時(shí)也實(shí)現(xiàn)了性能全方位提升。此外，OpenAIGPT-4o新版本20245月發(fā)布會(huì)，OpenAIGPT-4oGPT-4Turbo50%3個(gè)月后，20248月6日，OpenAIGPT-4o新版本，GPT-4o-2024-08-06ZeroEval基準(zhǔn)測(cè)試中直接躍居首位。在價(jià)格方面，GPT-4o-2024-08-06的輸入和輸出價(jià)格相比前一個(gè)版本分別下降50%、33%2.5美元/100tokens10美元/100tokens。此外，由下圖也可以看出，OpenAI1年多的時(shí)間內(nèi)幾乎也下降了一個(gè)GPT-4o為代表的交互型多模態(tài)大模型的成本將繼續(xù)快速下tokens2個(gè)數(shù)量級(jí)至美分量級(jí)。OpenAI2024514GPT-4o，能夠?qū)崿F(xiàn)跨文本、視覺(jué)和音頻的多模態(tài)交互。如下圖所示，GPT-4o相比Whisper-v3顯著提高了各種語(yǔ)言的語(yǔ)音識(shí)別性能；同時(shí)在語(yǔ)SOTAMLSWhisper-v3。管OpenAI表示GPT-4o將免費(fèi)提供給用戶(hù)，但這一承諾尚未擴(kuò)展到移動(dòng)版APP（OpenAIGPT-4o推廣到移動(dòng)設(shè)備上。所以在第一周，移動(dòng)端用戶(hù)如ChatGPTPlusAppfigures數(shù)據(jù)，ChatGPT移動(dòng)應(yīng)用程序的凈收入在GPT-4o發(fā)布當(dāng)天首次增長(zhǎng)了9049萬(wàn)美元的兩倍（蘋(píng)果商店)；2024513517日間，ChatGPTChatGPT周度收入（萬(wàn)美元ChatGPT周度收入（萬(wàn)美元2024年5月15OAIPjectAsaiPjctAsa語(yǔ)音輸入組合到事件時(shí)間線中并緩存此信息以進(jìn)行有效調(diào)用，從而更快地處理信息。而17AIProjectIO2024、IT商湯發(fā)布國(guó)內(nèi)首個(gè)流式交互多模態(tài)大模型“日日新5o4o。流式交互中數(shù)據(jù)或信息以連續(xù)流動(dòng)的方式被處理和響應(yīng)，而不是以離散的、批量的步驟進(jìn)行，重要特征在于即時(shí)性和連續(xù)性，需要系統(tǒng)立即處理輸入數(shù)據(jù)并作出響應(yīng)，而不是等待數(shù)5.5采用的是混合端邊云協(xié)同專(zhuān)家架構(gòu)，可以最大限度發(fā)揮云邊端協(xié)同，降低推理成本；5.510TBtokens高質(zhì)量訓(xùn)練數(shù)據(jù)，包括大量合成的思維鏈數(shù)據(jù)，語(yǔ)言理解和交互能力全面升級(jí)。因此，日日新5.5在數(shù)學(xué)、推理、編程等多個(gè)維度較上個(gè)版本具有較大的提升，尤其是在數(shù)學(xué)推理（+31.5%（+53.8%5o是國(guó)內(nèi)首個(gè)“所見(jiàn)即所得”模型，通過(guò)整合聲音、文本、圖像和視頻等跨模態(tài)5o可以跟人進(jìn)AI交互的次元壁。日日新5o能實(shí)現(xiàn)較為自然流暢的交互，但存在一定的延遲；語(yǔ)言風(fēng)格大方幽默，符合人類(lèi)的交流習(xí)慣。5o可以通過(guò)手機(jī)攝像頭與外界交互，實(shí)時(shí)回答使用者問(wèn)題。例5o可以認(rèn)出玩偶的形狀，并且識(shí)別出帽子上的字5o可以識(shí)別建筑和其周邊環(huán)境并對(duì)進(jìn)行特征5o還可以利用已有的數(shù)據(jù)5o識(shí)別出演示者給出的書(shū)5o還可以識(shí)別演示者繪制的簡(jiǎn)筆畫(huà)形狀和智譜宣布清言apC224年8月30P戶(hù)開(kāi)放，同時(shí)開(kāi)放外部申請(qǐng)。清言視頻通話功能跨越文本、音頻和視頻等模態(tài)，并具備實(shí)時(shí)推理的能力。用戶(hù)打開(kāi)清言的視頻通話窗口，即可與它進(jìn)行流暢通話，即便頻繁打斷，它也能迅速反應(yīng)。且打開(kāi)攝像頭，清言也可以“看”到的外界畫(huà)面，同時(shí)可以聽(tīng)懂用戶(hù)A音轉(zhuǎn)文字、大模型生成文字回答、最后文字轉(zhuǎn)語(yǔ)音來(lái)實(shí)現(xiàn)，所以交互并不流暢，且延時(shí)較長(zhǎng)；此外，大模型語(yǔ)音回答內(nèi)容較為機(jī)械和模式化，同時(shí)無(wú)法通過(guò)對(duì)話打斷回答，必模態(tài)是指承載信息的模式或方式，不同類(lèi)別的信息來(lái)源或形式都可以稱(chēng)為一種模態(tài)。模態(tài)基于人的感官可分為聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)、味覺(jué)、觸覺(jué)，基于信息傳遞的媒介可分為圖像、語(yǔ)音、視頻、文本等，除此之外還有傳感器的模態(tài)數(shù)據(jù)，如雷達(dá)、紅外、S、加人類(lèi)在進(jìn)化過(guò)程中形成了以視覺(jué)為主的感知系統(tǒng)，我們獲得的外界信息絕大部分來(lái)自視覺(jué)。從感知偏好來(lái)看，人類(lèi)大腦對(duì)視覺(jué)信息的處理能力尤為強(qiáng)大，能夠迅速捕捉并解析復(fù)雜的圖像和視頻中的細(xì)節(jié)，所以在自然交流和信息傳播中，視覺(jué)內(nèi)容是極其高效和直觀的載體。從信息傳達(dá)角度，圖片和視頻相比純文本，往往能承載更豐富、更密集的信息，一個(gè)畫(huà)面能夠捕捉并傳達(dá)多層次的細(xì)節(jié)和情感，遠(yuǎn)超于文字所能描述的內(nèi)容，這些在這個(gè)由多種模態(tài)信息構(gòu)成的世界，會(huì)同時(shí)收到多個(gè)互補(bǔ)的、融合的、不同模態(tài)的感官輸入，多模態(tài)更符合人類(lèi)感知周邊、探索世界的方式。多模態(tài)理解大模型可以讓用戶(hù)使用文本、圖像、聲音、視頻、傳感等多種數(shù)據(jù)類(lèi)型與終端進(jìn)行交流，大大拓展了用戶(hù)同終端的交互形式。多模態(tài)生成大模型能夠生成各種跨媒體內(nèi)容，為用戶(hù)提供更為直觀的信息表達(dá)，從而實(shí)現(xiàn)更加高效豐富的溝通體驗(yàn)，其實(shí)這也為更多樣性的終端硬件形態(tài)如此外，我們認(rèn)為AI融入生活的核心之一在于情感上更接近人類(lèi)，語(yǔ)音多模態(tài)交互效果，是邁向這一目標(biāo)的重要一步。因?yàn)閺睦斫庥脩?hù)的角度來(lái)看，首先通過(guò)結(jié)合語(yǔ)音和視頻分析，AI可以更好地理解用戶(hù)的意圖和情緒，例如當(dāng)用戶(hù)語(yǔ)調(diào)輕快，但其面部表情很凝重時(shí)，AI需要綜合判斷來(lái)確定最合適的回應(yīng)，而這種復(fù)雜情境下的理解AIAIAI應(yīng)用是連接人類(lèi)意圖與信息及技術(shù)實(shí)現(xiàn)的媒介，其本質(zhì)是交互——用戶(hù)通過(guò)應(yīng)用表達(dá)需求，應(yīng)用通過(guò)尋找信息和調(diào)用相應(yīng)技術(shù)來(lái)理解和實(shí)現(xiàn)用戶(hù)的意圖，形成一個(gè)閉環(huán)的交互過(guò)程。應(yīng)用作為一個(gè)中介，不僅僅是一個(gè)靜態(tài)的工具，而是一個(gè)動(dòng)態(tài)的、可以交互的系統(tǒng)，它需要接收、處理用戶(hù)輸入，并與后端技術(shù)（如數(shù)據(jù)庫(kù)等）進(jìn)行交互，最終給出用APP我們平時(shí)通過(guò)點(diǎn)擊、說(shuō)話等方式將大腦中的信息指令通過(guò)鼠標(biāo)、鍵盤(pán)、觸摸屏等媒介，傳遞到硬件系統(tǒng)再到軟件系統(tǒng)，然后軟件系統(tǒng)進(jìn)行處理。后續(xù)處理結(jié)果會(huì)通過(guò)顯示器、過(guò)往每一次人機(jī)交互的重大革新都孕育了行業(yè)巨頭，并深刻改變了人們的生活方式和商業(yè)格局。190160年代，早期的計(jì)算機(jī)通過(guò)穿孔紙向計(jì)算機(jī)輸入指令，有孔為1，無(wú)孔為0，經(jīng)過(guò)光電輸入機(jī)將數(shù)據(jù)輸入計(jì)算機(jī)。由于需要輸入二進(jìn)制的機(jī)器語(yǔ)言，計(jì)算機(jī)2060年代中期，命令行界面(CLI)作為穿孔紙帶的友好替代方案出現(xiàn)在計(jì)算機(jī)上，2080ia和h985is簡(jiǎn)化了用戶(hù)與計(jì)算機(jī)之間的交互，不再需要復(fù)雜的命令行輸入，而是通過(guò)直觀的圖標(biāo)、菜單和鼠標(biāo)點(diǎn)擊來(lái)操作。這一革新不僅讓個(gè)人電腦變得更加用戶(hù)友好，也催生了微軟這樣的sC2007年，蘋(píng)果公司推出了第一代iPhone，憑借其革命性的觸摸屏和多點(diǎn)觸控技術(shù)，重App經(jīng)濟(jì)的爆發(fā)，使得智能手機(jī)成為21世紀(jì)最重要的個(gè)人計(jì)算設(shè)備之一。比爾·蓋茨223年曾發(fā)表標(biāo)題為《AI軟件行業(yè)》的文章，并稱(chēng)“AIAent不僅會(huì)改變每個(gè)人與計(jì)算機(jī)的交互方式，還將顛覆軟件行業(yè)，引領(lǐng)我們從鍵入命令到點(diǎn)擊圖標(biāo)以來(lái)計(jì)算機(jī)領(lǐng)域最大的革命”。他認(rèn)為：IAnt將成為下一個(gè)平臺(tái)。未來(lái)用戶(hù)只需用日常語(yǔ)言告訴設(shè)備想要做什么，基于獲取的信息和對(duì)用戶(hù)生活的豐富了解，軟件能夠做出個(gè)性化的回應(yīng)。在不久的將來(lái)，任何網(wǎng)民我們認(rèn)為從CI就是人機(jī)交互的不斷進(jìn)化與深化。人機(jī)交互的核心點(diǎn)之一為信息傳遞，從外設(shè)主導(dǎo)到觸控技術(shù)，再到自然語(yǔ)言處理，人機(jī)交互的發(fā)展一直在努力簡(jiǎn)化信息傳遞過(guò)程，使其更加直觀、自然和無(wú)縫。每一次技術(shù)迭代都致力于減少用戶(hù)與技術(shù)之間的隔閡，讓信息的交在CU）的出現(xiàn)，簡(jiǎn)化信息傳遞過(guò)程，用戶(hù)可以通過(guò)點(diǎn)擊圖標(biāo)、拖放文件、使用下拉菜單等方式進(jìn)行操作，無(wú)需記住復(fù)雜的命令序列。這一轉(zhuǎn)變極大地降低了學(xué)習(xí)門(mén)檻，使得信息傳遞過(guò)程更加直觀和用戶(hù)友好。但用戶(hù)仍需要學(xué)習(xí)并遵循特定的應(yīng)用界面布局、隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái)，多點(diǎn)觸控技術(shù)成為主流。用戶(hù)可以直接在屏幕上通過(guò)觸摸、滑動(dòng)、捏合等手勢(shì)來(lái)操作，這一方式更接近于人類(lèi)在現(xiàn)實(shí)生活中的交互習(xí)慣。觸控技術(shù)使得信息傳遞無(wú)需通過(guò)額外的物理設(shè)備，減少了中間環(huán)節(jié)，用戶(hù)可以直接與內(nèi)容互動(dòng)，信息傳遞過(guò)程變得更加快速、高效和自然。例如，智能手機(jī)和平板電腦上的多點(diǎn)觸控操作，讓用戶(hù)可以輕松放大圖片、翻頁(yè)閱讀、播放音樂(lè)等，無(wú)需復(fù)雜的按AI時(shí)代，交互型多模態(tài)大模型的出現(xiàn)有望推動(dòng)人機(jī)交互向更為簡(jiǎn)單的自然語(yǔ)言交互模態(tài)交互。AI能力有顯著提升，從而增強(qiáng)了推理“程序性知識(shí)”的能力，讓大模型在處理復(fù)雜問(wèn)題、終端本身就融合了多種感知通道，錄音機(jī)、攝像頭等傳感器作為重要輸入源提供多維數(shù)據(jù)，且不同于傳統(tǒng)的關(guān)鍵詞匹配，大模型結(jié)合上下文進(jìn)行分析，這意味著它可以在連續(xù)的對(duì)話中保持話題連貫、把握整體脈絡(luò)，這讓大模型對(duì)用戶(hù)意圖擁有較強(qiáng)的理解能力。同時(shí)，大模型在回答時(shí)能從知識(shí)庫(kù)中提煉出有價(jià)值的信息，并能夠根據(jù)用戶(hù)的具體需求和上下文背景，提供定制化的答案或建議；且當(dāng)大模型與應(yīng)用深度結(jié)合之后，它根據(jù)用戶(hù)的指令或需求，自動(dòng)調(diào)用相應(yīng)的應(yīng)用程序、服務(wù)或界面等。未來(lái)AI命令，而是直接用自然語(yǔ)言與設(shè)備溝通。不再受限于固定的界面規(guī)則的交互將變得所以在大模型迭代過(guò)程中，性能提高固然重要，但交互的升級(jí)也同樣具有重大價(jià)值，商湯EOIUIU（eserner演進(jìn)。過(guò)往的應(yīng)用設(shè)計(jì)理念都是希望人去學(xué)習(xí)軟件或機(jī)器設(shè)備的交互界面。AI計(jì)理念走向了一個(gè)全新的方向，就是讓軟件系統(tǒng)或設(shè)備來(lái)理解人。這個(gè)變化意味著用戶(hù)不應(yīng)該去參加使用培訓(xùn)，甚至也不需要產(chǎn)品說(shuō)明書(shū)，通過(guò)多模態(tài)（文字，圖片，語(yǔ)音，大模型的終極形態(tài)，是讓人機(jī)交互進(jìn)化到最原始、最簡(jiǎn)單的形態(tài)，在未來(lái)和電腦、手機(jī)AI的使用門(mén)檻，所以交互型多模態(tài)大模型帶來(lái)的這種更加直觀、傻瓜的交互，有望帶來(lái)大模型應(yīng)用更大面積的普及。AI來(lái)提供服務(wù)，即可簡(jiǎn)單理解為大模型通過(guò)手機(jī)、電腦等終端以智能助手形式直接與用戶(hù)互動(dòng)，提供軟件形式的服務(wù)。具身智能則與物理環(huán)境交互，需要硬件支持來(lái)實(shí)現(xiàn)三維空間內(nèi)的運(yùn)動(dòng)行為，其中人形機(jī)器人是其代表，在應(yīng)用領(lǐng)域方面，具身智能已經(jīng)滲透到機(jī)規(guī)?；蜆?biāo)準(zhǔn)化是現(xiàn)代教育的特征——基于社會(huì)分工的邏輯，旨在為社會(huì)各行各業(yè)的發(fā)展培養(yǎng)可用之才。與此相對(duì)應(yīng)的，便是分專(zhuān)業(yè)的學(xué)科式架構(gòu)、分級(jí)分班的規(guī)?；虒W(xué)。AIGC技術(shù)應(yīng)用下，大規(guī)模的通用數(shù)據(jù)與教育各學(xué)科的垂類(lèi)數(shù)據(jù)并存，通識(shí)教育和專(zhuān)業(yè)教育所需的內(nèi)容均可滿(mǎn)足。同時(shí)，AIGC資源不像教師資源具有時(shí)空上的獨(dú)占性，有望實(shí)現(xiàn)大規(guī)模的個(gè)性化教學(xué)。而在交互方式上，口語(yǔ)面授是主流的、學(xué)生習(xí)以為常的教學(xué)交互方式，而AIGC技術(shù)的獨(dú)特之處也在于多輪自然語(yǔ)言交互能力，有來(lái)有回的問(wèn)答式相比于知識(shí)的單向灌輸，更接近孔子《論語(yǔ)》的對(duì)話體教學(xué)，也更接近蘇格拉底的啟發(fā)式對(duì)話教學(xué)模式。AIAC原本單向播報(bào)和簡(jiǎn)單問(wèn)答的功能進(jìn)一步拓展了多輪對(duì)話、邏輯推理、上下文理解能力。AC泛，可以滿(mǎn)足用戶(hù)對(duì)細(xì)分場(chǎng)景的需求。而交互能力的升級(jí)，會(huì)讓教學(xué)時(shí)的對(duì)話過(guò)程更加2023年，OpenAIGPT-4KhanAcademyDuolingo的應(yīng)用中，推動(dòng)了教育領(lǐng)域的創(chuàng)新。KhanAcademyKhanmigoAI助手，通過(guò)解答開(kāi)放式問(wèn)題，增強(qiáng)了學(xué)生lio在2023年3ioaxP4的ePay和EnyAnwerRlelayElinyAnwerPoI有望大幅提高，我們認(rèn)為Po的實(shí)時(shí)互動(dòng)能力對(duì)于教育領(lǐng)域尤其關(guān)鍵，能夠適應(yīng)學(xué)生多樣化需求，使學(xué)習(xí)過(guò)程更加生動(dòng)，互動(dòng)更流暢，教學(xué)更具針對(duì)性，用戶(hù)的學(xué)習(xí)興趣和學(xué)習(xí)效率有望提升，對(duì)AI32：Duolingomax交互型多模態(tài)大模型或?qū)⑦M(jìn)一步釋放大模型在家庭教育中的潛力。OpenAI官方公布的視頻演示中，GPT-4o通過(guò)iPad屏幕分享，實(shí)時(shí)語(yǔ)音指導(dǎo)，幫助一個(gè)學(xué)生解答數(shù)學(xué)題。在GPT-4o的耐心引導(dǎo)下，男孩一步步推導(dǎo)出正確答案，體驗(yàn)堪比一對(duì)一的在線輔導(dǎo)。同時(shí)，GPT-4o的圖像處理能力也在教育領(lǐng)域得到了有效應(yīng)用。在OpenAI春季發(fā)布會(huì)演示中面對(duì)實(shí)驗(yàn)者提出的線性代數(shù)題目"3x+1=4"，GPT-4o展現(xiàn)了其引導(dǎo)解題的能力，只提交互型多模態(tài)大模型還可以作為語(yǔ)言學(xué)習(xí)與職業(yè)技能提升的先進(jìn)工具，其功能涵蓋了多語(yǔ)言翻譯、模擬面試等多個(gè)方面，隨時(shí)隨地為用戶(hù)提供輔導(dǎo)。憑借圖像識(shí)別技術(shù)與多種語(yǔ)言?xún)?chǔ)備，交互型多模態(tài)大模型可以幫助用戶(hù)在日常生活中學(xué)習(xí)外語(yǔ)，高效便捷且增強(qiáng)了語(yǔ)言學(xué)習(xí)的互動(dòng)性和趣味性。同時(shí)，GPT-4o的同聲傳譯功能打破了語(yǔ)言障礙，促進(jìn)了全球范圍內(nèi)的溝通與交流。此外，通過(guò)模擬面試場(chǎng)景，它幫助用戶(hù)磨練面試技巧，提高職業(yè)競(jìng)爭(zhēng)力。 20245月底，OpenAIChatGPTEdu的發(fā)布計(jì)劃，這是一款專(zhuān)為高校設(shè)計(jì)的ChatGPT版本，旨在協(xié)助學(xué)校負(fù)責(zé)任地部署人工智能技術(shù)。該版本包含了最新的GPT-4o模型，支持跨文本、音頻和視覺(jué)的推理，并具備強(qiáng)大的管理控制與數(shù)據(jù)安全特性。亞利桑那州立大學(xué)(ASU)ChatGPTEnterpriseAIAI在提升教學(xué)、研究及業(yè)務(wù)運(yùn)作方面的潛力。ChatGPTEduAIAI融入社區(qū)戰(zhàn)略減少藥物過(guò)量致死、沃頓商學(xué)院用其加深學(xué)生學(xué)習(xí)反思、ASU開(kāi)發(fā)語(yǔ)言學(xué)習(xí)伙大模型、多模態(tài)交互、Agent規(guī)劃和具身智能行動(dòng)的融合，將解決個(gè)性化教學(xué)、數(shù)據(jù)分析、課件生成、作業(yè)批改等問(wèn)題，同時(shí)，具身智能機(jī)器人能夠在物理世界中與學(xué)生建立情感聯(lián)結(jié)，起到教學(xué)陪伴與激勵(lì)作用。AIGC技術(shù)的外化與硬件化，是技術(shù)發(fā)展的必經(jīng)之路。通過(guò)軟件與硬件的結(jié)合，AIGC技術(shù)將更好地發(fā)揮其在教育領(lǐng)域的優(yōu)勢(shì)，為學(xué)生提供更加豐富、個(gè)性化的學(xué)習(xí)體驗(yàn)。37：AGIAI工具正在被軟件開(kāi)發(fā)人員廣泛采用。2023年的一項(xiàng)針對(duì)軟件開(kāi)發(fā)人員使用AI工具的調(diào)研（2023DeveloperSurvey）表明，77%AI的開(kāi)發(fā)工具表示支持和非常支持，并且，82.6AI來(lái)編寫(xiě)代碼，48.9%的人用于調(diào)試和協(xié)助，34.4%的人用于文檔編寫(xiě)，23.9%的人使用AI進(jìn)行代碼測(cè)試。AI編程助手正迅速成為全球軟件開(kāi)發(fā)的關(guān)鍵力量，國(guó)內(nèi)外企業(yè)均在這一領(lǐng)域取得了顯著進(jìn)展。國(guó)外起步較早，以微軟和OpenAI合作推出的GitHubCopilot為代表，通過(guò)深度學(xué)習(xí)技術(shù)，為編程人員提供高效的代碼生成與補(bǔ)全服務(wù)，確立了其在智能研發(fā)工具中的領(lǐng)先地位。國(guó)內(nèi)雖然起步稍晚，但緊隨其后，隨著2023年大模型技術(shù)的突破，國(guó)內(nèi)頭部AI企業(yè)如阿里巴巴、科大訊飛和百度，紛紛推出了基于自家大模型的編碼助手產(chǎn)品，展現(xiàn)了在AI領(lǐng)域的快速創(chuàng)新和應(yīng)用能力。GPT-4o在代碼優(yōu)化領(lǐng)域的應(yīng)用表現(xiàn)卓越，它能讀懂電腦屏幕，能夠深入分析代碼，然后用自然語(yǔ)言實(shí)時(shí)指導(dǎo)用戶(hù)進(jìn)行代碼調(diào)整，大幅助用戶(hù)提升開(kāi)發(fā)效率和質(zhì)量。在科技活動(dòng)VivaTech的現(xiàn)場(chǎng)演示中，OpenAI的開(kāi)發(fā)者體驗(yàn)負(fù)責(zé)人RomainHuet使用GPT-4o加持的ChatGPTMac版演示了代碼閱讀、debug和優(yōu)化等過(guò)程。Huet首先讓ChatGPT描述了一段代碼的功能，該代碼是用于渲染Discover卡片組件的React組件，數(shù)據(jù)來(lái)源于trips.json文件。隨后，Huet請(qǐng)求ChatGPT助提高頁(yè)面的響應(yīng)性。ChatGPT建議使用TailwindCSS的響應(yīng)式設(shè)計(jì)特性，根據(jù)屏幕大小調(diào)整網(wǎng)格列數(shù)，并提供了具體的設(shè)置方法。Huet詢(xún)問(wèn)了具體的屬性設(shè)置，ChatGPT給出了詳細(xì)的指導(dǎo)，包括如何根據(jù)不同屏幕尺寸設(shè)置列數(shù)。最后，GPT-4o利用其多模態(tài)能力，親自檢查并確認(rèn)了改動(dòng)的有效性。整個(gè)演示展示了GPT-4o在編碼問(wèn)題上的強(qiáng)大實(shí)時(shí)處理能力，以及其生成文本的速度優(yōu)勢(shì)，相較于GPT-4Turbo有顯著提升。6月25日，AIl既整合技術(shù)也整合員工，被收購(gòu)初創(chuàng)公司的成員將在交易完成后加入AI。li成立于219li10以對(duì)已打開(kāi)的應(yīng)用程序進(jìn)行繪制和標(biāo)注，甚至將各自不同的應(yīng)用程序視圖融合成一個(gè)共享視而li技術(shù)許可以助nAI未多AIAnt調(diào)并用戶(hù)同工AI39：遠(yuǎn)程協(xié)作平臺(tái)OpenAI與BeMyEyes合作，為視障人士提供實(shí)時(shí)視覺(jué)輔助，GPT-4o成為盲人的在OpenAI給出的示例中，GPT-4o給一位視障人士講解了建筑物和國(guó)旗上的國(guó)徽，描述了湖邊鴨子的活動(dòng)，展示了AI在輔助視障人士感知世界方面的潛力；最后，GPT-4o還助盲人成功坐上了回家的出租車(chē)。40：GPT-4oBemyeyes結(jié)合AI用實(shí)踐。從提高工作效率到改善患者體驗(yàn)，再到提供個(gè)性化服務(wù)和降低成本等，人工智20233BeMy利用GPT-4，開(kāi)發(fā)了VirtualVolunteer?，提供物品識(shí)別和解釋服務(wù)，助Summer2024120243202432024320244GPT-420244GPT-420246通過(guò)IPIsrAI和GP，實(shí)現(xiàn)了醫(yī)患對(duì)話的自動(dòng)轉(zhuǎn)錄與電子病歷的生成，提升了數(shù)據(jù)質(zhì)量和工作效率。同時(shí)，利用P4sn傳。此外，P4還支持自動(dòng)生成出院報(bào)告，減輕了醫(yī)護(hù)人員的文書(shū)負(fù)擔(dān)。在疫情期間，這一系統(tǒng)已連接0多家醫(yī)院，持續(xù)提供專(zhuān)業(yè)醫(yī)療服務(wù)，增強(qiáng)了醫(yī)20246ColorGPT-4ocopilot應(yīng)用程序識(shí)別缺失診斷并創(chuàng)建定制OpenAIAPI整合患者醫(yī)療數(shù)據(jù)與臨床知識(shí)，為醫(yī)療保健提供者未來(lái)AIGC將貫穿醫(yī)療服務(wù)全流程。AIGC能夠更好地處理包括文本、圖像、聲音在內(nèi)的多種數(shù)據(jù)類(lèi)型，適用于不同的醫(yī)療場(chǎng)景，例如可以快速生成醫(yī)療報(bào)告、病例摘要等文本內(nèi)容提高醫(yī)生的工作效率。并且利用出色的語(yǔ)言能力，整合和分析大量醫(yī)學(xué)文獻(xiàn)和臨床數(shù)據(jù)，為醫(yī)生提供決策支持。生成易懂的醫(yī)療健康教育內(nèi)容，助患者更好地理解疾病和治療方案等。41：AIGC我們認(rèn)為交互型多模態(tài)大模型的集成有望為患者提供更加個(gè)性化、高效和針對(duì)性的醫(yī)療健康相關(guān)服務(wù)，可能將在這幾個(gè)方面發(fā)揮較大的作用：智能導(dǎo)診助手：通過(guò)自然語(yǔ)言交互理解患者的癥狀描述，推薦合適的科室和醫(yī)生，并協(xié)助完成在線預(yù)約；同時(shí)，可以分析患者的面部表情和語(yǔ)氣，判斷情緒狀態(tài)，提供健康顧問(wèn)：可以給用戶(hù)提供疾病信息、藥物用法、飲食建議等，同時(shí)可以通過(guò)多模態(tài)交互全方位了解用戶(hù)健康狀態(tài)，然后提供準(zhǔn)確、及時(shí)的健康指導(dǎo)。而針對(duì)需要物理治療或康復(fù)訓(xùn)練的用戶(hù)，健康顧問(wèn)可以利用虛擬現(xiàn)實(shí)技術(shù)，提供定制化康復(fù)計(jì)劃，監(jiān)測(cè)患者的運(yùn)動(dòng)執(zhí)行情況，及時(shí)調(diào)整訓(xùn)練強(qiáng)度，確保康復(fù)過(guò)程的安全和有效。情感支持助手：識(shí)別普通用戶(hù)情緒變化，提供適時(shí)的情感支持和心理輔導(dǎo)。而面對(duì)患者，除了傾聽(tīng)、鼓勵(lì)和建議，還可以再必要時(shí)引導(dǎo)患者聯(lián)系心理健康專(zhuān)家，助其應(yīng)對(duì)精神健康挑戰(zhàn)。無(wú)障礙導(dǎo)航助手：利用語(yǔ)音指令和實(shí)時(shí)位置數(shù)據(jù)，為視障用戶(hù)提供清晰的路線指導(dǎo)，避開(kāi)障礙物，確保安全地到達(dá)目的地。它還可以集成交通信息，提供更全面的出行解決方案。遠(yuǎn)程監(jiān)護(hù)助手：適用于老年人或慢性病患者，可以遠(yuǎn)程監(jiān)控狀態(tài)和生命體征（如AI未來(lái)將成為關(guān)鍵的生產(chǎn)力工具，有望深度融入辦公場(chǎng)景。微軟和領(lǐng)英的《2024WorkTrendIndexAnnualReport》報(bào)告顯示，全球員工不僅期望在工作中應(yīng)用AI，而且愿意主動(dòng)采用AI來(lái)提升個(gè)人職業(yè)發(fā)展。AI的普及正打破職業(yè)發(fā)展的限制，同時(shí)，AI用戶(hù)的出現(xiàn)預(yù)示著未來(lái)工作的新趨勢(shì)。交互型多模態(tài)大模型能夠充當(dāng)會(huì)議助手，記錄并總結(jié)要點(diǎn)，且可以區(qū)分參會(huì)人聲音。當(dāng)進(jìn)行視頻會(huì)議時(shí)，它能夠全面記錄并整理視頻會(huì)議內(nèi)容，自動(dòng)生成包含重點(diǎn)標(biāo)記的會(huì)議記錄，同時(shí)記住各個(gè)參會(huì)人的觀點(diǎn)。它還能在討論中提供即時(shí)回顧，助參與者迅速找回被打斷前的討論點(diǎn)和重點(diǎn)內(nèi)容，確保會(huì)議的流暢性和信息的準(zhǔn)確性。2023年，AI已成為游戲工作室工作流程中的常規(guī)部分，62%的工作室利用AI進(jìn)行原型制作、概念設(shè)計(jì)和資產(chǎn)創(chuàng)建。在Unity的數(shù)據(jù)中，有71%工作室表示，AI改善了他們的交付和運(yùn)營(yíng)，37%的受訪開(kāi)發(fā)者表示正在通過(guò)AI加快編碼速度，36%的開(kāi)發(fā)者用其生成藝術(shù)作品和游戲關(guān)卡。在國(guó)內(nèi)，伽馬數(shù)據(jù)發(fā)布的《中國(guó)游戲產(chǎn)業(yè)新質(zhì)生產(chǎn)力發(fā)展報(bào)告》顯示，現(xiàn)階段中國(guó)游戲營(yíng)收TOP50企業(yè)中，在人工智能、數(shù)字孿生、引擎開(kāi)發(fā)、云技術(shù)和XR等新質(zhì)生產(chǎn)力關(guān)聯(lián)領(lǐng)域有所布局的企業(yè)占近八成。在調(diào)研的游戲從業(yè)者中，超97%游戲從業(yè)者表示企業(yè)技術(shù)研究投入有所增加，其中技術(shù)投入顯著提升（中、大幅）的占比達(dá)到七成。當(dāng)前，AI技術(shù)在輔助游戲研發(fā)方面扮演著關(guān)鍵角色，它通過(guò)生成圖像、音樂(lè)、配音及劇情和代碼，顯著降低了開(kāi)發(fā)成本并提高了創(chuàng)意效率。游戲研發(fā)團(tuán)隊(duì)的策劃、美術(shù)和程序等職能領(lǐng)域都在通過(guò)AI技術(shù)實(shí)現(xiàn)自動(dòng)化和優(yōu)化，從而減輕工作量并提升產(chǎn)品質(zhì)量。此外AI在用戶(hù)設(shè)備上運(yùn)行的能力，為開(kāi)發(fā)人員和創(chuàng)意工作者提供了強(qiáng)大的工具和平臺(tái)。在玩家體驗(yàn)方面，交互型多模態(tài)大模型驅(qū)動(dòng)的AINPC或?qū)⒊蔀橛螒蛐袠I(yè)一次重大革新。玩家和NPC之間的互動(dòng)是游戲體驗(yàn)的一個(gè)關(guān)鍵方面。傳統(tǒng)的交互范式基本都是一維的，NPC以預(yù)設(shè)的方式對(duì)玩家的輸入做出反應(yīng)。這種限制讓更有機(jī)、更豐富的互動(dòng)的潛力沒(méi)有得到釋放。在目前的游戲系統(tǒng)中，非玩家角色（NPC）的行為主要由開(kāi)發(fā)人員編寫(xiě)的預(yù)定義腳本決定。這些腳本包含基于游戲環(huán)境中各種觸發(fā)器或玩家動(dòng)作的一系列反應(yīng)和交互。然而，這種腳本化的性質(zhì)通常會(huì)導(dǎo)致可預(yù)測(cè)或重復(fù)的NPC行為，這些行為無(wú)法響應(yīng)玩家的實(shí)時(shí)行為或游戲的動(dòng)態(tài)環(huán)境，很多時(shí)候會(huì)阻礙用戶(hù)的沉而大模型有望改變這一范式，AI可以讓NPC學(xué)習(xí)玩家行為，適應(yīng)更多元的策略，具有自主性和適應(yīng)性。AINPC的內(nèi)容，讓玩家與NPC的交互更為自然。不僅可以降低用戶(hù)生成內(nèi)容(UGC)的成本，還激發(fā)了創(chuàng)新，避免了內(nèi)容同質(zhì)化，尤其在依賴(lài)自然語(yǔ)言對(duì)話的游戲中，AI驅(qū)動(dòng)的玩法具有獨(dú)特的吸引力。2024年，InworldAI進(jìn)行了一項(xiàng)名為《AINPC在未來(lái)游戲開(kāi)發(fā)中的角色》的調(diào)查，共有來(lái)自美國(guó)、英國(guó)、日本、韓國(guó)、香港和新加坡的游戲工作室的524位專(zhuān)業(yè)人士參與。報(bào)告顯示，56%的受訪者認(rèn)為AINPC將帶來(lái)超過(guò)40%的投資回報(bào)率，近3/4的游戲開(kāi)發(fā)者對(duì)AINPC充滿(mǎn)熱情。InworldAI與微軟合作，通過(guò)結(jié)合GPT和其他大模型、音頻模型及30多個(gè)機(jī)器學(xué)習(xí)模型，開(kāi)發(fā)了多模態(tài)的“角色引擎”。這個(gè)引擎旨在模擬人腦，打造復(fù)雜的AI角色。InworldStudio作為一個(gè)AI虛擬角色生成平臺(tái)，允許用戶(hù)和開(kāi)發(fā)者通過(guò)自然語(yǔ)言輸入，無(wú)需編寫(xiě)代碼，即可迅速構(gòu)建并部署NPC到游戲或應(yīng)用中。國(guó)內(nèi)游戲大廠也在AI領(lǐng)域積極布局。騰訊自2016年起便成立了AILab工作室，開(kāi)發(fā)了決策智能AI“絕悟”和棋牌類(lèi)AI“絕藝”，并在多類(lèi)型游戲中取得了領(lǐng)先研究成果。網(wǎng)易在2017年成立了伏羲工作室與AILab，其《逆水寒手游》中應(yīng)用了AINPC、AI捏臉等自研技術(shù)，AI技術(shù)在游戲開(kāi)發(fā)中的多樣化應(yīng)用。AIGiiNEX。2016AILab，AILabAIAIAIGiiNEX。2016AILab，AILabAIAIAINPCNPC、AIAIAI2023AITAAI2022AIAIGiantGPTiMagineAICodeBrain“百靈AIAIAIClubKoala2023AIAIAI悠米互娛合作構(gòu)建“AI“LayaAir3”AIAI“1臺(tái)、23NAI+UGC”戰(zhàn)路布局。隨著AI技術(shù)的發(fā)展，情感陪伴產(chǎn)品應(yīng)運(yùn)而生，它們通過(guò)個(gè)性化虛擬人物，滿(mǎn)足用戶(hù)的社交聊天需求，豐富了用戶(hù)的情感體驗(yàn)。這些產(chǎn)品不僅拓寬了智能助手的應(yīng)用范圍，也為人們提供了一種新的社交和情感交流方式。GPT-4o以其先進(jìn)的情感交互和場(chǎng)景理解能力，在發(fā)布會(huì)上展示了其多樣化的智能應(yīng)用。OpenAI研究主管BarretZoph展示了如何在語(yǔ)音模式下實(shí)時(shí)讓GPT-4o判斷自己的心情；同時(shí)，GPT-4o還能在用戶(hù)分享寵物時(shí)表現(xiàn)出親切的贊賞，以及通過(guò)手機(jī)攝像頭識(shí)別出慶祝生日的場(chǎng)景，并在確認(rèn)后提供情感豐富的反應(yīng)和唱出生日快樂(lè)歌。GPT-4o甚至能在用戶(hù)需要時(shí)唱搖籃曲，助安撫情緒。20243月，a16zTOP50AI網(wǎng)頁(yè)產(chǎn)品中發(fā)布的榜單中，AI伴侶賽道呈現(xiàn)出驚人的增長(zhǎng)勢(shì)頭。有8家（Candy.ai、Character.ai、Chub.ai、CrushonAI、DreamGF、JanitorAI、Spicychat、Yodayo）TOP50AI網(wǎng)頁(yè)產(chǎn)品榜單，2家進(jìn)（Character.AI、Poly.AI）TOP50AIApp產(chǎn)品榜單。這一趨勢(shì)表明，AI情感陪伴產(chǎn)品已經(jīng)APP和小程序，海外產(chǎn)品偏APP和網(wǎng)頁(yè)。在國(guó)內(nèi)市場(chǎng)，字節(jié)跳動(dòng)通過(guò)話爐平臺(tái)加強(qiáng)了情感陪伴產(chǎn)品的內(nèi)容和娛樂(lè)性。與此同時(shí)，imaxAI情感陪伴產(chǎn)品，各展所長(zhǎng)，進(jìn)一步拓展市場(chǎng)。這些產(chǎn)品不僅豐富了用戶(hù)的情感生活，也體現(xiàn)了AIAI基礎(chǔ)設(shè)施，還因其性?xún)r(jià)比和廣泛應(yīng)用前景而備受矚目。大模型等技術(shù)進(jìn)步正推動(dòng)人形機(jī)器人的泛化能力和自然語(yǔ)言交互能力快速發(fā)展。據(jù)高工產(chǎn)業(yè)研究院（I）預(yù)測(cè)，02630200OpenAIFigureAI的合作是大模型作為機(jī)器人“大腦”的范本。FigureAI2024年2月底獲得包括亞馬遜創(chuàng)始人貝索斯、英偉達(dá)、OpenAI和微軟在內(nèi)的投資者6.75億美26FigureOpenAIGPT模型開(kāi)AIAzure云服務(wù)構(gòu)AI基礎(chǔ)設(shè)施和數(shù)據(jù)存儲(chǔ)。313日，F(xiàn)igureOpenAI共同推出了集成先進(jìn)視覺(jué)和語(yǔ)言理解技術(shù)的Figure01機(jī)器人，它能夠自主完成遞送和清理等任務(wù)，標(biāo)志Figure01背后的多模態(tài)大模型技術(shù)，為機(jī)器人與人類(lèi)的互動(dòng)提供了更多可能性，標(biāo)志著人工智能技術(shù)在機(jī)器人領(lǐng)域的快速發(fā)展。如下圖所示，F(xiàn)igureAI用機(jī)器人攝像頭采集的視頻信息，并結(jié)合麥克風(fēng)捕獲的語(yǔ)音轉(zhuǎn)錄文本，輸入到OpenAI提供的多模態(tài)大模型中，實(shí)45：Figure01交互型多模態(tài)大模型有望給人形機(jī)器人帶來(lái)交互效率和情感智能方面的重大飛躍。憑借端到端原生多模態(tài)模型以及更強(qiáng)的交互能力，人形機(jī)器人可以同時(shí)處理語(yǔ)音、面部表情、手勢(shì)等多種輸入信號(hào)，迅速識(shí)別和理解用戶(hù)的意圖，減少等待時(shí)間，提高響應(yīng)速度，展現(xiàn)出接近人類(lèi)反應(yīng)速度的敏捷性，同時(shí)，它們的情感識(shí)別能力將得到顯著提升，能夠細(xì)致智能座艙集成了傳感器、控制器、顯示和通訊終端，以及云服務(wù)和網(wǎng)絡(luò)技術(shù)，實(shí)現(xiàn)人車(chē)智能交互。它們不僅提供信息娛樂(lè)和安全提醒，還通過(guò)萬(wàn)物互聯(lián)技術(shù)，為駕乘者打造個(gè)性化和舒適的體驗(yàn)。隨著技術(shù)的進(jìn)步，智能座艙的交互方式正從傳統(tǒng)物理操作演變?yōu)檎Z(yǔ)在20430時(shí)代。這一時(shí)代的座艙特點(diǎn)包括基于先進(jìn)大模型的智能語(yǔ)音助手、結(jié)合語(yǔ)音和視覺(jué)的多模態(tài)交互方式，以及多屏聯(lián)動(dòng)和設(shè)備間的互聯(lián)互通。李娟預(yù)測(cè)，AIUAI 隨著大模型在多種場(chǎng)景中的適用性日益增強(qiáng)，市場(chǎng)對(duì)統(tǒng)一管理座艙功能的智能體需求日024Aent為切入點(diǎn)，實(shí)現(xiàn)座艙內(nèi)功能應(yīng)用的統(tǒng)一管理。At服務(wù)框架的推出，不僅統(tǒng)一了座艙功能，還根據(jù)客戶(hù)需求和喜好提供了豐富的場(chǎng)景模式，尤其是支持用戶(hù)定制化場(chǎng)景，加AgentAlAgent可以作為智能助手，助駕駛員和乘客處理工作任務(wù)，如日程安排、郵件收發(fā)、數(shù)據(jù)噪、AI聲場(chǎng)等技術(shù)營(yíng)造最佳的觀影環(huán)境。在224AC21B或BB30oens/秒，并且能夠覆蓋主流算力平臺(tái)。同時(shí)，商湯絕影推出的“隨心界面”lxnereAnwAIAgentAIlxne在大模型解析用戶(hù)需求的基礎(chǔ)上，結(jié)合設(shè)計(jì)系統(tǒng)的框架和范式，實(shí)現(xiàn)高度動(dòng)態(tài)和個(gè)性化的界在WAIC2024演示現(xiàn)場(chǎng)，演示者通過(guò)語(yǔ)音指令要求創(chuàng)建一幅以歐洲杯為主題的壁紙，F(xiàn)lexInterface成功地執(zhí)行了這一任務(wù)。此外，如果需要對(duì)壁紙進(jìn)行修改，F(xiàn)lexInterface也能夠生成一個(gè)更新的版本。AgentFlowAPP和網(wǎng)站的直接操作。用戶(hù)只需使用自然語(yǔ)言，就能讓AI自主選擇多個(gè)工具完成復(fù)雜任務(wù)，無(wú)需主機(jī)廠進(jìn)行額AgentFlow自動(dòng)搜索并預(yù)約適合看球的酒吧，提供從搜索此外，交互型多模態(tài)大模型可以直接將視覺(jué)感知結(jié)果輸入神經(jīng)網(wǎng)絡(luò)，提供更豐富的信息細(xì)節(jié)，從而實(shí)現(xiàn)對(duì)車(chē)輛環(huán)境的精準(zhǔn)分層和分類(lèi)。這使自動(dòng)駕駛系統(tǒng)在處理駕駛動(dòng)作時(shí)進(jìn)行更好的任務(wù)優(yōu)先級(jí)排序，保持最優(yōu)駕駛決策邏輯，更符合人類(lèi)駕駛思維。此外，這種模型可能通過(guò)推理加速和降低時(shí)延，助實(shí)時(shí)感知道路環(huán)境，及時(shí)分析周?chē)系K物信息AI技術(shù)的不斷進(jìn)步，家電產(chǎn)業(yè)正在經(jīng)歷一場(chǎng)革命性的變革。掃地機(jī)器人和智能攝像AIAI大模型的引入，智能家居產(chǎn)品的用智能家居市場(chǎng)的增長(zhǎng)速度在整個(gè)行業(yè)中是少數(shù)保持高增速的領(lǐng)域之一。根據(jù)Statista的2028520億美元。這一增長(zhǎng)趨勢(shì)得益AI技術(shù)的逐步融合和應(yīng)用，存在方言和口語(yǔ)識(shí)別等技術(shù)挑戰(zhàn)，但GPT-4o等新模型的出現(xiàn)預(yù)示著技術(shù)的進(jìn)步。未來(lái)，AI將通過(guò)語(yǔ)音、手勢(shì)和面部表情的自然交互，控制家電，使家庭生活更便捷、更富AIAWE大會(huì)上推出了星海中文大模型，TCLAI大數(shù)據(jù)模型算法，而HDC開(kāi)發(fā)者大會(huì)上展示了與盤(pán)古大模型合作的成果——添可

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 各類(lèi)標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告