2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第1頁(yè)
2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第2頁(yè)
2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第3頁(yè)
2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第4頁(yè)
2024交互型多模態(tài)大模型研究進(jìn)展、應(yīng)用前景以及商業(yè)模式分析報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

圖40:GPT-4o與Bemyeyes結(jié)合為盲人提供實(shí)時(shí)助 57“PC 交互型多模態(tài)大模型是指跨越單一模態(tài)的限制,支持文本、音頻、圖像、視頻等各種模AI的4P4o”是i也就是“全能”的意思,接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音交互型多模態(tài)大模型的核心在于其極強(qiáng)的多模態(tài)理解與生成能力,即能夠融合各種類(lèi)型的信息進(jìn)行統(tǒng)一的語(yǔ)義、情景分析和上下文關(guān)聯(lián),從而更好地理解用戶(hù)意圖、實(shí)現(xiàn)接近人類(lèi)的復(fù)雜情境理解和反應(yīng),然后生成自然流暢、富有情感的語(yǔ)音輸出,使機(jī)器的反饋聽(tīng)起來(lái)像人類(lèi),增強(qiáng)交互的真實(shí)感。這類(lèi)模型可以同時(shí)分析處理語(yǔ)音、手勢(shì)、面部表情等多種輸入方式,甚至它能感受到用戶(hù)的呼吸節(jié)奏;而輸出時(shí),它能模仿人類(lèi)的情感狀態(tài)如喜悅、悲傷或憤怒等,然后通過(guò)調(diào)整語(yǔ)調(diào)、節(jié)奏和音量來(lái)表達(dá)相應(yīng)的情緒,使交互原生多模態(tài):跨文本、視頻和音頻等模態(tài)端到端訓(xùn)練的大模型,所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理?!鶳35P4→35或4最后再由另一個(gè)簡(jiǎn)單模型將該文本轉(zhuǎn)換回音頻。但這種方法意味著信息順勢(shì),即這三個(gè)模型中最關(guān)鍵的大模型在處理時(shí)會(huì)丟失大量信息,大模型無(wú)法直接觀察用戶(hù)的語(yǔ)氣、停頓、音調(diào)、背景音等等,而這些在純文本環(huán)境中難以被準(zhǔn)確捕捉和表達(dá)的信息對(duì)理解對(duì)原生多模態(tài)的Po在訓(xùn)練過(guò)程中,這些不同模態(tài)的數(shù)據(jù)被統(tǒng)一輸入給模型內(nèi)部學(xué)習(xí)。當(dāng)不同模態(tài)的信息相關(guān)且指向同一類(lèi)事物時(shí),它們的內(nèi)部表征是非常相似的。在生成階段,模型可以更加靈iiiimi進(jìn)行預(yù)訓(xùn)練,并利用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào)以提升有效性,包括圖像、圖表、截圖、PF和視頻等,并能產(chǎn)生文本和圖像輸出,所以i可以泛化并無(wú)縫理解分析不同模mila戶(hù)輸入的示例和問(wèn)題,示例內(nèi)容是當(dāng)給定藍(lán)色和黃色兩種顏色毛線團(tuán)時(shí),可以織成藍(lán)貓和黃耳朵的藍(lán)狗。隨后,ii Gemini:AFamilyofHighlyCapableMultimodalModels

Gemini:AFamilyofHighlyCapableMultimodalModelsMeta20245Chameleon-34Btokentransformer的架構(gòu)針對(duì)10tokens對(duì)應(yīng)的混合模態(tài)數(shù)據(jù)從頭開(kāi)始進(jìn)行端到端訓(xùn)練。因此,Chameleon能夠?qū)θ我饣旌夏B(tài)文檔進(jìn)行推理以及生成。Chameleon的核心在于其完全token-based的架構(gòu),圖像和文本都被表示為一組離散的tokens,這種設(shè)計(jì)允許模型使用統(tǒng)一transformer架構(gòu)來(lái)處理圖像和文本序列,而不需要單獨(dú)的圖像或文本編碼器。:快速響應(yīng):大模型能做到極低延遲,響應(yīng)速度比肩人類(lèi),且可以做到對(duì)話隨時(shí)打斷GPT-4o232320毫秒的時(shí)間內(nèi)響應(yīng)音GPT-3.5平均延2.8秒、GPT-45.4秒。PoP4要等待用戶(hù)說(shuō)完一句話才能完成整句識(shí)別;識(shí)別完成后,將整句話輸入到后續(xù)的大模型Po成到一個(gè)模型中,各部分之間的依賴(lài)性降低,因?yàn)槟P蛢?nèi)部表征已經(jīng)融合在一起,所以簡(jiǎn)單來(lái)說(shuō),端到端大模型一般采用流式輸入的方式,即在接收到部分信息時(shí)就開(kāi)始處理;同時(shí),隨著對(duì)話繼續(xù)進(jìn)行,模型將不斷地吸收新的信息,對(duì)回復(fù)進(jìn)行實(shí)時(shí)調(diào)整。這種設(shè)計(jì)讓大模型具備了邊聽(tīng)邊說(shuō)的能力,即在用戶(hù)講話的過(guò)程中就開(kāi)始準(zhǔn)備回應(yīng),一旦用戶(hù)暫停,模型可以立即給出反饋。這種機(jī)制極大地減少了響應(yīng)延遲,使交互變得更加自然流暢。 P4o隨著用戶(hù)的情緒激動(dòng)起來(lái),語(yǔ)氣中充滿(mǎn)了細(xì)節(jié)。在發(fā)布會(huì)上,當(dāng)測(cè)試者要求Po用“最戲劇性”的方式去講故事的時(shí)候,它表現(xiàn)得很像話劇演員,能給故事各個(gè)情節(jié)配上P4o在探討大模型發(fā)展及影響時(shí),我們往往傾向于聚焦技術(shù)層面的突破、性能的提升,然而AI除了提供實(shí)用的知識(shí)價(jià)值之外,還能夠?yàn)橛脩?hù)帶來(lái)另一種更為微妙但卻至關(guān)重要的價(jià)值——情感價(jià)值。用戶(hù)與技術(shù)之間的關(guān)系不僅僅只有單純的信息層面的連接,還有情感層面的連接。對(duì)于許多用戶(hù)來(lái)說(shuō),他們期望的不僅僅是高效的數(shù)據(jù)處理和信息檢索,更交互型多模態(tài)大模型在此方面展現(xiàn)出巨大的潛力,它能夠通過(guò)細(xì)微的個(gè)性化調(diào)整,讓用戶(hù)體驗(yàn)到被理解和關(guān)懷的感覺(jué),從而在用戶(hù)心中建立起更強(qiáng)的情感紐帶,我們認(rèn)為這對(duì)增強(qiáng)用戶(hù)粘性具有不可忽視的作用。用戶(hù)會(huì)開(kāi)始依賴(lài)大模型,因?yàn)樗粌H能夠快速收集整理信息,更重要的是它能夠在關(guān)鍵時(shí)刻給予用戶(hù)情感上的支持。這種情感上的聯(lián)結(jié),AIAIProjectAstraI/O2024大會(huì)的演示視頻中,Astra展示了其對(duì)周?chē)h(huán)境的快速理解和響應(yīng)能力,如識(shí)別并描述物體、讀Astra到,但攝像頭掃過(guò)的時(shí)候Astra曾“看”到過(guò)眼鏡,并且以視覺(jué)的形式“記”住了,所以ProjectAstra可以通過(guò)連續(xù)編碼視頻幀并將視頻和語(yǔ)音組合成事件時(shí)間線來(lái)做到這大模型降本趨勢(shì)顯著。OpenAIGPT-4omini2年內(nèi)讓大模型成本下降兩個(gè)數(shù)量級(jí)。2024719日,OpenAIAIGPT-4ominiGPT-3.5Turbo。GPT-4ominiGPT-4o的更小參數(shù)量簡(jiǎn)化版本,OpenAI宣布企業(yè)版客戶(hù)也將獲得使用GPT-4omini的權(quán)限。OpenAIGPT-4omini是目前功能最強(qiáng)大、性?xún)r(jià)比最高GPT-4GPT-3.5Turbo60%50種不同語(yǔ)言。目前,GPT-4omini現(xiàn)已作為文本和視覺(jué)模型在AssistantsAPI、ChatCompletionsAPIBatchAPI100tokens15美分,每100tokens60美分(2500頁(yè)。003GPT-4omini100倍——也就是說(shuō)大模型成本在99%。OpenAI分享的基準(zhǔn)測(cè)試結(jié)果來(lái)看,GPT-4ominiMMLU、數(shù)學(xué)推理和編程任務(wù)、多模態(tài)推理等測(cè)試上的表現(xiàn)比較出色,得分優(yōu)于GeminiFlash、ClaudeHaiku。值得注意的是,GPT-3.5TurboGPT-4omini,GPT-4omini更具性?xún)r(jià)比的同時(shí)也實(shí)現(xiàn)了性能全方位提升。 此外,OpenAIGPT-4o新版本20245月發(fā)布會(huì),OpenAIGPT-4oGPT-4Turbo50%3個(gè)月后,20248月6日,OpenAIGPT-4o新版本,GPT-4o-2024-08-06ZeroEval基準(zhǔn)測(cè)試中直接躍居首位。在價(jià)格方面,GPT-4o-2024-08-06的輸入和輸出價(jià)格相比前一個(gè)版本分別下降50%、33%2.5美元/100tokens10美元/100tokens。此外,由下圖也可以看出,OpenAI1年多的時(shí)間內(nèi)幾乎也下降了一個(gè)GPT-4o為代表的交互型多模態(tài)大模型的成本將繼續(xù)快速下tokens2個(gè)數(shù)量級(jí)至美分量級(jí)。OpenAI2024514GPT-4o,能夠?qū)崿F(xiàn)跨文本、視覺(jué)和音頻的多模態(tài)交互。如下圖所示,GPT-4o相比Whisper-v3顯著提高了各種語(yǔ)言的語(yǔ)音識(shí)別性能;同時(shí)在語(yǔ)SOTAMLSWhisper-v3。 管OpenAI表示GPT-4o將免費(fèi)提供給用戶(hù),但這一承諾尚未擴(kuò)展到移動(dòng)版APP(OpenAIGPT-4o推廣到移動(dòng)設(shè)備上。所以在第一周,移動(dòng)端用戶(hù)如ChatGPTPlusAppfigures數(shù)據(jù),ChatGPT移動(dòng)應(yīng)用程序的凈收入在GPT-4o發(fā)布當(dāng)天首次增長(zhǎng)了9049萬(wàn)美元的兩倍(蘋(píng)果商店);2024513517日間,ChatGPTChatGPT周度收入(萬(wàn)美元ChatGPT周度收入(萬(wàn)美元2024年5月15OAIPjectAsaiPjctAsa語(yǔ)音輸入組合到事件時(shí)間線中并緩存此信息以進(jìn)行有效調(diào)用,從而更快地處理信息。而17AIProjectIO2024、IT商湯發(fā)布國(guó)內(nèi)首個(gè)流式交互多模態(tài)大模型“日日新5o4o。流式交互中數(shù)據(jù)或信息以連續(xù)流動(dòng)的方式被處理和響應(yīng),而不是以離散的、批量的步驟進(jìn)行,重要特征在于即時(shí)性和連續(xù)性,需要系統(tǒng)立即處理輸入數(shù)據(jù)并作出響應(yīng),而不是等待數(shù)5.5采用的是混合端邊云協(xié)同專(zhuān)家架構(gòu),可以最大限度發(fā)揮云邊端協(xié)同,降低推理成本;5.510TBtokens高質(zhì)量訓(xùn)練數(shù)據(jù),包括大量合成的思維鏈數(shù)據(jù),語(yǔ)言理解和交互能力全面升級(jí)。因此,日日新5.5在數(shù)學(xué)、推理、編程等多個(gè)維度較上個(gè)版本具有較大的提升,尤其是在數(shù)學(xué)推理(+31.5%(+53.8%5o是國(guó)內(nèi)首個(gè)“所見(jiàn)即所得”模型,通過(guò)整合聲音、文本、圖像和視頻等跨模態(tài)5o可以跟人進(jìn)AI交互的次元壁。日日新5o能實(shí)現(xiàn)較為自然流暢的交互,但存在一定的延遲;語(yǔ)言風(fēng)格大方幽默,符合人類(lèi)的交流習(xí)慣。5o可以通過(guò)手機(jī)攝像頭與外界交互,實(shí)時(shí)回答使用者問(wèn)題。例5o可以認(rèn)出玩偶的形狀,并且識(shí)別出帽子上的字5o可以識(shí)別建筑和其周邊環(huán)境并對(duì)進(jìn)行特征5o還可以利用已有的數(shù)據(jù)5o識(shí)別出演示者給出的書(shū)5o還可以識(shí)別演示者繪制的簡(jiǎn)筆畫(huà)形狀和 智譜宣布清言apC224年8月30P戶(hù)開(kāi)放,同時(shí)開(kāi)放外部申請(qǐng)。清言視頻通話功能跨越文本、音頻和視頻等模態(tài),并具備實(shí)時(shí)推理的能力。用戶(hù)打開(kāi)清言的視頻通話窗口,即可與它進(jìn)行流暢通話,即便頻繁打斷,它也能迅速反應(yīng)。且打開(kāi)攝像頭,清言也可以“看”到的外界畫(huà)面,同時(shí)可以聽(tīng)懂用戶(hù)A音轉(zhuǎn)文字、大模型生成文字回答、最后文字轉(zhuǎn)語(yǔ)音來(lái)實(shí)現(xiàn),所以交互并不流暢,且延時(shí)較長(zhǎng);此外,大模型語(yǔ)音回答內(nèi)容較為機(jī)械和模式化,同時(shí)無(wú)法通過(guò)對(duì)話打斷回答,必模態(tài)是指承載信息的模式或方式,不同類(lèi)別的信息來(lái)源或形式都可以稱(chēng)為一種模態(tài)。模態(tài)基于人的感官可分為聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)、味覺(jué)、觸覺(jué),基于信息傳遞的媒介可分為圖像、語(yǔ)音、視頻、文本等,除此之外還有傳感器的模態(tài)數(shù)據(jù),如雷達(dá)、紅外、S、加人類(lèi)在進(jìn)化過(guò)程中形成了以視覺(jué)為主的感知系統(tǒng),我們獲得的外界信息絕大部分來(lái)自視覺(jué)。從感知偏好來(lái)看,人類(lèi)大腦對(duì)視覺(jué)信息的處理能力尤為強(qiáng)大,能夠迅速捕捉并解析復(fù)雜的圖像和視頻中的細(xì)節(jié),所以在自然交流和信息傳播中,視覺(jué)內(nèi)容是極其高效和直觀的載體。從信息傳達(dá)角度,圖片和視頻相比純文本,往往能承載更豐富、更密集的信息,一個(gè)畫(huà)面能夠捕捉并傳達(dá)多層次的細(xì)節(jié)和情感,遠(yuǎn)超于文字所能描述的內(nèi)容,這些在這個(gè)由多種模態(tài)信息構(gòu)成的世界,會(huì)同時(shí)收到多個(gè)互補(bǔ)的、融合的、不同模態(tài)的感官輸入,多模態(tài)更符合人類(lèi)感知周邊、探索世界的方式。多模態(tài)理解大模型可以讓用戶(hù)使用文本、圖像、聲音、視頻、傳感等多種數(shù)據(jù)類(lèi)型與終端進(jìn)行交流,大大拓展了用戶(hù)同終端的交互形式。多模態(tài)生成大模型能夠生成各種跨媒體內(nèi)容,為用戶(hù)提供更為直觀的信息表達(dá),從而實(shí)現(xiàn)更加高效豐富的溝通體驗(yàn),其實(shí)這也為更多樣性的終端硬件形態(tài)如此外,我們認(rèn)為AI融入生活的核心之一在于情感上更接近人類(lèi),語(yǔ)音多模態(tài)交互效果,是邁向這一目標(biāo)的重要一步。因?yàn)閺睦斫庥脩?hù)的角度來(lái)看,首先通過(guò)結(jié)合語(yǔ)音和視頻分析,AI可以更好地理解用戶(hù)的意圖和情緒,例如當(dāng)用戶(hù)語(yǔ)調(diào)輕快,但其面部表情很凝重時(shí),AI需要綜合判斷來(lái)確定最合適的回應(yīng),而這種復(fù)雜情境下的理解AIAIAI應(yīng)用是連接人類(lèi)意圖與信息及技術(shù)實(shí)現(xiàn)的媒介,其本質(zhì)是交互——用戶(hù)通過(guò)應(yīng)用表達(dá)需求,應(yīng)用通過(guò)尋找信息和調(diào)用相應(yīng)技術(shù)來(lái)理解和實(shí)現(xiàn)用戶(hù)的意圖,形成一個(gè)閉環(huán)的交互過(guò)程。應(yīng)用作為一個(gè)中介,不僅僅是一個(gè)靜態(tài)的工具,而是一個(gè)動(dòng)態(tài)的、可以交互的系統(tǒng),它需要接收、處理用戶(hù)輸入,并與后端技術(shù)(如數(shù)據(jù)庫(kù)等)進(jìn)行交互,最終給出用APP我們平時(shí)通過(guò)點(diǎn)擊、說(shuō)話等方式將大腦中的信息指令通過(guò)鼠標(biāo)、鍵盤(pán)、觸摸屏等媒介,傳遞到硬件系統(tǒng)再到軟件系統(tǒng),然后軟件系統(tǒng)進(jìn)行處理。后續(xù)處理結(jié)果會(huì)通過(guò)顯示器、過(guò)往每一次人機(jī)交互的重大革新都孕育了行業(yè)巨頭,并深刻改變了人們的生活方式和商業(yè)格局。190160年代,早期的計(jì)算機(jī)通過(guò)穿孔紙向計(jì)算機(jī)輸入指令,有孔為1,無(wú)孔為0,經(jīng)過(guò)光電輸入機(jī)將數(shù)據(jù)輸入計(jì)算機(jī)。由于需要輸入二進(jìn)制的機(jī)器語(yǔ)言,計(jì)算機(jī)2060年代中期,命令行界面(CLI)作為穿孔紙帶的友好替代方案出現(xiàn)在計(jì)算機(jī)上,2080ia和h985is簡(jiǎn)化了用戶(hù)與計(jì)算機(jī)之間的交互,不再需要復(fù)雜的命令行輸入,而是通過(guò)直觀的圖標(biāo)、菜單和鼠標(biāo)點(diǎn)擊來(lái)操作。這一革新不僅讓個(gè)人電腦變得更加用戶(hù)友好,也催生了微軟這樣的sC2007年,蘋(píng)果公司推出了第一代iPhone,憑借其革命性的觸摸屏和多點(diǎn)觸控技術(shù),重App經(jīng)濟(jì)的爆發(fā),使得智能手機(jī)成為21世紀(jì)最重要的個(gè)人計(jì)算設(shè)備之一。比爾·蓋茨223年曾發(fā)表標(biāo)題為《AI軟件行業(yè)》的文章,并稱(chēng)“AIAent不僅會(huì)改變每個(gè)人與計(jì)算機(jī)的交互方式,還將顛覆軟件行業(yè),引領(lǐng)我們從鍵入命令到點(diǎn)擊圖標(biāo)以來(lái)計(jì)算機(jī)領(lǐng)域最大的革命”。他認(rèn)為:IAnt將成為下一個(gè)平臺(tái)。未來(lái)用戶(hù)只需用日常語(yǔ)言告訴設(shè)備想要做什么,基于獲取的信息和對(duì)用戶(hù)生活的豐富了解,軟件能夠做出個(gè)性化的回應(yīng)。在不久的將來(lái),任何網(wǎng)民我們認(rèn)為從CI就是人機(jī)交互的不斷進(jìn)化與深化。人機(jī)交互的核心點(diǎn)之一為信息傳遞,從外設(shè)主導(dǎo)到觸控技術(shù),再到自然語(yǔ)言處理,人機(jī)交互的發(fā)展一直在努力簡(jiǎn)化信息傳遞過(guò)程,使其更加直觀、自然和無(wú)縫。每一次技術(shù)迭代都致力于減少用戶(hù)與技術(shù)之間的隔閡,讓信息的交在CU)的出現(xiàn),簡(jiǎn)化信息傳遞過(guò)程,用戶(hù)可以通過(guò)點(diǎn)擊圖標(biāo)、拖放文件、使用下拉菜單等方式進(jìn)行操作,無(wú)需記住復(fù)雜的命令序列。這一轉(zhuǎn)變極大地降低了學(xué)習(xí)門(mén)檻,使得信息傳遞過(guò)程更加直觀和用戶(hù)友好。但用戶(hù)仍需要學(xué)習(xí)并遵循特定的應(yīng)用界面布局、隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái),多點(diǎn)觸控技術(shù)成為主流。用戶(hù)可以直接在屏幕上通過(guò)觸摸、滑動(dòng)、捏合等手勢(shì)來(lái)操作,這一方式更接近于人類(lèi)在現(xiàn)實(shí)生活中的交互習(xí)慣。觸控技術(shù)使得信息傳遞無(wú)需通過(guò)額外的物理設(shè)備,減少了中間環(huán)節(jié),用戶(hù)可以直接與內(nèi)容互動(dòng),信息傳遞過(guò)程變得更加快速、高效和自然。例如,智能手機(jī)和平板電腦上的多點(diǎn)觸控操作,讓用戶(hù)可以輕松放大圖片、翻頁(yè)閱讀、播放音樂(lè)等,無(wú)需復(fù)雜的按AI時(shí)代,交互型多模態(tài)大模型的出現(xiàn)有望推動(dòng)人機(jī)交互向更為簡(jiǎn)單的自然語(yǔ)言交互模態(tài)交互。AI能力有顯著提升,從而增強(qiáng)了推理“程序性知識(shí)”的能力,讓大模型在處理復(fù)雜問(wèn)題、終端本身就融合了多種感知通道,錄音機(jī)、攝像頭等傳感器作為重要輸入源提供多維數(shù)據(jù),且不同于傳統(tǒng)的關(guān)鍵詞匹配,大模型結(jié)合上下文進(jìn)行分析,這意味著它可以在連續(xù)的對(duì)話中保持話題連貫、把握整體脈絡(luò),這讓大模型對(duì)用戶(hù)意圖擁有較強(qiáng)的理解能力。同時(shí),大模型在回答時(shí)能從知識(shí)庫(kù)中提煉出有價(jià)值的信息,并能夠根據(jù)用戶(hù)的具體需求和上下文背景,提供定制化的答案或建議;且當(dāng)大模型與應(yīng)用深度結(jié)合之后,它根據(jù)用戶(hù)的指令或需求,自動(dòng)調(diào)用相應(yīng)的應(yīng)用程序、服務(wù)或界面等。未來(lái)AI命令,而是直接用自然語(yǔ)言與設(shè)備溝通。不再受限于固定的界面規(guī)則的交互將變得所以在大模型迭代過(guò)程中,性能提高固然重要,但交互的升級(jí)也同樣具有重大價(jià)值,商湯EOIUIU(eserner演進(jìn)。過(guò)往的應(yīng)用設(shè)計(jì)理念都是希望人去學(xué)習(xí)軟件或機(jī)器設(shè)備的交互界面。AI計(jì)理念走向了一個(gè)全新的方向,就是讓軟件系統(tǒng)或設(shè)備來(lái)理解人。這個(gè)變化意味著用戶(hù)不應(yīng)該去參加使用培訓(xùn),甚至也不需要產(chǎn)品說(shuō)明書(shū),通過(guò)多模態(tài)(文字,圖片,語(yǔ)音,大模型的終極形態(tài),是讓人機(jī)交互進(jìn)化到最原始、最簡(jiǎn)單的形態(tài),在未來(lái)和電腦、手機(jī)AI的使用門(mén)檻,所以交互型多模態(tài)大模型帶來(lái)的這種更加直觀、傻瓜的交互,有望帶來(lái)大模型應(yīng)用更大面積的普及。AI來(lái)提供服務(wù),即可簡(jiǎn)單理解為大模型通過(guò)手機(jī)、電腦等終端以智能助手形式直接與用戶(hù)互動(dòng),提供軟件形式的服務(wù)。具身智能則與物理環(huán)境交互,需要硬件支持來(lái)實(shí)現(xiàn)三維空間內(nèi)的運(yùn)動(dòng)行為,其中人形機(jī)器人是其代表,在應(yīng)用領(lǐng)域方面,具身智能已經(jīng)滲透到機(jī)規(guī)?;蜆?biāo)準(zhǔn)化是現(xiàn)代教育的特征——基于社會(huì)分工的邏輯,旨在為社會(huì)各行各業(yè)的發(fā)展培養(yǎng)可用之才。與此相對(duì)應(yīng)的,便是分專(zhuān)業(yè)的學(xué)科式架構(gòu)、分級(jí)分班的規(guī)?;虒W(xué)。AIGC技術(shù)應(yīng)用下,大規(guī)模的通用數(shù)據(jù)與教育各學(xué)科的垂類(lèi)數(shù)據(jù)并存,通識(shí)教育和專(zhuān)業(yè)教育所需的內(nèi)容均可滿(mǎn)足。同時(shí),AIGC資源不像教師資源具有時(shí)空上的獨(dú)占性,有望實(shí)現(xiàn)大規(guī)模的個(gè)性化教學(xué)。而在交互方式上,口語(yǔ)面授是主流的、學(xué)生習(xí)以為常的教學(xué)交互方式,而AIGC技術(shù)的獨(dú)特之處也在于多輪自然語(yǔ)言交互能力,有來(lái)有回的問(wèn)答式相比于知識(shí)的單向灌輸,更接近孔子《論語(yǔ)》的對(duì)話體教學(xué),也更接近蘇格拉底的啟發(fā)式對(duì)話教學(xué)模式。AIAC原本單向播報(bào)和簡(jiǎn)單問(wèn)答的功能進(jìn)一步拓展了多輪對(duì)話、邏輯推理、上下文理解能力。AC泛,可以滿(mǎn)足用戶(hù)對(duì)細(xì)分場(chǎng)景的需求。而交互能力的升級(jí),會(huì)讓教學(xué)時(shí)的對(duì)話過(guò)程更加2023年,OpenAIGPT-4KhanAcademyDuolingo的應(yīng)用中,推動(dòng)了教育領(lǐng)域的創(chuàng)新。KhanAcademyKhanmigoAI助手,通過(guò)解答開(kāi)放式問(wèn)題,增強(qiáng)了學(xué)生lio在2023年3ioaxP4的ePay和EnyAnwerRlelayElinyAnwerPoI有望大幅提高,我們認(rèn)為Po的實(shí)時(shí)互動(dòng)能力對(duì)于教育領(lǐng)域尤其關(guān)鍵,能夠適應(yīng)學(xué)生多樣化需求,使學(xué)習(xí)過(guò)程更加生動(dòng),互動(dòng)更流暢,教學(xué)更具針對(duì)性,用戶(hù)的學(xué)習(xí)興趣和學(xué)習(xí)效率有望提升,對(duì)AI32:Duolingomax交互型多模態(tài)大模型或?qū)⑦M(jìn)一步釋放大模型在家庭教育中的潛力。OpenAI官方公布的視頻演示中,GPT-4o通過(guò)iPad屏幕分享,實(shí)時(shí)語(yǔ)音指導(dǎo),幫助一個(gè)學(xué)生解答數(shù)學(xué)題。在GPT-4o的耐心引導(dǎo)下,男孩一步步推導(dǎo)出正確答案,體驗(yàn)堪比一對(duì)一的在線輔導(dǎo)。同時(shí),GPT-4o的圖像處理能力也在教育領(lǐng)域得到了有效應(yīng)用。在OpenAI春季發(fā)布會(huì)演示中面對(duì)實(shí)驗(yàn)者提出的線性代數(shù)題目"3x+1=4",GPT-4o展現(xiàn)了其引導(dǎo)解題的能力,只提 交互型多模態(tài)大模型還可以作為語(yǔ)言學(xué)習(xí)與職業(yè)技能提升的先進(jìn)工具,其功能涵蓋了多語(yǔ)言翻譯、模擬面試等多個(gè)方面,隨時(shí)隨地為用戶(hù)提供輔導(dǎo)。憑借圖像識(shí)別技術(shù)與多種語(yǔ)言?xún)?chǔ)備,交互型多模態(tài)大模型可以幫助用戶(hù)在日常生活中學(xué)習(xí)外語(yǔ),高效便捷且增強(qiáng)了語(yǔ)言學(xué)習(xí)的互動(dòng)性和趣味性。同時(shí),GPT-4o的同聲傳譯功能打破了語(yǔ)言障礙,促進(jìn)了全球范圍內(nèi)的溝通與交流。此外,通過(guò)模擬面試場(chǎng)景,它幫助用戶(hù)磨練面試技巧,提高職業(yè)競(jìng)爭(zhēng)力。 20245月底,OpenAIChatGPTEdu的發(fā)布計(jì)劃,這是一款專(zhuān)為高校設(shè)計(jì)的ChatGPT版本,旨在協(xié)助學(xué)校負(fù)責(zé)任地部署人工智能技術(shù)。該版本包含了最新的GPT-4o模型,支持跨文本、音頻和視覺(jué)的推理,并具備強(qiáng)大的管理控制與數(shù)據(jù)安全特性。亞利桑那州立大學(xué)(ASU)ChatGPTEnterpriseAIAI在提升教學(xué)、研究及業(yè)務(wù)運(yùn)作方面的潛力。ChatGPTEduAIAI融入社區(qū)戰(zhàn)略減少藥物過(guò)量致死、沃頓商學(xué)院用其加深學(xué)生學(xué)習(xí)反思、ASU開(kāi)發(fā)語(yǔ)言學(xué)習(xí)伙大模型、多模態(tài)交互、Agent規(guī)劃和具身智能行動(dòng)的融合,將解決個(gè)性化教學(xué)、數(shù)據(jù)分析、課件生成、作業(yè)批改等問(wèn)題,同時(shí),具身智能機(jī)器人能夠在物理世界中與學(xué)生建立情感聯(lián)結(jié),起到教學(xué)陪伴與激勵(lì)作用。AIGC技術(shù)的外化與硬件化,是技術(shù)發(fā)展的必經(jīng)之路。通過(guò)軟件與硬件的結(jié)合,AIGC技術(shù)將更好地發(fā)揮其在教育領(lǐng)域的優(yōu)勢(shì),為學(xué)生提供更加豐富、個(gè)性化的學(xué)習(xí)體驗(yàn)。37:AGIAI工具正在被軟件開(kāi)發(fā)人員廣泛采用。2023年的一項(xiàng)針對(duì)軟件開(kāi)發(fā)人員使用AI工具的調(diào)研(2023DeveloperSurvey)表明,77%AI的開(kāi)發(fā)工具表示支持和非常支持,并且,82.6AI來(lái)編寫(xiě)代碼,48.9%的人用于調(diào)試和協(xié)助,34.4%的人用于文檔編寫(xiě),23.9%的人使用AI進(jìn)行代碼測(cè)試。AI編程助手正迅速成為全球軟件開(kāi)發(fā)的關(guān)鍵力量,國(guó)內(nèi)外企業(yè)均在這一領(lǐng)域取得了顯著進(jìn)展。國(guó)外起步較早,以微軟和OpenAI合作推出的GitHubCopilot為代表,通過(guò)深度學(xué)習(xí)技術(shù),為編程人員提供高效的代碼生成與補(bǔ)全服務(wù),確立了其在智能研發(fā)工具中的領(lǐng)先地位。國(guó)內(nèi)雖然起步稍晚,但緊隨其后,隨著2023年大模型技術(shù)的突破,國(guó)內(nèi)頭部AI企業(yè)如阿里巴巴、科大訊飛和百度,紛紛推出了基于自家大模型的編碼助手產(chǎn)品,展現(xiàn)了在AI領(lǐng)域的快速創(chuàng)新和應(yīng)用能力。GPT-4o在代碼優(yōu)化領(lǐng)域的應(yīng)用表現(xiàn)卓越,它能讀懂電腦屏幕,能夠深入分析代碼,然后用自然語(yǔ)言實(shí)時(shí)指導(dǎo)用戶(hù)進(jìn)行代碼調(diào)整,大幅助用戶(hù)提升開(kāi)發(fā)效率和質(zhì)量。在科技活動(dòng)VivaTech的現(xiàn)場(chǎng)演示中,OpenAI的開(kāi)發(fā)者體驗(yàn)負(fù)責(zé)人RomainHuet使用GPT-4o加持的ChatGPTMac版演示了代碼閱讀、debug和優(yōu)化等過(guò)程。Huet首先讓ChatGPT描述了一段代碼的功能,該代碼是用于渲染Discover卡片組件的React組件,數(shù)據(jù)來(lái)源于trips.json文件。隨后,Huet請(qǐng)求ChatGPT助提高頁(yè)面的響應(yīng)性。ChatGPT建議使用TailwindCSS的響應(yīng)式設(shè)計(jì)特性,根據(jù)屏幕大小調(diào)整網(wǎng)格列數(shù),并提供了具體的設(shè)置方法。Huet詢(xún)問(wèn)了具體的屬性設(shè)置,ChatGPT給出了詳細(xì)的指導(dǎo),包括如何根據(jù)不同屏幕尺寸設(shè)置列數(shù)。最后,GPT-4o利用其多模態(tài)能力,親自檢查并確認(rèn)了改動(dòng)的有效性。整個(gè)演示展示了GPT-4o在編碼問(wèn)題上的強(qiáng)大實(shí)時(shí)處理能力,以及其生成文本的速度優(yōu)勢(shì),相較于GPT-4Turbo有顯著提升。6月25日,AIl既整合技術(shù)也整合員工,被收購(gòu)初創(chuàng)公司的成員將在交易完成后加入AI。li成立于219li10以對(duì)已打開(kāi)的應(yīng)用程序進(jìn)行繪制和標(biāo)注,甚至將各自不同的應(yīng)用程序視圖融合成一個(gè)共享視而li技術(shù)許可以助nAI未多AIAnt調(diào)并用戶(hù)同工AI39:遠(yuǎn)程協(xié)作平臺(tái)OpenAI與BeMyEyes合作,為視障人士提供實(shí)時(shí)視覺(jué)輔助,GPT-4o成為盲人的在OpenAI給出的示例中,GPT-4o給一位視障人士講解了建筑物和國(guó)旗上的國(guó)徽,描述了湖邊鴨子的活動(dòng),展示了AI在輔助視障人士感知世界方面的潛力;最后,GPT-4o還助盲人成功坐上了回家的出租車(chē)。40:GPT-4oBemyeyes結(jié)合AI用實(shí)踐。從提高工作效率到改善患者體驗(yàn),再到提供個(gè)性化服務(wù)和降低成本等,人工智20233BeMy利用GPT-4,開(kāi)發(fā)了VirtualVolunteer?,提供物品識(shí)別和解釋服務(wù),助Summer2024120243202432024320244GPT-420244GPT-420246通過(guò)IPIsrAI和GP,實(shí)現(xiàn)了醫(yī)患對(duì)話的自動(dòng)轉(zhuǎn)錄與電子病歷的生成,提升了數(shù)據(jù)質(zhì)量和工作效率。同時(shí),利用P4sn傳。此外,P4還支持自動(dòng)生成出院報(bào)告,減輕了醫(yī)護(hù)人員的文書(shū)負(fù)擔(dān)。在疫情期間,這一系統(tǒng)已連接0多家醫(yī)院,持續(xù)提供專(zhuān)業(yè)醫(yī)療服務(wù),增強(qiáng)了醫(yī)20246ColorGPT-4ocopilot應(yīng)用程序識(shí)別缺失診斷并創(chuàng)建定制OpenAIAPI整合患者醫(yī)療數(shù)據(jù)與臨床知識(shí),為醫(yī)療保健提供者未來(lái)AIGC將貫穿醫(yī)療服務(wù)全流程。AIGC能夠更好地處理包括文本、圖像、聲音在內(nèi)的多種數(shù)據(jù)類(lèi)型,適用于不同的醫(yī)療場(chǎng)景,例如可以快速生成醫(yī)療報(bào)告、病例摘要等文本內(nèi)容提高醫(yī)生的工作效率。并且利用出色的語(yǔ)言能力,整合和分析大量醫(yī)學(xué)文獻(xiàn)和臨床數(shù)據(jù),為醫(yī)生提供決策支持。生成易懂的醫(yī)療健康教育內(nèi)容,助患者更好地理解疾病和治療方案等。41:AIGC我們認(rèn)為交互型多模態(tài)大模型的集成有望為患者提供更加個(gè)性化、高效和針對(duì)性的醫(yī)療健康相關(guān)服務(wù),可能將在這幾個(gè)方面發(fā)揮較大的作用:智能導(dǎo)診助手:通過(guò)自然語(yǔ)言交互理解患者的癥狀描述,推薦合適的科室和醫(yī)生,并協(xié)助完成在線預(yù)約;同時(shí),可以分析患者的面部表情和語(yǔ)氣,判斷情緒狀態(tài),提供健康顧問(wèn):可以給用戶(hù)提供疾病信息、藥物用法、飲食建議等,同時(shí)可以通過(guò)多模態(tài)交互全方位了解用戶(hù)健康狀態(tài),然后提供準(zhǔn)確、及時(shí)的健康指導(dǎo)。而針對(duì)需要物理治療或康復(fù)訓(xùn)練的用戶(hù),健康顧問(wèn)可以利用虛擬現(xiàn)實(shí)技術(shù),提供定制化康復(fù)計(jì)劃,監(jiān)測(cè)患者的運(yùn)動(dòng)執(zhí)行情況,及時(shí)調(diào)整訓(xùn)練強(qiáng)度,確保康復(fù)過(guò)程的安全和有效。情感支持助手:識(shí)別普通用戶(hù)情緒變化,提供適時(shí)的情感支持和心理輔導(dǎo)。而面對(duì)患者,除了傾聽(tīng)、鼓勵(lì)和建議,還可以再必要時(shí)引導(dǎo)患者聯(lián)系心理健康專(zhuān)家,助其應(yīng)對(duì)精神健康挑戰(zhàn)。無(wú)障礙導(dǎo)航助手:利用語(yǔ)音指令和實(shí)時(shí)位置數(shù)據(jù),為視障用戶(hù)提供清晰的路線指導(dǎo),避開(kāi)障礙物,確保安全地到達(dá)目的地。它還可以集成交通信息,提供更全面的出行解決方案。遠(yuǎn)程監(jiān)護(hù)助手:適用于老年人或慢性病患者,可以遠(yuǎn)程監(jiān)控狀態(tài)和生命體征(如AI未來(lái)將成為關(guān)鍵的生產(chǎn)力工具,有望深度融入辦公場(chǎng)景。微軟和領(lǐng)英的《2024WorkTrendIndexAnnualReport》報(bào)告顯示,全球員工不僅期望在工作中應(yīng)用AI,而且愿意主動(dòng)采用AI來(lái)提升個(gè)人職業(yè)發(fā)展。AI的普及正打破職業(yè)發(fā)展的限制,同時(shí),AI用戶(hù)的出現(xiàn)預(yù)示著未來(lái)工作的新趨勢(shì)。交互型多模態(tài)大模型能夠充當(dāng)會(huì)議助手,記錄并總結(jié)要點(diǎn),且可以區(qū)分參會(huì)人聲音。當(dāng)進(jìn)行視頻會(huì)議時(shí),它能夠全面記錄并整理視頻會(huì)議內(nèi)容,自動(dòng)生成包含重點(diǎn)標(biāo)記的會(huì)議記錄,同時(shí)記住各個(gè)參會(huì)人的觀點(diǎn)。它還能在討論中提供即時(shí)回顧,助參與者迅速找回被打斷前的討論點(diǎn)和重點(diǎn)內(nèi)容,確保會(huì)議的流暢性和信息的準(zhǔn)確性。2023年,AI已成為游戲工作室工作流程中的常規(guī)部分,62%的工作室利用AI進(jìn)行原型制作、概念設(shè)計(jì)和資產(chǎn)創(chuàng)建。在Unity的數(shù)據(jù)中,有71%工作室表示,AI改善了他們的交付和運(yùn)營(yíng),37%的受訪開(kāi)發(fā)者表示正在通過(guò)AI加快編碼速度,36%的開(kāi)發(fā)者用其生成藝術(shù)作品和游戲關(guān)卡。在國(guó)內(nèi),伽馬數(shù)據(jù)發(fā)布的《中國(guó)游戲產(chǎn)業(yè)新質(zhì)生產(chǎn)力發(fā)展報(bào)告》顯示,現(xiàn)階段中國(guó)游戲營(yíng)收TOP50企業(yè)中,在人工智能、數(shù)字孿生、引擎開(kāi)發(fā)、云技術(shù)和XR等新質(zhì)生產(chǎn)力關(guān)聯(lián)領(lǐng)域有所布局的企業(yè)占近八成。在調(diào)研的游戲從業(yè)者中,超97%游戲從業(yè)者表示企業(yè)技術(shù)研究投入有所增加,其中技術(shù)投入顯著提升(中、大幅)的占比達(dá)到七成。當(dāng)前,AI技術(shù)在輔助游戲研發(fā)方面扮演著關(guān)鍵角色,它通過(guò)生成圖像、音樂(lè)、配音及劇情和代碼,顯著降低了開(kāi)發(fā)成本并提高了創(chuàng)意效率。游戲研發(fā)團(tuán)隊(duì)的策劃、美術(shù)和程序等職能領(lǐng)域都在通過(guò)AI技術(shù)實(shí)現(xiàn)自動(dòng)化和優(yōu)化,從而減輕工作量并提升產(chǎn)品質(zhì)量。此外AI在用戶(hù)設(shè)備上運(yùn)行的能力,為開(kāi)發(fā)人員和創(chuàng)意工作者提供了強(qiáng)大的工具和平臺(tái)。在玩家體驗(yàn)方面,交互型多模態(tài)大模型驅(qū)動(dòng)的AINPC或?qū)⒊蔀橛螒蛐袠I(yè)一次重大革新。玩家和NPC之間的互動(dòng)是游戲體驗(yàn)的一個(gè)關(guān)鍵方面。傳統(tǒng)的交互范式基本都是一維的,NPC以預(yù)設(shè)的方式對(duì)玩家的輸入做出反應(yīng)。這種限制讓更有機(jī)、更豐富的互動(dòng)的潛力沒(méi)有得到釋放。在目前的游戲系統(tǒng)中,非玩家角色(NPC)的行為主要由開(kāi)發(fā)人員編寫(xiě)的預(yù)定義腳本決定。這些腳本包含基于游戲環(huán)境中各種觸發(fā)器或玩家動(dòng)作的一系列反應(yīng)和交互。然而,這種腳本化的性質(zhì)通常會(huì)導(dǎo)致可預(yù)測(cè)或重復(fù)的NPC行為,這些行為無(wú)法響應(yīng)玩家的實(shí)時(shí)行為或游戲的動(dòng)態(tài)環(huán)境,很多時(shí)候會(huì)阻礙用戶(hù)的沉而大模型有望改變這一范式,AI可以讓NPC學(xué)習(xí)玩家行為,適應(yīng)更多元的策略,具有自主性和適應(yīng)性。AINPC的內(nèi)容,讓玩家與NPC的交互更為自然。不僅可以降低用戶(hù)生成內(nèi)容(UGC)的成本,還激發(fā)了創(chuàng)新,避免了內(nèi)容同質(zhì)化,尤其在依賴(lài)自然語(yǔ)言對(duì)話的游戲中,AI驅(qū)動(dòng)的玩法具有獨(dú)特的吸引力。2024年,InworldAI進(jìn)行了一項(xiàng)名為《AINPC在未來(lái)游戲開(kāi)發(fā)中的角色》的調(diào)查,共有來(lái)自美國(guó)、英國(guó)、日本、韓國(guó)、香港和新加坡的游戲工作室的524位專(zhuān)業(yè)人士參與。報(bào)告顯示,56%的受訪者認(rèn)為AINPC將帶來(lái)超過(guò)40%的投資回報(bào)率,近3/4的游戲開(kāi)發(fā)者對(duì)AINPC充滿(mǎn)熱情。InworldAI與微軟合作,通過(guò)結(jié)合GPT和其他大模型、音頻模型及30多個(gè)機(jī)器學(xué)習(xí)模型,開(kāi)發(fā)了多模態(tài)的“角色引擎”。這個(gè)引擎旨在模擬人腦,打造復(fù)雜的AI角色。InworldStudio作為一個(gè)AI虛擬角色生成平臺(tái),允許用戶(hù)和開(kāi)發(fā)者通過(guò)自然語(yǔ)言輸入,無(wú)需編寫(xiě)代碼,即可迅速構(gòu)建并部署NPC到游戲或應(yīng)用中。國(guó)內(nèi)游戲大廠也在AI領(lǐng)域積極布局。騰訊自2016年起便成立了AILab工作室,開(kāi)發(fā)了決策智能AI“絕悟”和棋牌類(lèi)AI“絕藝”,并在多類(lèi)型游戲中取得了領(lǐng)先研究成果。網(wǎng)易在2017年成立了伏羲工作室與AILab,其《逆水寒手游》中應(yīng)用了AINPC、AI捏臉等自研技術(shù),AI技術(shù)在游戲開(kāi)發(fā)中的多樣化應(yīng)用。AIGiiNEX。2016AILab,AILabAIAIAIGiiNEX。2016AILab,AILabAIAIAINPCNPC、AIAIAI2023AITAAI2022AIAIGiantGPTiMagineAICodeBrain“百靈AIAIAIClubKoala2023AIAIAI悠米互娛合作構(gòu)建“AI“LayaAir3”AIAI“1臺(tái)、23NAI+UGC”戰(zhàn)路布局。隨著AI技術(shù)的發(fā)展,情感陪伴產(chǎn)品應(yīng)運(yùn)而生,它們通過(guò)個(gè)性化虛擬人物,滿(mǎn)足用戶(hù)的社交聊天需求,豐富了用戶(hù)的情感體驗(yàn)。這些產(chǎn)品不僅拓寬了智能助手的應(yīng)用范圍,也為人們提供了一種新的社交和情感交流方式。GPT-4o以其先進(jìn)的情感交互和場(chǎng)景理解能力,在發(fā)布會(huì)上展示了其多樣化的智能應(yīng)用。OpenAI研究主管BarretZoph展示了如何在語(yǔ)音模式下實(shí)時(shí)讓GPT-4o判斷自己的心情;同時(shí),GPT-4o還能在用戶(hù)分享寵物時(shí)表現(xiàn)出親切的贊賞,以及通過(guò)手機(jī)攝像頭識(shí)別出慶祝生日的場(chǎng)景,并在確認(rèn)后提供情感豐富的反應(yīng)和唱出生日快樂(lè)歌。GPT-4o甚至能在用戶(hù)需要時(shí)唱搖籃曲,助安撫情緒。20243月,a16zTOP50AI網(wǎng)頁(yè)產(chǎn)品中發(fā)布的榜單中,AI伴侶賽道呈現(xiàn)出驚人的增長(zhǎng)勢(shì)頭。有8家(Candy.ai、Character.ai、Chub.ai、CrushonAI、DreamGF、JanitorAI、Spicychat、Yodayo)TOP50AI網(wǎng)頁(yè)產(chǎn)品榜單,2家進(jìn)(Character.AI、Poly.AI)TOP50AIApp產(chǎn)品榜單。這一趨勢(shì)表明,AI情感陪伴產(chǎn)品已經(jīng)APP和小程序,海外產(chǎn)品偏APP和網(wǎng)頁(yè)。在國(guó)內(nèi)市場(chǎng),字節(jié)跳動(dòng)通過(guò)話爐平臺(tái)加強(qiáng)了情感陪伴產(chǎn)品的內(nèi)容和娛樂(lè)性。與此同時(shí),imaxAI情感陪伴產(chǎn)品,各展所長(zhǎng),進(jìn)一步拓展市場(chǎng)。這些產(chǎn)品不僅豐富了用戶(hù)的情感生活,也體現(xiàn)了AIAI基礎(chǔ)設(shè)施,還因其性?xún)r(jià)比和廣泛應(yīng)用前景而備受矚目。大模型等技術(shù)進(jìn)步正推動(dòng)人形機(jī)器人的泛化能力和自然語(yǔ)言交互能力快速發(fā)展。據(jù)高工產(chǎn)業(yè)研究院(I)預(yù)測(cè),02630200OpenAIFigureAI的合作是大模型作為機(jī)器人“大腦”的范本。FigureAI2024年2月底獲得包括亞馬遜創(chuàng)始人貝索斯、英偉達(dá)、OpenAI和微軟在內(nèi)的投資者6.75億美26FigureOpenAIGPT模型開(kāi)AIAzure云服務(wù)構(gòu)AI基礎(chǔ)設(shè)施和數(shù)據(jù)存儲(chǔ)。313日,F(xiàn)igureOpenAI共同推出了集成先進(jìn)視覺(jué)和語(yǔ)言理解技術(shù)的Figure01機(jī)器人,它能夠自主完成遞送和清理等任務(wù),標(biāo)志Figure01背后的多模態(tài)大模型技術(shù),為機(jī)器人與人類(lèi)的互動(dòng)提供了更多可能性,標(biāo)志著人工智能技術(shù)在機(jī)器人領(lǐng)域的快速發(fā)展。如下圖所示,F(xiàn)igureAI用機(jī)器人攝像頭采集的視頻信息,并結(jié)合麥克風(fēng)捕獲的語(yǔ)音轉(zhuǎn)錄文本,輸入到OpenAI提供的多模態(tài)大模型中,實(shí)45:Figure01交互型多模態(tài)大模型有望給人形機(jī)器人帶來(lái)交互效率和情感智能方面的重大飛躍。憑借端到端原生多模態(tài)模型以及更強(qiáng)的交互能力,人形機(jī)器人可以同時(shí)處理語(yǔ)音、面部表情、手勢(shì)等多種輸入信號(hào),迅速識(shí)別和理解用戶(hù)的意圖,減少等待時(shí)間,提高響應(yīng)速度,展現(xiàn)出接近人類(lèi)反應(yīng)速度的敏捷性,同時(shí),它們的情感識(shí)別能力將得到顯著提升,能夠細(xì)致智能座艙集成了傳感器、控制器、顯示和通訊終端,以及云服務(wù)和網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)人車(chē)智能交互。它們不僅提供信息娛樂(lè)和安全提醒,還通過(guò)萬(wàn)物互聯(lián)技術(shù),為駕乘者打造個(gè)性化和舒適的體驗(yàn)。隨著技術(shù)的進(jìn)步,智能座艙的交互方式正從傳統(tǒng)物理操作演變?yōu)檎Z(yǔ)在20430時(shí)代。這一時(shí)代的座艙特點(diǎn)包括基于先進(jìn)大模型的智能語(yǔ)音助手、結(jié)合語(yǔ)音和視覺(jué)的多模態(tài)交互方式,以及多屏聯(lián)動(dòng)和設(shè)備間的互聯(lián)互通。李娟預(yù)測(cè),AIUAI 隨著大模型在多種場(chǎng)景中的適用性日益增強(qiáng),市場(chǎng)對(duì)統(tǒng)一管理座艙功能的智能體需求日024Aent為切入點(diǎn),實(shí)現(xiàn)座艙內(nèi)功能應(yīng)用的統(tǒng)一管理。At服務(wù)框架的推出,不僅統(tǒng)一了座艙功能,還根據(jù)客戶(hù)需求和喜好提供了豐富的場(chǎng)景模式,尤其是支持用戶(hù)定制化場(chǎng)景,加AgentAlAgent可以作為智能助手,助駕駛員和乘客處理工作任務(wù),如日程安排、郵件收發(fā)、數(shù)據(jù)噪、AI聲場(chǎng)等技術(shù)營(yíng)造最佳的觀影環(huán)境。在224AC21B或BB30oens/秒,并且能夠覆蓋主流算力平臺(tái)。同時(shí),商湯絕影推出的“隨心界面”lxnereAnwAIAgentAIlxne在大模型解析用戶(hù)需求的基礎(chǔ)上,結(jié)合設(shè)計(jì)系統(tǒng)的框架和范式,實(shí)現(xiàn)高度動(dòng)態(tài)和個(gè)性化的界在WAIC2024演示現(xiàn)場(chǎng),演示者通過(guò)語(yǔ)音指令要求創(chuàng)建一幅以歐洲杯為主題的壁紙,F(xiàn)lexInterface成功地執(zhí)行了這一任務(wù)。此外,如果需要對(duì)壁紙進(jìn)行修改,F(xiàn)lexInterface也能夠生成一個(gè)更新的版本。AgentFlowAPP和網(wǎng)站的直接操作。用戶(hù)只需使用自然語(yǔ)言,就能讓AI自主選擇多個(gè)工具完成復(fù)雜任務(wù),無(wú)需主機(jī)廠進(jìn)行額AgentFlow自動(dòng)搜索并預(yù)約適合看球的酒吧,提供從搜索此外,交互型多模態(tài)大模型可以直接將視覺(jué)感知結(jié)果輸入神經(jīng)網(wǎng)絡(luò),提供更豐富的信息細(xì)節(jié),從而實(shí)現(xiàn)對(duì)車(chē)輛環(huán)境的精準(zhǔn)分層和分類(lèi)。這使自動(dòng)駕駛系統(tǒng)在處理駕駛動(dòng)作時(shí)進(jìn)行更好的任務(wù)優(yōu)先級(jí)排序,保持最優(yōu)駕駛決策邏輯,更符合人類(lèi)駕駛思維。此外,這種模型可能通過(guò)推理加速和降低時(shí)延,助實(shí)時(shí)感知道路環(huán)境,及時(shí)分析周?chē)系K物信息AI技術(shù)的不斷進(jìn)步,家電產(chǎn)業(yè)正在經(jīng)歷一場(chǎng)革命性的變革。掃地機(jī)器人和智能攝像AIAI大模型的引入,智能家居產(chǎn)品的用智能家居市場(chǎng)的增長(zhǎng)速度在整個(gè)行業(yè)中是少數(shù)保持高增速的領(lǐng)域之一。根據(jù)Statista的2028520億美元。這一增長(zhǎng)趨勢(shì)得益AI技術(shù)的逐步融合和應(yīng)用,存在方言和口語(yǔ)識(shí)別等技術(shù)挑戰(zhàn),但GPT-4o等新模型的出現(xiàn)預(yù)示著技術(shù)的進(jìn)步。未來(lái),AI將通過(guò)語(yǔ)音、手勢(shì)和面部表情的自然交互,控制家電,使家庭生活更便捷、更富AIAWE大會(huì)上推出了星海中文大模型,TCLAI大數(shù)據(jù)模型算法,而HDC開(kāi)發(fā)者大會(huì)上展示了與盤(pán)古大模型合作的成果——添可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論