智能交互技術(shù)與應(yīng)用 第2版 課件 第1章 人機(jī)交互技術(shù)發(fā)展_第1頁
智能交互技術(shù)與應(yīng)用 第2版 課件 第1章 人機(jī)交互技術(shù)發(fā)展_第2頁
智能交互技術(shù)與應(yīng)用 第2版 課件 第1章 人機(jī)交互技術(shù)發(fā)展_第3頁
智能交互技術(shù)與應(yīng)用 第2版 課件 第1章 人機(jī)交互技術(shù)發(fā)展_第4頁
智能交互技術(shù)與應(yīng)用 第2版 課件 第1章 人機(jī)交互技術(shù)發(fā)展_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一單元1.1人機(jī)交互的歷史和發(fā)展什么是交互?一、人機(jī)交互概述本義:雙方面互動。在計算機(jī)中的意思,交互是參與活動的對象,可以相互交流。交互交互人走向電梯門,人與電梯門板構(gòu)成人機(jī)關(guān)系人按電梯外按鈕,人與電梯外按鈕構(gòu)成人機(jī)關(guān)系人進(jìn)入電梯,人與電梯廂體構(gòu)成人機(jī)關(guān)系人按電梯內(nèi)按鈕,人與電梯內(nèi)按鈕構(gòu)成人機(jī)關(guān)系人機(jī)關(guān)系無處不在1.人機(jī)交互概述人機(jī)交互概述人機(jī)交互(英文:human–computerinteraction,縮寫:HCI,或human–machineinteraction,縮寫:HMI)人機(jī)交互是研究人與計算機(jī)的交互,或者可以理解為人與“含有計算機(jī)的機(jī)器”的交互。系統(tǒng)可以是各種各樣的機(jī)器,也可以是計算機(jī)化的系統(tǒng)和軟件。在交互過程中,人通過和計算機(jī)界面的互動,產(chǎn)生一系列的輸入和輸出,然后完成具體的任務(wù)和目的。人機(jī)交互的定義人機(jī)交互VisualBasic之父微軟視窗先鋒獎軟件夢幻獎得主庫伯交互設(shè)計公司創(chuàng)始人艾蘭.庫珀(AlanCooper)一位做了大約15年編程的交互設(shè)計師,Windows可視化設(shè)計工具的創(chuàng)意是來源于他。他反復(fù)強(qiáng)調(diào)如何使“高科技”產(chǎn)品回歸人性,明確指出,要設(shè)計出強(qiáng)大而令人愉悅的軟件產(chǎn)品,必須在開始編制軟件之前做好交互設(shè)計。交互設(shè)計之父生物交互社會交互人機(jī)交互感官交互生理反應(yīng)神經(jīng)系統(tǒng)活動群體行為種間交互語言溝通非語言溝通社會規(guī)范人際關(guān)系組織行為社交媒體互動輸入技術(shù)輸出技術(shù)交互設(shè)計可用性工程信息可視化智能交互包含:·自然語言處理·計算機(jī)視覺·多模態(tài)交互·情感計算·智能環(huán)境感知·自適應(yīng)界面·社交機(jī)器人·沉浸式技術(shù)·智能輔助系統(tǒng)智能交互交互的三維關(guān)系生物交互社會交互人機(jī)交互感官交互生理反應(yīng)神經(jīng)系統(tǒng)活動群體行為種間交互語言溝通非語言溝通社會規(guī)范人際關(guān)系組織行為社交媒體互動輸入技術(shù)輸出技術(shù)交互設(shè)計可用性工程信息可視化智能交互包含:·自然語言處理·計算機(jī)視覺·多模態(tài)交互·情感計算·智能環(huán)境感知·自適應(yīng)界面·社交機(jī)器人·沉浸式技術(shù)·智能輔助系統(tǒng)智能交互交互的三維關(guān)系蜜蜂授粉信息傳遞多傳感器信息整合高效的反饋系統(tǒng)生物交互社會交互人機(jī)交互感官交互生理反應(yīng)神經(jīng)系統(tǒng)活動群體行為種間交互語言溝通非語言溝通社會規(guī)范人際關(guān)系組織行為社交媒體互動輸入技術(shù)輸出技術(shù)交互設(shè)計可用性工程信息可視化智能交互包含:·自然語言處理·計算機(jī)視覺·多模態(tài)交互·情感計算·智能環(huán)境感知·自適應(yīng)界面·社交機(jī)器人·沉浸式技術(shù)·智能輔助系統(tǒng)智能交互交互的三維關(guān)系生物交互啟發(fā):語音助手需要從復(fù)雜的聲波中提取關(guān)鍵信息(就像蜜蜂從各種視覺和氣味信號中識別花朵)社會交互元素:語音助手需要理解語言含義和上下文(類似人類對話)人機(jī)交互設(shè)計:語音助手通過燈光變化、聲音響應(yīng)等方式給你反饋生物交互社會交互人機(jī)交互感官交互生理反應(yīng)神經(jīng)系統(tǒng)活動群體行為種間交互語言溝通非語言溝通社會規(guī)范人際關(guān)系組織行為社交媒體互動輸入技術(shù)輸出技術(shù)交互設(shè)計可用性工程信息可視化智能交互包含:·自然語言處理·計算機(jī)視覺·多模態(tài)交互·情感計算·智能環(huán)境感知·自適應(yīng)界面·社交機(jī)器人·沉浸式技術(shù)·智能輔助系統(tǒng)智能交互交互的三維關(guān)系師生對話中,不僅包含語言交流,還涉及非語言信息(如肢體語言、眼神交流),信息編碼與解碼過程中可能出現(xiàn)的誤差和校正,以及文化、情境對交互模式的影響。從計算機(jī)科學(xué)、心理學(xué)、設(shè)計學(xué)等多學(xué)科角度,交互是一種信息的傳遞與反饋過程,涉及用戶、計算機(jī)及環(huán)境間的相互作用。在計算機(jī)科學(xué)領(lǐng)域,交互是用戶與軟件系統(tǒng)之間的信息交流;心理學(xué)則關(guān)注人在交互過程中的認(rèn)知、情感和行為反應(yīng);設(shè)計學(xué)注重交互的用戶體驗和可用性。交互的本質(zhì)人機(jī)交互的發(fā)展歷程萌芽期·1959-1969奠基期·1970-1979發(fā)展期·1980-1995高速期·1996-今二、人機(jī)交互的發(fā)展萌芽期(1959年-1969年)1959年,美國科學(xué)家BrianShackel發(fā)表了一篇名為“Skin-Drilling:AMethodofDiminishingGalvanicSkin-Potentials”的論文,首次提出如何用人機(jī)工程學(xué)原理幫助用戶減輕操作機(jī)器所帶來的疲勞。1960年,美國心理學(xué)家和計算機(jī)科學(xué)家J.C.R.Licklider在論文“Man-ComputerSymbiosis”中開創(chuàng)性地提出了人機(jī)緊密共棲的概念,被視為人機(jī)交互的啟蒙觀點。1969年,第一次人機(jī)系統(tǒng)國際會議在英國劍橋大學(xué)召開,同年第一份專業(yè)雜志《國際人機(jī)交互雜志》(InternationalJournalOfHuman-ComputerInteraction)創(chuàng)刊,這一年可謂是人機(jī)交互發(fā)展史的里程碑。萌芽期(1959年-1969年)菲茲定律:人機(jī)交互領(lǐng)域的第一條定律MT:從起點移動到被指點目標(biāo)的運動時間,單位:秒或毫秒。D:指點運動的距離W:被指點目標(biāo)在指點運動方向上的寬度利用菲茨定律對指點、拖動等用戶操作建立運動模型,用于預(yù)測用戶完成相應(yīng)操作的時間。奠基期(1970年-1979年)1970年-1973年,四本與計算機(jī)相關(guān)的人機(jī)工程學(xué)專著陸續(xù)出版,為人機(jī)交互的發(fā)展指明了方向。1970年,成立2個人機(jī)交互研究中心英國拉夫堡大學(xué)的人類科學(xué)與高級科技(HUSAT)研究中心美國施樂公司

的帕洛阿爾托(PARC)研究中心圖

美國施樂帕洛阿爾托研究中心20世紀(jì)80年代初期,學(xué)術(shù)界相繼出版了6本專著,總結(jié)了當(dāng)時最新的人機(jī)交互研究成果,人機(jī)交互學(xué)科逐漸形成了自己的理論體系和實踐范疇的架構(gòu)。理論體系方面:從人機(jī)工程學(xué)中獨立出來,更加強(qiáng)調(diào)認(rèn)知心理學(xué)、行為學(xué)以及社會學(xué)等人文科學(xué)的理論指導(dǎo)。實踐方面:從人機(jī)界面(人機(jī)接口)延伸開來,強(qiáng)調(diào)計算機(jī)對人的反饋作用。發(fā)展期(1980年-1995年)HCI中的I,由界面I接口(Interface)變成了交互(Interaction)。人機(jī)交互之演變發(fā)展期(1980年-1995年)20世紀(jì)90年代中期以來,伴隨計算機(jī)硬件性能的飛速提升和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和普及,人機(jī)交互研究的重心開始轉(zhuǎn)移到多媒體交互、智能交互、人機(jī)協(xié)同交互以及增強(qiáng)現(xiàn)實等方面。人機(jī)交互技術(shù)更側(cè)重以人為研究目標(biāo)中心。主要特點是基于語音、手寫體、姿勢、視線跟蹤、表情等輸入手段的多模態(tài)交互,目的是使人能以聲音、動作、表情等自然方式進(jìn)行智能交互操作。高速期(1996年至今)硬件包括:輸入設(shè)備有Kinect、LeapMotion等,輸出設(shè)備有3D立體顯示器,頭戴顯示器(如:OculusRift)等,輸入輸出設(shè)備有GoogleGlass等。高速期(1996年至今)智能交互設(shè)備軟件包括:界面部分有3D立體操作界面,交互方式有肢體動作、表情、語音等;基于大數(shù)據(jù)可以分析用戶所處的環(huán)境,用戶的愛好、習(xí)慣、心理、歷史、社會關(guān)系,語境等。智能交互設(shè)備高速期(1996年至今)

人工智能的飛速發(fā)展正在為人機(jī)交互帶來巨大的推動作用,尤其在智能化信息處理方面,促進(jìn)沒有觸摸屏、沒有鍵盤的智能化時代交互技術(shù)飛速發(fā)展。在智能機(jī)器人、智能家居迅速普及時代,人機(jī)交互方式多種多樣,比如手勢識別、圖像識別、體感識別等,都是未來智能交互技術(shù)發(fā)展的方向,人工智能正在從感知智能向認(rèn)知智能發(fā)展。三、感知智能在交互技術(shù)中的作用感知智能認(rèn)知智能是指機(jī)器具有主動思考和理解的能力,不用人類事先編程就可以實現(xiàn)自我學(xué)習(xí),有目的推理并與人類自然交互。人類有語言,才有概念、推理,所以概念、意識等都是人類認(rèn)知智能的表現(xiàn),機(jī)器實現(xiàn)以上能力還有漫長的路需要探索。認(rèn)知智能利用圖像識別、語音識別或者其他識別技術(shù),把物理信號轉(zhuǎn)化成數(shù)字信號,基于這些數(shù)字信號進(jìn)行分析、判斷、推理、規(guī)劃、決策。感知智能和認(rèn)知智能語音交互是最自然的交互方式,因此在智能時代仍然是最重要的人機(jī)交互手段之一?;谥悄苷Z音的自然交互核心技術(shù),首先要求能夠完成語音識別,其次是以語境為基礎(chǔ)的語音理解,直至高自然度語言的生成。不同的時間、地點、場所說的同樣的文字代表含義不同,結(jié)合上下文、人類的物理世界,構(gòu)建出一個語境為中心的交互形態(tài),才能實現(xiàn)真正的像人和人的自然對話。還需要加入對個性化、一致化、情感化的考慮。語音交互聊天機(jī)器人的結(jié)構(gòu),包括問話理解、回復(fù)(答案或聊天)、根據(jù)上下文保證用戶個性化信息以及語言風(fēng)格一致性,最重要的是以下三個引擎:閑聊:能夠滿足多輪對話一致性、個體化;基于搜索的回答需要針對特定主題提前建立聊天智庫;多模型對話(包括圖像理解);信息問答:提高搜索引擎的水平,將搜索引擎的風(fēng)格變換成聊天的風(fēng)格;為每個知識源建立問答;任務(wù)完成:不同任務(wù)的對話過程,把重要的信息通過對話設(shè)立出來,涉及信息抽取,以及文本之間的相互匹配。微軟小冰聊天機(jī)器人感知智能作用與微軟小冰玩猜歌名微軟小冰聊天機(jī)器人感知智能作用ChatGPTChatGPT是由OpenAI公司開發(fā)的智能聊天機(jī)器人程序。ChatGPT是一種基于神經(jīng)網(wǎng)絡(luò)和自然語言處理技術(shù)的對話模型,它可以模擬人類的對話方式,與用戶進(jìn)行自然、流暢的交互。ChatGPT是GPT(GenerativePre-trainingTransformer)的變種,它采用了Transformer結(jié)構(gòu)和自回歸的語言模型,可以預(yù)測下一個單詞的概率,從而生成自然語言對話。感知智能作用SoraSora是由OpenAI公司開發(fā)的一款文生視頻(text-to-video)模型。Sora是通過學(xué)習(xí)視頻內(nèi)容,來理解現(xiàn)實世界的動態(tài)變化,并用計算機(jī)視覺技術(shù)模擬這些變化,從而創(chuàng)造出新的視覺內(nèi)容。Sora目前運用的是Diffusionmodel(擴(kuò)散模型)+Transformer兩種技術(shù)架構(gòu)的結(jié)合。HistoricalfootageofCaliforniaduringthegoldrush.淘金熱時期的加州歷史鏡頭。Severalgiantwoolymammothsapproachtreadingthroughasnowymeadow.幾只巨大的長毛猛犸象踩著積雪的草地走近。1.2智能交互的研究內(nèi)容人機(jī)界面設(shè)計的歷史世界上第一臺數(shù)字計算機(jī)ENIAC在1946年美國誕生,人機(jī)界面的主要特點是由設(shè)計者本人(或同事)使用計算機(jī),采用手工操作的方法控制計算機(jī)。31一、智能交互的發(fā)展32交互的開端命令行界面(Command-LineInterface)計算機(jī)語言經(jīng)歷了由最初的機(jī)器語言、匯編語言,直至高級語言的發(fā)展過程。這個過程也可以看作是人機(jī)交互的早期發(fā)展過程。機(jī)器語言和匯編語言對使用者提出了較高的要求高級語言使用人們比較習(xí)慣的符號形式描述計算過程,降低了對人的要求。命令行界面CLI的優(yōu)點和缺點缺點迫使用戶不得不在沒有多少計算機(jī)幫助的前提下,牢記復(fù)雜的命令和格式,大大增加了用戶的記憶負(fù)擔(dān),使入門者望而卻步。優(yōu)點靈活且高效的特性,得到許多專業(yè)人員的青瞇。命令行界面圖形用戶界面(GraphicalUserInterface)最早可以追溯到1962年IvanSutherland創(chuàng)建的Sketchpad系統(tǒng)。圖形用戶界面圖形用戶界面(GraphicalUserInterface)最早可以追溯到1962年IvanSutherland創(chuàng)建的Sketchpad系統(tǒng)。1964年DouglasEngelhart發(fā)明了鼠標(biāo),為圖形用戶界面的興起奠定了基礎(chǔ)。圖形用戶界面現(xiàn)在提到圖形用戶界面,泛指WIMP界面。用戶可在窗口內(nèi)選取任意交互位置,且不同窗口之間能夠疊加。其主要特點是桌面隱喻、WIMP技術(shù)、直接操縱和“所見即所得”。簡單易學(xué),并減少了鍵盤操作,使得不懂計算機(jī)的普通用戶也可以熟練地使用,從而拓寬了用戶群,使計算機(jī)得到了廣泛普及。窗口(Window)、圖標(biāo)(Icon)、菜單(Menu)和指點設(shè)備(PointDevice)WIMP界面自然用戶界面(NaturalUserInterface)不管是CLI還是GUI都要求用戶必須學(xué)習(xí)者預(yù)先設(shè)置好的操作(GUI比CLI的學(xué)習(xí)成本更低)基于語音、手寫體、姿勢、視線、表情等輸入手段的多通道交互是NUI最主要特點,目的是使人能以聲音、動作、表情等自然方式進(jìn)行交互操作,用戶只需要用最自然的方式(語音、面部表情、動作手勢、移動身體、旋轉(zhuǎn)頭部…)就可以和計算機(jī)交流,從而擺脫鍵盤、鼠標(biāo)。自然用戶界面自然用戶界面(NaturalUserInterface)自然用戶界面MTA表示從起點移動到被指點目標(biāo)的運動時間IDA為難度系數(shù)考慮移動物體大小(OS)、目標(biāo)物容差(TT)、移動距離(A)等因素超越費茨定律公式——對三維虛擬空間中定位任務(wù)的定量理解研究內(nèi)容人機(jī)交互界面表示模型與設(shè)計方法可用性工程,可用性評估模型和方法多模態(tài)智能交互技術(shù)智能化交互認(rèn)知技術(shù)語音識別

交互Web界面交互設(shè)計移動界面交互設(shè)計二、智能交互研究內(nèi)容一個交互界面的優(yōu)劣,直接影響到軟件開發(fā)的成敗。友好的人機(jī)交互界面開發(fā)離不開好的交互模型與設(shè)計方法。研究人機(jī)交互界面表示模型與設(shè)計方法是人機(jī)交互的重要研究內(nèi)容之一。智能交互研究內(nèi)容(一)人機(jī)交互界面表示模型與設(shè)計方法可用性是交互式系統(tǒng)的重要質(zhì)量指標(biāo),指的是對產(chǎn)品對用戶來說有效、高效和令人滿意的程度,即用戶能否用產(chǎn)品完成他的目標(biāo),以及實現(xiàn)這一目標(biāo)的效率與便捷性,它關(guān)系到智能交互能否達(dá)到用戶期待的目標(biāo),實際上是從用戶角度所看到的產(chǎn)品質(zhì)量,是產(chǎn)品競爭力的核心。智能交互系統(tǒng)的可用性分析與評估的研究主要涉及到支持可用性的設(shè)計原則和可用性的評估方法等。智能交互研究內(nèi)容(二)可用性工程,可用性評估模型和方法研究視覺、聽覺、觸覺和嗅覺等多模態(tài)信息的融合理論和方法,使用戶可以使用語音、手勢、眼神、表情等自然的交互方式與機(jī)器系統(tǒng)進(jìn)行通信,特別在人與機(jī)器人的交互過程中,多模態(tài)交互方式有效實現(xiàn)信息傳遞。多模態(tài)交互主要研究語音交互、視覺圖像交互、動作交互、腦電波交互等交互技術(shù)及交互界面的表示模型、交互界面評估方法以及多模態(tài)信息融合等。多模態(tài)信息融合是智能化人機(jī)交互

技術(shù)研究的重點和難點。智能交互研究內(nèi)容(三)多模態(tài)智能交互技術(shù)智能交互認(rèn)知技術(shù)最終目標(biāo)是使人機(jī)交互和人-人交互一樣自然、方便。上下文感知、三維輸入、手寫識別、自然語言理解等是交互認(rèn)知中要解決的重要問題。智能交互研究內(nèi)容(四)智能交互認(rèn)知技術(shù)語音交互是研究人們?nèi)绾瓮ㄟ^自然的語音或機(jī)器合成的語音同機(jī)器進(jìn)行交互的技術(shù)。語音識別和語音合成相結(jié)合,構(gòu)成一個“人機(jī)通信系統(tǒng)”。通過語音識別來有效實現(xiàn)人與機(jī)器交互,可由三個技術(shù)模塊組成,即特征提取、模式匹配和標(biāo)準(zhǔn)模板庫生成。這三大技術(shù)模塊涉及的技術(shù)包括三個方面,即語音識別單元的選擇、特征數(shù)據(jù)類型的選擇、模式匹配方法與模型訓(xùn)練技術(shù)。智能交互研究內(nèi)容(五)語音識別交互重點研究Web界面的信息交互模型和結(jié)構(gòu),Web界面設(shè)計的基本思想和原則,Web界面設(shè)計的工具和技術(shù),以及Web界面設(shè)計的可用性分析與評估方法等內(nèi)容。智能交互研究內(nèi)容(六)Web界面交互設(shè)計面向移動應(yīng)用的界面設(shè)計已成為交互技術(shù)研究的一個重要內(nèi)容。由于移動設(shè)備的便攜性、位置不固定性、計算能力有限性以及無線網(wǎng)絡(luò)的低帶寬高延遲等諸多的限制,移動界面的設(shè)計方法、移動界面可用性與評估原則、移動界面導(dǎo)航技術(shù)以及移動界面的實現(xiàn)技術(shù)和開發(fā)工具,都是當(dāng)前智能交互技術(shù)研究的熱點。智能交互研究內(nèi)容(七)移動界面交互設(shè)計1.3智能交互技術(shù)與相關(guān)學(xué)科智能交互技術(shù)計算機(jī)科學(xué)與技術(shù)人機(jī)工程學(xué)……..社會學(xué)心理學(xué)藝術(shù)學(xué)圖相關(guān)學(xué)科對智能交互技術(shù)的支持智能交互技術(shù)與相關(guān)學(xué)科與人工智能技術(shù)發(fā)展相呼應(yīng),人機(jī)交互技術(shù)不斷向智能化發(fā)展,形成智能交互相關(guān)技術(shù),所涉及的領(lǐng)域不僅僅是計算機(jī),還需要通信技術(shù)、社會學(xué)、心理學(xué)、設(shè)計領(lǐng)域的相關(guān)知識。智能交互技術(shù)不僅僅是計算機(jī)科學(xué)與技術(shù)的一個分支,雖然很多學(xué)校將其開設(shè)在計算機(jī)科學(xué)中。計算機(jī)科學(xué)與技術(shù)智能交互技術(shù)與計算機(jī)科學(xué)與技術(shù)人機(jī)交互一般可分為兩類

:藝術(shù)類:一般放在平面設(shè)計里,比如說網(wǎng)頁設(shè)計。以網(wǎng)頁設(shè)計為例,會研究不同的顏色對于瀏覽者的影響,不同按鍵的大小對于瀏覽者的影響等等。技術(shù)類:,描述的是技術(shù)手段對于用戶體驗的改變。交互不僅僅存在于計算機(jī)科學(xué)下,也有可能是電子工程下,也有可能是工業(yè)工程下,但是主要集中在計算機(jī)科學(xué)和工業(yè)工程。智能交互技術(shù)與計算機(jī)科學(xué)與技術(shù)計算機(jī)科學(xué)與技術(shù)人們習(xí)慣將軟件工程與傳統(tǒng)的人機(jī)交互視為兩個相互獨立的學(xué)科,軟件工程師與人機(jī)交互設(shè)計人員關(guān)注的重點有很大不同:軟件工程師經(jīng)常是以系統(tǒng)功能為中心,形式化方法在這里得到了廣泛應(yīng)用;交互設(shè)計人員則以用戶為中心,對用戶特性和用戶需要執(zhí)行的任務(wù)要有一個深入的了解智能交互技術(shù)與軟件工程既相互區(qū)別又相互影響。只有將二者有機(jī)地結(jié)合,才能保證在有效的時間和資源下開發(fā)出高可用性的軟件產(chǎn)品。智能交互技術(shù)與軟件工程軟件工程計算機(jī)輔助工業(yè)設(shè)備成為工業(yè)設(shè)計的基礎(chǔ)設(shè)施。計算機(jī)輔助工業(yè)設(shè)計里進(jìn)行人與工業(yè)機(jī)器交互研究,能夠有效提升計算機(jī)輔助工業(yè)的技術(shù)含量,給使用者帶來更便捷的服務(wù)體驗。網(wǎng)絡(luò)信息數(shù)據(jù)傳播早已成為人們?nèi)粘I钪胁豢商娲筒豢扇鄙俚囊徊糠?,為了提供給用戶更加便利和直接的計算機(jī)輔助工具使用,開發(fā)智能交互應(yīng)用系統(tǒng),實現(xiàn)操作者與計算機(jī)的良好對接,給設(shè)計使用提供多方面的便利。智能交互技術(shù)與工業(yè)設(shè)計工業(yè)設(shè)計隨著傳感技術(shù)的發(fā)展,引入生理學(xué)、利用多種可穿戴計算技術(shù),用戶無需主動地執(zhí)行交互任務(wù),系統(tǒng)通過傳感設(shè)備實時監(jiān)控和分析用戶的生理信號,將這些信號轉(zhuǎn)化為控制輸入,并對用戶做出反饋。在未來,計算機(jī)將作為多個智能化的計算設(shè)備融入到用戶和環(huán)境中,它們采集用戶和環(huán)境的交互信息,智能化地執(zhí)行交互任務(wù)。生理學(xué)作為感知和理解用戶的關(guān)鍵環(huán)節(jié),在未來必然會處于重要的地位。智能交互技術(shù)與生理學(xué)生理學(xué)只有在充分了解了“人”的心理之后,才能更加清晰他們的需求所在,才能使智能交互技術(shù)更加流程自如,產(chǎn)生良好的結(jié)果。認(rèn)知心理學(xué)智能交互技術(shù)與認(rèn)知心理學(xué)1.4智能交互技術(shù)與生成式人工智能生成式人工智能的發(fā)展歷程2011年大數(shù)據(jù)IBM森沃益智問答2017年Transformer網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)化為后續(xù)大型模型打下基礎(chǔ)2018年2022年11月GPT-3.5突然爆火的ChatGPT2023年7月……2011年以前決策式/分析式AI時代GPT-1一切的起點2012年至今生成式AI急速發(fā)展2024年5月Llama大模型應(yīng)用進(jìn)入了“免費時代”GPT-4o2025年1月Deepseek

R1生成式人工智能GPT4o生成式人工智能ChatGPTAskAnythingSearchTakeScreenshotsforcodingUploadFiles生成式人工智能ChatGPTGPT-1:基于TransformerDecoder預(yù)訓(xùn)練+微調(diào)FinetuneGPT-1預(yù)訓(xùn)練以語言模型作為目標(biāo)任務(wù),但是采用的是單向的語言模型Bert網(wǎng)絡(luò)結(jié)構(gòu)類似于Transformer

Encoder部分,而GPT類似于Transformer

Decoder部分單從模型組成部分結(jié)構(gòu)上來看,其最明顯的在結(jié)構(gòu)上的差異為Multi-Head-Attention和MaskedMulti-Head-Attention生成式人工智能ChatGPTGPT-1:基于TransformerDecoder預(yù)訓(xùn)練+微調(diào)FinetuneMaskedMulti-Head-Attention就是在處理當(dāng)前詞的時候看不到后面的詞。例如:處理[it]的時候,看不到[it]后面的詞,但會關(guān)注到[it]前面詞中的[a,robot],繼而注意力會計算詞間[a,robot,…,it]的向量及其Attention分?jǐn)?shù)的加權(quán)和,即QKV的權(quán)重。生成式人工智能ChatGPTGPT-3:開啟NLP新范式prompt,實現(xiàn)小樣本學(xué)習(xí)Prompt-Tuning的動機(jī)旨在解決目前傳統(tǒng)Fine-tuning的兩個痛點問題:降低語義差異(BridgethegapbetweenPre-trainingandFine-tuning):預(yù)訓(xùn)練任務(wù)主要以MaskedLanguageModeling(MLM)為主,而下游任務(wù)則重新引入新的訓(xùn)練參數(shù),因此兩個階段的目標(biāo)通常有較大差異。因此需要解決如何縮小Pre-training和Fine-tuning兩個階段目標(biāo)差距過大的問題;避免過擬合(Overfittingofthehead):由于再Fine-tuning階段需要新引入額外的參數(shù)以適配相應(yīng)的任務(wù)需要,因此在樣本數(shù)量有限的情況容易發(fā)生過擬合,降低了模型的泛化能力。因此需要面對預(yù)訓(xùn)練語言模型的過擬合問題。DeepseekDeepSeek

V3與Llama3.1相比DeepSeekV3:2KH800訓(xùn)練58天(預(yù)計)Llama3.1-405B:16KH100訓(xùn)練54天大量工程優(yōu)化加速模型訓(xùn)練,訓(xùn)練成本是Llama3.1-405B的

1/10

大規(guī)模集群推理并行加速,整體吞吐相比V2

提升2倍Deepseek模型結(jié)構(gòu)DeepSeekV3和V2模型結(jié)構(gòu)大體一致模型層數(shù)相差不大,增加模型寬度以及專家數(shù)量,調(diào)整token路由策略實現(xiàn)負(fù)載均衡調(diào)整模型超參引入FP8量化:引入FP8量化減少顯存需求,提升訓(xùn)練效率,降低訓(xùn)練成本分階段訓(xùn)練:模型效果的提升主要依賴訓(xùn)練算法的升級(post-training,RL、knowledgedistillation等)DeepseekMoEMoE主要由兩個關(guān)鍵部分組成:稀疏MoE層:MoE層代替?zhèn)鹘y(tǒng)Transformer中FFN層。MoE層包含若干“專家Expert”,每個專家本身是一個獨立的神經(jīng)網(wǎng)絡(luò)。門控網(wǎng)絡(luò)或路由:用于決定哪些token發(fā)送到哪個專家。例如,More可能被發(fā)送到第二個專家FFN2,Parameters被發(fā)送到第一個專家FFN1。有時,一個token可以被發(fā)送到多個專家Expert。token的路由方式是MoE中一個關(guān)鍵點,因為路由器由學(xué)習(xí)的參數(shù)組成,并且與網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。DeepseekMoE什么是稀疏性?稠密大模型,模型所有參數(shù)w都會對所有輸入數(shù)據(jù)x進(jìn)行處理計算。稀疏性允許針對模型某些特定部分(Expert)執(zhí)行計算。MoE架構(gòu)非所有參數(shù)都會在處理每個輸入時被激活或使用,根據(jù)輸入特征,選擇部分參數(shù)計算。DeepseekMoE解決稀疏性計算GoogleShazeer對MoE在翻譯應(yīng)用中,引入條件計算,在每個樣本的基礎(chǔ)上激活網(wǎng)絡(luò)的不同部分。不增加額外計算情況下擴(kuò)展MoE規(guī)模,每個MoE層中實現(xiàn)更多Expert,提升專家利用率??蓪W(xué)習(xí)的門控網(wǎng)絡(luò)+專家間負(fù)載均衡DeepseekMoEToken負(fù)載均衡門控網(wǎng)絡(luò)往往傾向于主要激活相同的幾個專家。受歡迎的專家訓(xùn)練得更快,因此更容易被選擇。引入了一個輔助損失AuxLoss,鼓勵所有專家相同的重要性,平衡計算量。AuxLoss確保所有專家接收到大致相等數(shù)量的訓(xùn)練樣本,從而平衡專家間選擇。可學(xué)習(xí)的門控網(wǎng)絡(luò)+專家間負(fù)載均衡DeepseekDeepseekMoEDeepSeek

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論