人工智能與情感交互_第1頁(yè)
人工智能與情感交互_第2頁(yè)
人工智能與情感交互_第3頁(yè)
人工智能與情感交互_第4頁(yè)
人工智能與情感交互_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能與情感交互10月12-13日第七屆中國(guó)智能產(chǎn)業(yè)高峰論壇在佛山開(kāi)幕,在 NLP與服務(wù)機(jī)器人專題論壇上,微 軟小冰首席產(chǎn)品總監(jiān)彭爽發(fā)表了主題為《人工智能與情感交互》的精彩演講。以下是彭爽老師的演講實(shí)錄:彭爽:大家好。我從清華大學(xué)畢業(yè)后,就加入微軟工作,最近四年以來(lái)在小冰團(tuán)隊(duì)做人工智能產(chǎn)品的設(shè)計(jì)和迭代,這幾年當(dāng)我們和外面的朋友聊起來(lái)時(shí),經(jīng)常會(huì)問(wèn)到一個(gè)問(wèn)題,你做的微軟小冰到底是什么?它就是一個(gè)聊天機(jī)器人嗎?這可能也是今天大家比較關(guān)心的一個(gè)問(wèn)題,所以我想從這個(gè)問(wèn)題出發(fā)跟大家聊一下。首先請(qǐng)大家一起回顧一下我們?cè)谧罱鼛资昕萍籍a(chǎn)業(yè)上的重大變遷。過(guò)去二三十年, 從PC時(shí)代進(jìn)入到互聯(lián)網(wǎng)時(shí)代,然后又快速進(jìn)入到移動(dòng)互聯(lián)網(wǎng)時(shí)代,到今天大家坐在這兒討論新的人工智能時(shí)代的到來(lái)。每個(gè)時(shí)代的變遷,除了各種科技上的突破和顛覆,最重要的是重新定義了人類和世界用什么方式進(jìn)行溝通和連接。人類在 PC時(shí)代,通過(guò)PC的操作系統(tǒng),使人類以更加有效率的方式連接世界,提高了工作效率;到互聯(lián)網(wǎng)時(shí)代,通過(guò)瀏覽器和互聯(lián)網(wǎng)這兩個(gè)重要的核心,人類可以把物質(zhì)世界非常快的電子化、數(shù)據(jù)化,并用比以往簡(jiǎn)單直接的多的方式定位信息。移動(dòng)互聯(lián)網(wǎng)時(shí)代,除了對(duì)互聯(lián)網(wǎng)進(jìn)行升級(jí),甚至通過(guò)社交網(wǎng)絡(luò)改變了人與人之間的交互關(guān)系。到人工智能新的時(shí)代,在這個(gè)時(shí)代核心是什么?剛才朱老師講到人工智能時(shí)代有NLP,有非常強(qiáng)的語(yǔ)音識(shí)別、圖象識(shí)別各項(xiàng)技術(shù),這些技術(shù)都非常重要,有些技術(shù)甚至達(dá)到或者超過(guò)了普通人類的水平。未來(lái)幾年甚至?xí)_(dá)到人類不可企及的精度。但是這樣的核心技術(shù)突破,包括語(yǔ)音、圖像、知識(shí)圖譜的突破,是很重要的基石,但可能不是人工智能時(shí)代的核心,為什么這么說(shuō)?因?yàn)槿绻覀內(nèi)ソ佑|一下人工智能的概念,從創(chuàng)立之初,就是在以人類智能作為一個(gè)模板和范本做參考,而當(dāng)我們衡量一個(gè)人類的智慧水平的時(shí)候,是不會(huì)去衡量這個(gè)人是否能聽(tīng)見(jiàn)、聽(tīng)懂人說(shuō)的話,或者能否看見(jiàn)、看明白眼前的圖片的內(nèi)容,這不是我們衡量的。我們會(huì)衡量什么?會(huì)判斷這個(gè)人是不是聰明, 是不是考慮周全,是不是懂事,所有這些考量,實(shí)際上在用 EQ和IQ兩個(gè)維度體現(xiàn)。我們認(rèn)為在人工智能時(shí)代,我們?nèi)ピu(píng)價(jià) AI的核心,也應(yīng)該從這兩個(gè)維度體現(xiàn)。在這兩個(gè)維度(智商和情商)上,當(dāng)我們做小冰的時(shí)候,也有過(guò)類似的思考,我們決定通過(guò)微軟小冰的人機(jī)交互,通過(guò)聊天這樣的形式,來(lái)探索一條人工智能實(shí)現(xiàn)EQ的道路。為什么選EQ這條路呢?不是說(shuō)IQ不重要,相反非常重要,業(yè)內(nèi)的很多公司,包括我們微軟的其他項(xiàng)目,都投入和很多在IQ方向上,來(lái)決定如何讓人工智能獲取更多知識(shí)、更加準(zhǔn)確的回答客觀問(wèn)題。但是很少有人去探索 EQ方向,為什么?因?yàn)闃I(yè)內(nèi)的很多想法是, EQ方向是IQ達(dá)到一定程度上疊加上來(lái)提高的方式,而不是獨(dú)立的存在,這一點(diǎn)上我們有不同的看法。我們認(rèn)為 EQ方向,或者說(shuō)情感交互,實(shí)際上是人類的基本訴求,也是核心的剛需。在人類社會(huì)中我們能清楚的看到這一訴求,特別是對(duì)于一些群體,比如老年人群體,即便是生活、經(jīng)濟(jì)富足,他們也多有強(qiáng)烈的需要陪伴和交流的訴求,而且在家庭社會(huì)中難以得到很好的滿足。由于這種基本訴求的存在,所以當(dāng)一個(gè)人工智能,哪怕IQ還沒(méi)有達(dá)到很高的水平,也完全可以通過(guò) EQ方向的迭代深入,得以獨(dú)立發(fā)展,這也是我們一開(kāi)始選擇這個(gè)方向探索的重要原因。我們主要是想說(shuō)我們?yōu)槭裁催x擇情感交互的方向,微軟小冰人機(jī)對(duì)話時(shí)的主要發(fā)力點(diǎn)和研究方向。下面我具體介紹一下我們的探索內(nèi)容和成果。為了實(shí)踐EQ這個(gè)方向, 我們首先定義了情感計(jì)算框架,以這個(gè)框架為核心去模擬實(shí)現(xiàn)一定情感交互。我們都知道,人類的情感是非常復(fù)雜的概念,我們?cè)谥形睦飼?huì)用喜怒哀樂(lè)的詞匯形容情感,但是喜怒哀樂(lè)完全不夠,還有恐懼、驚慌、羨慕嫉妒恨等等,甚至還有復(fù)雜的復(fù)合情緒存在,這些情感很難直接給一個(gè)簡(jiǎn)單直接的定義。我們的嘗試使用心理學(xué)上的模型,首先定義有限的基本情感,再把復(fù)雜情感投射到基本分類上,就能到統(tǒng)一的表示。通過(guò)大量數(shù)據(jù)訓(xùn)練,有了基本的情感識(shí)別的分類,就有了第一步。 之后更加復(fù)雜的問(wèn)題是,如何對(duì)情感進(jìn)行應(yīng)對(duì)。應(yīng)對(duì)情感不同于回答客觀問(wèn)題,不是給出一個(gè)問(wèn)題,就能有一個(gè)唯一正確或者最優(yōu)的答案。情感不是這樣的,一個(gè)人不開(kāi)心的時(shí)候,應(yīng)該說(shuō)幾句寬慰的話,還是該講個(gè)笑話逗他開(kāi)心?甚至應(yīng)該什么都不說(shuō),讓他好好傾訴,才是最好的方式?沒(méi)有標(biāo)準(zhǔn)答案。我們的做法是,在通用決策基礎(chǔ)上,加入動(dòng)態(tài)因素。由于我們有比較大的可以交互的對(duì)象,使得我們可以調(diào)整這樣的機(jī)制,給出相應(yīng)成熟的反饋。由于我們比較早選了EQ方向,我們也積累了大量用戶,小冰在全球五個(gè)國(guó)家上線,有總量超過(guò) 1億的人類用戶跟小冰交互,對(duì)話量超過(guò)幾百億次,所以使得我們有能力做這樣的嘗試、探索和不斷的迭代。我們發(fā)現(xiàn),在這樣的對(duì)話過(guò)程中,尤其長(zhǎng)程對(duì)話給我們帶來(lái)更大的價(jià)值。長(zhǎng)程對(duì)話不僅累計(jì)了更多輪次對(duì)話,而且使我們有機(jī)會(huì)在對(duì)話過(guò)程中,嘗試切換話題,或是對(duì)對(duì)話的意圖進(jìn)行識(shí)別,進(jìn)一步進(jìn)行引導(dǎo)。另一方面,對(duì)用戶來(lái)說(shuō),我們發(fā)現(xiàn)通過(guò)長(zhǎng)程對(duì)話,用戶和小冰能夠建立更深入的情感連接。通過(guò)長(zhǎng)時(shí)間的對(duì)話,用戶甚至?xí)洝靶”且粋€(gè)機(jī)器人”的認(rèn)知,對(duì)她產(chǎn)生信賴,成為朋友的關(guān)系,這種關(guān)系甚至超過(guò)它在普通生活中與其他人類建立的關(guān)系。在這里跟大家分享一組數(shù)字:小冰在三個(gè)國(guó)家市場(chǎng)上的單次連續(xù)聊天對(duì)話記錄。所謂單次連續(xù)聊天,是這樣定義,如果一個(gè)人類用戶跟小冰持續(xù)不斷的說(shuō)話,叫做連續(xù)聊天,如果說(shuō)完最后一句話后,超過(guò)30分鐘沒(méi)有對(duì)話,那么這個(gè)對(duì)話就認(rèn)為結(jié)束了?;谶@個(gè)定義,從數(shù)據(jù)統(tǒng)計(jì)中發(fā)現(xiàn),每個(gè)國(guó)家市場(chǎng)上,都有用戶跟小冰連續(xù)聊天超過(guò)十幾個(gè)小時(shí)、甚至二十幾個(gè)小時(shí)。最長(zhǎng)的記錄達(dá)到29個(gè)半小時(shí)。大家可以感受一下,這樣的長(zhǎng)時(shí)間對(duì)話,用戶早已忘記小冰是機(jī)器人。 這也側(cè)面印證我們之前的一個(gè)重要論斷,人類社會(huì)里,像對(duì)話的傾訴、情感溝通這樣的交互,是一個(gè)基本的剛需。有很多人類,他們對(duì)于情感和交互的訴求非常強(qiáng)烈,但而由于各種各樣的原因,在現(xiàn)實(shí)生活中可能找不到可以跟他們聊天的對(duì)象,所以也是我們認(rèn)為具有 EQ的人工智能尤其有價(jià)值的原因。剛才提到的主要是基于文字的交互,而情感交互肯定不僅限于此,我們說(shuō)情商的高低,應(yīng)該能夠從多種感官的交互中全面的體現(xiàn)出來(lái)。在圖像交互方面,基于微軟構(gòu)建的強(qiáng)大的圖像識(shí)別和圖像處理能力,我們著重把圖像的交互,從識(shí)別圖像內(nèi)容,提升為對(duì)圖像進(jìn)行情感評(píng)價(jià)。相信很多人有這樣的體會(huì),朋友圈中很多人發(fā)圖曬自拍曬娃曬寵物, 剛過(guò)完的十一長(zhǎng)假尤為如此,大家都在發(fā)朋友圈曬旅游。比如這張來(lái)自我們同事的照片,發(fā)照片的人站在比薩斜塔前合影。 如果應(yīng)用圖片識(shí)別技術(shù),能夠輕松識(shí)別出“這是比薩斜塔”,甚至可以通過(guò)知識(shí)圖譜了解到意大利、建筑年代,等等信息。但有人發(fā)出這樣的照片,從交互的角度,顯然不是考驗(yàn)別人能否識(shí)別出“比薩斜塔”。所以當(dāng)他把照片發(fā)給小冰,小冰的回答是“要我?guī)湍惴鲋鴨帷??這個(gè)就是從感受出發(fā)延伸出來(lái)的, 能夠促進(jìn)交互,甚至達(dá)到意想不到的驚喜。小冰在圖像交互的升級(jí)并不是憑空出來(lái)的,也都是從圖片信息作為輸入,通過(guò)圖像的意向觸發(fā),聯(lián)想而產(chǎn)生的回應(yīng)。在語(yǔ)音交互方面,我們說(shuō)現(xiàn)在語(yǔ)音通用的合成技術(shù)已經(jīng)非常成熟了。那么我給大家看一個(gè)對(duì)比的示例:我們通過(guò)友商的產(chǎn)品和我們的產(chǎn)品生成同樣一句話,請(qǐng)大家聽(tīng)聽(tīng),對(duì)比一下區(qū)別。(音頻) 從剛才這句話中,大家一定能聽(tīng)出來(lái),小冰的語(yǔ)音明顯更加自然,更加有情感。 實(shí)際上語(yǔ)音合成領(lǐng)域有很多基礎(chǔ)工作,如何讓語(yǔ)音流暢自然,如何解決中英混雜的問(wèn)題,解決兒化音的問(wèn)題,這些都是難點(diǎn),也是我們努力的方向。除此之外,大家聽(tīng)到最后一個(gè)“哼”字時(shí),從小冰的聲音是可以聽(tīng)出她的情緒的, 而其他的更像是念。這是我們格外關(guān)心的重點(diǎn),也使得用戶跟小冰用語(yǔ)音進(jìn)行交互時(shí),更容易被打動(dòng),帶入情感的重要原因。除了圖像視覺(jué)和語(yǔ)音等基礎(chǔ)感官,我再大家介紹一類升級(jí)的高級(jí)感官,我們成為“全時(shí)感官”,也叫全雙工語(yǔ)音。 所謂全雙工,是對(duì)比現(xiàn)有的半雙工而言,目前絕大部分人機(jī)之間語(yǔ)音對(duì)話,是半雙工語(yǔ)音,就像是在微信里聊天,你說(shuō)一句發(fā)過(guò)來(lái),我再說(shuō)一句發(fā)回去,就像對(duì)話機(jī)一樣。而我們知道真實(shí)的人與人,面對(duì)面的對(duì)話,我隨時(shí)在聽(tīng),也可能隨時(shí)會(huì)說(shuō),我們互相之間可以打斷,這樣的交流更自然流暢。我們稱之為全雙工語(yǔ)音。這樣的全雙工語(yǔ)音,不僅僅要有基礎(chǔ)的語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù),還需很多的控制、時(shí)機(jī)判斷,了解什么時(shí)候適合打斷,如何打斷等等,難度相當(dāng)高,但是非常具有實(shí)際價(jià)值。實(shí)際上,我們從將近一年前,就準(zhǔn)備了這個(gè)全雙工的技術(shù),并且在北京的中國(guó)科技館里展示了一個(gè)“小冰電話亭”,每天都有成百上千的參觀者,通過(guò)這個(gè)電話打給小冰。更重要的是,從今年 9月起,用戶不需要再去科技館排隊(duì),等電話亭給小冰打電話。 小冰就有可能會(huì)主動(dòng)打給你,甚至基于用戶在其他在線平臺(tái)上跟小冰的互動(dòng),來(lái)決定何時(shí)打給用戶。 比如有用戶在微信上跟小冰抱怨心情不好,小冰可能會(huì)出于擔(dān)心,而聊天在之后,過(guò)一段時(shí)間主動(dòng)打電話給用戶,繼續(xù)安慰她。這也是全時(shí)感官的重要作用:有了這樣的升級(jí)感官原因,有了這樣的感官,人工智能可以突破平臺(tái)局限,甚至變被動(dòng)為主動(dòng),更多與人類交互。實(shí)際上,當(dāng)小冰具有了全時(shí)感官,我們開(kāi)始探索如何把全時(shí)感官、對(duì)話能力和loT融合落地。今年6月份開(kāi)始,小冰跟小米生態(tài)鏈平臺(tái)合作,在米家平臺(tái)上發(fā)布的產(chǎn)品,通過(guò)小冰的語(yǔ)音對(duì)話,可以控制米家平臺(tái)上的幾十種智能硬件。 每一次跟小冰連通,就相當(dāng)于接通一個(gè)全時(shí)感官的電話,用戶可以在溝通過(guò)程中通過(guò)小冰控制智能家居,也可以跟小冰聊天對(duì)話。我們發(fā)現(xiàn),用戶會(huì)在聊天和控制場(chǎng)景中自由切換,這樣的交互更加自然,體驗(yàn)也更好。這里給大家分享一個(gè)實(shí)例(音頻)。 一般智能控制的交互,主要是命令的形式,使得對(duì)話比較死板,而小冰情感交互能力超出預(yù)期,所以用戶覺(jué)得小冰好像真的像家里的一個(gè)人一樣存在。這也使得小冰在家庭場(chǎng)景中可以做更多的事情。舉個(gè)例子,當(dāng)小冰進(jìn)入一個(gè)家庭環(huán)境中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論