SIRI介紹PPT課件_第1頁
SIRI介紹PPT課件_第2頁
SIRI介紹PPT課件_第3頁
SIRI介紹PPT課件_第4頁
SIRI介紹PPT課件_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、.,1,SIRI,08010110 徐辰 08010124 黃健翔 08010133 何健,.,2,什么是SIRI?,語音控制軟件?,會聊天的機器?,.,3,官方視頻,.,4,SIRI的功能,設(shè)置鬧鐘,.,5,“ wake me up at 7:15am”,.,6,找咖啡廳,.,7,“l(fā)ooking away from the current location nearest caf”,.,8,路徑導航,.,9,查找旅游路線 Google map 準確無誤,.,10,播放音樂,.,11,用 Siri 隨機播放音樂 LIST 某首音樂,.,12,發(fā)短信,.,13,不再需要邊走路 (開車)邊看著手

2、機 發(fā)短信(不安全) “I will be late home”,.,14,理解語言,.,15,提醒日程 ten oclock, remind me to brush my teeth.,它令I(lǐng)PHONE 4S變成了一個智能機器人。,.,16,人工智能在SIRI中的體現(xiàn),1.執(zhí)行人所需要的操作。(打電話、發(fā)短信、調(diào)用應(yīng)用程序) 2.理解并與人互動交流。 3.學習語音語調(diào)。 4.判斷能力。(通過用戶一些毫無語法的字詞(例如DRUNK)判斷用戶的狀態(tài):醉酒。甚至給出解決方案:叫出租車),.,17,Siri對話 測試,.,18,Siri的整體架構(gòu),.,19,整體架構(gòu),.,20,Siri是一個功能繁復(fù)

3、的綜合AI框架,圖1展示了其包含的數(shù)據(jù)、模型以及計算模塊,為了在整體上更易于理解整個框架,可以將Siri里包含的眾多數(shù)據(jù)、模型和計算模塊劃分為輸入系統(tǒng)、活躍本體、執(zhí)行系統(tǒng)、服務(wù)系統(tǒng)和輸出系統(tǒng)五個子系統(tǒng)。,.,21,其在解析用戶輸入時候遵循一定的執(zhí)行順序,以此來理解用戶的真正意圖并提供有用服務(wù)。 Siri的資源主要分為資源類和計算類兩大類。 其中屬于資源類的包括:領(lǐng)域模型; 詞匯表數(shù)據(jù)庫; 短期記憶系統(tǒng); 長期記憶系統(tǒng); 領(lǐng)域本體數(shù)據(jù)庫; 對話流模型; 服務(wù)模型; 服務(wù)能力模型; 外部服務(wù); 屬于計算資源的包括:語音識別系統(tǒng); 語言模式識別器; 語言解釋器; 對話流控制器; 任務(wù)控制器; 服務(wù)集

4、成模塊; 語音生成系統(tǒng);,.,22,Siri的輸入系統(tǒng)支持多模態(tài)輸入,即不僅僅支持眾所周知的語音識別,也允許用戶進行文本輸入、GUI界面操作以及事件觸發(fā)等。 除了支持多模態(tài)輸入外,Siri輸入系統(tǒng)一方面可以利用語言解釋器對早期輸入進行歧義消除,另外一方面還可以對用戶輸入進行有意識的引導,將用戶輸入盡量映射到Siri能夠提供的服務(wù)上來。這樣對于用戶和Siri來說才可相得益彰,Siri 可體現(xiàn)其價值,用戶可獲得幫助。,.,23,.,24,“活躍本體”是Siri中相當重要的一個概念,“活躍本體”可以被理解為Siri整個系統(tǒng)執(zhí)行的一個具體執(zhí)行環(huán)境和場所,執(zhí)行系統(tǒng)調(diào)用所有系統(tǒng)數(shù)據(jù)、詞典、模型和程序,在“

5、活動本體”內(nèi)對用戶輸入進行解析,并將文本信息在這里解析為用戶真正的意圖,然后根據(jù)意圖來調(diào)用外部的服務(wù)。,.,25,在程序執(zhí)行時,“活躍本體”內(nèi)放入的數(shù)據(jù)和模型包括:領(lǐng)域模型,用戶個性化信息,語言模式、詞匯表和領(lǐng)域?qū)嶓w數(shù)據(jù)庫等。 領(lǐng)域模型包括某個垂直領(lǐng)域內(nèi)的概念,實體,關(guān)系,屬性和實例的內(nèi)部表示,這其實就是Semantic Web這個研究領(lǐng)域常說的ontology。Siri包含很多垂直領(lǐng)域的領(lǐng)域模型。 “詞匯表”用于維護Siri中的表層單詞到“領(lǐng)域模型”或者“任務(wù)模型”中定義的的概念、關(guān)系、屬性的映射關(guān)系;被用來引導用戶輸入、自然語言解析和生成輸出結(jié)果。Siri在個性化方面做得也非常出色。在和用

6、戶溝通過程中,如果一臺機器能夠叫出你的名字,并且知曉你的個人愛好,用戶體驗無疑是非常優(yōu)異的。,.,26,從具體技術(shù)手段上,Siri是通過在內(nèi)部保持兩個記憶系統(tǒng):長期記憶系統(tǒng)和短期記憶系統(tǒng)來實現(xiàn)能夠個性化的和用戶交流的。長期記憶系統(tǒng)存儲了用戶的名稱、居住地址以及歷史偏好信息,短期記憶系統(tǒng)則將最近一段時期內(nèi)Siri和用戶的對話記錄及GUI點選記錄等登記下來。利用這兩個記憶系統(tǒng),Siri可以在理解用戶需求的時候幫助澄清用戶的真正意圖是什么。語言模式識別系統(tǒng)是對用戶輸入的表層,語法層,習慣用語和成語等進行模式匹配的模塊。匹配模式的代碼在Siri內(nèi)部采用正則表達式或者狀態(tài)機等方式實現(xiàn);在Siri識別出指

7、定的語言模式后,可以幫助判斷用戶輸入所述的任務(wù)類型。,.,27,.,28,執(zhí)行系統(tǒng)是Siri系統(tǒng)最有技術(shù)含量的部分,前文有述:“活動本體”是對根據(jù)用戶的輸入信息,將各種詞典資源,模型資源實例化進行具體加工的場所,而真正的加工過程是由執(zhí)行系統(tǒng)進行的。 執(zhí)行系統(tǒng)不僅將用戶原始的文本輸入解析為內(nèi)部的語義表示,而且要在用戶和Siri交互過程中(多輪會話)決定下一句Siri應(yīng)該說什么內(nèi)容,可見其重要性。,.,29,執(zhí)行系統(tǒng)具體又可以細分為三個主要部件:語言解釋器、會話流控制器和任務(wù)控制器。它們之間分工有異同時又密切合作,一起發(fā)揮作用。 語言解釋器將用戶輸入字符串流解析為語義表示作為輸出,而這個語義表示又

8、會作為會話流控制器的輸入,會話流控制器根據(jù)當前語句所表達的含義,協(xié)同任務(wù)控制器一起決定Siri下一步應(yīng)該做什么或者說什么。 語言解釋器是Siri中最重要的自然語言處理工具,主要用來對文本形式的用戶輸入進行解析,將其映射為概念本體層級的信息表示,即理解語言真正的含義,除此外,語言解釋器也被用在輸入系統(tǒng)中對用戶輸入提示或者輸入補全進行分析,而且對語音識別結(jié)果后處理也有很大幫助。,.,30,對話流控制系統(tǒng)是在將用戶的文本表示解析為內(nèi)部用戶意圖之后發(fā)揮作用;即語言解釋器將解析結(jié)果傳遞給對話流控制器,是語言解釋器的后續(xù)處理步驟;而“任務(wù)控制器”則被“對話流控制器”調(diào)用,共同確定Siri下一步應(yīng)該做什么或

9、者說什么?!叭蝿?wù)流控制器”的主要功能是界定完成一件任務(wù)或者解決某個問題由那些步驟構(gòu)成,這些步驟之間是何種關(guān)系。,.,31,“任務(wù)流控制器”和“對話流控制器”很容易混淆,不容易區(qū)分其功能差異。一般來說,“對話流控制器”主要用來決定Siri接下來要說的內(nèi)容或者要做的事件,主要是根據(jù)領(lǐng)域判斷誘導用戶提供所需的參數(shù);而“任務(wù)流控制器”更側(cè)重于事務(wù)本身的定義,比如一個任務(wù)可以切分成若干子任務(wù),是否有時序依賴關(guān)系。 任務(wù)流控制在Siri中也起到舉足輕重的地位,Siri的任務(wù)模型是由一些領(lǐng)域無關(guān)的通用任務(wù)模型和若干領(lǐng)域相關(guān)任務(wù)構(gòu)成。通用任務(wù)是完成一件任務(wù)的抽象表述,與具體領(lǐng)域無關(guān),因為其通用性,也可以應(yīng)用在

10、各個具體應(yīng)用領(lǐng)域。,.,32,.,33,Siri本質(zhì)上是服務(wù)導向的用戶意圖識別系統(tǒng),無論是對話流控制也好,任務(wù)流控制也好,其根本目的還是為了能夠?qū)⒂脩粢龑У絊iri能夠提供的某項具體服務(wù),以此達到幫助用戶完成某些任務(wù)或者解決一些問題的目的。 目前Siri可以提供多種領(lǐng)域的服務(wù),這里面涉及到服務(wù)管理的問題,即如何進行管理才能使得系統(tǒng)可用性高,可維護性強等。具體而言,Siri中有三個子部分涉及到服務(wù)功能:服務(wù)模塊,服務(wù)能力模型和多服務(wù)集成模塊。 其中,服務(wù)模塊記錄了可供Siri使用的各種服務(wù)的詳細信息,服務(wù)能力模塊則存儲了哪些服務(wù)可以提供什么類型的服務(wù)等映射關(guān)系,服務(wù)系統(tǒng)中最重要的是服務(wù)集成模塊,

11、調(diào)用另外兩個服務(wù)模塊提供給用戶最終服務(wù)內(nèi)容。,.,34,因為往往完成用戶某項需求要調(diào)用分布在各處的多項服務(wù),每項服務(wù)能夠提供部分信息,而且服務(wù)之間有些順序需要遵守,所以如何調(diào)用所需的多種功能,調(diào)用順序如何確定以及如何根據(jù)部分信息拼合成最終用戶所需服務(wù)是其核心內(nèi)容。Siri的輸出系統(tǒng)會將最終提供的服務(wù)結(jié)果或者在會話過程的中間內(nèi)容展示給用戶。其不僅支持語音、電郵、文本等多模態(tài)輸出,還支持界面訂制等個性化功能。從上述技術(shù)描述看,Siri是蘋果公司新推出的一種新型人工智能框架,不僅在商業(yè)宣傳上令人耳目一新,在其技術(shù)架構(gòu)和具體實現(xiàn)上也頗具新意。盡管Siri最初是依附在iPhone平臺,但是很顯然,這種依

12、附性并不強,可以預(yù)見,這套系統(tǒng)會不斷擴展到更多種硬件類型的智能控制,比如車載控制系統(tǒng),智能電視控制系統(tǒng)等等,.,35,中文SIRI(feel siri),.,36,玩轉(zhuǎn)Siri - 讓Siri用中文發(fā)動汽車引擎,F(xiàn)eelSiri出品,.,37,中文Siri,路在何方呢?,第一,語音助手能夠解決什么真正的用戶需求? 大多數(shù)人提到Siri,第一印象就是調(diào)戲Siri,但如果一個產(chǎn)品只是用來“調(diào)戲”,那這個產(chǎn)品充其量只能算是玩具,而不是人們所必須使用的語音助手。所以,siri的定位應(yīng)該是解決用戶的真正需求和痛處。 可惜,目前Siri的模仿者大多視這個需求而不見,而是關(guān)注如何才能更好的“調(diào)戲”用戶。相信

13、只有真正做到解決用戶需求的產(chǎn)品,才能夠獲得用戶長久的喜愛,希望國內(nèi)的開發(fā)者能夠注意這個問題。 Siri想要實用,就必須調(diào)用開放數(shù)據(jù)的平臺,而中國卻沒有Wolfram Alpha這種引擎,所以中文Siri想要真正解決用戶需求,只能一家一家去談,比如找大眾點評、百科等。這是創(chuàng)業(yè)公司做不來的,而大公司(百度、騰訊等)來做,可能又存在利益沖突。,.,38,第二,如何克服后臺海量數(shù)據(jù)學習技術(shù)門檻? 雖然李開復(fù)老師說全球只有一個公司有這個技術(shù),而我們也不知道這個公司具體是指哪一個。但據(jù)我了解,在語音識別方面,科大訊飛是做的不錯的,訊飛語音輸入法的識別率已經(jīng)達到85%以上。而且他們的語音識別是基于云計算實現(xiàn)

14、的,應(yīng)該是具備數(shù)據(jù)學習能力的。 除了語音識別,還有一個難題是語義理解,這也是中文Siri的核心難題。讓機器真正理解人的語言,這是一件很困難的事。就目前來看,蘋果在英文方面都沒有很好解決,不然也不會有用戶要告蘋果虛假宣傳了。但蘋果可以依靠“調(diào)戲”用戶獲得大量語料,然后學習后提升可用度。 可見,語義理解是一個需要不斷優(yōu)化的過程,每一個用戶的參與都將對智能語義理解的完善做出奉獻。,.,39,第三,應(yīng)用誰開發(fā)? Siri的前提是要有語音識別功能,這個功能的門檻之高,已經(jīng)讓很多開發(fā)者望而卻步。幸好,國內(nèi)有科大訊飛的語音云開放平臺,為普通開發(fā)者提供了語音識別和語音合成的功能,讓中文Siri的開發(fā)有了基礎(chǔ),智能360和Airi等產(chǎn)品就是基于訊飛語音云平臺實現(xiàn)的。 作為普通開發(fā)者,使用語音云平臺研發(fā)產(chǎn)品是很正常的。但如果真的想做成siri這種大眾性應(yīng)用,核心技術(shù)卻掌握在別人手里,這是致命的問題。所以,真正能夠做出中文siri應(yīng)用的,應(yīng)該還是科大訊飛這種掌握核心技術(shù)的公司。,.,40,第四,語音服務(wù)器的成本太

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論