2024高通AI白皮書-讓AI觸手可及-高通-78正式版_第1頁
2024高通AI白皮書-讓AI觸手可及-高通-78正式版_第2頁
2024高通AI白皮書-讓AI觸手可及-高通-78正式版_第3頁
2024高通AI白皮書-讓AI觸手可及-高通-78正式版_第4頁
2024高通AI白皮書-讓AI觸手可及-高通-78正式版_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

觸手可及AI高通

白皮書AIQualcommAIWhitePaper高通

白皮書AIQualcommAIWhitePaper序言PREAMBLE攜手合作

擁抱AI終端創(chuàng)新的黃金時代高通公司中國區(qū)董事長孟樸一年前,高通公司發(fā)布了《混合AI是AI的未來》白皮書,率先向業(yè)界分享了對人工智能(AI)技術(shù)發(fā)展趨勢的洞察。那時,ChatGPT等生成式AI初露鋒芒,這一現(xiàn)象級的應(yīng)用引發(fā)了產(chǎn)業(yè)界對這場AI技術(shù)革命的廣泛探討和巨大期待。人們開始意識到,生成式AI將為各行各業(yè)生產(chǎn)力的提升帶來質(zhì)變。從那時起,大模型技術(shù)日新月異,商業(yè)化應(yīng)用的步伐不斷加快。當(dāng)每個人都希望無時無刻地?fù)碛小皞€人大模型”時,生成式AI走向終端,成為了一個不可逆轉(zhuǎn)的趨勢。智能終端的新應(yīng)用、新形態(tài)、新場景,正在為AI技術(shù)的普及提供廣闊的空間,AI終端創(chuàng)新的黃金時代已經(jīng)到來。從云到端:智能終端迎來新增長周

期,讓AI真正觸手可及當(dāng)生成式AI展現(xiàn)出強大的能力和前景,我們也認(rèn)識到,AI技術(shù)的真正價值在于其普惠性——要實現(xiàn)AI人人可享、人人可用,需要讓AI技術(shù)更加貼近用戶,在人們觸手可及的終端上運行。由此,AI的計算重心正在從云端向終端遷移。這是由市場需求、技術(shù)趨勢和用戶體驗共同驅(qū)動的結(jié)果。從主機到智能手機、個人電腦(PC)等終端,計算能力的下沉使得這些終端也能夠進(jìn)行AI加速計算。這種分布式計算平臺的運行,不僅提高了計算效率,也加速了AI在終端側(cè)的演進(jìn)。與此同時,AI能夠本地運行,并根據(jù)用戶需求與云端交互,人機交互將變得更自然、更即時、更加個性化,隱私性也更有保障。在這個過程中,5G作為關(guān)鍵的連接“底座”,為AI在云端、邊緣云和終端側(cè)協(xié)同奠定了堅實的基礎(chǔ)。預(yù)計到2025年底,全球5G連接規(guī)模將達(dá)到25億。這正是“5G+AI”協(xié)同發(fā)展所帶來的令人興奮的變革——它改1變了用戶體驗的定義,豐富了千行百業(yè)的智能連接用例,也推動了新一輪終端創(chuàng)新的浪潮。在高通看來,這也正是生成式AI的革新意義——智能終端讓AI成為無處不在的個人助理,推動終端與云端的融合,為智能手機帶來新的互動方式,讓汽車成為全新的運算空間,為下一代PC帶來強大的AI能力,智能終端市場迎來了新的增長動力。1GSMI、GTI、中移智庫:5G新技術(shù)創(chuàng)造新價值智能手機、PC、智能網(wǎng)聯(lián)汽車位于AI終端創(chuàng)新的最前沿。其中,智能手機市場規(guī)模龐大,年出貨量高達(dá)十幾億臺。目前

,眾多手機廠商積極推廣生成式AI應(yīng)用,使得智能手機有望成為生成式AI發(fā)展最快的領(lǐng)域之一。據(jù)預(yù)測

,生成式AI智能手機出貨量將在22023到

2027年迅速增長,預(yù)計2024年出貨量占比達(dá)到

11%,到2027年將達(dá)到5.5億部,占比43%,年均復(fù)合增長率為49%。從“百?!钡健鞍俣恕保鹤尭咝阅艿腁I處理成為可能,賦能終端側(cè)AI規(guī)?;瘮U展AI應(yīng)用場景不斷拓展,各類算法模型日趨多樣化和復(fù)雜,對底層算力的需求也與日俱增。如何將“大模型”高效裝載到“小設(shè)備”,滿足多樣化的生成式

AI用例

?——這有賴于終端算力的革新升級。你的智能手機將成為個人AI助理的載體,幫你完成信息查找、場景識別、圖像處理等各種任務(wù)。然而,這些任務(wù)對計算資源和處理能力的要求不盡相同。這就需要從以通用計算為核心的計算架構(gòu),向更加高性能的異構(gòu)AI計算架構(gòu)升級,讓CPU、GPU和NPU等不同的計算單元“各司其職”。只有協(xié)同使用這些計算單元,異構(gòu)計算才能在應(yīng)用性能、能效和電池續(xù)航上實現(xiàn)最優(yōu)化,讓AI助理如虎添翼,賦能增強的生成式AI體驗。作為

AI前沿科技的開拓者和探索者,我們看到,終端側(cè)AI規(guī)模化擴展正在點燃產(chǎn)業(yè)界的熱情和信心,推動智能終端軟硬件和生態(tài)層面的創(chuàng)新。我們也倍感自豪,高通能夠成為推動這一進(jìn)程的重要力量。今年3月,我們發(fā)布了《通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI》白皮書,分享了高通在異構(gòu)計算架構(gòu)和NPU研究方面的創(chuàng)新成果。事實上,早在2007年,也就是生成式AI進(jìn)入大眾視野的15年前,高通就開始了對NPU的研究

。多年來,高通致力于將高性能低功耗的AI計算能力帶入終端設(shè)備,打造了專為AI定制設(shè)計的全新計算架構(gòu)。通過異構(gòu)計算AI引擎,我們將性能卓越的CPU、NPU和GPU進(jìn)行組合,為行業(yè)提供了可行的解決方案,支持生態(tài)系統(tǒng)在跨多品類終端上開發(fā)并實現(xiàn)生成式AI用例、體驗和領(lǐng)先產(chǎn)品,讓智能計算無處不在

。從共享機遇到共建生態(tài):共創(chuàng)AI終端創(chuàng)新的黃金時代終端側(cè)AI規(guī)模化擴展的發(fā)展浪潮,為大模型服務(wù)商、終端廠商、算力提供商、應(yīng)用開發(fā)者等產(chǎn)業(yè)鏈各方,帶來了前所未有的發(fā)展機遇

。據(jù)預(yù)測

,對端側(cè)AI能力的需求可能會引3發(fā)新一輪的換機熱潮,并有助于提高設(shè)備的平均銷售價格(ASP),AI能力將成為手機廠商推進(jìn)高端化的有效發(fā)力點。小米、榮耀、OPPO、三星等品牌均已推出支持豐富生成式

AI應(yīng)用的旗艦機型

。在PC領(lǐng)域,預(yù)計到

2027年

,超過

60%出貨的PC將是AIPC。4?Counterpoint:生成式AI智能手機出貨量將大漲,2027年占比達(dá)43%?Canalys:洞悉中國手機市場的AI趨勢與潛力?Canalys:Canalys報告摘要:AIPC的現(xiàn)在和未來面對AI終端產(chǎn)業(yè)機遇,我們始終相信,要實現(xiàn)讓智能計算無處不在、AI觸手可及,需要產(chǎn)業(yè)鏈上下游的通力合作,需要包括中國在內(nèi)的全球生態(tài)系統(tǒng)的創(chuàng)新與協(xié)作。這將加速AI技術(shù)在各領(lǐng)域的普及與應(yīng)用,為形成新質(zhì)生產(chǎn)力蓄勢賦能。高通的AI領(lǐng)先優(yōu)勢得益于與業(yè)界的深度合作。無論是高通的異構(gòu)計算能力,還是可擴展的AI軟件工具等,都需要與客戶的終端深度結(jié)合才能實現(xiàn)。我們也很高興地看到,高通的AI解決方案和驍龍平臺正在成為推動終端側(cè)AI體驗的關(guān)鍵引擎——手機廠商基于第三代驍龍8移動平臺,為消費者打造突破性的AI體驗;PC廠商通過驍龍X系列平臺產(chǎn)品組合,為企業(yè)用戶和消費者帶來強大生產(chǎn)力、豐富創(chuàng)造力和沉浸式娛樂體驗;汽車廠商也基于驍龍數(shù)字底盤,將智能網(wǎng)聯(lián)汽車上的生成式AI應(yīng)用與云端AI相結(jié)合,為用戶創(chuàng)造更好的駕乘體驗。目前,高通AI引擎賦能的終端產(chǎn)品出貨量已經(jīng)超過了20億。與此同時,為了與生態(tài)伙伴共建開放生態(tài),高通推出了AIHub,讓開發(fā)者充分發(fā)揮前沿技術(shù)的潛力,共同推進(jìn)終端側(cè)AI的規(guī)?;逃眠M(jìn)程。我們希望能夠打造一個橫向生態(tài)系統(tǒng),讓所有模型在終端上可以和諧共生,帶來跨多個生態(tài)系統(tǒng)的全新AI體驗。在終端側(cè)AI規(guī)?;瘮U展的機遇面前,我們倍感振奮,將一如既往地通過技術(shù)創(chuàng)新與合作共贏,擔(dān)當(dāng)推動終端側(cè)AI發(fā)展的重要力量。期望各界能夠從我們最新結(jié)集發(fā)布的《讓AI觸手可及——高通AI白皮書》中,更加系統(tǒng)性地了解高通在AI技術(shù)演進(jìn)和應(yīng)用落地方面的見解和洞察。這不僅是高通在AI領(lǐng)域持續(xù)探索、不斷突破的有力見證,也凝聚了高通與行業(yè)伙伴共同智慧的結(jié)晶。讓我們攜手共同邁向激動人心的AI新時代,一同探索AI終端創(chuàng)新的無限可能,見證AI科技變革千行百業(yè)、成就人類美好生活的壯闊進(jìn)程。2024年世界移動通信大會(MWC)期間,高通憑借領(lǐng)先的高通連續(xù)2年入圍全球移動大獎AI技術(shù)創(chuàng)新,榮獲全球移動大獎(GLOMO獎)的“最佳人工智能創(chuàng)新獎”,專為生成式AI而生的移動平臺第三代驍龍85榮獲“設(shè)備創(chuàng)新突破獎”,賦能智能手機體驗的全面突破,6讓智能計算無處不在。全球移動大獎(GLOMO獎)是全球數(shù)字智能領(lǐng)域的最高2024設(shè)備創(chuàng)新突破獎2024最佳人工智能創(chuàng)新獎獎項,表彰推動移動行業(yè)進(jìn)步的巨擘級創(chuàng)新。第三代驍龍高通人工智能引擎78獎項名稱BestAIInnovation,請以英文為準(zhǔn)獎項信息源自官方介紹,/mobile-awards5獎項名稱Breakthroughdeviceinnovation,請以英文為準(zhǔn)67Tableofcontents第一部分PARTONE通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI1.摘要02032.處理器集成于SoC中的諸多優(yōu)勢3.生成式AI需要多樣化的處理器040608114.NPU入門5.高通NPU:以低功耗實現(xiàn)持久穩(wěn)定的高性能AI6.異構(gòu)計算:利用全部處理器支持生成式AI7.高通AI引擎:面向生成式AI的業(yè)界領(lǐng)先異構(gòu)計算147.1高通AI引擎中的處理器1415167.2高通AI異構(gòu)計算的系統(tǒng)級解決方案7.3案例研究:使用異構(gòu)計算的虛擬化身AI個人助手8.驍龍平臺領(lǐng)先的AI性能188.1第三代驍龍8的領(lǐng)先智能手機上AI性能18198.2驍龍XElite的領(lǐng)先PC上AI性能9.通過高通軟件棧訪問AI處理器202310.總結(jié)Tableofcontents第二部分PARTTWO終端側(cè)AI和混合AI開啟生成式AI的未來1.摘要262.生成式

AI簡

介和當(dāng)前趨勢273.混合AI對生成式

AI規(guī)?;瘮U展至關(guān)重要303.13.2什么是混合AI?3.2.1成本3030303232323333333537混合AI的優(yōu)勢3.2.2能耗3.2.3可靠性、性能和時延3.2.4隱私和安全3.2.5個性化3.3AI工作負(fù)載的分布式處理機制3.3.1以終端為中心的混合AI3.3.2基于終端感知的混合AI3.3.3終端與云端協(xié)同處理的混合AI4.終端側(cè)AI的演進(jìn)與生成式AI的需求密切相關(guān)404.1終端側(cè)處理能夠支持多樣化的生成式AI模型425.跨終端品類的生成式

AI關(guān)鍵用例435.15.25.35.45.5智能手機:搜索和數(shù)字助手4343444649筆記本電腦和PC:生產(chǎn)力汽車:數(shù)字助手和自動駕駛XR:3D內(nèi)容創(chuàng)作和沉浸式體驗物聯(lián)網(wǎng):運營效率和客戶支持6.總結(jié)50第三部分PARTTHREE高通在推動混合AI規(guī)?;瘮U展方面獨具優(yōu)勢1.摘要522.高通技術(shù)公司是終端側(cè)AI的領(lǐng)導(dǎo)者532.1持續(xù)創(chuàng)新542.1.1我們AI技術(shù)的發(fā)展歷程543.我們在終端側(cè)生成式

AI領(lǐng)域的領(lǐng)導(dǎo)力553.1突破終端側(cè)和混合AI邊界55563.2負(fù)責(zé)任的AI4.卓越的終端側(cè)

AI技術(shù)和全棧優(yōu)化574.1算法和模型開發(fā)58586262634.2軟件和模型效率4.2.1量化4.2.2編譯4.3硬件加速5.無與倫比的全球邊緣側(cè)布局和規(guī)模665.15.25.35.45.5手機6767676868汽車PC和平板電腦物聯(lián)網(wǎng)XR6.總結(jié)68生成式

時代AI需要何種算力?高通AI白皮書

第一部分通過NPU和異構(gòu)計算開啟終端側(cè)生成式AIUnlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing第一部分PARTONE通過NPU和異構(gòu)計算開啟終端側(cè)生成式AIUnlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing摘要1.生成式AI變革已經(jīng)到來。

隨著生成式AI用例需求在有著多樣化要求和計算需求的垂直領(lǐng)域不斷增加,我們顯然需要專為AI定制設(shè)計的全新計算架構(gòu)。這首先需要

AI全

設(shè)

經(jīng)

網(wǎng)

絡(luò)

器(NPU),

構(gòu)

理器組合,比如中央處理器(CPU)和圖形處理器(GPU)。通過結(jié)合NPU使用合適的

器,異

構(gòu)

現(xiàn)

應(yīng)

能、能

續(xù)

航,賦

的生成式AI體驗。NPU專為實現(xiàn)低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發(fā)展不斷演進(jìn)。優(yōu)秀的NPU設(shè)計能夠提供正確的設(shè)計選擇,與AI行業(yè)方向保持高度一致。高通正在助力讓智能計算無處不在。業(yè)界領(lǐng)先的高通

HexagonNPU面向以低功?耗實現(xiàn)持續(xù)穩(wěn)定的高性能AI推理而設(shè)計。高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計和快速創(chuàng)新。通過定制設(shè)計NPU以及控制指令集架構(gòu)(ISA),

高通能夠快速進(jìn)行設(shè)計演進(jìn)和擴展,以解決瓶頸問題并優(yōu)化性能。HexagonNPU是高通業(yè)界領(lǐng)先的異構(gòu)計算架構(gòu)——高通AI引擎中的關(guān)鍵處理器,高通AI引擎還包括高通

AdrenoGPU、高

Kryo或

高通

OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng)。???這

現(xiàn)

協(xié)

設(shè)

,能

側(cè)

AI應(yīng)

。我們在AI基準(zhǔn)測試和實際生成式AI應(yīng)用方面的行業(yè)領(lǐng)先性能就是例證。我

數(shù)

設(shè)

現(xiàn)

便

發(fā)?和部署,賦能開發(fā)者。利用高通AI軟件棧(QualcommAIStack),開發(fā)者可在高通硬

創(chuàng)

、優(yōu)化和部署AI應(yīng)用,一

現(xiàn)

產(chǎn)

細(xì)

領(lǐng)

采用高通芯片組解決方案進(jìn)行部署。高通技術(shù)公司正在賦能終端側(cè)生成式AI的規(guī)?;瘮U展。02處理器集成于SoC中的諸多優(yōu)勢2.在不斷增長的用戶需求、全新應(yīng)用和終端品類以及技術(shù)進(jìn)步的驅(qū)動下,計算架構(gòu)正在不斷演進(jìn)。最初,中央處理器(CPU)就能夠完成大部分處理,但隨著計算需求增長,對全新處理器和加速器的需求出現(xiàn)。例如,早期智能手機系統(tǒng)由CPU和環(huán)繞CPU分布的分立芯片組成,用于2D圖形、音頻、圖像信號處理、蜂窩調(diào)制解調(diào)器和GPS等處理。隨著時間推移,這些芯片的功能已經(jīng)集成到稱為系統(tǒng)級芯片(SoC)的單個芯片體(DIE)中。例如,現(xiàn)代智能手機、PC和汽車SoC已集成多種處理器,如中央處理器(CPU)、

圖形處理器(GPU)和神經(jīng)網(wǎng)絡(luò)處理器(NPU)。芯片設(shè)計上的這種集成具有諸多優(yōu)勢,包括改善峰值性能、能效、單位面積性能、芯片尺寸和成本。例如,在智能手機或筆記本電腦內(nèi)安裝分立的GPU或NPU會占用更多電路板空間,需要使用更多能源,從而影響工業(yè)設(shè)計和電池尺寸。此外,輸入/輸出引腳間的數(shù)據(jù)傳輸也將增多,將導(dǎo)致性能降低、能耗增加,以及采用更大電路板帶來的額外成本和更低的共享內(nèi)存效率。對于智能手機、筆記本電腦和其他需要輕巧工業(yè)設(shè)計,具有嚴(yán)格功率和散熱限制的便攜式終端,集成更為必要。傳感安全蜂窩調(diào)制解調(diào)器圖1:現(xiàn)代SoC在單個DIE中集成多個處理器以改善峰值性能、能效、單位面積性能、工業(yè)設(shè)計和成本。03第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI生成式AI需要多樣化的處理器3.談到AI,集成專用處理器并不新鮮。智能手機SoC自多年前就開始利用NPU改善日常用戶體驗,賦能出色影像和音頻,以及增強的連接和安全。不同之處在于,生成式AI用例需求在有著多樣化要求和計算需求的垂直領(lǐng)域不斷增加。這些用例可分為三類:1.按需用例由用戶觸發(fā),需要立即響應(yīng),包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉(zhuǎn)錄

/摘要和文本(電子郵件、文檔等)創(chuàng)作/摘要。這包括用戶用手機輸入文字創(chuàng)作自定義圖像、在PC上生成會議摘要,或在開車時用語音查詢最近的加油站。2.持續(xù)型用例運行時間較長,包括語音識別、游戲和視頻的超級分辨率、視頻通話的音頻/視頻處理以及實時翻譯。

這包括用戶在海外出差時使用手機作為實時對話翻譯器,以及在PC上玩游戲時逐幀運行超級分辨率。3.泛在用例在后臺持續(xù)運行,包括始終開啟的預(yù)測性AI助手、基于情境感知的AI個性化和高級文本自動填充。例如手機可以根據(jù)用戶的對話內(nèi)容自動建議與同事的會議、PC端的學(xué)習(xí)輔導(dǎo)助手則能夠根據(jù)用戶的答題情況實時調(diào)整學(xué)習(xí)資料。這些AI用例面臨兩大共同的關(guān)鍵挑戰(zhàn)。第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺的不同需求,難以滿足這些AI用例嚴(yán)苛且多樣化的計算需求。第二,這些AI用例在不斷演進(jìn),在功能完全固定的硬件上部署這些用例不切實際。因此,支持處理多樣性的異構(gòu)計算架構(gòu)能夠發(fā)揮每個處理器的優(yōu)勢,例如以AI為中心定制設(shè)計的NPU,以及CPU和GPU。每個處理器擅長不同的任務(wù):CPU擅長順序控制和即時性,GPU適合并行數(shù)據(jù)流處理,NPU擅長標(biāo)量、向量和張量數(shù)學(xué)運算,可用于核心AI工作負(fù)載。CPU和GPU是通用處理器。它們?yōu)殪`活性而設(shè)計,非常易于編程,“本職工作”是負(fù)責(zé)運行操作系統(tǒng)、游戲和其他應(yīng)用等。而這些“本職工作”同時也會隨時限制他們運行AI工作負(fù)載的可用容量。NPU專為AI打造,AI就是它的“本職工作”。NPU降低部分易編程性以實現(xiàn)更高的峰值性能、能效和面積效率,從而運行機器學(xué)習(xí)所需的大量乘法、加法和其他運算。通過使用合適的處理器,異構(gòu)計算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,賦能全新增強的生成式AI體驗。04第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI4.NPU入門NPU專為實現(xiàn)以低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發(fā)展不斷演進(jìn)。對整體SoC系統(tǒng)設(shè)計、內(nèi)存訪問模式和其他處理器架構(gòu)運行AI工作負(fù)載時的瓶頸進(jìn)行的分析會深刻影響NPU設(shè)計。這些AI工作負(fù)載主要包括由標(biāo)量、向量和張量數(shù)學(xué)組成的神經(jīng)網(wǎng)絡(luò)層計算,以及隨后的非線性激活函數(shù)。在2015年,早期的NPU面向音頻和語音AI用例而設(shè)計,這些用例基于簡單卷積神經(jīng)網(wǎng)絡(luò)(CNN)并且主要需要標(biāo)量和向量數(shù)學(xué)運算。從2016年開始,拍照和視頻AI用例大受歡迎,出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。有了面向張量乘法的大共享內(nèi)存配置和專用硬件,不僅能夠顯著提高性能,而且可以降低內(nèi)存帶寬占用和能耗。例如,一個NxN矩陣和另一個NxN矩陣相乘,需要讀取2N個?值并進(jìn)行2N次運算(單個乘法和加法)。在張量加速器中,每次內(nèi)存訪問的計算操作?比率為N:1,而對于標(biāo)量和向量加速器,這一比率要小得多。在2023年,大語言模型(LLM)——比如Llama2-7B,和大視覺模型(LVM)——比如StableDiffusion賦能的生成式AI使得典型模型的大小提升超過了一個數(shù)量級。除計算需求之外,還需要重點考慮內(nèi)存和系統(tǒng)設(shè)計,通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。未來預(yù)計將會出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。0620152016-202220232023后用例音頻/影像語音視頻大語言模型賦能的個人助手音頻/StableDiffusion/語音多模態(tài)生成式AI模型ControlNet硬件模型標(biāo)量Transformer支持多模態(tài)Transformer支持標(biāo)量向量張量標(biāo)量向量微切片推理張量向量AI簡單CNN100億參數(shù)100億參數(shù)以上LLM/LVMTransformer/LSTM/RNN/CNNLLM/LVM圖2:NPU隨著不斷變化的AI用例和模型持續(xù)演進(jìn),實現(xiàn)高性能低功耗。隨著AI持續(xù)快速演進(jìn),必須在性能、功耗、效率、可編程性和面積之間進(jìn)行權(quán)衡取舍。一個專用的定制化設(shè)計NPU能夠做出正確的選擇,與AI行業(yè)方向保持高度一致。07第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI高通NPU:以低功耗實現(xiàn)持久穩(wěn)定的高性能AI5.經(jīng)過多年研發(fā),高通

HexagonNPU不斷演進(jìn),能夠滿足快速變化的AI需求。2007年,首款HexagonDSP在驍龍

平臺上正式亮相

——DSP控制和標(biāo)量架構(gòu)是高通未來多代?NPU的基礎(chǔ)。2015年,驍龍820處理器正式推出,集成首個高通AI引擎,支持成像、音頻和傳感器運算。2018年,高通在驍龍

855中為HexagonNPU增加了Hexagon張量加速器。2019年,高通在驍龍865上擴展了終端側(cè)AI用例,包括AI成像、AI視頻、AI語音和始終在線的感知功能。圖3:2015年發(fā)布的驍龍820首次集成高通AI引擎。2020年,高通憑借HexagonNPU變革性的架構(gòu)更新,實現(xiàn)了重要里程碑。我們?nèi)诤蠘?biāo)量、向量和張量加速器,帶來了更佳性能和能效,同時還為加速器打造了專用大共享內(nèi)存,讓共享和遷移數(shù)據(jù)更加高效。融合AI加速器架構(gòu)為高通未來的NPU架構(gòu)奠定了堅實基礎(chǔ)。2022年,第二代驍龍8中的

HexagonNPU引入了眾多重要技術(shù)提升。專用電源傳輸軌道能夠根據(jù)工作負(fù)載動態(tài)適配電源供應(yīng)。微切片推理利用HexagonNPU的標(biāo)量加速能力,08將神經(jīng)網(wǎng)絡(luò)分割成多個能夠獨立執(zhí)行的微切片,消除了高達(dá)10余層的內(nèi)存占用,能夠最大化利用

HexagonNPU中的標(biāo)量、向量和張量加速器并降低功耗。本地4位整數(shù)(INT4)運算支持能夠提升能效和內(nèi)存帶寬效率,同時將INT4層和神經(jīng)網(wǎng)絡(luò)的張量加速吞吐量提高一倍。Transformer網(wǎng)絡(luò)加速大幅加快了應(yīng)用于生成式AI的多頭注意力機制的推理速度,在使用MobileBERT模型的特定用例中能帶來高達(dá)4.35倍的驚人AI性能提升。其他特殊硬件包括改進(jìn)的分組卷積、激活函數(shù)加速和張量加速器性能。第三代驍龍8中的HexagonNPU是高通面向生成式AI最新、也是目前最好的設(shè)計,為持續(xù)AI推理帶來98%性能提升和

40%能效提升

。它包括了跨整個NPU的微架1構(gòu)升級。微切片推理進(jìn)一步升級,以支持更高效的生成式AI處理,并降低內(nèi)存帶寬占用。此外,Hexagon張量加速器增加了獨立的電源傳輸軌道,讓需要不同標(biāo)量、向量和張量處理規(guī)模的AI模型能夠?qū)崿F(xiàn)最高性能和效率。大共享內(nèi)存的帶寬也增加了一倍?;谝陨咸嵘虸NT4硬件加速,HexagonNPU成為面向終端側(cè)生成式AI大模型推理的領(lǐng)先處理器。升級的微切片推理加速器專用電源微架構(gòu)升級峰值性能內(nèi)核高通MicroTileInferencingHardwareSegTensorScalarVectorAccelerationNetHexagonNPUTMLargeSharedMemory更大帶寬進(jìn)入2倍帶寬張量加速器更高主頻圖4:第三代驍龍8的HexagonNPU升級以低功耗實現(xiàn)領(lǐng)先的生成式AI性能。與前代平臺相比。109第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計和快速創(chuàng)新。高通的系統(tǒng)級解決方案考量每個處理器的架構(gòu)、SoC系統(tǒng)架構(gòu)和軟件基礎(chǔ)設(shè)施,以打造最佳AI解決方案。要在增加或修改硬件方面做出恰當(dāng)?shù)臋?quán)衡和決策,需要發(fā)現(xiàn)當(dāng)前和潛在的瓶頸。通過跨應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型、算法、軟件和硬件的全棧AI研究與優(yōu)化,高通能夠做到這一點。由于能夠定制設(shè)計NPU并控制指令集架構(gòu)(ISA),高通架構(gòu)師能夠快速進(jìn)行設(shè)計演進(jìn)和擴展以解決瓶頸問題。這一迭代改進(jìn)和反饋循環(huán),使我們能夠基于最新神經(jīng)網(wǎng)絡(luò)架構(gòu)持續(xù)快速增強高通NPU和高通AI軟件棧。基于高通的自主AI研究以及與廣大AI社區(qū)的合作,我們與AI模型的發(fā)展保持同步。高通具有開展基礎(chǔ)性AI研究以支持全棧終端側(cè)AI開發(fā)的獨特能力,可賦能產(chǎn)品快速上市,并圍繞終端側(cè)生成式AI等關(guān)鍵應(yīng)用優(yōu)化NPU部署。相應(yīng)地,高通NPU歷經(jīng)多代演進(jìn),利用大量技術(shù)成果消除瓶頸

。例如,第三代驍龍8的諸多NPU架構(gòu)升級能夠幫助加速生成式AI大模型。內(nèi)存帶寬是大語言模型token生成的瓶頸,這意味著其性能表現(xiàn)更受限于內(nèi)存帶寬而非處理能力。因此,我們專注于提高內(nèi)存帶寬效率。第三代驍龍8還支持業(yè)界最快的內(nèi)存配置之一

:4.8GHzLPDDR5x,支持77GB/s帶寬,能夠滿足生成式AI用例日益增長的內(nèi)存需求。從DSP架構(gòu)入手打造NPU是正確的選擇,可以改善可編程性,并能夠緊密控制用于AI處理的標(biāo)量、向量和張量運算。高通優(yōu)化標(biāo)量、向量和張量加速的設(shè)計方案結(jié)合本地共享大內(nèi)存、專用供電系統(tǒng)和其他硬件加速,讓我們的解決方案獨樹一幟。高通NPU能夠模仿最主流模型的神經(jīng)網(wǎng)絡(luò)層和運算,比如卷積、全連接層、Transformer以及主流激活函數(shù),以低功耗實現(xiàn)持續(xù)穩(wěn)定的高性能表現(xiàn)。10異構(gòu)計算:利用全部處理器支持生成式

AI6.適合終端側(cè)執(zhí)行的生成式AI模型日益復(fù)雜,參數(shù)規(guī)模也在不斷提升,從10億參數(shù)到100億,甚至700億參數(shù)。其多模態(tài)趨勢日益增強,這意味著模型能夠接受多種輸入形式——比如文本、語音或圖像,并生成多種輸出結(jié)果。此外,許

多用例

同時

運行多

模型

。例如,個人

助手

應(yīng)用

采用語音

輸入

輸出,這需要運行一個支持語音生成文本的自動語音識別(ASR)模型、一個支持文本生成文本的大語言模型、和一個作為語音輸出的文本生成語音(TTS)模型。生成式AI工作負(fù)載的復(fù)雜性、并發(fā)性和多樣性需要利用SoC中所有處理器的能力。最佳的解決方案要求:1.

跨處理器和處理器內(nèi)核擴展生成式AI處理2.

將生成式AI模型和用例映射至一個或多個處理器及內(nèi)核選擇合適的處理器取決于眾多因素,包括用例、終端類型、終端層級、開發(fā)時間、關(guān)鍵性能指標(biāo)(KPI)和開發(fā)者的技術(shù)專長。制定決策需要在眾多因素之間進(jìn)行權(quán)衡,針對不同用例的KPI目標(biāo)可能是功耗、性能、時延或可獲取性。例如,原始設(shè)備制造商(OEM)在面向跨品類和層級的多種終端開發(fā)應(yīng)用時,需要根據(jù)SoC規(guī)格、最終產(chǎn)品功能、開發(fā)難易度、成本和應(yīng)用跨終端層級的適度降級等因素,選擇運行AI模型的最佳處理器。正如前述,大多數(shù)生成式AI用例可分類為按需型、持續(xù)型或泛在型用例。按需型應(yīng)用的關(guān)鍵性能指標(biāo)是時延,因為用戶不想等待。這些應(yīng)用使用小模型時,CPU通常是正確的選擇。當(dāng)模型變大(比如數(shù)十億參數(shù))時,GPU和NPU往往更合適。電池續(xù)航和能效對于持續(xù)和泛在型用例至關(guān)重要,因此NPU是最佳選擇。另一個關(guān)鍵區(qū)別在于AI模型為內(nèi)存限制型(即性能表現(xiàn)受限于內(nèi)存帶寬),還是計算限制型(即性能表現(xiàn)受限于處理器性能)。當(dāng)前的大語言模型在生成文本時受內(nèi)存限制,11第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI因此需要關(guān)注CPU、GPU或NPU的內(nèi)存效率。對于可能受計算或內(nèi)存限制的大視覺模型,可使用GPU或NPU,但NPU可提供最佳的能效。順序控制以低功耗實現(xiàn)面向高精度格式低時延、低計算量持續(xù)穩(wěn)定的高峰值性能的井行處理持續(xù)運行的CNN和時延敏感型小模型Transformer模型圖像處理LLMLVM選擇什么處理器取決于:用例終端類型終端層級開發(fā)時間關(guān)鍵性能指標(biāo)開發(fā)者技術(shù)專長圖5:正如在工具箱中選擇合適的工具一樣,選擇合適的處理器取決于諸多因素。提供自然語音用戶界面(UI)以提高生產(chǎn)力并增強用戶體驗的個人助手預(yù)計將成為一類流行的生成式AI應(yīng)用。語音識別、大語言模型和語音模型必將以某種并行方式運行,因此理想的情況是在NPU、GPU、CPU和傳感處理器之間分布處理模型。對于PC來說,個人助手預(yù)計將始終開啟且無處不在地運行,考慮到性能和能效,應(yīng)當(dāng)盡可能在NPU上運行。12第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI高通AI引擎:面向生成式AI的業(yè)界領(lǐng)先異構(gòu)計算7.高通AI引擎包含多個硬件和軟件組件,以加速驍龍和高通平臺上的終端側(cè)

AI。在

集成硬件方面,高

AI引擎具有業(yè)界最領(lǐng)先的異構(gòu)計算架構(gòu),包括HexagonNPU、AdrenoGPU、高

Kryo或高通

OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng),所有硬件都經(jīng)過精心設(shè)計以實現(xiàn)協(xié)同工作,在終端側(cè)快速高效地運行AI應(yīng)用。高通AI引擎圖6:高通

AI引擎包括HexagonNPU、AdrenoGPU、高通

Kryo或高通

OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng)。7.1高通AI引擎中的處理器高通最新的

HexagonNPU面向生成式AI帶來了顯著提升,性能提升98%、能效提升40%,包括微架構(gòu)升級、增強的微切片推理、更低的內(nèi)存帶寬占用,以及專用電源傳輸軌道,以實現(xiàn)最優(yōu)性能和能效。這些增強特性結(jié)合INT4硬件加速,使HexagonNPU成為面向終端側(cè)AI推理的領(lǐng)先處理器。14AdrenoGPU不僅是能夠以低功耗進(jìn)行高性能圖形處理、賦能豐富用戶體驗的強大引擎,還可用于以高精度格式進(jìn)行AI并行處理,支持32位浮點(FP32)、16位浮點(FP16)和8位整數(shù)(INT8)運算。第三代驍龍8中全新升級的

AdrenoGPU實現(xiàn)了25%的能效提升,增強了AI、游戲和流媒體能力?;贏drenoGPU,Llama2-7B每秒可生成超過13個tokens。正如上一章節(jié)所述,CPU擅長時延敏感型的低計算量AI工作負(fù)載

。在驍龍

XElite?計算平臺中,高通

OryonCPU作為PC領(lǐng)域的全新CPU領(lǐng)軍者,可提供高達(dá)競品兩倍的CPU性能,達(dá)到競品峰值性能時功耗僅為競品的三分之一。始終在線的處理器對于處理面向泛在型生成式AI應(yīng)用的情境化信息至關(guān)重要。高通AI引擎集成的高通傳感器中樞是一款極其高效、始終在線的AI處理器,適用于需要全天候運行的小型神經(jīng)網(wǎng)絡(luò)和泛在型應(yīng)用,比如情境感知和傳感器處理,所需電流通常不超過1毫安(mA)。第三代驍龍8中全新升級的高通傳感器中樞相比前代性能提升3.5倍,內(nèi)存增加30%,并配備兩個下一代微型NPU,能夠?qū)崿F(xiàn)增強的AI性能

。高通傳感器中樞具備專用電源傳輸軌道,可在SoC其余部分關(guān)閉時運行,從而大幅節(jié)省電量。高通AI引擎中的所有處理器相輔相成,能夠?qū)崿F(xiàn)AI處理效率的大幅度提升。7.2高通AI異構(gòu)計算的系統(tǒng)級解決方案異構(gòu)計算涵蓋整個SoC,包括多樣化處理器、系統(tǒng)架構(gòu)和軟件三個層級,因此在異構(gòu)計算解決方案中應(yīng)用系統(tǒng)級方法至關(guān)重要。全局視角讓高通架構(gòu)師可以評估每個層級之間的關(guān)鍵約束條件、需求和依賴關(guān)系,從而針對SoC和最終產(chǎn)品用途做出恰當(dāng)?shù)倪x擇,比如如何設(shè)計共享內(nèi)存子系統(tǒng)或決定不同處理器應(yīng)支持的數(shù)據(jù)類型。高通定制設(shè)計了整個系統(tǒng),因此我們能夠做出恰當(dāng)?shù)脑O(shè)計權(quán)衡,并利用這些洞察打造更具協(xié)同性的解決方案。定制設(shè)計方法為高通解決方案帶來了差異化優(yōu)勢,我們可以為每類處理器插入全新的AI指令或硬件加速器。高通致力于推動面向異構(gòu)計算特性的架構(gòu)演進(jìn),同時保持處理器多樣性這一優(yōu)勢。如果所有處理器都采用相近的架構(gòu),那么SoC將變成同構(gòu)系統(tǒng)。15第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI相比之下,許多芯片組廠商通常選擇授權(quán)多個第三方處理器,然后拼裝在一起。這些處理器不一定能夠緊密配合,也不一定是針對相同約束條件或細(xì)分市場而設(shè)計的。高通AI引擎是我們終端側(cè)AI優(yōu)勢的核心,它在驍龍平臺和眾多高通產(chǎn)品中發(fā)揮了重要作用。高通AI引擎作為我們多年全棧AI優(yōu)化的結(jié)晶,能夠以極低功耗提供業(yè)界領(lǐng)先的終端側(cè)AI性能,支持當(dāng)前和未來的用例。搭載高通AI引擎的產(chǎn)品出貨量已超過20億,賦能了極為廣泛的終端品類,包括智能手機、XR、平板電腦、PC、安防攝像頭、機器人和汽車等。27.3案例研究:使用異構(gòu)計算的虛擬化身AI個人助手在2023驍龍峰會上,高通在搭載第三代驍龍8移動平臺的智能手機上演示了語音控制的AI個人助手,支持手機屏幕上的虛擬化身實現(xiàn)實時動畫效果。該應(yīng)用需要同時基于不同計算需求,運行眾多復(fù)雜工作負(fù)載。實現(xiàn)優(yōu)秀用戶體驗的關(guān)鍵在于充分利用SoC內(nèi)的處理器多樣性,在最匹配的處理器上運行合適的工作負(fù)載。AI助手圖7:虛擬化身AI助手包括眾多復(fù)雜工作負(fù)載。2/products/mobile/snapdragon/smartphones/mobile-ai16讓我們看看該如何分配這一用例的工作負(fù)載:1.當(dāng)用戶與AI助手交談時,語音通過OpenAI的自動語音識別(ASR)生成式AI模型Whisper轉(zhuǎn)化為文本。該模型在高通傳感器中樞上運行。2.AI助手再使用大語言模型Llama2-7B生成文本回復(fù)。該模型在NPU上運行。3.然后利用在CPU上運行的開源TTS模型將文本轉(zhuǎn)化為語音。4.與此同時,虛擬化身渲染必須與語音輸出同步,才能實現(xiàn)足夠真實的用戶交互界面。借助音頻創(chuàng)建融合變形動畫(blendshape)能夠給嘴形和面部表情帶來合適的動畫效果。這一傳統(tǒng)AI工作負(fù)載在NPU上運行。5.最終的虛擬化身渲染在GPU上進(jìn)行。以上步驟需要在整個內(nèi)存子系統(tǒng)中高效傳輸數(shù)據(jù),盡可能在芯片上保存數(shù)據(jù)。這一個人助手演示利用了高通AI引擎上的所有多樣化處理器,以高效處理生成式和傳統(tǒng)AI工作負(fù)載。ASRWhisperLlama2大語言模型語音開源TTS融合變形動畫語音生成融合變形動畫(Blendshape)虛擬化身渲染UEMetaHuamn圖8:支持虛擬化身的個人助手充分利用高通AI引擎的所有多樣化處理器。17第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI驍龍平臺領(lǐng)先的AI性能8.實現(xiàn)領(lǐng)先性能需要卓越的硬件和軟件。盡管每秒萬億次運算(TOPS)數(shù)值能夠反映硬件性能潛力,但決定硬件可訪問性和總體利用率的是軟件。AI基準(zhǔn)測試可以更好的展示性能,但最終的評估方式還是在實際應(yīng)用中,測試峰值性能、持續(xù)穩(wěn)定性能和能效。由于生成式AI基準(zhǔn)測試和應(yīng)用仍處于起步階段,以下對當(dāng)前領(lǐng)先AI指標(biāo)的分析展示了驍龍平臺的領(lǐng)先性能。8.1第三代驍龍8的領(lǐng)先智能手機上AI性能在MLCommonMLPerf推理:MobileV3.1基準(zhǔn)測試中,與其他智能手機競品相比,第三代驍龍8具有領(lǐng)先性能。例如,在生成式AI語言理解模型MobileBERT上,第三代驍龍8的表現(xiàn)比競品A高17%,比競品B高321%。在魯大師AIMarkV4.3基準(zhǔn)測3試中,第三代驍龍8的總分分別為競品B的5.7倍和競品C的7.9倍。在安兔兔AITuTu基準(zhǔn)測試中,第三代驍龍8的總分是競品B的6.3倍。智能手機

AI基準(zhǔn)測試魯大師安兔兔MLCommonMLPerf推理:MobileV3.1AIMarkV4.3AITuTu9876543210AIMarkV4.3總分AITuTu總分圖像分類物體檢測V2.0圖像分割語言理解超級分辨率(EDSR)圖像分類(MobilenetEdgeTPU)(MobileDETSSD)(MOSAIC)(MobileBERT)(MobileneEdgeTPU)第三代驍龍8競品A競品B競品C圖9:第三代驍龍8在AIMark、AITuTu和MLPerf中具有領(lǐng)先的智能手機AI性能。高通技術(shù)公司在搭載驍龍和競品B平臺的手機上運行和收集數(shù)據(jù)。競品A數(shù)據(jù)為其自身披露。318在2023年驍龍峰會上,高通演示過兩個生成式AI應(yīng)用,展示了面向大語言模型和大視覺模型通用架構(gòu)的真實應(yīng)用性能。在第三代驍龍8上,個人助手演示能夠以高達(dá)每秒20個tokens的速度運行Llama2-7B。在不損失太多精度的情況下,F(xiàn)astStableDiffusion能夠在0.6秒內(nèi)生成一張512x512分辨率的圖像。高通有著智能手機領(lǐng)域領(lǐng)先的4Llama和StableDiffusion模型指標(biāo)。8.2驍龍

XElite的領(lǐng)先PC上AI性能驍龍XElite上集成的HexagonNPU算力達(dá)到45TOPS,大幅領(lǐng)先于友商最新X86架構(gòu)芯片NPU的算力數(shù)值。在面向Windows的ULProcyonAI基準(zhǔn)測試中,與其他PC競品相比,驍龍XElite具有領(lǐng)先的性能。例如,驍龍XElite的基準(zhǔn)測試總分分別為X86架構(gòu)競品A的3.4倍和競品B的8.6倍。面向Windows的ULProcyonAI推理基準(zhǔn)測試14.0012.0010.008.006.004.002.000.00總分ResNet-50DeeplabV3MobileNetV3InceptionV4YoloV3ESRGAN驍龍XEliteX86競品AX86競品B圖10:驍龍XElite在Procyon基準(zhǔn)測試中具有領(lǐng)先的筆記本電腦AI性能。在驍龍XElite上,Llama2-7B模型能夠在高通OryonCPU上以高達(dá)每秒30個tokens的速度運行。在不損失太多精度的情況下,F(xiàn)astStableDiffusion能夠在0.9秒內(nèi)生成一張512x512分辨率的圖像。高通有著筆記本電腦領(lǐng)域領(lǐng)先的Llama和StableDiffusion模型指標(biāo)?;趯Ρ刃哉Z言-圖像預(yù)訓(xùn)練(CLIP)模型分?jǐn)?shù),用于評估準(zhǔn)確性,接近基線模型。419第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI通過高通軟件棧訪問AI處理器9.僅有優(yōu)秀的AI硬件還不夠。讓開發(fā)者能夠獲取基于異構(gòu)計算的AI加速,對于終端側(cè)AI的規(guī)?;瘮U展至關(guān)重要。高通AI軟件棧將我們的互補性AI軟件產(chǎn)品整合在統(tǒng)一的解決方案中。OEM廠商和開發(fā)者可在高通的產(chǎn)品上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,充分利用高通AI引擎的性能,讓開發(fā)者創(chuàng)建一次AI模型,即可跨不同產(chǎn)品隨時隨地進(jìn)行部署。AI框架AIruntimes高通神經(jīng)網(wǎng)絡(luò)處理SDKDirectMLTFLiteExecuTorch高通AI引擎Direct數(shù)學(xué)庫分析器和調(diào)試器編譯器編程語言虛擬平臺核心庫系統(tǒng)接口SoC、加速器驅(qū)動仿真支持圖11:高通AI軟件棧旨在幫助開發(fā)者一次編寫,即可實現(xiàn)隨時隨地運行和規(guī)模化擴展。高通AI軟件棧全面支持主流AI框架(如TensorFlow、PyTorch、ONNX和Keras)和runtime(如TensorFlowLite、TensorFlowLiteMicro、ExecuTorch和ONNXruntime),面向以上runtime的代理對象可通過高通AI引擎Direct軟件開發(fā)包(SDK)直接進(jìn)行耦合,加快開發(fā)進(jìn)程。20第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI此外,高通AI軟件棧集成用于推理的高通神經(jīng)網(wǎng)絡(luò)處理SDK,包括面向Android、Linux和

Windows的不同版本。高通開發(fā)者庫和服務(wù)支持最新編程語言、虛擬平臺和編譯器。在軟件棧更底層,我們的系統(tǒng)軟件集成了基礎(chǔ)的實時操作系統(tǒng)(RTOS)、系統(tǒng)接口和驅(qū)動程序。我們還跨不同產(chǎn)品線支持廣泛的操作系統(tǒng)(包括

Android、Windows、Linux和QNX),以及用于部署和監(jiān)控的基礎(chǔ)設(shè)施(比如

Prometheus、Kubernetes和Docker)。對于GPU的直接跨平臺訪問,我們支持OpenCL和DirectML。由于易于編程且應(yīng)用于所有平臺,CPU通常是AI編程的首選,我們的LLVM編譯器基礎(chǔ)設(shè)施優(yōu)化可實現(xiàn)加速的高效AI推理。ExecuTorchTFLiteONNXRT高通

AI引擎

DirectOpenCLGPUCPUHexagon內(nèi)核內(nèi)核內(nèi)核圖12:高通AI軟件棧支持關(guān)鍵框架和runtime。22高通專注于AI模型優(yōu)化以實現(xiàn)能效和性能提升??焖俚男⌒虯I模型如果只能提供低質(zhì)量或不準(zhǔn)確的結(jié)果,那么將失去實際用處。因此,我們采用全面而有針對性的策略,包括量化、壓縮、條件計算、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)和編譯,在不犧牲太多準(zhǔn)確度的前提下縮減AI模型,使其高效運行。即使是那些已經(jīng)面向移動終端優(yōu)化過的模型我們也會進(jìn)行這一工作。例如,量化有益于提升性能、能效、內(nèi)存帶寬和存儲空間。HexagonNPU原生支持INT4,高通AI模型增效工具包(AIMET)提供基于高通AI研究技術(shù)成果開發(fā)的量化5工具,能夠在降低位數(shù)精度的同時限制準(zhǔn)確度的損失。對于生成式AI來說,由于基于Transformer的大語言模型(比如GPT、Bloom和Llama)受到內(nèi)存的限制,在量化到8位或4位權(quán)重后往往能夠獲得大幅提升的效率優(yōu)勢。借助量化感知訓(xùn)練和/或更加深入的量化研究,許多生成式AI模型可以量化至INT4模型。事實上,INT4已成為大語言模型的趨勢,并逐漸成為范式,尤其是面向開源社區(qū)和希望在邊緣終端上運行大型參數(shù)規(guī)模模型的情況下。INT4支持將在不影響準(zhǔn)確性或性能表現(xiàn)的情況下節(jié)省更多功耗,與INT8相比實現(xiàn)高達(dá)90%的性能提升和60%的能效提升,能夠運行更高效的神經(jīng)網(wǎng)絡(luò)。使用低位整數(shù)型精度對高能效推理至關(guān)重要。總結(jié)10.利用多種處理器進(jìn)行異構(gòu)計算,對于實現(xiàn)生成式AI應(yīng)用最佳性能和能效至關(guān)重要。與競品相比,專為持久穩(wěn)定的高性能AI推理而打造的HexagonNPU具有卓越性能、能效和面積效率。高通AI引擎包括HexagonNPU、AdrenoGPU、高通Kryo或高通OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng),能夠支持按需型用例、持續(xù)型用例和泛在型用例,為生成式AI提供業(yè)界領(lǐng)先的異構(gòu)計算解決方案。通過定制設(shè)計整個系統(tǒng),高通能夠做出恰當(dāng)?shù)脑O(shè)計權(quán)衡,并利用這些洞察打造更具協(xié)同性的解決方案。我們的迭代改進(jìn)和反饋循環(huán),使高通能夠基于最新神經(jīng)網(wǎng)高通AI模型增效工具包(AIMET)是高通創(chuàng)新中心公司(QualcommInnovationCenter,Inc.)的產(chǎn)品。523第一部分Unlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI絡(luò)架構(gòu),持續(xù)快速增強高通NPU和高通AI軟件棧。我們在面向智能手機和PC的AI基

準(zhǔn)

AI應(yīng)

領(lǐng)

現(xiàn)

,是

棧AI優(yōu)化的結(jié)晶。高通AI軟件棧賦能開發(fā)者跨不同產(chǎn)品創(chuàng)建、優(yōu)化和部署AI應(yīng)用,使得高通AI引擎上的AI加速具備可獲取性和可擴展性。通過將技術(shù)領(lǐng)導(dǎo)力、定制芯片設(shè)計、全棧AI優(yōu)化和生態(tài)系統(tǒng)賦能充分結(jié)合,高通技術(shù)公司在推動終端側(cè)生成式AI開發(fā)和應(yīng)用方面獨樹一幟。該部分信息發(fā)布于:2024年3月24生成式AI普及的關(guān)鍵是什么?高通AI白皮書

第二部分終端側(cè)AI和混合AI開啟生成式AI的未來UnlockingthegenerativeAIfuturewithon-deviceandhybridAI第二部分PARTTWO終端側(cè)AI和混合AI開啟生成式AI的未來UnlockingthegenerativeAIfuturewithon-deviceandhybridAI摘要1.混合AI是AI的未來。隨著生成式AI正以前所未有的速度發(fā)展

以及計算需求的日益1增長

,AI處理必須分布在云端和終端進(jìn)行,才能實現(xiàn)AI的規(guī)?;瘮U展并發(fā)揮其最2大潛能

——正如傳統(tǒng)計算從大型主機和瘦客戶端演變?yōu)楫?dāng)前云端和邊緣終端相結(jié)合的模式。與僅在云端進(jìn)行處理不同,混合AI架構(gòu)在云端和邊緣終端之間分配并協(xié)調(diào)AI工作負(fù)載。云端和邊緣終端如智能手機、汽車、個人電腦和物聯(lián)網(wǎng)終端協(xié)同工作,能夠?qū)崿F(xiàn)更強大、更高效且高度優(yōu)化的AI。節(jié)省成本是主要推動因素。舉例來說,據(jù)估計,每一次基于生成式AI的網(wǎng)絡(luò)搜索查詢(query),其成本是傳統(tǒng)搜索的

10倍

,而這只是眾多生成式AI的應(yīng)用之一。混合3AI將支持生成式AI開發(fā)者和提供商利用邊緣終端的計算能力降低成本?;旌螦I架構(gòu)或終端側(cè)AI能夠在全球范圍帶來高性能、個性化、隱私和安全等優(yōu)勢?;旌螦I架構(gòu)可以根據(jù)模型和查詢需求的復(fù)雜度等因素,選擇不同方式在云端和終端側(cè)之間分配處理負(fù)載。例如,如果模型大小、提示(prompt)和生成長度小于某個限定值,并且能夠提供可接受的精確度,推理即可完全在終端側(cè)進(jìn)行。如果是更復(fù)雜的任務(wù),模型則可以跨云端和終端運行?;旌螦I還能支持模型在終端側(cè)和云端同時運行,也就是在終端側(cè)運行輕量版模型時,在云端并行處理完整模型的多個標(biāo)記(token),并在需要時更正終端側(cè)的處理結(jié)果。隨著強大的生成式AI模型不斷縮小,以及終端側(cè)處理能力的持續(xù)提升,混合AI的潛力將會進(jìn)一步增長。參數(shù)超過10億的AI模型已經(jīng)能夠在手機上運行,且性能和精確度水平達(dá)到與云端相似的水平。不久的將來,擁有100億或更高參數(shù)的模型將能夠在終端上運行?;旌螦I方式適用于幾乎所有生成式AI應(yīng)用和終端領(lǐng)域,包括手機、筆記本電腦、XR頭顯、汽車和物聯(lián)網(wǎng)。這一方式對推動生成式AI規(guī)模化擴展,滿足全球企業(yè)與消費者需求至關(guān)重要。123/chart/29174/time-to-one-million-users//2023/02/05/generative-ai-drives-explosion-compute-looming-need-sustainable-ai//technology/tech-giants-ai-like-bing-bard-poses-billion-dollar-search-problem-2023-02-22/26生成式AI簡介和當(dāng)前趨勢2.ChatGPT激發(fā)了人們的想象力和好奇心。自2022年11月推出后,短短兩個月內(nèi)其月活用戶便

達(dá)到1億,成為有史以來增長速度最快的消費類應(yīng)用和第一個殺手級的生成式AI應(yīng)用。隨著創(chuàng)新節(jié)奏的加快,想要緊跟生成式AI的發(fā)展速度,難度越來越大。大型聚合網(wǎng)站的數(shù)據(jù)顯示

,目前

3,000個

AI應(yīng)

用和

。AI正

發(fā)

,就

、互聯(lián)網(wǎng)和智能手機的問世,而4這僅僅是一個開始。ChatGPT和

StableDiffusion等

生成式

AI模型能夠基于簡單的提示創(chuàng)作出全新的原

創(chuàng)

內(nèi)

容,如文本、圖像、視頻、音頻或其他數(shù)據(jù)。這類模型正在顛覆傳統(tǒng)的搜索、內(nèi)容創(chuàng)作和推薦系統(tǒng)的方法——通過從普通產(chǎn)業(yè)到創(chuàng)意產(chǎn)業(yè)的跨行業(yè)用例,在實用性、生產(chǎn)力和娛樂性方面帶來顯著增強。建筑師和藝術(shù)家可以探索新思路,工程師可以更高效地編寫程序。幾乎所有與文字、圖像、視頻和自動化相關(guān)的工作領(lǐng)域都將受益。網(wǎng)絡(luò)搜索是生成式

AI正在變革的諸多應(yīng)用之一。另一個例子則是Microsoft365Copilot,作為一項全新的生產(chǎn)力特性,它能夠利用生成式

AI幫助編寫和總結(jié)文檔、分析數(shù)據(jù),或?qū)⒑唵蔚臅嫦敕ㄞD(zhuǎn)化為演示文稿,嵌入于Word、Excel、PowerPoint、Outlook和Teams等微軟應(yīng)用中。生

AI的

現(xiàn)

標(biāo)

、個

數(shù)

出了第一步。

由于3D設(shè)計師可以借助生成式

AI工具更加快速高效地進(jìn)行內(nèi)容開發(fā),3D內(nèi)

創(chuàng)

。這

創(chuàng)

建,而

夠降低個人創(chuàng)作者自主內(nèi)容制作的門檻。我們即將看到從生成式AI中涌現(xiàn)出各種各樣的全新企業(yè)級和消費級用例,帶來超越想象的功能。GPT-4和LaMDA等通用大語言模型(LLM)作為基礎(chǔ)模型,所具備的語言理解、生成能力和

達(dá)

。

數(shù)

都非常龐大,參數(shù)超過1千億,并通過API向客戶提供免費或付費服務(wù)

?;A(chǔ)模型的使用推動大量初創(chuàng)公司和大型組織利用文本、圖像、視頻、3D、語言和音頻創(chuàng)建應(yīng)用。例如,代碼生成(GitHubCopilot)、文本生成(Jasper)、面向藝術(shù)家和設(shè)計師的圖像生成(Midjourney),以及對話式聊天機器人(Character.ai)。截至2023年4月,生成式AI應(yīng)用和特性:/427第二部分UnlockingthegenerativeAIfuturewithon-deviceandhybridAI終端側(cè)AI和混合AI開啟生成式AI的未來據(jù)初步估計顯示,生成式AI市場規(guī)模將達(dá)到1萬億美元

,廣泛覆蓋生態(tài)鏈的各個參5與方。為把握這一巨大機遇,并推動AI成為主流,計算架構(gòu)需要不斷演進(jìn)并滿足大規(guī)模生成式

AI日益增長的處理和性能需求。邊緣終端輔助應(yīng)用(使用基礎(chǔ)模型)面向消費者和知識工作者的垂直領(lǐng)域應(yīng)用,協(xié)助處理各種任務(wù),比如撰寫內(nèi)容、編寫代碼、設(shè)計等工具/編排輔助應(yīng)用(使用自主模型)面向生成式AI的開發(fā)者工具和平臺從模型(如大語言模型)的開發(fā)和訓(xùn)練到應(yīng)用程序的集成式垂直領(lǐng)域應(yīng)用的實現(xiàn)基礎(chǔ)模型通用模型特定領(lǐng)域模型通用大語言模型(LLM)和專用模型開發(fā)和/或訓(xùn)練(企業(yè)、其他模型;通過API提供服務(wù)專業(yè)照片/視頻、模擬數(shù)據(jù))基礎(chǔ)設(shè)施云機器學(xué)習(xí)運營超大規(guī)模用戶數(shù)據(jù)中心、企業(yè)服務(wù)器標(biāo)簽、訓(xùn)練、模型庫、優(yōu)化等圖1:生成式AI生態(tài)鏈?zhǔn)箲?yīng)用數(shù)量激增瑞銀,2023年2月528第二部分UnlockingthegenerativeAIfuturewithon-deviceandhybridAI終端側(cè)AI和混合AI開啟生成式AI的未來混合AI對生成式

AI規(guī)?;瘮U展至關(guān)重要3.擁有數(shù)十億參數(shù)的眾多生成式AI模型對計算基礎(chǔ)設(shè)施提出了極高的需求。

因此,無論是為AI模型優(yōu)化參數(shù)的AI訓(xùn)練,還是執(zhí)行該模型的AI推理,至今都一直受限于大型復(fù)雜模型而在云端部署

。AI推理的規(guī)模遠(yuǎn)高于AI訓(xùn)練。盡管訓(xùn)練單個模型會消耗大量資源,但大型生成式

AI模型預(yù)計每年僅需訓(xùn)練幾次。然而,這些模型的推理成本將隨著日活用戶數(shù)量及其使用頻率的增加而增加。在云端進(jìn)行推理的成本極高,這將導(dǎo)致規(guī)?;瘮U展難以持續(xù)。混合AI能夠解決上述問題,正如傳統(tǒng)計算從大型主機和瘦客戶端演變?yōu)楫?dāng)前云端和PC、智能手機等邊緣終端相結(jié)合的模式。3.1什么是混合AI?混合AI指終端和云端協(xié)同工作,在適當(dāng)?shù)膱鼍昂蜁r間下分配AI計算的工作負(fù)載,以提供更好的體驗,并高效利用資源

。在一些場景下,計算將主要以終端為中心,在必要時向云端分流任務(wù)。而在以云為中心的場景下,終端將根據(jù)自身能力,在可能的情況下從云端分擔(dān)一些AI工作負(fù)載。3.2混合AI的優(yōu)勢混合

AI架構(gòu)(或僅在終端側(cè)運行AI),能夠在全球范圍帶來成本、能耗、性能、隱私、安全和個性化優(yōu)勢。3.2.1成本隨著生成式AI模型使用量和復(fù)雜性的不斷增長,僅在云端進(jìn)行推理并不劃算。因為數(shù)據(jù)中心基礎(chǔ)設(shè)施成本,包括硬件、場地、能耗、運營、額外帶寬和網(wǎng)絡(luò)傳輸?shù)某杀緦⒊掷m(xù)增加。例如,當(dāng)前面向大語言模型推理的云計算架構(gòu),將導(dǎo)致無論規(guī)模大小的搜索引擎企業(yè)負(fù)擔(dān)更高運營成本。試想一下,未來通過生成式AI大語言模型增強的互聯(lián)網(wǎng)搜索,比如GPT,其運行參數(shù)遠(yuǎn)超1750億。生成式AI搜索可以提供更加出色的用戶體

驗30第二部分UnlockingthegenerativeAIfuturewithon-deviceandhybridAI終端側(cè)AI和混合AI開啟生成式AI的未來和搜索結(jié)果,

但每一次搜索查詢(query)其成本是傳統(tǒng)搜索方法的10倍。目前每天有超過100億次的搜索查詢產(chǎn)生,即便基于大語言模型的搜索僅占其中一小部分,每年增量成本也可能達(dá)到數(shù)十億美元

。6將

轉(zhuǎn)

端,可

礎(chǔ)

設(shè)

。這

使

AI對

AI的

續(xù)

規(guī)

關(guān)

AI能

現(xiàn)已

、具

AI能

數(shù)

端,以

的數(shù)十億終端

。節(jié)省成本也是生成式AI生態(tài)系統(tǒng)發(fā)展的重要一環(huán),可以支持OEM廠商、獨立軟件開發(fā)商(ISV)和應(yīng)用開發(fā)者更經(jīng)濟(jì)實惠地探索和打造應(yīng)用。例如,開發(fā)者可以基于完全在終端上運行的StableDiffusion創(chuàng)建應(yīng)用程序,對于生成的每個圖像承擔(dān)更低的查詢成本,或完全沒有成本。3.2.2能耗支持高效AI處理的邊緣終端能夠提供領(lǐng)先的能效,尤其是與云端相比。邊緣終端能夠以很低的能耗運行生成式AI模型,尤其是將處理和數(shù)據(jù)傳輸相結(jié)合時。這一能耗成本差異非常明顯,同時能幫助云服務(wù)提供商降低數(shù)據(jù)中心的能耗,實現(xiàn)環(huán)境和可持續(xù)發(fā)展目標(biāo)。3.2.3可靠性、性能和時延在混合

AI架構(gòu)中,終端側(cè)

AI處理十分可靠,能夠在云服務(wù)器

網(wǎng)

絡(luò)

時,提供媲美云端甚至更佳的性能

。當(dāng)生成式AI查詢對于云的需求達(dá)到高峰期時,會產(chǎn)7生大量排隊等待和高時延,甚至可能出現(xiàn)拒絕服務(wù)的情況

。向邊緣終端轉(zhuǎn)移計算負(fù)8載可防止這一現(xiàn)象發(fā)生。此外,混合AI架構(gòu)中終端側(cè)處理的可用性優(yōu)勢,讓用戶無論身處何地,甚至在無連接的情況下,依然能夠正常運行生成式AI應(yīng)用。3.2.4隱私和安全終端側(cè)AI從本質(zhì)上有助于保護(hù)用戶隱私,因為查詢和個人信息完全保留在終端上。對于企業(yè)和工作場所等場景中使用的生成式AI,這有助于解決保護(hù)公司保密信息的難題。例如,用于代碼生成的編程助手應(yīng)用可以在終端上運行,不向云端暴露保密信息,摩根士丹利,《HowLargearetheIncrementalAICosts...and4FactorstoWatchNext》,2023年2月67/news/onq/2023/02/worlds-?rst-on-device-demonstration-of-stable-diffusion-on-android/computing/chatgpt-is-at-capacity-and-is-frustrating-new-people-everywhere/832從而消除如今眾多企業(yè)面臨的顧慮

。對于消費者使用而言,混合AI架構(gòu)中的“隱私9模式”讓用戶能夠充分利用終端側(cè)AI向聊天機器人輸入敏感提示,比如健康問題或創(chuàng)業(yè)想法。此外,終端側(cè)安全能力已經(jīng)十分強大,并且將不斷演進(jìn),確保個人數(shù)據(jù)和模型參數(shù)在邊緣終端上的安全。3.2.5個性化混合AI讓更加個性化的體驗成為可能。數(shù)字助手將能夠在不犧牲隱私的情況下,根據(jù)用戶的表情、喜好和個性進(jìn)行定制。所形成的用戶畫像能夠從實際行為、價值觀、痛點、需求、顧慮和問題等方面來體現(xiàn)一個用戶,并且可以隨著時間推移進(jìn)行學(xué)習(xí)和演進(jìn)。它可以用于增

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論