當前位置： CNMO > 新聞 > 新聞 > 正文

異構(gòu)計算+高性能低功耗NPU，高通正在推動終端側(cè)生成式AI發(fā)展

CNMO 【廠商稿】作者：高通 2024-09-06 18:03

評論（0）

 

　　9月6日，2024全球AI芯片峰會在北京召開。全球AI芯片峰會至今已成功舉辦六屆，現(xiàn)已成為國內(nèi)規(guī)模最大、規(guī)格最高、影響力最強的產(chǎn)業(yè)峰會之一。本屆峰會以“智算紀元共筑芯路”為主題，共50多位來自AI芯片、Chiplet、RISC-V、智算集群與AI Infra系統(tǒng)軟件等領(lǐng)域的嘉賓參與進行了報告、演講、高端對話和圓桌Panel，對AI芯片筑基智算新紀元進行了全方位解構(gòu)。

　　高通AI產(chǎn)品技術(shù)中國區(qū)負責人萬衛(wèi)星受邀參加大會開幕式，并發(fā)表了以“終端側(cè)AI創(chuàng)新開啟智能計算全新體驗”為主題的演講。他在演講中提出，高通公司持續(xù)深耕AI領(lǐng)域，面對當前生成式AI的飛速發(fā)展，高通的領(lǐng)先SoC解決方案提供了異構(gòu)計算系統(tǒng)和具備高性能低功耗的強大NPU，能夠滿足當前豐富生成式AI用例的不同需求和算力要求，并對實現(xiàn)最佳性能和能效至關(guān)重要。利用高通公司推出的領(lǐng)先第三代驍龍8移動平臺和驍龍X Elite計算平臺，終端側(cè)生成式AI現(xiàn)已應(yīng)用于旗艦終端和用例，終端側(cè)生成式AI的時代已經(jīng)到來。

　　演講全文如下：

　　大家上午好！非常感謝主辦方的邀請，讓我能夠代表高通公司再次參加本次活動，跟大家分享AI芯片在生成式AI這個當前最火熱的賽道上，高通公司做的一些工作。今天我給大家?guī)淼难葜v主題是“終端側(cè)AI創(chuàng)新開啟智能計算全新體驗”。

　　作為一家芯片公司，高通為AI應(yīng)用的加速專門打造了高算力、低功耗的NPU。首先，我會給大家簡單介紹一下這款高算力、低功耗NPU的演進路徑?？梢哉f，這是一個非常典型的由上層AI用例驅(qū)動底層硬件設(shè)計的演進過程。可以回想一下，在2015年左右，大家所了解的AI用例主要是比較簡單的語音識別、語音喚醒、圖片分類、圖片識別等。這些用例背后的底層模型，都是一些比較淺層的、規(guī)模比較小的CNN網(wǎng)絡(luò)。那個時候，我們就給這顆NPU搭配了標量和矢量的硬件加速單元，滿足對于性能的需求。

　　在2016年之后，計算攝影的概念在市場上得到普及，我們也將研究方向從傳統(tǒng)的語音識別、圖像分類擴展到了對圖片和視頻的處理。隨著基于像素級別的處理對算力的要求越來越高，支撐這些應(yīng)用的模型除了更大規(guī)模、更多層數(shù)的CNN網(wǎng)絡(luò)之外，還有其他新型的網(wǎng)絡(luò)，比如LSTM、RNN，甚至大家現(xiàn)在非常熟悉的Transformer。這些網(wǎng)絡(luò)對算力和功耗的要求非常敏感，所以我們在標量和矢量加速單元的基礎(chǔ)之上，進一步配備了一顆張量加速器，以提供更加充沛的算力，滿足應(yīng)用對像素級、對Transformer時序網(wǎng)絡(luò)、對算力的要求。

　　2023年開始，大模型，尤其是大語言模型開始真正火爆起來。其實70%以上的大語音模型都是基于Transformer。因此，我們給這顆NPU專門配備了Transformer支持。同時，我們在保持標量、矢量、張量等硬件加速的基礎(chǔ)之上，增加更多的硬件加速單元，包括集成獨特的微切片推理技術(shù)，進一步針對對算力要求和Transformer并行化要求較高的模型推理進行加速。

　　未來我們會持續(xù)地加大對NPU的投入。生成式AI的未來一定是多模態(tài)的趨勢，所以今年我們也在致力于實現(xiàn)將一些真正的多模態(tài)大模型完整地運行在端側(cè)。在今年2月份的MWC巴塞羅那2024上，高通公司基于第三代驍龍8移動平臺展示了一個demo，就是讓超過70億參數(shù)的多模態(tài)語言模型（LMM）完整地跑在端側(cè)。

　　從模型規(guī)模來講，高通未來會支持更大規(guī)模的大語言模型，今年我們將有希望看到超過100億參數(shù)以上的大語言模型完整運行在端側(cè)。當然，終端側(cè)需要跑多大的模型，取決于實際的用例和這些用例對KPI的要求。

　　我們?yōu)槭裁粗铝τ谠诮K端側(cè)去推理這些生成式AI模型呢？在終端側(cè)進行AI處理不僅具有成本、個性化、時延等優(yōu)勢，我們認為還有最重要的一點，就是隱私性。包括手機、PC等個人設(shè)備上的個人信息、聊天記錄、相冊信息、甚至包括用戶的生物特征信息等等，從用戶角度來講，不希望這些數(shù)據(jù)上傳到云端做處理。通過運行大語言模型、大視覺模型等，在終端側(cè)完成這些數(shù)據(jù)的處理，我們認為這可以很好地保護普通用戶的隱私。從另外一個角度來講，終端側(cè)是離數(shù)據(jù)產(chǎn)生最近的地方。因為產(chǎn)生這些數(shù)據(jù)的設(shè)備，包括麥克風、攝像頭，各種各樣的傳感器數(shù)據(jù)。在離數(shù)據(jù)產(chǎn)生最近的地方去完成數(shù)據(jù)的處理，這也是非常自然而然保護用戶隱私的處理方法。

　　大家對高通Hexagon NPU的了解，我相信大部分是從搭載驍龍平臺的手機開始的，但是高通除了有驍龍移動平臺之外，還有非常豐富的產(chǎn)品線，覆蓋汽車、物聯(lián)網(wǎng)、PC、可穿戴設(shè)備等。高通Hexagon NPU已經(jīng)賦能了我們的絕大多數(shù)產(chǎn)品，也就意味著我們的合作伙伴、開發(fā)者朋友們可以在這些不同的產(chǎn)品形態(tài)上，用NPU來做算法的加速、享受充沛的算力。除了硬件之外，我們還有統(tǒng)一的高通AI軟件棧（Qualcomm AI Stack），可以讓OEM、開發(fā)者在高通所支持的不同產(chǎn)品形態(tài)上去完成模型的部署和優(yōu)化。

　　接下來更深入地介紹一下高通Hexagon NPU的硬件架構(gòu)。以第三代驍龍8為例，高通Hexagon NPU中最重要的是張量、矢量和標量三大加速單元，它們能夠?qū)Σ煌臄?shù)據(jù)類型做處理，例如張量加速器可以用來處理卷積運算、張量數(shù)據(jù)。此外還包括片上內(nèi)存，讓這三個加速器能夠協(xié)作更高效。神經(jīng)網(wǎng)絡(luò)推理是有很多層的，每層之間都會有一些中間數(shù)據(jù)。而這些中間數(shù)據(jù)如果沒有片上內(nèi)存做緩存的話，可能都要跑在DDR上，這樣對性能、功耗都會有非常大的影響。所以我們通過在NPU上配備比較大的片上內(nèi)存，能夠更好地釋放AI算力。

　　此外，高通NPU的整個硬件設(shè)計會隨著業(yè)界先進工藝的發(fā)展不斷迭代。這顆處理器的微架構(gòu)，包括前端設(shè)計和后端設(shè)計也會每年進行迭代，實現(xiàn)最佳性能和能效。不管是AI手機還是AI PC，對功耗都有很高的要求，我們要保證設(shè)備在日常使用中不會發(fā)燙、有更長續(xù)航。因此我們給NPU專門打造了加速器專用電源，以實現(xiàn)最佳能效比。我們還會通過升級微切片技術(shù)，支持網(wǎng)絡(luò)深度融合，獲取最佳性能。除了前面這些技術(shù)升級之外，我們還會提供更高主頻，支持更大的DDR帶寬。對于生成式AI模型，尤其是在解碼階段，需要DDR的支持，所以更大的DDR帶寬就意味著大模型的解碼速度更快，能給消費者帶來更好的用戶體驗。

　　除了專門的高算力、低功耗NPU之外，我們還有一個單獨的模塊叫高通傳感器中樞，它也可以用來做AI推理加速。它是DSP加多核Micro NPU的設(shè)計，最大的特點是功耗特別低，適用于一些需要始終在線的任務(wù)，包括始終開啟的攝像頭、手勢識別、人臉檢測、始終開啟的語音喚醒等等。因為這些用例需要始終在線，所以對功耗尤其敏感。我們在硬件設(shè)計上，也會通過專門的傳感器中樞加速模塊來適配，對功耗極其敏感的用例進行加速。

　　前面介紹了非常多的硬件內(nèi)容，下面會從用例方面來介紹一下我們是如何完成這些工作的。目前有非常多的AI用例，包括自然語言理解、自然語言處理相關(guān)的用例，還有計算攝影中降噪、超分、HDR、背景模糊等圖像處理相關(guān)的用例，現(xiàn)在還有視頻生成、視頻處理等。此外，現(xiàn)在AI在游戲里也有很多應(yīng)用，像AI NPC、自動劇情、地圖繪制、二創(chuàng)等等。這些用例對各種KPI的要求和算力要求也不一樣，有按需型用例、持續(xù)型用例和泛在型用例，很難有單一的處理器可以滿足所有KPI的要求。

　　舉個簡單例子，有些任務(wù)是在CPU運行中突發(fā)的任務(wù)，這時理論上不應(yīng)該喚醒全新的IP，否則時延會非常大，這個時候可以考慮用CPU架構(gòu)去做加速。還有一些用例對算力要求比較高，可能需要長時間的處理，包括游戲領(lǐng)域、視頻/圖片處理領(lǐng)域以及大模型等用例。還有一種用例可能需要始終在線，這種時候用CPU、GPU或者NPU去加速都不合適，因為它對功耗極其敏感。

　　高通通過推出異構(gòu)計算系統(tǒng)，來滿足這些廣泛AI用例對不同算力和KPI的要求。我們提供的異構(gòu)計算系統(tǒng)，包括通用的硬件加速單元——CPU和GPU，用來處理實時的、突發(fā)的、對時延非常敏感的任務(wù)；我們還有NPU，它特別適用于需要持續(xù)性處理、對算力要求比較高、對功耗要求也比較高的一些任務(wù)，包括大模型、視頻/圖片處理以及游戲中持續(xù)運行的用例等；此外，還有傳感器中樞用來處理始終開啟的手勢識別、語音喚醒等用例。

　　設(shè)計這樣的異構(gòu)計算系統(tǒng)，我們考慮了哪些因素，是怎么完成這個目標的呢？第一，我們希望提供極致的性能；第二，我們也希望實現(xiàn)比較好的持續(xù)性能表現(xiàn)，包括能效比；第三，我們也會從整體成本上考慮，以及考慮芯片尺寸的大小。最后我們也會考慮單位面積能夠提供的算力。我們充分考慮這些因素，打造出這樣一顆NPU和具有異構(gòu)計算系統(tǒng)的SoC，為消費者帶來了極致的AI，尤其是生成式AI的用戶體驗。

　　前面介紹了我們的AI硬件技術(shù)，包括各種各樣的IP處理器、異構(gòu)計算系統(tǒng)。接下來，我會跟大家介紹高通所賦能的AI體驗。

　　自去年年底第三代驍龍8和驍龍X Elite平臺發(fā)布后，大家能夠看到市面上已經(jīng)推出了非常多搭載這兩款平臺的產(chǎn)品。很多產(chǎn)品其實已經(jīng)具有了端側(cè)大模型的能力，我在這里舉幾個例子：第一個是今年年初發(fā)布的三星Galaxy S24 Ultra，它能夠支持實時翻譯的功能；第二個是OPPO Find X7 Ultra推出了AI消除功能，如果想要將圖片里面的背景或路人移除的話，可以非常方便地用這個功能得到你想要的照片；第三是榮耀Magic6系列的智慧成片功能，可以非常方便地在圖庫里面找到與Prompt相關(guān)的圖片或視頻，生成一段vlog分享給你的家人跟朋友。

　　今年在MWC巴塞羅那2024期間，高通展示了在Android智能手機上運行的大語言和視覺助理大模型（LLaVA），這是一個超過70億參數(shù)的大型多模態(tài)語言模型（LMM）。我們正在攜手合作伙伴，將多模態(tài)大模型完整地帶到端側(cè)，帶到消費者面前。

　　第三代驍龍8和驍龍X Elite平臺已經(jīng)賦能推出了豐富的具備終端側(cè)AI或生成式AI能力的旗艦終端和用例。這些用例既有娛樂類的，包括圖片生成、圖片編輯等，也有生產(chǎn)工具類的，包括寫作助手、文本總結(jié)、實時翻譯等，能夠給日常生活或工作帶來更高的效率。

　　總結(jié)一下今天的分享內(nèi)容，第一高通的SoC解決方案提供了異構(gòu)計算系統(tǒng)，包括多個IP處理器組件，其中有通用的CPU、GPU、專用的NPU、超低功耗的傳感器中樞，這些IP處理器組件各自會承擔不同的任務(wù)，包括對時延敏感的、對算力敏感的、或?qū)拿舾械娜蝿?wù)。同時，它們也可以互相組合、共同完成一些更復雜的處理任務(wù)，提供端到端的服務(wù)。在2023年驍龍峰會期間，我們展示了怎么利用高通的異構(gòu)計算系統(tǒng)去完成端到端的虛擬化身AI助手，當時我們把整個處理管線拆解成三部分：前處理、中間的文本生成、虛擬化身渲染的后處理。其中前處理是跑在CPU上，中間的大語言模型跑在NPU上，后處理跑在GPU以及傳感器中樞上面。第二，我們提供強大、算力充沛、超低功耗的專用NPU，方便大家在NPU上部署更大、更先進、更豐富的模型。第三，我們認為，終端側(cè)生成式AI時代已經(jīng)到來，驍龍計算平臺和驍龍移動平臺已經(jīng)賦能了非常多具備終端側(cè)生成式AI功能的終端產(chǎn)品。

　　最后，我也想在這里做一個小小的預告，搭載最新高通Oryon CPU的下一代驍龍移動平臺，即將在今年10月21-23日舉行的驍龍峰會上發(fā)布，大家敬請期待，謝謝！

 