【資料圖】
小米創(chuàng)始人、董事長(zhǎng)雷軍在年度演講中介紹小米大模型近日,聯(lián)發(fā)科正式宣布與百度聯(lián)合發(fā)起飛槳和文心大模型硬件生態(tài)共創(chuàng)計(jì)劃,雙方將共同推進(jìn)聯(lián)發(fā)科硬件平臺(tái)與飛槳和文心大模型的適配,支持基于聯(lián)發(fā)科芯片的智能手機(jī)、汽車、智能家居、物聯(lián)網(wǎng)等終端設(shè)備運(yùn)行文心大模型;小米創(chuàng)始人、董事長(zhǎng)雷軍在年度演講中也表示,小米已經(jīng)在手機(jī)上跑通了13億參數(shù)的大模型,輕量化和本地部署是小米大模型技術(shù)的主力突破方向。作為連接多個(gè)生活場(chǎng)景、硬件消費(fèi)市場(chǎng)、信息消費(fèi)市場(chǎng)、基礎(chǔ)通信和互聯(lián)網(wǎng)應(yīng)用的樞紐,手機(jī)等智能終端在AI大模型時(shí)代愈發(fā)關(guān)鍵。當(dāng)大模型部署在終端,芯片作為算力底座如何更好地與之適配,也成為業(yè)內(nèi)熱議的話題。當(dāng)前,ChatGPT引領(lǐng)的生成式AI大模型風(fēng)潮已經(jīng)席卷全球,人工智能正在從云端走向終端。記者注意到,除小米和聯(lián)發(fā)科之外,谷歌、微軟和蘋果等廠商也在發(fā)力終端大模型,輕量化已成為大模型在終端部署的重要發(fā)展方向。來源:中國(guó)科學(xué)技術(shù)信息研究所《中國(guó)人工智能大模型地圖研究報(bào)告》比如,今年5月,谷歌發(fā)布了適用邊緣的大模型PaLM2。具體來看,PaLM2大模型一共有四種規(guī)格,分別是Gecko(壁虎)、Otter(水獺)、Bison(野牛)和Unicorn(獨(dú)角獸)。其中,Gecko非常輕量,可在移動(dòng)設(shè)備上工作。記者了解到,一個(gè)更輕量但具有更高質(zhì)量的模型能夠顯著提高推理效率并降低服務(wù)成本,使模型的下游應(yīng)用程序適配更多應(yīng)用程序和用戶,使AI邊緣部署成為可能。谷歌的競(jìng)爭(zhēng)對(duì)手同樣不甘落后。7月份,蘋果正式宣布啟動(dòng)開發(fā)AppleGPT,加入終端AI大模型戰(zhàn)局。據(jù)了解,AppleGPT是蘋果公司基于其自研的Ajax框架開發(fā)的AI工具,目前已在蘋果公司內(nèi)部展開小范圍內(nèi)測(cè)。同時(shí),微軟開源了DeepSpeedChat訓(xùn)練模型、Meta開源LLaMA,在AI開發(fā)者中快速興起基于LLaMA的訓(xùn)練風(fēng)潮,加速Lora等訓(xùn)練方法的滲透。據(jù)悉,Deepspeed與Lora模型給中小開發(fā)者提供了低成本、快速訓(xùn)練專屬于自己的“小模型”的完整工具,加速建立大模型梯度分布的格局。芯片廠商方面,高通在MWC 2023大會(huì)發(fā)布全球首個(gè)運(yùn)行在Android 手機(jī)上的Stable Diffusion終端側(cè)演示。據(jù)介紹,Stable Diffusion模型參數(shù)超過10億,高通利用其AI軟件棧對(duì)模型進(jìn)行量化、編譯和硬件加速優(yōu)化,使其成功在搭載第二代驍龍8移動(dòng)平臺(tái)的手機(jī)上運(yùn)行。ChatGPT 在芯片自動(dòng)生成各個(gè)領(lǐng)域的開創(chuàng)性創(chuàng)新在AI計(jì)算的實(shí)現(xiàn)上,軟件和硬件同樣重要,因?yàn)楸仨氃诙藗?cè)做到運(yùn)算更快、效率更高,并推動(dòng)AI應(yīng)用在廣泛終端上的部署和普及。記者了解到,高通早在2022年6月就推出了AI軟件棧(Qualcomm AI Stack),支持包括TensorFlow、Pytorch和ONNX在內(nèi)的所有主流開發(fā)框架,所有runtimes(運(yùn)行時(shí),即某門編程語言的運(yùn)行環(huán)境)和操作系統(tǒng)。借助高通AI軟件棧,開發(fā)者在智能手機(jī)領(lǐng)域開發(fā)的軟件可以快速擴(kuò)展至汽車、XR、可穿戴設(shè)備等其他產(chǎn)品線進(jìn)行使用。高通技術(shù)公司產(chǎn)品管理高級(jí)副總裁兼AI負(fù)責(zé)人Ziad Asghar表示,未來公司需要加大終端側(cè)技術(shù)上的研發(fā),尤其是進(jìn)一步提升量化的算法。例如服務(wù)器上訓(xùn)練的模型一般采用32位浮點(diǎn)運(yùn)算(FP32),而其在手機(jī)端現(xiàn)在能夠支持INT4計(jì)算,這能大大提高端側(cè)的處理能力。大模型在終端的輕量化部署需要芯片在算力與功耗之間找到平衡點(diǎn)。賽迪顧問研究員鄧楚翔對(duì)《中國(guó)電子報(bào)》記者表示,大模型“由云向端”趨勢(shì),對(duì)手機(jī)、可穿戴設(shè)備、智能家電等電子電器產(chǎn)品SoC中GPU算力與功耗平衡提出了更高要求。特別是在手機(jī)等終端產(chǎn)品中,“便利性”是第一要素,因此大模型在參數(shù)上會(huì)進(jìn)行適度壓縮,算力芯片需要同時(shí)考慮算力與功耗比。同時(shí),當(dāng)大模型應(yīng)用于終端領(lǐng)域時(shí),低延時(shí)響應(yīng)能力也是對(duì)專用GPU性能的重要評(píng)判指標(biāo)。事實(shí)上,在終端應(yīng)用場(chǎng)景,芯片、硬件等主要進(jìn)行的是推理過程。根據(jù)應(yīng)用場(chǎng)景的不同,不同大模型對(duì)硬件需求也是不一樣的。“比如,需要隨時(shí)更新學(xué)習(xí)數(shù)據(jù)的通用大模型,終端大模型應(yīng)用需要端云協(xié)作,對(duì)硬件的互連性能和網(wǎng)絡(luò)情況有較高要求;有些比較‘精簡(jiǎn)’的、不需要基于在線數(shù)據(jù)的大模型應(yīng)用,如內(nèi)容生成大模型應(yīng)用場(chǎng)景的一種—圖片修改,就可以在終端設(shè)備中運(yùn)行,但這種場(chǎng)景對(duì)終端設(shè)備本身的算力就有較高要求。”本土GPU獨(dú)角獸廠商技術(shù)專家對(duì)《中國(guó)電子報(bào)》記者表示。全球眾多科技企業(yè)都在積極研究AI大模型,并致力于實(shí)現(xiàn)大模型在終端的輕量化部署。但由于算力的參數(shù)規(guī)模太大,從算力硬件來看,由于AI芯片針對(duì)AI算法做了特殊加速設(shè)計(jì),大多數(shù)AI訓(xùn)練和推理工作負(fù)載對(duì)AI芯片的性能和算力要求很高,這也讓芯片面臨存儲(chǔ)、計(jì)算能力、功耗等方面的多重挑戰(zhàn)。
“端側(cè)和邊緣設(shè)備的算力、功耗、成本往往有限,不像算力中心可以無限增加設(shè)備。因此,如何在一個(gè)資源受限的情況下去完成推理,就需要根據(jù)特定領(lǐng)域的特定需求去做特定優(yōu)化。”澎峰科技聯(lián)合創(chuàng)始人兼首席運(yùn)營(yíng)官王軍輝對(duì)《中國(guó)電子報(bào)》記者表示,一方面,這需要AI軟件棧對(duì)模型進(jìn)行量化、編譯和軟件加速優(yōu)化。另外一方面,針對(duì)大模型的異構(gòu)計(jì)算芯片將成為未來的主流發(fā)展趨勢(shì)。而其挑戰(zhàn)在于,由于目前算法依然處于快速迭代階段,因此投入和產(chǎn)出具有很高的不確定性。從芯片架構(gòu)的角度來看,異構(gòu)計(jì)算將是實(shí)現(xiàn)終端和邊緣側(cè)大模型部署的必然選擇。Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健對(duì)《中國(guó)電子報(bào)》記者表示,邊緣側(cè)設(shè)備集成的芯片從同構(gòu)CPU架構(gòu)發(fā)展到異構(gòu)及加速器架構(gòu),能夠更好地支持大模型稀疏化后形成的小模型,使它們能夠在邊緣側(cè)和端側(cè)實(shí)現(xiàn)部署。在本土GPU獨(dú)角獸廠商技術(shù)專家看來,大模型部署在終端的最大技術(shù)挑戰(zhàn)主要在于設(shè)備。這是因?yàn)榻K端設(shè)備往往對(duì)芯片功耗和芯片面積非常敏感,因此在算力提升上難度很大。“這其實(shí)也是移動(dòng)芯片所面臨的技術(shù)挑戰(zhàn)。摩爾定律基本走到盡頭,在功耗和面積限制下,提升算力的難度巨大、成本巨大。”該技術(shù)專家認(rèn)為,提升算力的解決方案主要有兩方面。一方面是利用好5G通信技術(shù)帶來的優(yōu)勢(shì),更多采用云端計(jì)算的方式來部署大模型應(yīng)用;另一方面則是加強(qiáng)在芯片制造、封裝等方面的技術(shù)研發(fā)力度,爭(zhēng)取突破摩爾定律,尋找新的解決方案。大模型在終端部署前還要通過機(jī)器學(xué)習(xí)等方式進(jìn)行訓(xùn)練。記者了解到,在算力挑戰(zhàn)下,現(xiàn)階段的大模型訓(xùn)練主要在云端或邊緣進(jìn)行。本土GPU獨(dú)角獸廠商技術(shù)專家對(duì)記者表示:“大模型在訓(xùn)練過程需要龐大的算力,推理工作也很難在終端平臺(tái)上進(jìn)行計(jì)算,因此需要云端算力。對(duì)于終端設(shè)備而言,要想利用好當(dāng)前大模型的這波熱潮,關(guān)鍵還是利用好通信技術(shù)的發(fā)展,結(jié)合云端算力進(jìn)行大模型的終端部署。”