月22日消息,Arm宣布推出兩款基于第三代Neoverse高性能芯片IP的Arm Neoverse計(jì)算子系統(tǒng)(CSS),其中包括Arm Neoverse CSS N3和Arm Neoverse CSS V3。其中Arm Neoverse CSS N3相比上一代產(chǎn)品每瓦性能可提升20%;Neoverse CSS V3則是V系列芯片IP的首款Neoverse CSS產(chǎn)品,單芯片性能可提高50%。同期,Arm宣布,其全面設(shè)計(jì)生態(tài)項(xiàng)目(Arm Total Design)已吸引超過(guò)20家技術(shù)合作伙伴加入。(界面新聞)
I技術(shù)加持下,包括智能手機(jī)、PC、可穿戴設(shè)備以及數(shù)字電視等在內(nèi)的終端設(shè)備,其“智能性”正在被重新定義。 面向全新計(jì)算需求,Arm日前推出了終端計(jì)算子系統(tǒng) (CSS),為旗艦系統(tǒng)級(jí)芯片(SoC) 提供基礎(chǔ)計(jì)算要素,包括最新的 Armv9.2 CPU、Arm Immortalis GPU、基于3nm工藝生產(chǎn)就緒的 CPU和GPU 物理實(shí)現(xiàn),以及最新的 CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元 (SMMU)。此外,還有同步推出的 Arm Kleidi 軟件庫(kù),有助于軟件開(kāi)發(fā)者無(wú)縫獲得Arm CPU的最佳性能,包括面向AI工作負(fù)載的KleidiAI 和面向計(jì)算機(jī)視覺(jué)應(yīng)用的 KleidiCV。
Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven
AI 性能方面,Cortex-X925 取得了41%的性能提升,可顯著提高大語(yǔ)言模型 (LLM) 等設(shè)備端生成式 AI 的響應(yīng)能力。這主要得益于 Cortex-X925 的微架構(gòu)演進(jìn),包括迄今為止最寬的解碼器和矢量處理單元,使得 TOPS性能提升了 50%。
此外,Cortex-X925通過(guò)增強(qiáng)的可配置性和更大的私有 L2 緩存,有效提升了指令和數(shù)據(jù)的處理效率。同時(shí),RTL和物理設(shè)計(jì)團(tuán)隊(duì)針對(duì)3nm工藝進(jìn)行了緊密合作,進(jìn)一步優(yōu)化了 CPU 的頻率和能效表現(xiàn)。 針對(duì) AI 和手游用例,Arm Cortex-A725 CPU性能效率提高了 35%。這一改進(jìn)也得益于更新后的 Arm Cortex-A520 CPU 和更新后的 DSU-120,使得采用最新 Armv9 CPU 集群的消費(fèi)電子設(shè)備可提升能效和可擴(kuò)展性。 CSS平臺(tái)中還包括最新的Immortalis-G925 GPU,這是 Arm 目前性能最強(qiáng)、效率最高的 GPU,在各款領(lǐng)先的手游應(yīng)用中實(shí)現(xiàn)了 37% 的性能提升,并在多個(gè) AI 和 ML 網(wǎng)絡(luò)上提升了 34% 的性能。在應(yīng)用方面,Immortalis-G925 面向旗艦智能手機(jī)市場(chǎng),而包括 Arm Mali-G725 和 Mali-G625 GPU 在內(nèi)的全新高可擴(kuò)展性 GPU 系列,面向從高端手機(jī)到智能手表、XR 、可穿戴設(shè)備等廣泛的消費(fèi)電子設(shè)備市場(chǎng)。
James McNiven認(rèn)為,CPU作為核心計(jì)算引擎,在驅(qū)動(dòng)未來(lái)網(wǎng)絡(luò)方面發(fā)揮著不可替代的作用。Arm致力于將KleidiAI技術(shù)集成到多樣化的框架中,包括通用框架TensorFlow、PyTorch等,它們能夠支持各種設(shè)備上任意網(wǎng)絡(luò)的運(yùn)行,以及針對(duì)特定任務(wù)設(shè)計(jì)的點(diǎn)對(duì)點(diǎn)解決方案,例如MediaPipe和Llama 3。他強(qiáng)調(diào),Kleidi不僅確保開(kāi)發(fā)者能夠充分利用Arm終端CSS的最新Armv9特性,如可伸縮矢量擴(kuò)展(SVE),也能確保在現(xiàn)有CPU核心上實(shí)現(xiàn)更佳性能,并為未來(lái)CPU創(chuàng)新,如可伸縮矩陣擴(kuò)展(SME)等做好準(zhǔn)備。 以Cortex-X925為例,Kleidi在運(yùn)行最新版的Llama 3和Phi-3時(shí),其速度比參考實(shí)現(xiàn)快2.9倍,且能在不到24小時(shí)內(nèi)完成。此外,針對(duì)計(jì)算機(jī)視覺(jué)與AI技術(shù)日益緊密結(jié)合的趨勢(shì),Arm還推出了KleidiCV,并通過(guò)將其集成到廣泛使用的OpenCV庫(kù)中,實(shí)現(xiàn)顯著的性能提升。據(jù)透露,Arm今年還將與OpenCV.ai合作,簡(jiǎn)化安卓開(kāi)發(fā)者將OpenCV集成到項(xiàng)目的工作,并使他們能夠從KleidiCV的性能改進(jìn)中受益。 Am 終端 CSS還致力于提高安卓設(shè)備用戶的性能體驗(yàn)。在Cortex-X925帶來(lái)30%的性能提升基礎(chǔ)上,針對(duì)包括Chrome在內(nèi)的網(wǎng)頁(yè)瀏覽器進(jìn)行了改進(jìn),實(shí)現(xiàn)了23%的性能提升。這些改進(jìn)也被中國(guó)手機(jī)廠商應(yīng)用于瀏覽器中。同時(shí),Arm繼續(xù)與Google合作,推動(dòng)了安卓動(dòng)態(tài)性能框架的發(fā)展,新版本框架實(shí)現(xiàn)了高端內(nèi)容每幀能耗降低25%、幀速率提高35%。
兩年,AI技術(shù)的熱潮不僅惠及了千行百業(yè),也顛覆了人們的生活。從云端百億、千億參數(shù)的大模型,到邊緣、終端的“小模型”,像vivo的藍(lán)心大模型BlueLM,可以在設(shè)備端提供寫(xiě)作、繪畫(huà)等AIGC的能力,極大改善了用戶的使用體驗(yàn)。這種潮流正在形成一種趨勢(shì),生成式AI為手機(jī)、電腦、智能穿戴、家電等終端帶來(lái)了真正的智能進(jìn)化,Arm則是這一切的基石。
“Arm為最大的計(jì)算生態(tài)系統(tǒng)提供了普適應(yīng)用,以及對(duì)開(kāi)發(fā)者友好的指令集,不斷滿足下一波的計(jì)算性能需求。”Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven表示,“這意味著在設(shè)備端和云端都會(huì)有更高的性能,同時(shí)在某些情況下會(huì)需要更高的能耗驅(qū)動(dòng)AI技術(shù),而能效正是Arm的DNA。Arm架構(gòu)的強(qiáng)大實(shí)力可以為計(jì)算平臺(tái)帶來(lái)最高效的性能。”
Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven
前不久,Arm推出了Arm終端計(jì)算子系統(tǒng)(CSS),為旗艦系統(tǒng)級(jí)芯片提供基礎(chǔ)計(jì)算要素,包括全新的Armv9.2 CPU、Arm Immortalis GPU、基于3納米工藝生產(chǎn)就緒的CPU和GPU物理實(shí)現(xiàn),以及最新的CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元(SMMU)。此外,Arm還通過(guò)新推出的Arm Kleidi軟件庫(kù)幫助軟件開(kāi)發(fā)者無(wú)縫獲得Arm CPU的最佳性能。通常,Arm的大多數(shù)IP會(huì)通過(guò)RTL的形式交付,要使RTL變?yōu)樾酒€要借助EDA工具流,通過(guò)一系列的優(yōu)化和工具完成工具流后提供物理實(shí)現(xiàn)。此次Arm除了提供RTL形式的IP交付,還會(huì)額外為合作伙伴提供CPU和GPU的物理實(shí)現(xiàn)選項(xiàng)。
過(guò)去幾年中,專(zhuān)為性能和AI設(shè)計(jì)的Armv9架構(gòu)在矢量加速、機(jī)器學(xué)習(xí)、安全性、穩(wěn)定性等方面有著顯著提升,在Armv9.2的基礎(chǔ)上,Arm通過(guò)新一代Arm Cortex-X CPU和Immortalis GPU帶來(lái)了更高的性能,并以效率為核心,融入了Arm終端CSS的全新能力,加速產(chǎn)品上市進(jìn)程。Arm終端CSS可讓IPC性能同比提高36%,AI推理速度提高59%,ArmImmortalis GPU圖形性能提高37%。Arm深知,CPU、GPU、NPU等異構(gòu)計(jì)算的重要性,不同加速器之間的協(xié)同可以滿足各類(lèi)應(yīng)用場(chǎng)景,為客戶帶來(lái)更多的選擇。例如,Immortalis GPU在持續(xù)推進(jìn)智能手機(jī)中的光線追蹤技術(shù)普及。在可擴(kuò)展性方面,三種不同的 CPU 微架構(gòu)讓Arm的合作伙伴能夠在包括筆記本電腦、智能手機(jī)、數(shù)字電視和可穿戴設(shè)備等一系列設(shè)備上提供對(duì)應(yīng)的性能、效率,以及CPU和GPU解決方案。
Arm Cortex-X925實(shí)現(xiàn)了Cortex-X系列推出以來(lái)最高的同比性能提升,在3.8GHz的時(shí)鐘速率和最大緩存大小的條件下,與2023年旗艦智能手機(jī)的4納米SoC相比,其單線程性能大幅提高36%,AI性能相較去年的Cortex-XCPU在Token首次響應(yīng)時(shí)間上提高41%,顯著增強(qiáng)了LLM等在設(shè)備端的響應(yīng)能力。微架構(gòu)的演進(jìn)帶來(lái)了最寬的解碼和矢量設(shè)計(jì)大幅提升,TOPS數(shù)增長(zhǎng)50%。通過(guò)更好的可配置性和更大的私有L2緩存,可以保留進(jìn)出過(guò)CPU的指令和數(shù)據(jù)。Arm Immortalis-G925 GPU在多個(gè)AI和ML網(wǎng)絡(luò)上提升了34%的性能,并把光線追蹤技術(shù)在面對(duì)復(fù)雜物體時(shí)的表現(xiàn),在性能上提升了52%。
效率方面,Arm會(huì)選擇不同的CPU微架構(gòu)實(shí)現(xiàn)最大性能和最長(zhǎng)使用天數(shù),通過(guò)Immortalis和Arm Mali提供GPU可擴(kuò)展性,實(shí)現(xiàn)性能和效率的靈活性。與Cortex-A720相比,Cortex-A725的能效提高了35%。Cortex-A520 CPU也隨著工藝和物理實(shí)現(xiàn)的提升得到了改進(jìn)。圖形效率方面,在與去年的終端平臺(tái)相同水平的游戲性能下,《堡壘之夜》等手游的功耗降低了30%。在為Cortex-X925帶來(lái)的30%性能提升的基礎(chǔ)上,Arm對(duì)網(wǎng)頁(yè)瀏覽器也進(jìn)行了改進(jìn),使其性能提高23%。
Arm繼續(xù)攜手Google,推動(dòng)了安卓動(dòng)態(tài)性能框架(Android Dynamic Performance Framework)的發(fā)展。在最新版本的框架中,高端內(nèi)容的每幀能耗降低25%,幀速率提高35%。此外,Arm還調(diào)整了安卓工作負(fù)載在不同CPU核心之間的平衡方式,為YouTube節(jié)省了10%的功耗。針對(duì)Google的AV1視頻編解碼器,Arm進(jìn)行了軟件優(yōu)化,使當(dāng)下安卓設(shè)備的視頻性能最多可提高40%。
除此之外,Arm的內(nèi)存標(biāo)記擴(kuò)展(Memory Tagging Extension, MTE)可以幫助開(kāi)發(fā)者在無(wú)需侵入式檢測(cè)的情況下查找和修復(fù)代碼中的錯(cuò)誤,還可以在實(shí)際操作環(huán)境下,用來(lái)減少安全漏洞被利用。目前,vivo X100、vivo X100 Pro、Google Pixel 8等旗艦設(shè)備均允許用戶啟用MTE。
James McNiven稱(chēng):“對(duì)于Arm終端CSS的完整解決方案來(lái)說(shuō),我們會(huì)針對(duì)不同用例,或是某些測(cè)試基準(zhǔn)設(shè)定目標(biāo),將其分解到單個(gè)IP中。以游戲《原神》為例,我們先從系統(tǒng)層面進(jìn)行分析,然后針對(duì)GPU、CPU等設(shè)定提升的目標(biāo),將各類(lèi)游戲機(jī)制和計(jì)算能力推向極限,每個(gè)單一IP的性能提升都會(huì)為終端CSS的整體性能添磚加瓦。”
為了幫助開(kāi)發(fā)者更好地發(fā)揮Arm終端CSS的性能優(yōu)勢(shì),Arm還推出了Arm Kleidi,包括面向AI工作負(fù)載的KleidiAI和面向計(jì)算機(jī)視覺(jué)應(yīng)用的KleidiCV。KleidiAI是一套面向AI框架開(kāi)發(fā)者的計(jì)算內(nèi)核,使他們能夠在各種設(shè)備上輕松獲得Arm CPU上的最佳性能,并支持Neon、SVE2和SME2等關(guān)鍵Arm架構(gòu)功能,顯著提升計(jì)算應(yīng)用的性能。KleidiAI與PyTorch、Tensorflow、MediaPipe等熱門(mén)AI框架集成,旨在加速M(fèi)eta Llama 3、Phi-3等關(guān)鍵模型的性能,并且可以前后兼容,確保Arm在引入更多技術(shù)時(shí)依然能適用未來(lái)市場(chǎng)的需求。值得一提的是,Kleidi一詞源于希臘語(yǔ),意為“鑰匙”,即為開(kāi)發(fā)者釋放更多性能的“鑰匙”。
KleidiAI支持可伸縮矢量擴(kuò)展(Scalable Vector Extensions, SVE)、可伸縮矩陣擴(kuò)展(Scalable Matrix Extensions, SME)等能力,部署在Cortex-X925上時(shí),Kleidi技術(shù)運(yùn)行Llama 3和Phi-3LLM的速度要比參考實(shí)現(xiàn)快2.9倍,24小時(shí)內(nèi)即可實(shí)現(xiàn)。KleidiCV則可以融入神經(jīng)網(wǎng)絡(luò)、傳統(tǒng)計(jì)算機(jī)視覺(jué)算法等技術(shù),確保社交媒體、攝像頭等應(yīng)用流暢運(yùn)行。Arm會(huì)與OpenCV.ai合作,幫助安卓開(kāi)發(fā)者更便捷地將OpenCV納入他們的項(xiàng)目中,并從KleidiCV的改進(jìn)中受益。
Arm在指令預(yù)取、分支預(yù)測(cè)、大緩存等前端訪存能力的持續(xù)投入,使得應(yīng)用程序的性能大幅提升,vivo就是很大的受益者,Arm微架構(gòu)的升級(jí)讓vivo手機(jī)的流暢度達(dá)到非常高的水準(zhǔn)。Arm終端CSS將為vivo的生成式AI應(yīng)用提供了強(qiáng)勁的處理能力,也為開(kāi)發(fā)者帶來(lái)了廣闊的發(fā)揮空間。vivo首席芯片規(guī)劃專(zhuān)家夏曉菲談到:“Arm作為整個(gè)產(chǎn)業(yè)鏈的最上游,我們希望把vivo產(chǎn)品的痛點(diǎn)和需求,對(duì)工作負(fù)載的分析以及產(chǎn)品性能功耗瓶頸的分析,反饋給Arm,使我們整個(gè)產(chǎn)業(yè)鏈能夠良性循環(huán)起來(lái),從而使我們手機(jī)產(chǎn)品最終受益,給消費(fèi)者帶來(lái)越來(lái)越好的體驗(yàn)。”
Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven(左)&vivo首席芯片規(guī)劃專(zhuān)家夏曉菲(右)
從AI手機(jī)到AI PC,Arm發(fā)展勢(shì)頭強(qiáng)勁。Windows on Arm(WoA)的生態(tài)愈發(fā)成熟,越來(lái)越多的Arm架構(gòu)機(jī)型和Arm原生應(yīng)用持續(xù)涌現(xiàn),除了Microsoft Office、Dropbox、Zoom、Adobe套件等,還有百度、嗶哩嗶哩、Chrome瀏覽器、愛(ài)奇藝、搜狗、騰訊QQ音樂(lè)等帶來(lái)了豐富的體驗(yàn),Audacity、Blender和OBS Studio(用于流媒體)等開(kāi)源工具的增多讓開(kāi)發(fā)者有了更大的熱情,這些應(yīng)用還整合了大量的開(kāi)源庫(kù)和開(kāi)發(fā)工具,面向Windows的Arm Performance Libraries(Arm性能庫(kù))推動(dòng)著WoA生態(tài)不斷發(fā)展。
可以說(shuō),通過(guò)與合作伙伴的深度協(xié)作,Arm的產(chǎn)品和技術(shù)正在全球的每一個(gè)角落推進(jìn)著計(jì)算能力挑戰(zhàn)極限,讓AI技術(shù)惠及每一個(gè)人。“作為計(jì)算的基石,Arm致力于通過(guò)新技術(shù)的推出,幫助我們的合作伙伴取得成功,我們希望能賦能合作伙伴打造出面向AI應(yīng)用最卓越的設(shè)備、芯片組和SoC,為消費(fèi)者的下一代AI體驗(yàn)夯實(shí)根基。”James McNiven說(shuō)。
(8775559)
*請(qǐng)認(rèn)真填寫(xiě)需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。