實(shí)用化 AI 算力又升上了一個(gè)新臺階。
在當前的人工智能領(lǐng)域,生成式AI的發(fā)展仍處于起步階段,未來(lái)有望為全球經(jīng)濟創(chuàng )造數萬(wàn)億美元的價(jià)值,并對各行各業(yè)的工作方式產(chǎn)生重大影響。
而在A(yíng)I應用方面,則出現了一些讓人始料未及的趨勢:很多傳統企業(yè)開(kāi)始選擇在CPU平臺上落地和優(yōu)化AI應用。
例如制造領(lǐng)域在高度精細且較為耗時(shí)的瑕疵檢測環(huán)節,就導入了CPU及其他產(chǎn)品組合,來(lái)構建橫跨“云-邊-端”的AI?缺陷檢測方案,代替傳統的人工瑕疵檢測方式。
再比如亞信科技就在自家OCR-AIRPA方案中采用了CPU作為硬件平臺,實(shí)現了從FP32到INT8/BF16的量化,從而在可接受的精度損失下,增加吞吐量并加速推理。將人工成本降至原來(lái)的1/5到1/9,效率還提升了約5-10倍。
在處理AI制藥領(lǐng)域最重要的算法——AlphaFold2這類(lèi)大型模型上,CPU同樣也“加入群聊”。從去年開(kāi)始,CPU便使AlphaFold2端到端的通量提升到了原來(lái)的23.11倍;而現如今,CPU讓這個(gè)數值再次提升3.02倍。
上述這些CPU,都有個(gè)共同的名字——至強,即英特爾®? 至強®? 可擴展處理器。
為什么這些AI任務(wù)的推理能用CPU,而不是只考慮由GPU或AI加速器來(lái)處理?
這里歷來(lái)存在很多爭論。
很多人認為,真正落地的AI應用往往與企業(yè)的核心業(yè)務(wù)緊密關(guān)聯(lián),在要求推理性能的同時(shí),也需要關(guān)聯(lián)到它的核心數據,因此對數據安全和隱私的要求也很高,因此也更偏向本地化部署。
而結合這個(gè)需求,再考慮到真正用AI的傳統行業(yè)更熟悉、更了解也更容易獲取和使用CPU,那么使用服務(wù)器CPU混合精度實(shí)現的推理吞吐量,就是他們能夠更快和以更低成本解決自身需求的方法了。
面對越來(lái)越多傳統AI應用和大模型在CPU上的落地優(yōu)化,“用CPU加速AI”這條道路被不斷驗證。這就是在數據中心中,有70%的推理運行在英特爾® 至強® 可擴展處理器上的原因。1
最近,英特爾的服務(wù)器CPU完成了又一次進(jìn)化。12月15日,第五代英特爾® 至強® 可擴展處理器正式發(fā)布。英特爾表示,一款為AI加速而生,而且表現更強的處理器誕生了。
人工智能正在推動(dòng)人類(lèi)與技術(shù)交互方式的根本性轉變,這場(chǎng)轉變的中心就是算力。
英特爾CEO帕特·基辛格(Pat Gelsinger)在2023英特爾ON技術(shù)創(chuàng )新大會(huì )表示:“在這個(gè)人工智能技術(shù)與產(chǎn)業(yè)數字化轉型飛速發(fā)展的時(shí)代,英特爾保持高度的責任心,助力開(kāi)發(fā)者,讓AI技術(shù)無(wú)處不在,讓AI更易觸達、更可見(jiàn)、透明并且值得信任。”
第五代至強 為AI加速
第五代英特爾® 至強® 可擴展處理器的核心數量增加至64個(gè),配備了高達320MB的L3緩存和128MB的L2緩存。不論單核性能還是核心數量,它相比以往的至強都有了明顯提升。在最終性能指標上,與上代產(chǎn)品相比,在相同功耗下平均性能提升21%,內存帶寬提升高達16%,三級緩存容量提升到了原來(lái)的近3倍。
更為重要的是,第五代至強® 可擴展處理器的每個(gè)內核均具備AI加速功能,完全有能力處理要求嚴苛的AI工作負載。與上代相比,其訓練性能提升多達29%,推理能力提升高達42%。
在重要的AI負載處理能力上,第五代英特爾® 至強® 可擴展處理器也交出了令人滿(mǎn)意的答卷。
首先要讓CPU學(xué)會(huì )高效處理AI負載的方法:在第四代至強® 可擴展處理器上,英特爾面向深度學(xué)習任務(wù)帶來(lái)了矩陣化的算力支持。
英特爾®? AMX就是至強CPU上的專(zhuān)用矩陣計算單元,可被視為CPU上的Tensor Core,從第四代至強® 可擴展處理器開(kāi)始成為內置于CPU的AI加速引擎。
第五代至強®? 可擴展處理器利用英特爾®? AMX與英特爾®? AVX-512指令集,配合更快的內核,以及速度更快的內存,可以讓生成式AI更快地在其上運行,無(wú)需獨立的AI加速器就能執行更多工作負載。
借助在自然語(yǔ)言處理 (NLP) 推理方面實(shí)現的性能飛躍,這款全新的至強® 可支持響應更迅速的智能助手、聊天機器人、預測性文本、語(yǔ)言翻譯等工作負載,可以在運行參數量200億的大語(yǔ)言模型時(shí),做到時(shí)延不超過(guò)100毫秒。
據了解,11.11期間,京東云便通過(guò)基于第五代英特爾® 至強® 可擴展處理器的新一代服務(wù)器,成功應對了業(yè)務(wù)量激增。與上一代服務(wù)器相比,新一代京東云服務(wù)器實(shí)現了23%的整機性能提升,AI計算機視覺(jué)推理性能提升了38%,Llama v2推理性能也提高了51%,輕松hold住用戶(hù)訪(fǎng)問(wèn)峰值同比提高170%、智能客服咨詢(xún)量超14億次的大促壓力。
除此之外,第五代英特爾® 至強® 可擴展處理器也在能效、運營(yíng)效率、安全及質(zhì)量等方面實(shí)現了全面提升,提供了向前代產(chǎn)品的軟件和引腳兼容性支持,以及硬件級安全功能和可信服務(wù)。
國內云服務(wù)大廠(chǎng)阿里云也在發(fā)布會(huì )上披露了其實(shí)測體驗數據,基于第五代英特爾® 至強® 可擴展處理器及英特爾® AMX、英特爾® TDX加速引擎,阿里云打造了 “生成式AI模型及數據保護”的創(chuàng )新實(shí)踐,使第八代ECS實(shí)例在實(shí)現了全場(chǎng)景加速和全能力提升情況下,更加固了安全性能,且保持實(shí)例價(jià)格不變,普惠客戶(hù)。
數據顯示,其在數據全流程保護的基礎上,AI推理性能提高25%、QAT加解密性能提升20%、數據庫性能提升25%,以及音視頻性能提升15%。
英特爾表示,第五代至強® 可擴展處理器可為AI、數據庫、網(wǎng)絡(luò )和科學(xué)計算工作負載帶來(lái)更強大的性能和更低的TCO,將目標工作負載的每瓦性能提升高達10倍。
對先進(jìn)AI模型實(shí)現原生加速
為讓CPU能夠高效處理AI任務(wù),英特爾把AI加速的能力提升到了「開(kāi)箱即用」的程度。
英特爾®? AMX除了可以加速深度學(xué)習的推理、訓練以外,現在已經(jīng)支持了流行的深度學(xué)習框架。在深度學(xué)習開(kāi)發(fā)者常用的TensorFlow、PyTorch上,英特爾® oneAPI深度神經(jīng)網(wǎng)絡(luò )庫 (oneDNN) 提供了指令集層面的支持,使開(kāi)發(fā)人員能夠在不同硬件架構和供應商之間自由遷移代碼,可以更輕松地利用芯片內置的AI加速能力。
在保證了AI加速直接可用之后,英特爾利用高性能開(kāi)源深度學(xué)習框架OpenVINO™ 工具套件,幫助開(kāi)發(fā)者實(shí)現了一次開(kāi)發(fā)、多平臺部署。它可以轉換和優(yōu)化使用熱門(mén)框架訓練好的模型,在多種英特爾硬件的環(huán)境中快速實(shí)現,幫用戶(hù)最大程度地利用已有資源。
OpenVINO™ 工具套件最新的版本也加入了對大型語(yǔ)言模型 (LLM) 性能的改進(jìn),可以支持生成式AI工作負載,包括聊天機器人、智能助手、代碼生成模型等。
OpenVINO™ 工具套件2
通過(guò)這一系列技術(shù),英特爾讓開(kāi)發(fā)者們能夠在幾分鐘內調優(yōu)深度學(xué)習模型,或完成對中小型深度學(xué)習模型的訓練,在不增加硬件和系統復雜性的前提下獲得媲美獨立AI加速器的性能。
比如在先進(jìn)的預訓練大語(yǔ)言模型上,英特爾的技術(shù)就可以幫助用戶(hù)完成快速部署。
用戶(hù)可以從最熱門(mén)的機器學(xué)習代碼庫Hugging Face中下載預訓練模型LLaMA2,然后使用英特爾®? PyTorch、英特爾®? Neural Compressor等將模型轉換為BF16或INT8精度版本以降低延遲,再使用PyTorch進(jìn)行部署。
英特爾表示,為了能夠緊跟AI領(lǐng)域的潮流,有數百名軟件開(kāi)發(fā)人員正在不斷改進(jìn)常用的模型加速能力,讓用戶(hù)能夠在跟上最新軟件版本的同時(shí),獲得對于先進(jìn)AI模型的支持。
第五代至強® 可擴展處理器的實(shí)力,目前已在部分大廠(chǎng)進(jìn)行了驗證?;鹕揭媾c英特爾合作升級了第三代彈性計算實(shí)例。
目前,火山引擎已通過(guò)獨有的潮汐資源并池能力,構建百萬(wàn)核彈性資源池,能夠以近似包月的成本提供按量使用體驗,降低上云成本?;诘谖宕⑻貭?reg; 至強® 可擴展處理器,火山引擎第三代彈性計算實(shí)例整機算力再次提升了39%,應用性能最高提升了43%。
這只是個(gè)開(kāi)始??梢灶A見(jiàn),很快會(huì )有更多科技公司的應用能夠從第五代至強®? 可擴展處理器的性能中獲益。
下一代至強已經(jīng)現身
未來(lái),人們對于生成式AI的需求還將不斷擴大,更多的智能化應用將會(huì )改變我們的生活。以計算能力為基礎,萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的時(shí)代正在加速到來(lái)。
面對這樣的趨勢,英特爾正在加緊打造再下一代的至強CPU,它們面向AI的「專(zhuān)業(yè)化」程度還會(huì )更高。
在最近披露的英特爾數據中心路線(xiàn)圖上,下一代至強® 處理器將對不同工作負載、場(chǎng)景配備不同的核心,其中主打計算密集型與AI任務(wù)的型號會(huì )使用側重性能輸出的核「P-core」,面向高密度與橫向擴展負載的型號則會(huì )使用有更高能效的核「E-core」,這兩種不同的核心架構并存的設計,既滿(mǎn)足部分用戶(hù)對極致性能的追求,也能兼顧到可持續發(fā)展綠色節能的需求。
未來(lái),英特爾還將如何實(shí)現晶體管和芯片性能的飛躍,在A(yíng)I算力上還能有什么樣的躍升?
讓我們拭目以待。
免責聲明:市場(chǎng)有風(fēng)險,選擇需謹慎!此文僅供參考,不作買(mǎi)賣(mài)依據。
標簽: