AI推理芯片激發(fā)新一輪應(yīng)用創(chuàng)新

2025-01-16 09:57:13 來源：中國科技網(wǎng)

觀看：73

隨著ChatGPT橫空出世，人工智能（AI）領(lǐng)域的競爭進入白熱化。英偉達公司的高端圖形處理單元（GPU）芯片“一飛沖天”，受到各大科技公司追捧。與此同時，也有一些初創(chuàng)公司另辟蹊徑，專注于研制另一種芯片——AI推理芯片，為AI產(chǎn)品的蓬勃發(fā)展和應(yīng)用注入全新動力。

據(jù)物理學家組織網(wǎng)近日報道，這些AI推理芯片旨在降低生成式AI所需的高昂計算成本，更貼合AI工具的日常運行要求。此類芯片成本的不斷下探和性能的持續(xù)提升，有望掀起新一輪AI應(yīng)用創(chuàng)新浪潮，讓更多復雜且強大的AI應(yīng)用走進千家萬戶。

推理計算需求水漲船高

訓練與推理，是AI大語言模型兩大核心能力的堅固基石。

在應(yīng)用過程中，經(jīng)過訓練的ChatGPT等生成式AI工具會吸納新信息，從中進行推理并生成回應(yīng)，如撰寫文檔、生成圖像等。這類AI工具可應(yīng)用于醫(yī)療診斷、自動駕駛、自然語言理解等領(lǐng)域。

隨著AI模型的廣泛應(yīng)用，需要進行推理計算的硬件日益增多，對推理芯片的需求也將“水漲船高”。國際數(shù)據(jù)公司（IDC）的報告顯示，未來幾年，推理端的AI服務(wù)器占比將持續(xù)攀升。預計到2027年，用于推理的工作負載將占據(jù)七成以上。

科技公司競推新產(chǎn)品

Cerebras、Groq和d-Matrix等初創(chuàng)公司，以及超威半導體公司（AMD）和英特爾等傳統(tǒng)巨頭，紛紛推出了AI推理芯片。這些公司敏銳捕捉到了AI推理芯片“大顯身手”的契機。

據(jù)Cerebras公司官網(wǎng)報道，2024年8月28日，該公司推出了同名AI推理芯片。這款芯片在Llama 3.1-8B模型上實現(xiàn)了1800token/秒的推理速度；在Llama 3.1 70B上實現(xiàn)了450token/秒的推理速度，約是英偉達GPU推理速度的20倍。Token指AI處理文本的最小單元或基本元素，如一個單詞、一個字符等。

Cerebras公司解釋說，這一卓越表現(xiàn)得益于其創(chuàng)新的AI芯片設(shè)計方案。其晶圓級引擎（WSE）宛如一座龐大的“計算工廠”，最大特點是尺寸驚人——單個芯片幾乎占據(jù)了一整塊晶圓的面積。在這個超大芯片上，計算單元和內(nèi)存單元高度集成，形成一個密集的網(wǎng)格結(jié)構(gòu)。這樣的設(shè)計，讓數(shù)據(jù)能在極短距離內(nèi)，于計算單元和存儲單元之間傳輸，從根本上降低了數(shù)據(jù)移動成本，解決了GPU推理無法避免的內(nèi)存帶寬瓶頸。此類大芯片能更快處理信息，從而在更短時間內(nèi)給出答案。

早在去年2月，Groq公司就發(fā)布了自己的AI推理芯片GroqCloud。它在Llama 3.1 70B模型上實現(xiàn)了250token/秒的推理服務(wù)，速度比GPU幾乎提升了一個量級。

去年11月19日，硅谷初創(chuàng)公司d-Matrix宣布，其首款AI推理芯片Corsair已開始出貨，旨在提供聊天機器人和視頻生成等服務(wù)。Corsair在單服務(wù)器環(huán)境下，能讓Llama3 8B模型實現(xiàn)60000token/秒的處理能力，且每個token的延遲僅為1毫秒，充分彰顯了其在高速處理大規(guī)模數(shù)據(jù)方面的卓越性能。更值得一提的是，與GPU及其他方案相比，Corsair能在提供同等性能的同時，大幅降低能耗和成本。

應(yīng)用開發(fā)走上新賽道

亞馬遜、谷歌、元宇宙平臺、微軟等科技公司紛紛斥巨資，搶購昂貴的GPU，以期在AI開發(fā)賽道拔得頭籌。與此同時，AI推理芯片制造商則將目光瞄準了更廣泛的客戶群體，希望能在這片新藍海中大顯身手。

這些潛在客戶不乏那些渴望利用新興的生成式AI技術(shù)，卻又不想大費周章自建AI基礎(chǔ)設(shè)施的財富500強企業(yè)。而且，購買AI推理芯片比從英偉達等公司購買GPU便宜。AI推理芯片旨在優(yōu)化推理計算的速度與效率，尤其擅長智能建議、語音識別、自然語言處理等領(lǐng)域。

業(yè)內(nèi)專家稱，一旦推理速度提升至每秒數(shù)千token，AI模型將能在眨眼之間完成復雜問題的思考與回答過程。這不僅能讓現(xiàn)有應(yīng)用的交互效率實現(xiàn)質(zhì)的飛躍，還將帶來一系列令人耳目一新的人機交互場景。例如，在語音對話領(lǐng)域，延時將被壓縮至毫秒級，能實現(xiàn)近乎自然的對話體驗；在虛擬現(xiàn)實/增強現(xiàn)實領(lǐng)域，AI將能實時生成和調(diào)整虛擬環(huán)境、角色對話以及交互邏輯，給用戶帶來個性化、沉浸式體驗。

推理計算需求水漲船高

訓練與推理，是AI大語言模型兩大核心能力的堅固基石。

科技公司競推新產(chǎn)品

應(yīng)用開發(fā)走上新賽道

本文鏈接：AI推理芯片激發(fā)新一輪應(yīng)用創(chuàng)新http://m.lensthegame.com/show-2-10172-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任，僅提供存儲服務(wù)。天上不會到餡餅，請大家謹防詐騙！若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：瑞典研究警告：AI生成的“垃圾科學”正侵蝕谷歌學術(shù)平臺

下一篇：磷化鈮薄膜在超薄線路制造中展現(xiàn)潛力有助解決電子產(chǎn)品能耗問題

AI推理芯片激發(fā)新一輪應(yīng)用創(chuàng)新

熱門資訊

推薦資訊

科技最熱文章