巖芯數(shù)智董事長陳代千：通用大模型要解決普適性問題，但必須個性化、低能耗

2024-01-26 11:17:53 來源：

觀看：325

21世紀經(jīng)濟報道記者張賽男上海報道

2023年被公認為是“大模型元年”，國內(nèi)外大模型層出不窮，堪稱“百模大戰(zhàn)”。在這場競賽中，通用大模型、垂直大模型、端側大模型……各家發(fā)布的大模型各有特色，都想從中分一杯羹。

2024年開年之際，新的競爭也來臨。先是獵豹移動發(fā)布獵戶星空大模型，后有巖山科技（002195.SZ）旗下巖芯數(shù)智推出的自研大模型“Yan模型”……大模型賽道依舊吸引著各路資本的投入。

盡管競爭者眾多，但市場總會決出最終的贏家，關鍵是花落誰家？

巖山科技常務副總經(jīng)理、巖芯數(shù)智董事長陳代千對21世紀經(jīng)濟報道記者表示：“最終跑出來的大模型一定具有非常好的用戶體驗。大模型本質(zhì)上是用戶的體驗，不管是B端還是C端，最終是用戶來評價這個大模型好用不好用。用戶體驗怎樣才能好？首先，要能完成用戶給出的任務，如果不能完成任務，談高效率、低能耗是不現(xiàn)實的。在能完成任務的基礎上，以更低能耗和更高效率去完成，客戶才會有很強的意愿去復用。”

1月24日，巖芯數(shù)智發(fā)布“Yan模型”，打出的標簽是“非Transformer架構”，為國內(nèi)首個非Attention機制的通用自然語言大模型。在陳代千看來，“Yan模型”去除了Transformer中高成本的注意力機制，代之以計算量更小、難度更低的線性計算，能實現(xiàn)高效率、低能耗的目標。

Transformer架構或許讓普通人感到陌生，但其實是當下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎架構。憑借著強大的自然語言理解能力，Transformer在問世的短短幾年內(nèi)便取代了傳統(tǒng)的RNN網(wǎng)絡結構，不僅成為自然語言處理領域的主流模型架構，還在計算機視覺、語音識別等多個領域展示了其跨界的通用能力。

在Transformer已經(jīng)占據(jù)人工智能領域半壁江山的今天，巖芯數(shù)智為何要另辟蹊徑？

算力和成本是巖芯數(shù)智的出發(fā)點。巖芯數(shù)智CEO劉凡平介紹，以大規(guī)模著稱的Transformer，在實際應用中的高算力和高成本，讓不少中小型企業(yè)望而卻步。其內(nèi)部架構的復雜性，讓決策過程難以解釋；長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關鍵領域和特殊場景的廣泛應用。隨著云計算和邊緣計算的普及，行業(yè)對于高效能、低能耗AI大模型的需求正不斷增長。

“Yan團隊早在三年前就已經(jīng)開始布局、落地非transformer架構相關的事情。在這個過程中，行業(yè)也慢慢了解到transformer架構機制有一些共性的缺陷，所以大家都會去研究有沒有其他的算法去優(yōu)化、甚至替代這個結構。”陳代千說，“我們基于此前的實踐，確信非transformer的路線是可行的。”

陳代千還談到，“對很多的企業(yè)來說，并不是一定要用千億大模型，用百億大模型也許就可以達到效果。在千億大模型上訓練成本太高，以至于可能無法快速迭代。我們對通用大模型的理解是，它當然要解決很多普適性的問題，但是它必須個性化、同時必須低能耗。”他還透露，基于Yan架構，僅需投入同等規(guī)模Transformer架構成本的50%甚至更低，就可以擁有百萬參數(shù)級的大模型。

那么，這個新架構下的大模型運行效率如何？從巖芯數(shù)智給出的對比結果來看，在同等資源條件下，Yan架構的模型，訓練效率和推理吞吐量分別是Transformer架構的7倍及5倍，并使記憶能力得到3倍提升。對比數(shù)據(jù)表明，在單張4090 24G顯卡上，當模型輸出token的長度超出2600時，Transformer的模型會出現(xiàn)顯存不足，而Yan模型的顯存使用始終穩(wěn)定在14G左右，理論上能夠?qū)崿F(xiàn)無限長度的推理。

在主流架構之外去搭建一個新的系統(tǒng)，巖芯數(shù)智顯然面臨著更大的挑戰(zhàn)。

當被問及如何看待全新生態(tài)系統(tǒng)帶來的難度時，巖芯數(shù)智CTO楊華對21世紀經(jīng)濟報道記者坦言，“這個點確實會存在，我們從零開始搭建構建自己的生態(tài)，確實需要花費更多時間，但也是我們堅信要走的一條路。”

他還表示，現(xiàn)在發(fā)布的產(chǎn)品是Yan 1.0版本，目前正在做Yan 2.0。“最后的通用人工智能，它肯定不僅僅是現(xiàn)在以語言輸入、文本輸出等形式，它應該是比如計算機視覺、視頻甚至數(shù)字信號等全模態(tài)的內(nèi)容都可以輸入，然后我的模型也能夠以各種形態(tài)，比如說以文字吐出、語音合成或者視頻、信號處理的方式吐回這個結果。我們想做的Yan 2.0，其實就是往這個方向走，做一個全模態(tài)的實時人機交互系統(tǒng)。”

本文鏈接：巖芯數(shù)智董事長陳代千：通用大模型要解決普適性問題，但必須個性化、低能耗http://m.lensthegame.com/show-2-2395-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：新東方發(fā)布超預期財報俞敏洪回應董宇輝流量超過東方甄選

下一篇：研究表明土壤壓實影響大豆根系“進化”

巖芯數(shù)智董事長陳代千：通用大模型要解決普適性問題，但必須個性化、低能耗

熱門資訊

推薦資訊

科技最熱文章