芯片可能成為我們追趕ChatGPT的最大瓶頸

2023-02-23 11:02

作者｜劉正

Simon Kucher 戰(zhàn)略咨詢顧問

ChatGPT一聲驚雷，平靜的搜索江湖瞬間風暴驟起。微軟高調(diào)上線ChatGPT版Bing搜索引擎，逼得Google倉促應戰(zhàn)，推出基于LaMDA 模型的同款聊天機器人，結果Bard變bug，反而把自家股價打掉了2000億美元。

與此同時，百度也宣布自研的“文心一言”正在加速內(nèi)測，預計三月底問世。

蟄伏已久的科技巨頭們同時變得緊張，除了ChatGPT在公眾中掀起的熱潮，也因為他們預感到ChatGPT所代表的LLM（大語言模型）應用很可能是一種“元技術”。

“元技術”指的是該技術的持續(xù)運用可以反過來加速技術本身的進步。 例如：芯片在現(xiàn)實世界中的應用能從開發(fā)效率，應用場景和資金投入上反哺研發(fā)，從而加速芯片本身的進步；“元技術”的發(fā)展符合指數(shù)增長的規(guī)律，因此能夠克服研發(fā)管理中常見的復雜度爆炸，逃離“中等進步陷阱”的引力束縛。

也正是由于“元技術”的屬性，芯片的研發(fā)才能夠不斷實現(xiàn)突破，追上摩爾定律的要求，相比而言生物技術等非“元技術”，則在摘光低垂的果實后搭不出技術升級的墊腳石，從而深陷Eroom’s Law（反摩爾定律）的泥潭。

正如大家體驗到的，使用ChatGPT可以極大解放工作效率，這也包括Open AI自己的研發(fā)人員。億級用戶對ChatGPT的花式提問和反復測試出的“prompt黑魔法”，也為后續(xù)版本的迭代迅速積攢了海量素材。

除此以外，LLM單次訓練的巨大成本和對算力資源的占據(jù)，也構成了對新玩家殘酷的進入壁壘。

隨著競爭的加劇，無論是資金還是算力都會理性的向技術領先者集中，從而自我實現(xiàn)“強者愈強”的馬太定律。

至此，ChatGPT的“元技術”飛輪，隱隱已形成閉環(huán)。所以，如果沒有在“技術奇點”前及時上車，已有科技巨頭和OpenAI在AI應用上差距將不可逆的拉大，最終陷入萬劫不復的螺旋衰落；而那些小型AI創(chuàng)業(yè)團隊，面對模型代差和資源無法彌補的差距，滅頂之災已然到來。

而在更高的層面上，作為“元技術”的ChatGPT可能對中國的未來具有核彈級的震蕩性。

過去十年中國科技產(chǎn)業(yè)的進展，靠的是“fast follow”和工程化上充滿暴力美學的 “飽和式執(zhí)行”。而這背后所依托的，則是國內(nèi)教育體制帶來的“工程師福利”。

雖然培養(yǎng)不出S級的創(chuàng)新人才，但產(chǎn)出的B級標品量大管飽：穩(wěn)定、勤奮、執(zhí)行力強、而且還相當便宜，可以迅速填平從源頭創(chuàng)新到應用落地的時間差距，直接把海外的原創(chuàng)者給卷沒了。

但ChatGPT作為史上最優(yōu)秀的復讀機，恰好和“中國機器人”的功能重合了。

你會的我也會，你不懂的我還懂，你能996，但我能365天007，你行嗎？更何況ChatGPT還不是人，無負面情緒之亂耳，無柴米油鹽之勞形，不會辭職，絕不躺平。

熟練運用ChatGPT相當于雇了一個隨叫隨到，皮實耐造，擁有各知識領域基礎技能的助理團隊。

對眼高過頂?shù)腟級創(chuàng)新者而言， ChatGPT為其想法的prototype落地提供了全天候的助力；對集聚S級人才的創(chuàng)新企業(yè)而言，ChatGPT則意味著執(zhí)行落地不再成為主要的發(fā)展瓶頸。而人員規(guī)模的瘦身和智力濃度的提升，還能進一步減少內(nèi)部信息傳導的損耗，如只有四百人的Open AI那樣敏捷高效。

在這種情況下，使用開源框架fast follow的大廠策略還能產(chǎn)生規(guī)模效應嗎？即便還能壓縮出成本優(yōu)勢，也會在時間效率上遭遇降維打擊。國內(nèi)有人常常嘲笑美國大學在產(chǎn)出少量S級和A級精英的同時，卻制造了一堆垃圾，以至于要從中印長期進口B級好員工；現(xiàn)在可能要笑不出來了。

過去擅長的騎射武功突然過時了，而機關槍對射的世界里沒有你的位置。因此，如果BAT沒有搶到此輪ChatGPT的船票，科技產(chǎn)業(yè)將錯失這一致命的“奇點時刻”。遺憾的是，國內(nèi)眾多玩家不但在模型上被拉開身位，在算力和數(shù)據(jù)上也即將甚至已經(jīng)面臨極大的限制。

LLM對算力的吞噬是貪婪的，GPT-3 的1750億參數(shù)（45.3T）模型單次訓練需要1024張NVIDA A100 GPU訓練34天。但是，目前A100這個級別的芯片是禁運的。接下來，GPT-4需要的算力可能會繼續(xù)增加兩個數(shù)量級，我們那時候用什么芯片來追趕呢？畢竟現(xiàn)在連45nm制程的光刻機都要被禁運了。

芯片禁運對國內(nèi)AI技術的壓制堪稱智子鎖死。

有人說這沒關系，可以通過疊加成熟制程的芯片以量換質(zhì)，或是慢點訓練最終也能達到同等技術水平。芯片禁運，本來就不是為了一錘子打死你，而是通過增加中國科技企業(yè)的算力成本，讓任何AI應用的落地在財務上不可行（甚至在熱力學上都不可行），搞得你只能在利潤失血和被迫繳械之間二選一，無法進入良性業(yè)務循環(huán)。

只要持續(xù)禁運，拖慢對手的進程，在過了“奇點時刻”后，“元技術”的代差可能就無法收斂了。如果新一輪LLM輸出的成果反哺到芯片研發(fā)的流程，那么這種速度差距將會進一步拉開。

而在數(shù)據(jù)來源上，微軟和Google依托的是超主權的全球互聯(lián)網(wǎng)文本。以GPT-3為例，數(shù)據(jù)主要來自Common Crawl，共31億個頁面，覆蓋了2016-2021年間的互聯(lián)網(wǎng)文本數(shù)據(jù)，并用WebText2作為高質(zhì)量文檔類對原始數(shù)據(jù)進行了質(zhì)量過濾；此外還導入2個圖書庫和Wikipedia進行了額外補充。

BAT所依托的中文互聯(lián)網(wǎng)，在量級上不夠（Common Crawl里中文數(shù)據(jù)不到5%），而且數(shù)據(jù)生態(tài)也不夠好。

大部分中文頁面的信息可信度還不如百度貼吧，極少的高質(zhì)量數(shù)據(jù)則被圈在各個廠家私域的“圍墻花園”中，而且有相當多的鏈接打開后是404。至于用結構化數(shù)據(jù)庫進行補充，你指的是知網(wǎng)和百度百科這對哼哈二將嗎？

以這種質(zhì)量和結構性缺失的數(shù)據(jù)集進行訓練，結果很可能是garbage in garbage out的廢話生成器，就比如百度匆匆下線的Plato杠精機器人。

而在當前的數(shù)據(jù)主權和信息安全規(guī)范下，利用海外數(shù)據(jù)“西數(shù)東算”再翻譯回中文也困難重重。更深一層思考，又如何剔除“進口模型”中內(nèi)隱的意識形態(tài)植入？“根據(jù)相關法律，本答案不予顯示”？精明如微軟，一開始就封掉了中國IP使用ChatGPT版Bing搜索引擎的權限，割以永治。

致命的奇點時刻，正在敲響警鐘。

免責聲明：

該文章僅代表作者個人觀點，該文章來源于網(wǎng)絡，與本站無關。該文章內(nèi)容的完整性，及時性及真實性，本站不作任何保證或承諾，僅供讀者參考閱讀。

上一篇：延遲退休和 ChatGPT，哪一個對我們下一代的前途影響更大？下一篇：為什么出現(xiàn)“報復性存錢”？ 2023-02-23 11:02

有問題嗎？請致電：

18122113368

投訴電話：13719372999

新手指南

我是服務商

我是參展商

如何成為網(wǎng)站會員

我是主辦方
會展天下產(chǎn)品

會展官網(wǎng)

會展App

會展公眾號
掃描關注會展天下
聯(lián)系我們

企業(yè)介紹

尋求報道

市場合作

客服中心
關于會展天下

會展天下介紹

服務聲明

加入我們

在線客服

文章分類

最新文章

芯片可能成為我們追趕ChatGPT的最大瓶頸