
出品|虎嗅科技组体育游戏app平台
作家|苏子华
裁剪|苗正卿
题图|AI生成
往时一段时候,“预锻练驱逐”成为了 AI 规模最激烈的盘问之一。
OpenAI的GPT系列模子此前大踏步的前进,预锻练是中枢推能源。而前 OpenAI 首席科学家 Ilya Sutskever、预锻练和scaling law(规模定律)最忠实的倡导者,却声称预锻练要驱逐了、scaling law要失效。由此,激励了多数争议。
与之相对应的,是GPT-5被曝研发受阻,还是比预期晚了6个月。似乎印证了Ilya的判断。
大模子公司的将来,是否因此都蒙上了暗影?在刘威看来,所谓的预锻练驱逐对中国的大模子公司影响不大,还不必惦记。而据他对Ilya的了解,Ilya的话弗成只看名义预想。
刘威是前混元大模子本领追究东说念主之一,腾讯特出科学家,前不久刚刚低调开启AI规模的创业征途。
他于2016年加入腾讯AI Lab,与AI Lab另外两位追究东说念想法潼、俞栋一齐,被业内称为“AI Lab三剑客”。在2018年,刘威入选IEEE智能系统10大AI后生科学家;2022年,因对大规模机器学习和智能多媒体的孝顺,赢得IEEE Fellow。
在腾讯时期,刘威的责任东如若面向腾讯产物业务的CV基础大模子、多模态相识大模子、文生图、文生视频大模子等。
在刘威看来, Ilya此时这样讲,可能恰正是因为他知说念OpenAI里面遇到了一些本领瓶颈。即便如斯,刘威认为,行业推行上依旧在奴婢着OpenAI,它仍是引颈者。
那么,该若何相识预锻练驱逐的真实影响,若何正确看待OpenAI正际遇的瓶颈、国表里大模子公司的处境,以及预判AI进化的下一阶段?
针对这些问题,刘威从科学家和AI创业者的视角,和咱们聊了聊。
以下是对话实录,经裁剪整理,为便于阅读,有所删减:
“预锻练驱逐对中国大模子公司影响不大”
虎嗅:llya最近示意预锻练将会驱逐,预锻练模子需要的海量数据行将短缺。你若何看待他的不雅点?
刘威:按照llya的话语作风,他一般不会把前边的定语、状语说得很显着。是以,“预锻练驱逐”前边的定语和状语是什么呢?确凿地说,是文智力域的大语言模子的预锻练要驱逐了,数据短缺、找不到高质料的文本token了。
他的方针是想让有识之士坚贞到:文智力域的预锻练如实是驱逐了,呼叫新的锻练范式与新的scaling law。
虎嗅:在这个时候点,他可能看到了什么?若何相识背后的逻辑?
刘威:llya这样说,可能有3个原因。
第一,可能是OpenAI里面遇到了一些本领瓶颈。
按照华尔街日报的报说念,这个本领瓶颈就是指锻练GPT-5模子(OpenAI里面代号Orion)的时候,预锻练的token不够用了,于是加入了合成的token,收尾合成的token后果欠安以致很差,差到可能让统统这个词模子的锻练失败。
OpenAI最开动参增加数的合成数据到预锻练阶段,收尾遇到了很大的迤逦,这个迤逦让OpenAI的GPT-5研发6个月莫得大的发扬。要相识其中的原因,咱们得搞澄莹预锻练的作用。预锻练推行上是在模拟特定domain的天然数据散布,比喻在文本domain,捕捉与模拟天然语言的散布是什么。是以OpenAI会从好多高质料的网站,比喻维基百科、纽约时报等去获取一些文本数据,这些数据都属于东说念主创作的、真实的语言散布。
而合成数据和真实数据,在概率散布上“长”得至极不一样。举个例子,我之前在腾讯也作念过东说念主脸图像DeepFake检测,咱们发现AI合成的假的东说念主脸图像和真实的东说念主脸图像在高频段的信息特征豪阔不一样,是以咱们研发的东说念主脸打假系调理下子就把假的东说念主脸识别出来了。是以在预锻练阶段,如果把真实token的天然散布和合成token的“假”散布混在一齐,喂给模子锻练,便可能会让模子锻练崩溃或者达到一个“言而无信”的模子收尾。
第二,我揣度,o1可能在GPT-5的预锻练中起到了不小的作用,OpenAI可能用o1造了好多代码类、数学类、逻辑类的合成数据,锻练GPT-5去学习。然则,合成数据最大的问题是各样性差。比如,用o1造多数的token,既然是一个模子造的,token的同质化不可幸免,那便不具备各样性。而天然界的真实数据的优点之一就是各样性强,包罗万千。
是以,OpenAI的科学家与工程师们可能坚贞到了合成数据弗成用太多,即等于用了合成数据,也要设法升迁各样性,这样锻练后果仍然可能有升迁。基于这个方针,OpenAI去找高档容颜员、至极资深的数学诚恳或者数学博士,来写数学题的不同解法,以及用不同的方法作念编程题,然后使用这些东说念主类的真实各样性token来锻练一个更好的token生成器模子,以升迁合成数据的各样性。
第三,以上设施带来的模子性能升迁仍然不够权臣。从GPT-3.5到GPT-4的升迁是巨大的,从o1到o3的升迁亦然巨大的,然则从GPT-4到GPT-5,升迁不大。
是以,可能基于以上三个方面,才促使llya说出这样的话。咱们知说念,GPT-3.5到GPT-4巨大的升迁,正是来自于预锻练scaling law。既然预锻练scaling law到头了,就很难大踏步地升迁下一代模子的空洞性能了。
我赞同llya。在文本domain里,预锻练如实到头了。但这并不是指模子算法出了问题,而是指锻练数据(token)不够用了,跟不上model size的scaling up节拍。
虎嗅:也有好多大牛比喻Meta首席东说念主工智能科学家Yann LeCun,说预锻练莫得到头。
刘威:好多时候寰球是在你说你的,我说我的。Yann LeCun指的是多模态规模的scaling law莫得到头。事实上,多模态规模的预锻练若何作念,业界还在探索,还子虚足澄莹GPT-4o、Gemini-2.0是若何进行预锻练的。
在多模态规模,开源社区的作念法和闭源的作念法也不一样。GPT-4o是三个模态(笔墨、图片、语音)的输入和输出,面前国产模子还莫得杀青对标GPT-4o的三模态相识与生成后果。市面上大部分堪称有多模态才能的大模子,主要才能是多模态相识,欠缺优秀的多模态生成才能,比如优秀的语音生成才能(与 OpenAI 的高档语音模式Advanced Voice Mode比拟,大多数语音生成产物在好多才能上仍显不及,包括厚谊相识、贤人的打断功能、丰富天然的口吻语调、多语言扶助、贯穿对话才能等)。
不管Google照旧OpenAI,他们都还莫得发表推敲的论文。是以,寰球不知说念他们是若何作念的。Meta天然发表了一些多模态大模子的论文,但他们发的论文和我方开源的Llama 3模子在多模态锻练方法上又不太一样。是以多模态规模的预锻练scaling law到底是什么样,寰球还在探索。
虎嗅:那么文智力域的scaling law际遇了瓶颈,会对中国的大模子公司有什么影响吗?
刘威:我认为影响不大。对于中国大模子公司来说,token远莫得到用尽的时候。因为OpenAI的本表示线很激进,它的模子参数还是很浩大。行业内有一些传言,揣度GPT-5可能是10T以上的参数目,这是巨大的。除了OpenAI,应该莫得几个机构在锻练10T参数目级的模子。
而咱们知说念GPT-4仅仅1.6-1.7T的参数规模。也就是说,模子参数不错扩大,算力不错增加,但是真实的token量是有上限的。东说念主类唯唯独个互联网,高质料文本token量大致不越过20T 。按照scaling law的劝诫公式:GPT系列模子预锻练需要的token量与模子参数目,大致呈10倍的线性关系。那么,GPT-5如果是10T的参数规模,咱们很难集聚到100T 高质料token的数据。从这个角度讲,预锻练如实到头了。
而以严格的圭臬来说,在多语种的文本domain里,中国还莫得一家国产模子能够达到GPT-4的水准,还有非常的升迁空间,是以国产模子厂家还无须惦记scaling law到头了。
虎嗅:还有一种说法,数据危险可能会导致发力通用大模子的公司,转向更小、更专科的模子。
刘威:这个和预锻练的驱逐莫得径直关系。寰球永恒不错研发小模子,在“预锻练驱逐”被提议之前,微软一直在作念小模子,Meta、苹果也都在作念端侧模子,包括国内的面壁智能也在作念端侧小模子。
虎嗅:之前传闻有几家国内大模子独角兽毁灭预锻练了,似乎毁灭预锻练是个很负面的事情?
刘威:这应该是传言,如果属实,梗概是被卡脖子的无奈之举,国内贫瘠最高端的GPU芯片,这天然会非常影响预锻练的质料与速率。
预锻练很纷乱,它的作用是先将寰宇常识的散布模拟一遍,然后才有“后锻练”。预锻练建造了学习的方针,后锻练则是充实了学习的技法。先有方针,才有技法;先真金不怕火内功,再学招式。
预锻练费时忙碌,还不一定能锻练得手。国外好多公司,尤其是好意思国硅谷的好多公司,径直继承Meta开源的Llama底座模子进行微调,飞快推向市集工作用户。从买卖上来说,这无可厚非。
虎嗅:都去作念预锻练,算是不颖慧吗?
刘威:不仅是中国的公司在追逐OpenAI,模仿他们的本表示线和方法,好意思国的公司如谷歌、Meta、Anthropic也在作念通常的事情,都在作念预锻练,而谷歌在推出同类型模子产物上是追逐OpenAI最激进的一个。
虎嗅:什么样的公司顺应去作念预锻练?
刘威:不管是在中国、好意思国照旧欧洲,有AGI信仰的公司才能相持作念预锻练。
接下来,AI若何连接进化?
虎嗅:o3出来之后,集聚口碑一般,这个您若何看?面前咱们是否处在AI行业的某个分水岭?
刘威:o3在推理、编程、数学、科学方面的才能短长常强的,我认为在后锻练scaling law的路子上,OpenAI面前还没到达分水岭。
如果咱们琢磨OpenAI的全局本表示线,它如实还是跨过了第一个分水岭,即预锻练的scaling law。它面前正处在探索新的scaling law(后锻练或强化学习scaling law)的说念路上,也还是从o1走到了o3。
虎嗅:为什么寰球追上OpenAI的速率不错这样快,好像AI公司间的竞争壁垒没那么高?
刘威:这是功德。开端,没东说念主敢说OpenAI的本表示线是错的,寰球都在用推行举止示意奴婢,OpenAI依旧是引颈者。另外,寰球也不但愿行业里出现一个寡头。业界共同股东本领逾越发展,行业也更健康。
虎嗅:一些大模子独角兽会认为寰宇模子是AI的下一个阶段,若何相识寰宇模子?
刘威:寰宇模子这个词在学术界还莫得澄莹的界说。有3D重建式的寰宇模子,比喻李飞飞教悔的World Labs正在作念的;也有在视频中作念一些自动相识、自动导航式的寰宇模子,比喻Meta的Yann LeCun团队研发的JEPA系列模子;特斯拉和一些国内的新能源车、自动驾驶公司,也在作念自动驾驶场景里的自动野心、自动欺压的寰宇模子。
就像AGI在学术界还是流传了多年,但好多学者,举例Yann LeCun就认为不应该叫AGI,应该叫human-level intelligence,是用“东说念主类档次的智能”来替代AGI这样的叫法。
寰宇模子亦然一样,梗概将来有更好的定名格式抒发。
按照我的相识,如果一个AI模子学习了全寰宇的东说念主类常识,那么它就不错称为一个基础版的寰宇模子。从常识层面来看,GPT-4可算是文本常识规模的基础寰宇模子。如果从功用层面来看,寰宇模子的界说应该不仅涵盖东说念主类档次的传说读写才能,还包括代替东说念主类在物理寰宇去实行任务。那么,现时还莫得一个AI模子能称为寰宇模子。
是以,咱们应该把寰宇模子的推敲范围放窄一些,先处分相对容易的问题,安宁再引申推敲范围。我的不雅点是:当咱们推敲寰宇模子的时候,要先去界说什么是咱们要推敲的寰宇,大寰宇或者小寰宇。当细目了咱们要推敲的寰宇界说域,那么对寰宇模子的推敲限制—常识层面+功用层面—推行上就会变得更澄莹。
虎嗅:对于大模子的进化,您之前在访谈里提到过,将来大模子不错通过自博弈的强化学习,来掌合手自动升级的钥匙,无需东说念主工滋扰就能杀青迭代,这件事面前到什么阶段了?
刘威:这是我对将来大模子本领发展的一个谋略。我以为大语言模子的升级不错从豪阔东说念主工滋扰渐渐发展到半自动,终末演化为全自动升级。
面前大模子的对王人计谋主如若与东说念主类对王人,是以有RLHF(东说念主类响应的强化学习)。从公开信息源,咱们发现OpenAI、Google、Meta、Anthropic正在或野心使用AI对王人计谋,如RLAIF(AI响应的强化学习)。
具体来说,这种AI对王人计谋体当今:监督微调(SFT)中使用一个大语言模子(辅助模子或者前代模子)生成prompt-response容颜的语料数据,RL中使用该模子对特定prompt的多个response进行打分或者排序(称为偏好数据)。比如,Meta开源的Llama 3的本领敷陈中,明确诠释了它的对王人阶段,或者说后锻练阶段,会依赖于Llama 3的早期模子版蓝本生成部分SFT语料数据。
OpenAI的12天直播里,展示了一项新本领叫RFT,也就是强化学习微调,这短长常关节的本领,它不错在线集聚东说念主类的少许响应,然后让现时的大语言模子版块模拟这些东说念主类响应而生成更多的响应样本,用东说念主类响应+AI响应进行强化学习,微调现时模子版块,并不错持续迭代下去。
在对王人层面,将对王人的泉源由东说念主类换成了AI,这就是一个逾越。但是,即使继承了AI对王人计谋,后锻练scaling law仍然可能有驱逐的一天。
因此,我一直在想考能否有比对王人驱动的强化学习更有用的学习范式。AI如果只和东说念主类对王人,那么智能水平永恒不可能越过东说念主类,是以我建议尝试顽抗式的自博弈强化学习,即AI和AI顽抗竞争学习,这样AI的智能水平才有可能越过东说念主类。
顽抗式自博弈RL,正是 DeepMind的AlphaZero最早提议的本领,当先有多个方案式AI模子版块,让它们两两顽抗PK,谁能赢,谁就survive,一系列倚强凌弱之后,得到最强的AI模子。最近,Hinton(被称为AI教父、诺奖得主)在访谈和演讲中提到,他很惦记AI越来越强之后,会互相竞争资源;比如,有公司同期锻练了几个大语言模子,有的大语言模子会更智能,它可能会主动打劫其他模子的数据资源和算力资源而变得更强。Hinton驳斥的这些,就是自博弈式、顽抗式的强化学习。
虎嗅:听起来有点像一个AI吞吃另一个AI。
刘威:将来可能会发生。天然,东说念主类正在制定和完善各式制约、范例、公约等来幸免AI的失控,尽早沉着和根绝AI对东说念主类变成负面的影响。
虎嗅:面前大模子这个行业里,最让您野蛮的是什么呢?
刘威:最让我野蛮的是:何时能把自博弈式的顽抗强化学习,用至极低廉的格式作念出来。
虎嗅:还是看到有东说念主在作念了吗?
刘威:这个还不澄莹,如果是学术界的一又友,我建议他们去推敲。
这里我想举一个例子。OpenAI在2017年发明了PPO算法,一种在线强化学习算法。GPT-3.5和GPT-4用的就是PPO。而在昨年5月份,斯坦福大学发表了一篇论文,提议了一个新的离线强化学习算法DPO,即径直偏好优化,它比PPO沉稳好多、计较上轻量好多,于是业界都开动继承这个RL算法。况兼,DPO提议来之后,OpenAI也在使用,它最近发布的强化学习微调就是继承了DPO。
学术界不错用不同于工业界的视角来推敲好多本领问题,通常能提议至极玄机的新方法。是以,顽抗式自博弈的强化学习,我嗅觉会有计较更低廉、算法瞎想更玄机的处分办法被推敲出来。
虎嗅:那么它会对AI行业的发展产生什么影响?
刘威:会有新的scaling law出身。也就是说,除了预锻练的scaling law、强化学习的scaling law还会有一次范式迁徙或升级,即自博弈强化学习scaling law。
它是顽抗式的RL,不是对王人式的RL,用它驱动大模子的升级,会比对王人式RL的效能更高。
虎嗅:对于强化学习的scaling law,面前寰球还莫得达成共鸣吧?
刘威:OpenAI梗概还是探索出我方的强化学习scaling law,其他公司可能还需要先去追逐o1,赶上之后方能去探索RL scaling law。
谈竞争
虎嗅:一些知名投资机构谋略2025年AI讹诈会爆发,您若何看?
刘威:如果从广义来看,从CV四小龙时期到当今的大模子六小虎时间,AI讹诈一直在蕃昌发展。咱们每天都在和AI讹诈战斗,比如说刷脸。
咱们面前关心的AI讹诈,比如红杉好意思国的著作里提的AI讹诈,指的是agent智能体,它算是AI原生的讹诈。我认为agent是买卖软件的将来,以致是SaaS的将来,我也谋略agentic AI会在2025年爆发。
虎嗅:在您看来,国表里AI创业者作念的事情有什么不同?
刘威:据我了解,好意思国至极好的大学在至极积极、平方地拥抱AI,这是在学术界;在硅谷的话,有莫得AI,硅谷的创业高涨也都莫得消退过。可能这一波生成式AI的创业海浪比以前来的更粗暴,融资额度也比往时大,毕竟GPU算力很贵。
从追求AGI上来讲,硅谷和国内的AI行业,作念的事情没什么推行不同。国内可能会模仿硅谷的创业课题,比如对标cursor,作念一些AI代码生成的创业公司。
虎嗅:国表里的AI产业,面临的挑战会有什么不同?比如,好意思国的AI巨头可能更缺能源,中国的AI独角兽更缺资金?
刘威:很难讲挑战是什么,只可说中好意思的诉求有互异。从一些公开报说念来看,好意思国的几家AI巨头还是订购了多数高端的GPU,在2025年平均一家都有几十万块的英伟达B系列的卡。
在我看来,好意思国这些AI玩家,他们属于激进派,他们的诉求就是看谁能先达到AGI,不管是在囤东说念主才、算力、资金等方面,都在进行武备竞赛。比如,在公开局面,Elon Musk谋略,AGI最晚在2026年就会来;而Sam Altman谋略最早在2025年能来,Google的AI一号位Demis Hassabis谋略AGI在2030年能来。看来寰球都认为AGI会在将来几年到来,那就看谁能率先作念出来。
对于中国的AI行业来说,资金不是问题,从中央到场所,从企业到高校,对AI都很扶助,况兼扶助的力度至极大。国内AI产业的诉求,我认为主要照旧看AI能弗成确切产生社会价值。
虎嗅:国内大模子公司的竞争,在创业方面有给你什么启发吗?
刘威:要有我方的绝活。就像在大语言模子的赛说念,弗成老是随着几家好意思国AI巨头后头去追逐。不错尝试对准巨头作念的不是那么好的赛说念,在这个赛说念以独到的本领想法,找到属于我方的scaling law。
