对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化

日期:2025-10-04 12:06:41 / 人气:19


在今年AI创造者嘉年华期间,硅星人创始人兼CEO骆轶航,与月之暗面(Kimi)技术副总裁付强,就K2模型诞生背后的种种“反常识”,以及Kimi追逐AGI的方法等进行了一场对话。以下为对话实录,经不改变原意的整理:
一、为什么Kimi重返预训练?
骆轶航:去年Kimi产品做得很漂亮,从去年到今年一直在搞预训练,中间推迟了很多次发布,在今年6月底拿出K2,开源社区里的开发者大家发自内心的觉得K2很厉害。但K2其实是借用了DeepSeekV3的架构,你们怎么看这个事儿?
付强:首先从技术的角度,我们的确采取了一致的架构,这个事情在我们内部也有过一些讨论。不管采取什么样的架构,我们都有信心把模型做得更好,但在做这个决策时,要面临关键挑战:要不要为了标新立异而产生新架构?如果采用DeepSeek一样的架构,意味着所有为DeepSeek架构优化过的推理资源,K2模型基本可以重用。因为我们决定K2要做SOTA且开源的模型,没有太多纠结,最终采取了相同架构。
架构相似之外,仍有很多额外努力,更多细节在技术报告中。粗浅解释来看,超参数不同,我们也是MoE架构,但专家数量更多,注意力头数减半,这是表象。决策背后有大量测试和训练收获,还有第一层dense模型的紧致度。最终结果是总体架构相似,但因数据集、超参数不同,表现有显著差异。
骆轶航:其实它呈现的是架构相同,但是有自己特性的东西。
付强:架构相似。其实架构在这个领域并不是特别重要的事。汽车都长四个轮子,大家不是比拼造五个轮子的车,而是车好不好开。我相信在开源世界,可能有一代又一代架构创新,但开源世界的迭代在没有特别好理由的情况下,不应该在架构上做太多变化。
骆轶航:今年后训练、推理、强化学习变得更重要,大家认为是趋势,因为离Agent的距离可能更近。对于Kimi来说挺不一样,把K1.5的那套RL停掉了,重新开始搞预训练,反潮流而行。这意味着补课,还是新的机会?
付强:这个问题特别好。现在行业里常听到预训练概念,也有很多大佬说Scaling Law到头了——过去认为预训练付出成本越多结果越好,后来发现投入更高成本效果不一定好,有些公司逐渐缩减预训练投入。就像摩尔定律,也总有人说不work。
骆轶航:现在好像真的不work,不过是说了40年才不work。
付强:每个团队有自己的判断,我认为预训练仍有空间。关键在于能不能忍受一段时间的寂寞,推出真正的预训练模型。Kimi在24年有段时间很火,投放也多,之后突然销声匿迹到今年6月底、7月初推出K2,中间这段时间就是在沉寂做预训练,认真解决一个个问题。
为什么预训练可以work?最早DeepSeek的文章让很多人眼前一亮,用较低成本(测算约500万美金)做预训练。但我们有另一个逻辑:训练成本低,模型一定更智能吗?某种程度是这样,成本低能用同样的钱训练更多次,但很快会遇到挑战——互联网高质量语料有限,若模型已学完所有高质量知识,再学多少次也无法更聪明。
我们在技术报告中提到,抓住了预训练中过去未太关注的部分。比如同样读10万字的书,能不能读出20万字内容、学得更深入?就像学生时代教材相同,有人学得好,除了老师教导,还有学习中的触类旁通、举一反三。这次技术报告也着重介绍了相关内容。
总之,我们发现在预训练领域有这些收获,便集中全公司精力投入新基座模型,这使得其他方面动作可能稍慢,但当决定做最好的基座模型,就要做出选择。未来我们希望继续在预训练上发力,带来K3、K4,预训练仍有机会。
骆轶航:我觉得这个事儿很重要,那些事儿没那么重要。
付强:是的。
骆轶航:不是成本越低,训练次数越多就越好。让一个模型更智能,提升的方式具体你们怎么做的?
付强:可以简单类比,实际过程较复杂。比如“7+5=12”这个加法,能转化为“12-7=5”的减法,还蕴含等式两边符号变化、加减关联,今后遇到类似题目可通过这种方法验算。
若把传统训练当成“背书”,如熟读唐诗三百首,那玄学一点说,若未来有真AGI,我们看到的不仅是诗,还有背后的历史背景、诗人意境、押韵、文字选择变迁中的漏记抄错等,这些都隐含在Token中。通过足够多比对、Token的不断演化,最终能从同一本书学到更多内容。除了这种变化,还有其他技术可探索。提高Token Efficiency(Token使用效率)至少能把Scaling Law撞墙的问题拖后半年到一年。
骆轶航:我们说Token Efficiency,其实是预训练Scaling Law往前走的现在的一个方式,因为数据总量没法再提升了,参数的提升已经不重要了。
付强:对,参数提升也重要,但会带来过高成本。我们也尊重DeepSeek等在Training Efficiency(训练效率)上的贡献。我想表达的是,预训练不光是Training Efficiency,不是训练一次成本更低就解决问题了,Token Efficiency会是最近的重点。
二、让社区帮助我们进化,但要领先半步
骆轶航:Kimi是怎么看待开源的?是不是跟着DeepSeek的热度?DeepSeek之后,中国开源模型迅速和美国闭源模型对阵,甚至影响到美国开发者的选择。朱啸虎之前说DeepSeek会成为中国的新基建,但现在看还没完全实现。那我们为什么要开源?开源到底给我们带来了什么价值?毕竟在今年之前,Kimi并没有特别强调过开源。
付强:最终选择开源,我视角不全面,但可分享团队感受到的思路。Kimi相比更先发的美国公司规模小得多,需集中精力构建第一方模型。一旦构建出第一方模型,通过开源分享,会看到很多开发者基于开源模型做新应用,这些应用能启发我们,影响下一代开源模型的发力领域。
只有开源,才能让“社区反馈帮助我们更快进化”的循环真正发生。我们欢迎社区出现更酷炫的产品,这不是“大公无私”,而是只要我们始终比社区快半步,就能把这些启发吸收到下一代模型里。
另一方面,从纯技术角度,开源是展示技术能力的重要部分。开源后,所有人能直接验证模型,可自行部署、用自己数据集测试好坏。而闭源公司可能藏起很多东西,用工程化手段模拟,比如先判断问题领域,再调用特定行业模型回答。这种方式看似进步快,能快速满足大厂老板要求,但和真正开放、可验证的模型能力不同。
骆轶航:你都指向大厂了。
付强:更多是我们如何看待构建真正走向AGI的大模型。短时间达到好效果,某种程度也为用户提供好体验,但有篇广为传诵的文章《The Bitter Lesson(苦涩的教训)》回顾AI发展:从深蓝、NLP演进到AlphaGo,最终论证要达到最高智能形态,无法靠复制人类过去知识或拆解问题解决,必须把智能通用化,解决根本性AI问题,才能走向AGI。我们也希望证明,我们在走向AGI的路上,而非仅停留在用户提问时如何答得好的临时性解法。
骆轶航:模型的效果好不好,跟它智能化程度不是完全相关。
付强:或者从另一个角度说,我们希望向世人证明通过提升模型的智能化程度,也可以解决很多非常专业的问题,不需要靠工程上的Trick。
骆轶航:今年非常热的一个词Agent,人人都在做Agent。OpenAI推出了Agent,大家都在讨论,怕不怕OpenAI做的Agent,当然,很多人嘴上会说“这是好事”,但心里其实还是有点担心。你怎么去看K2跟其他的很多独立通用Agent公司之间的关系?是劝他们放弃,还是劝他们走另一条路?
付强:这个问题很难回答。我想到一个类比:第三方做Agent无法深入了解模型本身,毕竟是通过外部API调用。这像赛车手和赛车的关系,车出厂像API,有很多参数可调用,赛车手能操控油门、刹车,甚至调整胎压,不同赛车手操控同一辆车技能千差万别。
第三方Agent作为赛车手有巨大价值,也会优胜劣汰。但在F1赛场,赛车手往往来自赛车公司,要把性能跑到极致,无法只靠逆向工程拆解,打造车的过程第一方公司必须参与。
骆轶航:好的赛车手是没法换车的。
付强:赛车手会面临尴尬:AE86开到秋名山车神,换辆车不一定开得好。同样,模型有任何更新或偷偷降智,都会导致第三方Agent性能翻天覆地变化,因为它某种程度是逆向工程,盲人摸象把性能发挥到极致。
第一方公司恰恰相反,公司规模不一定大,来不及fine-tune每一个赛道,法拉利开秋名山也开不过AE86。我认为最终要做到AGI、把Agent做到最好,一定需要模型在构建过程中端到端考虑应用场景。但也要意识到赛车手的价值,现阶段做赛车的公司无法在没有赛车手的情况下覆盖所有场景。
骆轶航:今年这么提的人少了,一个Agent公司,或者是提供某些服务的公司会告诉你,我背后提供不同的Agent,我会基于每个Agent的特性和需求自动调用,这个事儿基本扯淡。
付强:这个有点像刚才说的工程化MoE。这件事情最终是模型具备的能力,MoE就算有,也是在模型内部做判断,而不是靠人类的经验知识。
骆轶航:所以Agent其实更应该是模型本身面向用户的一种形态,而不是外面再套一层。
付强:我认为,一个好的Agent就应该像K2这样。在训练过程中,我们就充分考虑了这一点,让它原生具备很强的能力。过去的模型更多是基于对话,而最大的差别在于,它是否拥有足够强的突破能力,让人类真正具备调用工具的本质能力,而不是仅仅依赖后期的Fine-tune。
我打个比方,就像在数学学习班里,你可以教一个资质一般的小朋友,用口诀去算1加到100,首项加末项,乘以项数,除以2。这是一个技巧。而另一种方式,是在最初的构建阶段,就让他通过端到端的训练,多做各种数学题,从中自己悟出规律。这两种方式在某种程度上结果相似,都能解决问题,但对智能泛化的程度却完全不同。
只有通过端到端的训练,才能让第一方模型原生地突破,具备真正的智能能力,而不仅仅是照葫芦画瓢,在特定场景里模仿人的Workflow去完成操作。
三、为什么是Coding?因为它是一个更客观的智能标尺
骆轶航:朱啸虎不看好AI Coding作为独立的创业公司。刚才投资人们也在讲AI Coding作为独立公司是不靠谱的。Kimi是个模型公司,现在有了自己的Agent,也在做Coding,而且做的很好。你们怎么看待Coding这件事情?我觉得一个模型更擅长写诗还是更擅长写代码,跟这个公司本身的气质、文化和价值观是相关的。
付强:为什么我们认为作为走向AGI的公司,Coding是需要关注的点?从基座模型公司角度,DeepSeek R1出圈时,我在社媒看到很多案例,它提供一种情绪价值:“终于找到一个AI模型懂我,回复高度共情、彬彬有礼”。
骆轶航:文科生的模型。
付强:当然R1也有很强的理科推断能力。但这里有个小悖论:若把很多精力放在提供用户价值上,过程其实很难评判。聪明的模型就一定比笨模型提供更好的情绪价值吗?不一定。
比如,让名校毕业的人和社会摸爬滚打多年的人解决编程问题,表现有显著差别;但处理人际交往,比如恰当提供情绪价值,就是另一条路,某种程度是价值观问题。
我们最终目标是走向AGI,过程中希望解决的是狭义上智能程度越高、解决可能性越大的问题,模型在这方面有天然优势。我们也希望AI未来能像计算机一样模拟人的操作,编程有个大优势:写完代码能不能跑通立刻知道,训练过程中也能立刻知道是否成功。但像“男朋友不理我了怎么办?”这类问题,很难有客观标准判断回答是否成功。最终也许能找到办法,但从价值角度,代码能否跑通是更直接、客观的标准。
这也是我们选择Coding作为重点发力领域的原因。这次K2的评测结果不错,更重要的是用户选择——OpenRouter上的调用次数、顶级IDE厂商的接入,都证明模型得到认可。
骆轶航:K2的核心价值不在于给人们提供情绪价值,而提供解决问题的能力。
付强:我们Pre-training的目的的确是这样,通过提供更高智能,更高成功率解决特定问题。不是说提供情绪价值不对,它可以通过后训练优化。关键是我们是否相信首先要交付一个足够聪明的产品。
骆轶航:我特别同意,从我的使用体验来看,如果一个模型能够做好Coding,它一定能够做好Writing,可能不是文字非常华丽的Writing,但是一定能做好逻辑清晰,表达准确,呈现思考过程。但是如果一个模型做得好Writing,辞藻很华丽,它不一定能做得好Coding,不一定能帮你解决很多更复杂的问题。所以我觉得Coding可能是这个事的基础。
付强:是的。
四、模型应该与人类共同演化
骆轶航:GPT-5也一样,很多人觉得GPT-5翻车了,效果不好。不就是因为它给你提供的情绪价值变少了吗?但是它给我解决具体问题的能力变多了。这些方面某种程度上意味着它能力的提升,如果我们再延伸一步,这种解决问题的能力意味着模型什么样的价值观?
付强:我觉得还是再call back一下《The Bitter Lesson》,它代表一个价值观。我们判断模型或Agent发展的未来,一定是不断赋予模型更多人类演进过程中曾被赋予的能力。我们希望它掌握工具使用能力,感知世界存在,不断和世界交互,不断接收人类学习结果。
它有聪明的底座、众多参数、好的模型架构、低训练成本,有和世界交互的能力,可以自己做实验,通过不断写代码发现错误,从错误中总结,让自己更聪明。我相信未来它不仅能在代码上做实验,还能做物理、化学实验,那就离AGI不远了。
骆轶航:模型是探索未知世界,做实验的基础。
付强:一个好的模型应当获得与人类共同演化的机会,不光把它当成宠物圈养,跟我们祖先一样,自己去钻木取火。

作者:杏鑫娱乐




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT 杏鑫娱乐 版权所有