对话Kimi付强：别把模型当宠物圈养，追逐AGI就要让模型与人类共同演化

日期：2025-10-04 12:06:41 / 人气：19

在今年AI创造者嘉年华期间，硅星人创始人兼CEO骆轶航，与月之暗面（Kimi）技术副总裁付强，就K2模型诞生背后的种种“反常识”，以及Kimi追逐AGI的方法等进行了一场对话。以下为对话实录，经不改变原意的整理：
一、为什么Kimi重返预训练？
骆轶航：去年Kimi产品做得很漂亮，从去年到今年一直在搞预训练，中间推迟了很多次发布，在今年6月底拿出K2，开源社区里的开发者大家发自内心的觉得K2很厉害。但K2其实是借用了DeepSeekV3的架构，你们怎么看这个事儿？
付强：首先从技术的角度，我们的确采取了一致的架构，这个事情在我们内部也有过一些讨论。不管采取什么样的架构，我们都有信心把模型做得更好，但在做这个决策时，要面临关键挑战：要不要为了标新立异而产生新架构？如果采用DeepSeek一样的架构，意味着所有为DeepSeek架构优化过的推理资源，K2模型基本可以重用。因为我们决定K2要做SOTA且开源的模型，没有太多纠结，最终采取了相同架构。
架构相似之外，仍有很多额外努力，更多细节在技术报告中。粗浅解释来看，超参数不同，我们也是MoE架构，但专家数量更多，注意力头数减半，这是表象。决策背后有大量测试和训练收获，还有第一层dense模型的紧致度。最终结果是总体架构相似，但因数据集、超参数不同，表现有显著差异。
骆轶航：其实它呈现的是架构相同，但是有自己特性的东西。
付强：架构相似。其实架构在这个领域并不是特别重要的事。汽车都长四个轮子，大家不是比拼造五个轮子的车，而是车好不好开。我相信在开源世界，可能有一代又一代架构创新，但开源世界的迭代在没有特别好理由的情况下，不应该在架构上做太多变化。
骆轶航：今年后训练、推理、强化学习变得更重要，大家认为是趋势，因为离Agent的距离可能更近。对于Kimi来说挺不一样，把K1.5的那套RL停掉了，重新开始搞预训练，反潮流而行。这意味着补课，还是新的机会？
付强：这个问题特别好。现在行业里常听到预训练概念，也有很多大佬说Scaling Law到头了——过去认为预训练付出成本越多结果越好，后来发现投入更高成本效果不一定好，有些公司逐渐缩减预训练投入。就像摩尔定律，也总有人说不work。
骆轶航：现在好像真的不work，不过是说了40年才不work。
付强：每个团队有自己的判断，我认为预训练仍有空间。关键在于能不能忍受一段时间的寂寞，推出真正的预训练模型。Kimi在24年有段时间很火，投放也多，之后突然销声匿迹到今年6月底、7月初推出K2，中间这段时间就是在沉寂做预训练，认真解决一个个问题。
为什么预训练可以work？最早DeepSeek的文章让很多人眼前一亮，用较低成本（测算约500万美金）做预训练。但我们有另一个逻辑：训练成本低，模型一定更智能吗？某种程度是这样，成本低能用同样的钱训练更多次，但很快会遇到挑战——互联网高质量语料有限，若模型已学完所有高质量知识，再学多少次也无法更聪明。
我们在技术报告中提到，抓住了预训练中过去未太关注的部分。比如同样读10万字的书，能不能读出20万字内容、学得更深入？就像学生时代教材相同，有人学得好，除了老师教导，还有学习中的触类旁通、举一反三。这次技术报告也着重介绍了相关内容。
总之，我们发现在预训练领域有这些收获，便集中全公司精力投入新基座模型，这使得其他方面动作可能稍慢，但当决定做最好的基座模型，就要做出选择。未来我们希望继续在预训练上发力，带来K3、K4，预训练仍有机会。
骆轶航：我觉得这个事儿很重要，那些事儿没那么重要。
付强：是的。
骆轶航：不是成本越低，训练次数越多就越好。让一个模型更智能，提升的方式具体你们怎么做的？
付强：可以简单类比，实际过程较复杂。比如“7+5=12”这个加法，能转化为“12-7=5”的减法，还蕴含等式两边符号变化、加减关联，今后遇到类似题目可通过这种方法验算。
若把传统训练当成“背书”，如熟读唐诗三百首，那玄学一点说，若未来有真AGI，我们看到的不仅是诗，还有背后的历史背景、诗人意境、押韵、文字选择变迁中的漏记抄错等，这些都隐含在Token中。通过足够多比对、Token的不断演化，最终能从同一本书学到更多内容。除了这种变化，还有其他技术可探索。提高Token Efficiency（Token使用效率）至少能把Scaling Law撞墙的问题拖后半年到一年。
骆轶航：我们说Token Efficiency，其实是预训练Scaling Law往前走的现在的一个方式，因为数据总量没法再提升了，参数的提升已经不重要了。
付强：对，参数提升也重要，但会带来过高成本。我们也尊重DeepSeek等在Training Efficiency（训练效率）上的贡献。我想表达的是，预训练不光是Training Efficiency，不是训练一次成本更低就解决问题了，Token Efficiency会是最近的重点。
二、让社区帮助我们进化，但要领先半步
骆轶航：Kimi是怎么看待开源的？是不是跟着DeepSeek的热度？DeepSeek之后，中国开源模型迅速和美国闭源模型对阵，甚至影响到美国开发者的选择。朱啸虎之前说DeepSeek会成为中国的新基建，但现在看还没完全实现。那我们为什么要开源？开源到底给我们带来了什么价值？毕竟在今年之前，Kimi并没有特别强调过开源。
付强：最终选择开源，我视角不全面，但可分享团队感受到的思路。Kimi相比更先发的美国公司规模小得多，需集中精力构建第一方模型。一旦构建出第一方模型，通过开源分享，会看到很多开发者基于开源模型做新应用，这些应用能启发我们，影响下一代开源模型的发力领域。
只有开源，才能让“社区反馈帮助我们更快进化”的循环真正发生。我们欢迎社区出现更酷炫的产品，这不是“大公无私”，而是只要我们始终比社区快半步，就能把这些启发吸收到下一代模型里。
另一方面，从纯技术角度，开源是展示技术能力的重要部分。开源后，所有人能直接验证模型，可自行部署、用自己数据集测试好坏。而闭源公司可能藏起很多东西，用工程化手段模拟，比如先判断问题领域，再调用特定行业模型回答。这种方式看似进步快，能快速满足大厂老板要求，但和真正开放、可验证的模型能力不同。
骆轶航：你都指向大厂了。
付强：更多是我们如何看待构建真正走向AGI的大模型。短时间达到好效果，某种程度也为用户提供好体验，但有篇广为传诵的文章《The Bitter Lesson（苦涩的教训）》回顾AI发展：从深蓝、NLP演进到AlphaGo，最终论证要达到最高智能形态，无法靠复制人类过去知识或拆解问题解决，必须把智能通用化，解决根本性AI问题，才能走向AGI。我们也希望证明，我们在走向AGI的路上，而非仅停留在用户提问时如何答得好的临时性解法。
骆轶航：模型的效果好不好，跟它智能化程度不是完全相关。
付强：或者从另一个角度说，我们希望向世人证明通过提升模型的智能化程度，也可以解决很多非常专业的问题，不需要靠工程上的Trick。
骆轶航：今年非常热的一个词Agent，人人都在做Agent。OpenAI推出了Agent，大家都在讨论，怕不怕OpenAI做的Agent，当然，很多人嘴上会说“这是好事”，但心里其实还是有点担心。你怎么去看K2跟其他的很多独立通用Agent公司之间的关系？是劝他们放弃，还是劝他们走另一条路？
付强：这个问题很难回答。我想到一个类比：第三方做Agent无法深入了解模型本身，毕竟是通过外部API调用。这像赛车手和赛车的关系，车出厂像API，有很多参数可调用，赛车手能操控油门、刹车，甚至调整胎压，不同赛车手操控同一辆车技能千差万别。
第三方Agent作为赛车手有巨大价值，也会优胜劣汰。但在F1赛场，赛车手往往来自赛车公司，要把性能跑到极致，无法只靠逆向工程拆解，打造车的过程第一方公司必须参与。
骆轶航：好的赛车手是没法换车的。
付强：赛车手会面临尴尬：AE86开到秋名山车神，换辆车不一定开得好。同样，模型有任何更新或偷偷降智，都会导致第三方Agent性能翻天覆地变化，因为它某种程度是逆向工程，盲人摸象把性能发挥到极致。
第一方公司恰恰相反，公司规模不一定大，来不及fine-tune每一个赛道，法拉利开秋名山也开不过AE86。我认为最终要做到AGI、把Agent做到最好，一定需要模型在构建过程中端到端考虑应用场景。但也要意识到赛车手的价值，现阶段做赛车的公司无法在没有赛车手的情况下覆盖所有场景。
骆轶航：今年这么提的人少了，一个Agent公司，或者是提供某些服务的公司会告诉你，我背后提供不同的Agent，我会基于每个Agent的特性和需求自动调用，这个事儿基本扯淡。
付强：这个有点像刚才说的工程化MoE。这件事情最终是模型具备的能力，MoE就算有，也是在模型内部做判断，而不是靠人类的经验知识。
骆轶航：所以Agent其实更应该是模型本身面向用户的一种形态，而不是外面再套一层。
付强：我认为，一个好的Agent就应该像K2这样。在训练过程中，我们就充分考虑了这一点，让它原生具备很强的能力。过去的模型更多是基于对话，而最大的差别在于，它是否拥有足够强的突破能力，让人类真正具备调用工具的本质能力，而不是仅仅依赖后期的Fine-tune。
我打个比方，就像在数学学习班里，你可以教一个资质一般的小朋友，用口诀去算1加到100，首项加末项，乘以项数，除以2。这是一个技巧。而另一种方式，是在最初的构建阶段，就让他通过端到端的训练，多做各种数学题，从中自己悟出规律。这两种方式在某种程度上结果相似，都能解决问题，但对智能泛化的程度却完全不同。
只有通过端到端的训练，才能让第一方模型原生地突破，具备真正的智能能力，而不仅仅是照葫芦画瓢，在特定场景里模仿人的Workflow去完成操作。
三、为什么是Coding？因为它是一个更客观的智能标尺
骆轶航：朱啸虎不看好AI Coding作为独立的创业公司。刚才投资人们也在讲AI Coding作为独立公司是不靠谱的。Kimi是个模型公司，现在有了自己的Agent，也在做Coding，而且做的很好。你们怎么看待Coding这件事情？我觉得一个模型更擅长写诗还是更擅长写代码，跟这个公司本身的气质、文化和价值观是相关的。
付强：为什么我们认为作为走向AGI的公司，Coding是需要关注的点？从基座模型公司角度，DeepSeek R1出圈时，我在社媒看到很多案例，它提供一种情绪价值：“终于找到一个AI模型懂我，回复高度共情、彬彬有礼”。
骆轶航：文科生的模型。
付强：当然R1也有很强的理科推断能力。但这里有个小悖论：若把很多精力放在提供用户价值上，过程其实很难评判。聪明的模型就一定比笨模型提供更好的情绪价值吗？不一定。
比如，让名校毕业的人和社会摸爬滚打多年的人解决编程问题，表现有显著差别；但处理人际交往，比如恰当提供情绪价值，就是另一条路，某种程度是价值观问题。
我们最终目标是走向AGI，过程中希望解决的是狭义上智能程度越高、解决可能性越大的问题，模型在这方面有天然优势。我们也希望AI未来能像计算机一样模拟人的操作，编程有个大优势：写完代码能不能跑通立刻知道，训练过程中也能立刻知道是否成功。但像“男朋友不理我了怎么办？”这类问题，很难有客观标准判断回答是否成功。最终也许能找到办法，但从价值角度，代码能否跑通是更直接、客观的标准。
这也是我们选择Coding作为重点发力领域的原因。这次K2的评测结果不错，更重要的是用户选择——OpenRouter上的调用次数、顶级IDE厂商的接入，都证明模型得到认可。
骆轶航：K2的核心价值不在于给人们提供情绪价值，而提供解决问题的能力。
付强：我们Pre-training的目的的确是这样，通过提供更高智能，更高成功率解决特定问题。不是说提供情绪价值不对，它可以通过后训练优化。关键是我们是否相信首先要交付一个足够聪明的产品。
骆轶航：我特别同意，从我的使用体验来看，如果一个模型能够做好Coding，它一定能够做好Writing，可能不是文字非常华丽的Writing，但是一定能做好逻辑清晰，表达准确，呈现思考过程。但是如果一个模型做得好Writing，辞藻很华丽，它不一定能做得好Coding，不一定能帮你解决很多更复杂的问题。所以我觉得Coding可能是这个事的基础。
付强：是的。
四、模型应该与人类共同演化
骆轶航：GPT-5也一样，很多人觉得GPT-5翻车了，效果不好。不就是因为它给你提供的情绪价值变少了吗？但是它给我解决具体问题的能力变多了。这些方面某种程度上意味着它能力的提升，如果我们再延伸一步，这种解决问题的能力意味着模型什么样的价值观？
付强：我觉得还是再call back一下《The Bitter Lesson》，它代表一个价值观。我们判断模型或Agent发展的未来，一定是不断赋予模型更多人类演进过程中曾被赋予的能力。我们希望它掌握工具使用能力，感知世界存在，不断和世界交互，不断接收人类学习结果。
它有聪明的底座、众多参数、好的模型架构、低训练成本，有和世界交互的能力，可以自己做实验，通过不断写代码发现错误，从错误中总结，让自己更聪明。我相信未来它不仅能在代码上做实验，还能做物理、化学实验，那就离AGI不远了。
骆轶航：模型是探索未知世界，做实验的基础。
付强：一个好的模型应当获得与人类共同演化的机会，不光把它当成宠物圈养，跟我们祖先一样，自己去钻木取火。

作者：杏鑫娱乐

对话Kimi付强：别把模型当宠物圈养，追逐AGI就要让模型与人类共同演化

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →