我们差点忘了的Kimi，最近要“杀”回来？-游戏攻略-开创游戏网

我们差点忘了的Kimi，最近要“杀”回来？

创始人

2025-07-15 12:25:57

0次

只能说，AI圈你追我赶的激烈程度，远比想象中猛烈。

怎么个事儿呢，这得说到前几天。上周五深夜，Kimi放出了万亿参数的MoE模型Kimi K2，然后这款国产AI就因为big and beautiful在海外技术圈刷屏了，很火的那种。

有一说一，君上次测评Kimi的新产品，还是在今年1月。沉寂了半年，没想到Kimi这次直接选择了开源的旗舰模型，好好好，这格局简直了。

而且，仔细研究了一顿之后我发现，这个K2，让老外着迷不是没有原因的。

简单来说，这次的Kimi K2想要做的，不只是以前那种我问你答的聊天机器人了，而是有了初步的任务规划和使用工具的能力，只要告诉它有哪些工具可以使用，它就会根据任务的需求，自主地调用不同的工具来完成任务。

但重点是，对于一个开源大模型来说，Kimi 团队把K2的部分能力做到了接近闭源顶流的水平，这就很了不起了。

所以海外很多圈内大佬，这次也都坐不住了。

比如拿了黄仁勋投资，日本AI新秀Sakana AI Labs的创始人，就完全被Kimi K2的损失曲线征服了，说这是每个圈内工程师梦中的画面。

Hyperbolic labs的联合创始人兼首席技术官，看完更是直接爆粗口了，上来就一句Holy谢，说这简直太疯狂了，这么逆天的东西居然连论文都不发，只放到了博客上。

还有不少AI博主，像是Prime Intellect的研究员，也直接高呼，一个新的DeepSeek Moment到了。

甚至不少人都开始挖，这Kimi的创始人是何许人也。

他说这是自Claude 3.5 Sonnet以来，他用过的最舒服的模型。

还有一家市值十亿美元，做AI应用的公司Greywing，创办人Hrishi Olickel把它跟同样前几天发布的Grok4对比了一下，发现Kimi K2直接给Grok4干碎了。

大家用的都是同一套提示词，结果Grok4愣是没一次能赢，直接抬走的水平。

更牛逼的是，我还看到Hugging face联合创始人Thomas Wolf，也对Kimi K2大加赞赏，说这简直难以置信，还向外国网友们安利了一波月之暗面团队。

就连估值150亿美元的知名AI搜索公司Perplexity ，他家CEO，前OpenAI研究科学家 Aravind Srinivas，都在推上公开圈了月之暗面，希望他们Perplexity以后能基于Kimi K2进行训练。

要知道，之前DeepSeek R1也被Perplexity用来训练过，可见这种认可的含金量。

甚至有不少业内人士猜测说，OpenAI甚至推迟了他们家开源模型的发布，不知道是不是为了暂避锋芒...

反正从基准测试成绩上看，没准也有可能。

Kimi K2在代码、工具调用、数学、通用知识等性能测试中，表现都相当不错，一些项目甚至领先于顶尖的闭源模型。

SWE-bench榜单的作者Ofir Press，看到这成绩以后还专门发文点赞了Kimi团队。

说实话，评分这东西也就是个数字，是不是真的厉害那还得亲自上手了才知道。

结果等到哥们上手一测，发现这Kimi的实力是真的有点超出预期，特别是在写代码上，比如在html里实现3d场景生成。

不多bb，直接看结果，咱拉来了性能最强，但也巨贵的Claude和Gemini 2.5pro，让开源的，价格实惠的Kimi K2，跟这俩同台竞技。

提示词给的也都是一样的，大概就是做一个3d版的地球出来，还要有夜间灯光那种。

首先看Kimi，我感觉它这个光线做的就非常舒服，没有特别亮的地方，暗部也不全黑，能看见城市灯光。而且这个地球上的云层，不是贴上去的，这玩意可以实时移动位置，真的是在飘的！

自动播放

作为对比，先被拉来的是Claude Sonnet。但效果嘛，请看VCR。

可能是因为调库用没调好的原因，结果搞成了卡通风...

自动播放

由于Sonnet略微跑题，为了讲武德，咱就直接让他家大哥来，Claude Opus4。

有一说一，这Opus确实给Claude长脸，试完以后结果属实是强了不少。

但相比而言，我感觉Opus的光线还是略差于Kimi，比如太阳直射点就一个大团，而且很多地方过曝了，云层也没有显示出来。

再看看Gemini的水平，乍一看好像很不错，但放大就会发现，这贴图质量属实有点差。不过也比Sonnet强，确实是做出来了，总体这一轮Kimi K2还是有优势的。

自动播放

不过当我再给各自的提示词加上，生成太阳和月亮模型时，情况就有了变化。

Kimi和Claude的画面质量依旧在线，但是Claude整了个地心说出来，哥白尼看了都流泪。

自动播放

而Gemini虽然丢了太阳，但它注意到了一个Kimi和Claude 都忽略的细节，三星连线的时候会有日食。

虽然Gemini想的多了点，但整体来看，这三家还是各有优势。

起码作为开源模型，Kimi K2的水平还是很高的，在模型生成这块我觉得已经可以比肩Claude Opus4这些闭源大模型了。

除了模型生成，即使在一般的网页搭建上，Kimi K2的效果也挺惊艳。

我们测试的提示词是，“整理一份详细的酷玩乐队2025年演唱会出行计划”。同时喂给Kimi和Claude ，然后他俩都会自动去网页搜索演唱会的信息，地址，酒店等。

最后Kimi的答卷是这样：

自动播放

该说不说，在色彩搭配上，这网页确实很有酷玩的风格。

再看Claude这边，整理的资料比Kimi稍微详细一些，但整体风格跟Kimi还是很不一样，色彩用的更大胆一些。

不过就这块测试来说，我觉得Kimi确实是一个不容小觑的开源模型。

自动播放

但实际上，这还不是Kimi代码能力的上限。

因为上面的演示，都是我在网页版Kimi里测试出来的效果，而作为一个主打Agentic的模型，如果你想榨干它的全部能力，就必须在像Claude Code这样的AI编程平台上，调用api去实现。

举个例子，还是同样的提示词，我们让Kimi和Claude 都各自生成一个可以交互的我的世界游戏。

先看Claude的结果，工具栏，左键消除右键搭建都有，已经像模像样了。

自动播放

在网页版的Kimi里，我的世界的效果，可以说跟Claude 彼此彼此，甚至还少了工具栏。

然而，当你在部署api以后，Kimi就会开始全自动的谋划方案，调用，技术博客里给出的最后结果，我只能说是非常的Amazing啊：

自动播放

虽然用本地的Kimi api跟Claude网页版比较，稍微有点不讲武德，但你就看这效果好不好吧。要不说是AI做的，我还真不好一眼分辨出来，而且交互也相当底流畅，很自然。

除了上面的这些案例，官方还发布了他们自己跑出来的一些很不错的案例，比如这个3D粒子的旋转星系，在光影的控制，交互上做的也很厉害。

自动播放

而我们在本地，用Claude Code搭载Kimi的api测试下来，也完全可以实现类似的效果。

这么看下来，外网的一堆博主对Kimi的能力表示钦佩，其实咱也能理解了。

跟顶流水平差不太多的模型，但价格只有Claude Sonnet的1/5 ，Claude Opus的1/25，像哥们今天测了一天，跑了一堆案例，一看账户总消费不到五块钱。。。

属实是便宜大碗，性能上也有对标Claude的潜力，这性价比你上哪找去。

所以说有些时候，本事这玩意是很难藏着掖着的，你要真靠谱，想躲着不出名都难。比如新版Kimi app更新详情上，就很低调的只写了一句，新闻就是历史的初稿。

这句话来自1999年的一本散文集，用在这么大的版本更新上，确实又低调又文艺，而且充满自信。

有意思的是，这确实也符合月之暗面这家公司的调性。

之前君和同事去北京拜访过月之暗面，本以为这是一家技术型的AI 公司，没想到里面的氛围反而跟咱编辑部有点像，甚至空气里有股文艺范儿。

公司门口就摆着一架能自动演奏的钢琴，上面是摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》（月之暗面）。

他们的会议室也不是数字编号，而是用乐队的名字命名，每个会议室里还挂着对应乐队的一张黑胶唱片，这真有点像是一群艺术家待的地儿

而就在K2发布的前夜，月之暗面的员工，用Kimi K2写了一个MCP工具来连接Mac电脑上的库乐队应用，让办公室那台钢琴，弹起了帕赫贝尔的《卡农》。

古典与科幻，在这个夜晚交融，谁又说创造智能，不是一种艺术呢。

自动播放

至于这场AI的神仙打架大戏，和它们那波澜壮阔的技术蓝海，就留给我们这些时代的见证者，慢慢欣赏了。

撰文：纳西

编辑：江江 & 面线

美编：萱萱

MoonshotAI、Kimi、Gemini、Anthropic、X、Wes Roth、Varindia等，部分图源网络

上一篇：爆款好评、恶意差评可能都是演戏！揭秘网络水军如何诞生

下一篇：第十四届勐海茶王节将于8月8日启幕：茶事 + 赛事更多精彩玩法提前剧透~

我们差点忘了的Kimi，最近要“杀”回来？

相关内容

热门资讯