Kimi K2思考模型来了!实分钟做精美网页,IMO数学题翻车
发帖时间:2026-03-17 23:44:35
\u003cP\u003e\u003cSTRONG\u003e智东西(公众号:zhidxcom)\u003c/STRONG\u003e\u003c/P\u003e\u003cP\u003e\u003cSTRONG\u003e作者 | 云鹏\u003c/STRONG\u003e\u003c/P\u003e\u003cP\u003e\u003cSTRONG\u003e编辑 | 李水青\u003c/STRONG\u003e\u003c/P\u003e\u003cP\u003e智东日消息,刚刚,月之暗面正式发布了\u003cSTRONG\u003eKimi-k2 thinking模型,\u003c/STRONG\u003e其为具有\u003cSTRONG\u003e通用Agentic能力\u003c/STRONG\u003e和推理能力的思考模型,\u003cSTRONG\u003e擅长深度推理,\u003c/STRONG\u003e可以通过\u003cSTRONG\u003e多轮工具调用,\u003c/STRONG\u003e解决各类复杂的难题。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_0--\u003e\u003c/P\u003e\u003cP\u003e\u003cSTRONG\u003eKimi K2首次发布是日,\u003c/STRONG\u003e该模型总参亿,激活参亿。Kimi K2-0905𱆕日发布,其核心升级了Agentic Coding能力、支K上下文、API支-100Token/s的输出速度、支持Claude Code。\u003c/P\u003e\u003cP\u003e价格方面,kimi-k2-thinking每百万tokens的输入价格(缓存未命中)𰹈元、输出价格元;“高速版”kimi-k2-thinking-turbo每百万tokens的输入价格(缓存未命中)𰹌元、输出价格元,适用于需要深度推理和追求极致高速的场景。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_1--\u003e\u003c/P\u003e\u003c!--PARAGRAPH_0--\u003e\u003c!--MID_AD_V1_0--\u003e\u003cP\u003e在实际体验环节,我们主要测试了Kimi-k2 thinking在编程、数学和逻辑推理能力三个方面的表现。\u003c/P\u003e\u003cP\u003e在编程方面,我们令其生成一个开源模型分享网站的HTML网页原型,包括顶部导航栏、主体展示区、设计风格要求,还要求其构思两个特色功能。\u003c/P\u003e\u003cP\u003e从生成结果来看,我们对网页主要部分提出的要求都可以很好地被执行,包括导航栏有哪些部分、主题展示区由哪些模块组成,简洁现代的设计风格也有较好体现,一键复现、模型对比这两个特色功能也做了出来。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_2--\u003e\u003c/P\u003e\u003c!--PARAGRAPH_1--\u003e\u003c!--MID_AD_V1_1--\u003e\u003cP\u003e整体网页的完成度是比较高的,并且不论是搜索框、按钮、筛选标签都是可以实际选中交互操作的,点击后会有对应的提示,比如点击上传模型,会提示需要准备的问题文件、文件大小限制等信息。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_3--\u003e\u003c/P\u003e\u003cP\u003e生成网页项目的tokens总计消耗𰹍K,大约花费𱄿分钟左右的时间。不过在尝试多次生成结果时,偶尔会遇到崩溃状况。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_4--\u003e\u003c/P\u003e\u003cP\u003e在数学能力方面,今年国际数学奥林匹克竞赛(IMO)第六题被认为最具挑战性:\u003c/P\u003e\u003cP\u003e\u003c!--IMG_5--\u003e\u003c/P\u003e\u003c!--PARAGRAPH_2--\u003e\u003c!--MID_AD_V1_2--\u003e\u003cP\u003eKimi-k2 thinking在解题过程中,思考过程字,经分钟左右时间,给出了错误答块,正确答案块。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_6--\u003e\u003c/P\u003e\u003cP\u003e这一过程总共消耗.5K的tokens。\u003c/P\u003e\u003cP\u003e在切换为高速版kimi-k2-thinking-turbo后,模型仍然给出了同样错误答案,花费时间明显缩短分钟左右,但tokens消耗数却提升.5K。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_7--\u003e\u003c/P\u003e\u003cP\u003e对于另一道IMO数学竞赛题,Kimi-k2 thinking在经历多分钟的深度思考后,最终停止了思考,思考过字,但并未给出答案。再次尝试后,思考过程同样卡住在字上,未能给出答案。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_8--\u003e\u003c/P\u003e\u003c!--PARAGRAPH_3--\u003e\u003c!--MID_AD_V1_3--\u003e\u003cP\u003e由于Kimi-k2 thinking不支持图片输入自动识别公式,因此一些复杂的数学题目很难输入。\u003c/P\u003e\u003cP\u003e在常识逻辑推理方面,对于一般的问题,Kimi-k2 thinking可以很快给出答案,并且可以轻松绕开逻辑陷阱。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_9--\u003e\u003c/P\u003e\u003cP\u003e对于更进一步的逻辑推理考察题目,Kimi-k2 thinking也可以分钟左右的时间内给出答案,准确率较高,消耗tokens.6K。\u003c/P\u003e\u003cP\u003e\u003c!--IMG_10--\u003e\u003c/P\u003e\u003cH2\u003e\u003c!--HPOS_0--\u003e结语:“思考”模型之战愈发焦灼\u003c/H2\u003e\u003cP\u003e11日,阿里刚刚发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking早期预览版,Kimi今天就发布了自家K2系列的思考模型,同样主打深度推理能力。\u003c/P\u003e\u003c!--PARAGRAPH_4--\u003e\u003c!--MID_AD_V1_4--\u003e\u003cP\u003e在Agentic AI成为主流趋势之下,模型的思考推理能力愈发受到重视,这也是模型能否解决复杂现实问题的关键。\u003c/P\u003e