为什么有些 AI 跑分很高，但实际并不好用

很多人聊 AI，最容易陷入的一种讨论方式，就是把所有问题都压缩成一句：到底哪个模型更强。

这个问题当然重要，但它经常只说对了一小半。

因为用户最后真实感受到的 AI 效果，从来都不只是模型参数本身决定的。决定结果的，通常至少有三件事：第一，模型自身能力到底够不够强；第二，它手里有没有工具、有没有流程、会不会多轮工作；第三，用户是不是把任务说清楚了。

这三件事缺一块，最后的使用体感都可能完全变样。这其实也和我们今天前两篇文章是连在一起的：学习型 AI 能不能好用，要看高质量资料和学习流程；科研绘图能不能好用，要看结构设计和中间工作流。离开这些，单看模型名字，往往看不出真实差距。更早之前发过的几篇技术文章，其实也一直在围绕同一个问题打转：AI 最终的可用性，从来不是单一维度能解释完的。

一、跑分当然重要，但跑分不等于体感

先把最容易引起争议的话放在前面：模型榜单和用户体感，从来不是一回事。

跑分当然有意义。它至少能告诉你一个模型在某些标准化任务上的上限，也能帮你快速判断底座能力够不够强。但问题在于，很多榜单测到的，只是模型在一套特定测试集上的表现，而真实用户每天碰到的，却是搜索、规划、绘图、写作、回查、多轮追问、复杂任务拆解这些混合场景。

这两者本来就不是同一件事。

更现实的问题是，榜单这件事本身也没有很多人想象得那么干净。尤其是这两年，一些模型非常喜欢刷分。说得更直白一点，有时候测试集都快变成训练集了：把已经学过、已经反复见过、甚至已经高度贴合评测格式的东西，再原模原样地拿出来考一次，最后当然容易得到一个很好看的成绩。

这种分数不能说完全没用，但如果直接把它等同于“真实世界里最好用”，那就很容易出问题。因为用户并不是活在测试集里，用户面对的也不是永远规整、永远标准、永远没有歧义的 benchmark。

所以榜单更像是在测上限，体感则是在测整个系统怎么落地。两者有关，但绝对不能直接划等号。

一句话说，就是：

跑分决定上限，体感决定你到底愿不愿意天天打开它。

二、模型能力当然重要，但它只是底座

把跑分的滤镜拿掉之后，模型能力本身当然还是第一层。

理解能力、推理能力、语言质量、多模态能力、代码能力，这些最底层的东西决定了模型是不是站得住。没有这个底座，后面很多工作流都搭不起来。

DeepSeek 之所以会在很多讨论里被高度评价，就是因为它在模型能力这一层本来就非常强。如果单看推理、写作或者很多 benchmark 表现，它确实很容易被视为顶级模型之一。

但问题也正出在这里：模型强，不等于用户立刻就觉得它最好用。

因为大多数人真正接触到的，从来不是一个裸模型，而是一个产品入口。你打开一个 Web 端或 App，体验到的是：它会不会查资料，会不会主动帮你拆任务，会不会先规划流程，会不会把结果整理得更顺手。

所以模型能力当然重要，但它更多决定的是底座，而不是最终全部体感。

三、为什么很多人明明承认 DeepSeek 很强，体感上却还是觉得豆包更顺手

这其实是一个非常典型、也非常有代表性的例子。

很多人一边承认 DeepSeek 模型能力很强，一边在日常使用里又会说：真到自己天天打开、天天问、天天用的时候，反而觉得豆包更顺手。这表面上看像是矛盾，实际上并不矛盾。

因为两者给用户的，从来就不是同一种东西。

DeepSeek 更像是一条从底层模型能力出发的路线。它的技术光环很强，也更容易被看成能力底座型产品。你如果从模型竞赛、推理能力、技术讨论的角度看它，当然会觉得它很亮眼。

但普通 C 端用户不天天对着 benchmark 生活。用户更在意的是：这个东西打开之后，到底顺不顺，它会不会主动替我往下做几步，它是不是不用我先把全部流程都想清楚。

而豆包这类产品之所以会让很多用户觉得“更好用”，很大程度上恰恰不是因为用户逐条比了模型参数，而是因为它背后更重视 C 端体验。你会看到它在一个入口里不断集成深度研究、图像绘制、视频生成、专家模式、多智能体协作这些能力。用户不一定清楚底层路线是什么，但会很直接地感觉到：这个产品好像更愿意替我把任务往下推进。

这件事非常关键。因为大多数用户其实并不擅长自己先设计一整套流程，他们更需要的是一个已经带着工具、带着默认方法、带着产品化工作路径的入口。

所以很多时候，用户夸的并不是“豆包底层一定比谁都强”，而是它在产品层、工具层、流程层更顺滑。

四、Gemini 和 DeepSeek 的问题，也说明“有搜索”不等于“会搜索”

这也是为什么很多模型都开了网页搜索，最后体验还是能差很多。

表面上看，Gemini、DeepSeek、GLM、Qwen、豆包都能联网，都会去抓网页。但真正拉开差距的，从来不是“有没有搜索”这三个字，而是：

去哪里搜
搜几轮
会不会回查
会不会交叉验证
会不会先给自己定一个查证流程
会不会优先去更合适的站点，而不是噪音更大的页面

比如你让模型看某只股票的走势，顺手再给一点投资意见。表面上这是一个很常见的问题，但如果模型只是单轮抓几个页面，甚至优先抓到噪音比较大的信息源，它最后很可能会给出一段看起来像样、实际上时效性和准确性都很差的回答。你真拿当天开盘结果去对一遍，问题立刻就暴露出来了。

这也是为什么同样开了搜索，体感会差很多。有些产品会先给自己定一个小流程：先查哪个站、再查哪个站、哪些数据需要交叉确认、哪些结论只能写得保守一点。用户表面上看到的只是“它查得更像那么回事”，但背后真正起作用的，其实是工作流。

而如果一个模型在 Web 端更多停留在“单轮查一下、快速总结一下”，那用户最后感受到的就会是：它虽然能搜，但搜得不稳，时效性也一般，很多时候还是在边搜边猜。

所以我们前面写技术文章时反复强调的一件事，到这里其实还成立：

真正拉开体验差距的，不只是模型能不能联网，而是它有没有一套像样的检索流程。

五、skills、agent、MCP 为什么会越来越重要

如果把这个问题再往上提一层，就会发现现在很多新概念其实都在指向同一件事。

不管是 Anthropic 推 skills，还是大家在讲 agent、MCP、多工具调用，本质上都不是为了给 AI 加一层神秘外衣，而是在解决一个非常现实的问题：很多任务不是“会回答”就够了，而是需要一套预先定义好的工作方法。

换句话说，AI 真正开始变好用的时候，往往不是它更像人一样会聊天了，而是它开始像一个会按流程工作的系统。

这一点其实和我们今天前两篇文章是能对上的。

学习场景里，真正重要的不是一句总结，而是：

高质量教材输入
章节整理
复习提纲
自测与回看链路

科研绘图场景里，真正重要的不是一句话出图，而是：

结构设计
SVG 中转
风格优化
最终校验

一旦这些事情被组织成流程，AI 的可用性就会明显上升。反过来，如果没有流程，只是把一个很强的模型裸扔给用户，它往往还是会在很多真实任务里显得“不够顺手”。

所以 skills、agent、MCP 这些东西真正重要的地方，不在名字，而在它们都在做同一件事：把原来靠人脑临时拼出来的方法，提前写成一种可重复执行的工作方式。

六、第三个决定因素，往往也是最容易被忽略的：人有没有把任务讲清楚

但就算模型很强、工具很多，最后还有一个因素经常决定成败：用户自己到底有没有把任务描述清楚。

这个问题其实比很多人想的还重要。

很多 AI 翻车场景，并不是模型完全不会，而是用户脑子里有一个完整场景，嘴上却只给了一句不完整的话。模型只能靠现有上下文去猜。猜中了，大家夸它聪明；猜错了，大家说它不行。

我们更早一篇文章里提到过“50 米去洗车”这类例子，本质上就是这个问题。用户心里默认了很多前提，但没有说出来，于是 AI 只能试图补全场景。它不是在做标准题，而是在做猜谜题。

早期模型为什么那么依赖精准提示词？就是因为那时如果你不把任务说清楚，效果会掉得非常快。后面为什么大家又越来越强调深度思考、深度研究这类模式？说到底，是因为很多普通用户并不擅长拆任务、补前提、定边界，所以只能让模型自己多走几步、多耗一点 token，尽量反推出用户到底想要什么。

但这里有一个非常容易被忽略的事实：模型现在更会猜你了，不代表你就可以完全不思考。自然语言理解变强了，只是降低了使用门槛，并不等于任务描述这件事彻底不重要了。

模型再会猜，也替代不了一个清楚的问题。

结尾

所以如果今天还要问一句“哪个模型最好用”，我更愿意先把问题换一种方式问：

这个模型有没有足够强的底座？它手里有没有合适的工具？它背后有没有一套靠谱的工作流程？你自己又有没有把任务说清楚？

因为 AI 最终能不能好用，从来不只看模型本身。

真正决定效果的，往往是模型能力、工具与工作流、以及用户任务描述这三件事一起作用的结果。少了任何一块，最后的体验都可能完全不同。

如果你想继续看这个专题，今天前两篇也建议连着读：一篇讲清华版 Open Maic 为什么更像课程学习工具，另一篇讲 AI 科研绘图为什么越来越像工作流问题。更早之前发过的历史文章，也可以翻回去看，会更容易把这几篇放在同一条判断线上理解。