为什么有些 AI 跑分很高,但实际并不好用

很多人聊 AI,最容易陷入的一种讨论方式,就是把所有问题都压缩成一句:到底哪个模型更强。

这个问题当然重要,但它经常只说对了一小半。

因为用户最后真实感受到的 AI 效果,从来都不只是模型参数本身决定的。决定结果的,通常至少有三件事:第一,模型自身能力到底够不够强;第二,它手里有没有工具、有没有流程、会不会多轮工作;第三,用户是不是把任务说清楚了。

这三件事缺一块,最后的使用体感都可能完全变样。这其实也和我们今天前两篇文章是连在一起的:学习型 AI 能不能好用,要看高质量资料和学习流程;科研绘图能不能好用,要看结构设计和中间工作流。离开这些,单看模型名字,往往看不出真实差距。更早之前发过的几篇技术文章,其实也一直在围绕同一个问题打转:AI 最终的可用性,从来不是单一维度能解释完的。

一、跑分当然重要,但跑分不等于体感

先把最容易引起争议的话放在前面:模型榜单和用户体感,从来不是一回事。

跑分当然有意义。它至少能告诉你一个模型在某些标准化任务上的上限,也能帮你快速判断底座能力够不够强。但问题在于,很多榜单测到的,只是模型在一套特定测试集上的表现,而真实用户每天碰到的,却是搜索、规划、绘图、写作、回查、多轮追问、复杂任务拆解这些混合场景。

这两者本来就不是同一件事。

更现实的问题是,榜单这件事本身也没有很多人想象得那么干净。尤其是这两年,一些模型非常喜欢刷分。说得更直白一点,有时候测试集都快变成训练集了:把已经学过、已经反复见过、甚至已经高度贴合评测格式的东西,再原模原样地拿出来考一次,最后当然容易得到一个很好看的成绩。

这种分数不能说完全没用,但如果直接把它等同于“真实世界里最好用”,那就很容易出问题。因为用户并不是活在测试集里,用户面对的也不是永远规整、永远标准、永远没有歧义的 benchmark。

所以榜单更像是在测上限,体感则是在测整个系统怎么落地。两者有关,但绝对不能直接划等号。

一句话说,就是:

跑分决定上限,体感决定你到底愿不愿意天天打开它。

二、模型能力当然重要,但它只是底座

把跑分的滤镜拿掉之后,模型能力本身当然还是第一层。

理解能力、推理能力、语言质量、多模态能力、代码能力,这些最底层的东西决定了模型是不是站得住。没有这个底座,后面很多工作流都搭不起来。

DeepSeek 之所以会在很多讨论里被高度评价,就是因为它在模型能力这一层本来就非常强。如果单看推理、写作或者很多 benchmark 表现,它确实很容易被视为顶级模型之一。

但问题也正出在这里:模型强,不等于用户立刻就觉得它最好用。

因为大多数人真正接触到的,从来不是一个裸模型,而是一个产品入口。你打开一个 Web 端或 App,体验到的是:它会不会查资料,会不会主动帮你拆任务,会不会先规划流程,会不会把结果整理得更顺手。

所以模型能力当然重要,但它更多决定的是底座,而不是最终全部体感。

三、为什么很多人明明承认 DeepSeek 很强,体感上却还是觉得豆包更顺手

这其实是一个非常典型、也非常有代表性的例子。

很多人一边承认 DeepSeek 模型能力很强,一边在日常使用里又会说:真到自己天天打开、天天问、天天用的时候,反而觉得豆包更顺手。这表面上看像是矛盾,实际上并不矛盾。

因为两者给用户的,从来就不是同一种东西。

DeepSeek 更像是一条从底层模型能力出发的路线。它的技术光环很强,也更容易被看成能力底座型产品。你如果从模型竞赛、推理能力、技术讨论的角度看它,当然会觉得它很亮眼。

但普通 C 端用户不天天对着 benchmark 生活。用户更在意的是:这个东西打开之后,到底顺不顺,它会不会主动替我往下做几步,它是不是不用我先把全部流程都想清楚。

而豆包这类产品之所以会让很多用户觉得“更好用”,很大程度上恰恰不是因为用户逐条比了模型参数,而是因为它背后更重视 C 端体验。你会看到它在一个入口里不断集成深度研究、图像绘制、视频生成、专家模式、多智能体协作这些能力。用户不一定清楚底层路线是什么,但会很直接地感觉到:这个产品好像更愿意替我把任务往下推进。

这件事非常关键。因为大多数用户其实并不擅长自己先设计一整套流程,他们更需要的是一个已经带着工具、带着默认方法、带着产品化工作路径的入口。

所以很多时候,用户夸的并不是“豆包底层一定比谁都强”,而是它在产品层、工具层、流程层更顺滑。

四、Gemini 和 DeepSeek 的问题,也说明“有搜索”不等于“会搜索”

这也是为什么很多模型都开了网页搜索,最后体验还是能差很多。

表面上看,Gemini、DeepSeek、GLM、Qwen、豆包都能联网,都会去抓网页。但真正拉开差距的,从来不是“有没有搜索”这三个字,而是:

  • 去哪里搜
  • 搜几轮
  • 会不会回查
  • 会不会交叉验证
  • 会不会先给自己定一个查证流程
  • 会不会优先去更合适的站点,而不是噪音更大的页面

比如你让模型看某只股票的走势,顺手再给一点投资意见。表面上这是一个很常见的问题,但如果模型只是单轮抓几个页面,甚至优先抓到噪音比较大的信息源,它最后很可能会给出一段看起来像样、实际上时效性和准确性都很差的回答。你真拿当天开盘结果去对一遍,问题立刻就暴露出来了。

这也是为什么同样开了搜索,体感会差很多。有些产品会先给自己定一个小流程:先查哪个站、再查哪个站、哪些数据需要交叉确认、哪些结论只能写得保守一点。用户表面上看到的只是“它查得更像那么回事”,但背后真正起作用的,其实是工作流。

而如果一个模型在 Web 端更多停留在“单轮查一下、快速总结一下”,那用户最后感受到的就会是:它虽然能搜,但搜得不稳,时效性也一般,很多时候还是在边搜边猜。

所以我们前面写技术文章时反复强调的一件事,到这里其实还成立:

真正拉开体验差距的,不只是模型能不能联网,而是它有没有一套像样的检索流程。

五、skills、agent、MCP 为什么会越来越重要

如果把这个问题再往上提一层,就会发现现在很多新概念其实都在指向同一件事。

不管是 Anthropic 推 skills,还是大家在讲 agent、MCP、多工具调用,本质上都不是为了给 AI 加一层神秘外衣,而是在解决一个非常现实的问题:很多任务不是“会回答”就够了,而是需要一套预先定义好的工作方法。

换句话说,AI 真正开始变好用的时候,往往不是它更像人一样会聊天了,而是它开始像一个会按流程工作的系统。

这一点其实和我们今天前两篇文章是能对上的。

学习场景里,真正重要的不是一句总结,而是:

  • 高质量教材输入
  • 章节整理
  • 复习提纲
  • 自测与回看链路

科研绘图场景里,真正重要的不是一句话出图,而是:

  • 结构设计
  • SVG 中转
  • 风格优化
  • 最终校验

一旦这些事情被组织成流程,AI 的可用性就会明显上升。反过来,如果没有流程,只是把一个很强的模型裸扔给用户,它往往还是会在很多真实任务里显得“不够顺手”。

所以 skills、agent、MCP 这些东西真正重要的地方,不在名字,而在它们都在做同一件事:把原来靠人脑临时拼出来的方法,提前写成一种可重复执行的工作方式。

六、第三个决定因素,往往也是最容易被忽略的:人有没有把任务讲清楚

但就算模型很强、工具很多,最后还有一个因素经常决定成败:用户自己到底有没有把任务描述清楚。

这个问题其实比很多人想的还重要。

很多 AI 翻车场景,并不是模型完全不会,而是用户脑子里有一个完整场景,嘴上却只给了一句不完整的话。模型只能靠现有上下文去猜。猜中了,大家夸它聪明;猜错了,大家说它不行。

我们更早一篇文章里提到过“50 米去洗车”这类例子,本质上就是这个问题。用户心里默认了很多前提,但没有说出来,于是 AI 只能试图补全场景。它不是在做标准题,而是在做猜谜题。

早期模型为什么那么依赖精准提示词?就是因为那时如果你不把任务说清楚,效果会掉得非常快。后面为什么大家又越来越强调深度思考、深度研究这类模式?说到底,是因为很多普通用户并不擅长拆任务、补前提、定边界,所以只能让模型自己多走几步、多耗一点 token,尽量反推出用户到底想要什么。

但这里有一个非常容易被忽略的事实:模型现在更会猜你了,不代表你就可以完全不思考。自然语言理解变强了,只是降低了使用门槛,并不等于任务描述这件事彻底不重要了。

模型再会猜,也替代不了一个清楚的问题。

结尾

所以如果今天还要问一句“哪个模型最好用”,我更愿意先把问题换一种方式问:

这个模型有没有足够强的底座?它手里有没有合适的工具?它背后有没有一套靠谱的工作流程?你自己又有没有把任务说清楚?

因为 AI 最终能不能好用,从来不只看模型本身。

真正决定效果的,往往是模型能力、工具与工作流、以及用户任务描述这三件事一起作用的结果。少了任何一块,最后的体验都可能完全不同。

如果你想继续看这个专题,今天前两篇也建议连着读:一篇讲清华版 Open Maic 为什么更像课程学习工具,另一篇讲 AI 科研绘图为什么越来越像工作流问题。更早之前发过的历史文章,也可以翻回去看,会更容易把这几篇放在同一条判断线上理解。