无题
AI 正在真正进入单细胞生物信息学流程
这两年,很多人一提 AI for Bioinformatics,脑子里浮现出来的还是那种比较熟悉的形态:聊天、总结文献、解释概念、帮忙写几段分析代码,或者把某个常规流程包装得更顺手一点。
这些东西当然有价值,但如果只停留在这一步,其实还很难说 AI 已经真正进入了生物信息学的核心工作流。因为真正的生信分析,尤其是单细胞分析,从来不是“把答案说漂亮”这么简单。它牵涉到具体数据、分析链路、领域知识、解释方式,以及最后能不能支撑一个像样的生物学判断。
今天查到的几篇论文里,我觉得最值得放在一起看的是三篇:scPilot、ELISA 和 HarmonyCell。它们不完全是同一种工作,但放在一条线上看,会发现一个非常清楚的变化:AI 在单细胞生物信息学里,正在从外围辅助,慢慢往真正的分析、发现和建模流程里走。
一、第一步变化:AI 不只是解释单细胞分析,而是开始直接接触数据
先看 scPilot。
这篇论文的标题很直接:scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery。它最值得注意的一点,不只是用了 LLM,而是它把自己的工作定义成了一种 omics-native reasoning。这几个词其实很关键,因为它不是在说“让大模型学一点生信知识”,而是在说:让模型以一种更贴近组学数据本身的方式去做推理。
过去很多 AI 辅助分析工具,本质上还是停留在外围。你问它一个问题,它基于记忆、检索或者文档摘要,给你一个语言上的回答。更进一步一点,它可能帮你生成代码,但真正的数据读取、处理和分析,还是要靠人自己去跑。
而 scPilot 试图往前再走一步。按照论文给出的描述,它不是单纯在文本层面上讨论单细胞分析,而是让 LLM 在自然语言交互中,直接检查 single-cell RNA-seq 数据,并按需调用生物信息学工具。这件事的意义很大,因为它说明研究者已经不满足于把大模型当成一个“会说话的解释器”,而是在尝试让它真正碰到数据本身。
换句话说,问题从“AI 能不能帮我理解单细胞分析”变成了“AI 能不能直接参与单细胞分析”。这两个层次之间,差别非常大。
前者更像一个聪明的助教,能够把概念讲清楚;后者更像一个开始走进实验室分析台的人,虽然还不成熟,但已经不再只是站在门外指点江山。
二、第二步变化:AI 开始不只做分析,还想做有根据的发现
如果说 scPilot 代表的是“进入数据和工具链”,那么 ELISA 更值得关注的地方,在于它想把 AI 往“可解释的发现”上推。
ELISA 的标题是:ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics。这篇论文里有几个词,几乎每一个都值得单独展开。
第一个词是 interpretable。在很多普通应用场景里,模型只要结果够好,大家对内部过程未必那么敏感。但科研不是这样。尤其是在生物信息学里,如果一个系统给出了某个判断、某个关联、某个潜在机制,却说不清它为什么这么判断,研究者很难真正信任它。因为科研里不是“猜对”就够了,很多时候更重要的是你有没有一条可追踪、可讨论、可被同行质疑的路径。
第二个词是 hybrid。从它的 GitHub 仓库介绍来看,ELISA 不是把所有事情都交给一个统一的大模型去硬做,而是把几类不同能力拼接起来:比如 scGPT 的表达嵌入、BioBERT 的语义检索,以及 LLM 介导的解释与交互。它还进一步接入了 marker scoring、pathway scoring、ligand-receptor interaction prediction、comparative analysis、proportion estimation 等模块。也就是说,它更像一个组合式系统,而不是一个靠单点模型蛮力硬顶的黑盒。
第三个词是 expression-grounded discovery。这可能是整篇里我最在意的表达。它在强调:这里的发现不是纯靠语言模型“生成”出来的,而是要被表达数据锚定。这个区别很重要。因为很多时候大家说 AI 会“发现”什么,本质上只是它把已有知识重新组织了一遍,或者在统计共现上看起来很像发现。但如果没有数据锚定,这种“发现”很容易漂在空中。
而 ELISA 想做的,是把发现这件事重新压回到单细胞表达数据上。它不是完全摆脱 LLM,而是试图让 LLM 的生成和解释,建立在更扎实的表达与检索基础之上。这种路线比单纯追求更自然的回答、更流畅的对话,明显更符合 AI for Science 的真正需求。
说得更直白一点,ELISA 代表的不是“AI 更会说了”,而是“AI 开始尝试更可解释地做发现了”。这一步对科研场景来说,比很多面向大众使用的体验升级都更重要。
三、第三步变化:真正的难点不是把流程跑通,而是面对真实数据里的漂移
如果 scPilot 关注的是“进入分析链路”,ELISA 关注的是“可解释发现”,那么 HarmonyCell 更进一步碰到了一个更硬、更现实的问题:真实科研数据从来不是理想输入。
HarmonyCell 的标题是:HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts。光看这个标题就知道,它并不是在做一个很轻巧的 demo,而是在正面面对单细胞数据分析里那种最让人头疼的复杂性。
这里面最重要的两个词是:
- Semantic shifts
- Distribution shifts
这两个问题,说白了就是:真实世界里的数据和任务定义,经常并不像论文里的干净设定那样稳定统一。不同研究之间、不同实验条件之间、不同数据来源之间,概念可能不完全对齐,数据分布也可能明显变化。你在一个数据集上跑得很好,不代表换一批样本、换一个条件、换一种扰动之后还能一样顺。
这也是为什么很多 AI 工具一开始看起来很惊艳,真正进到具体研究流程里却没那么丝滑。因为在真实科研里,模型面对的不是一个被精心清洗过的竞赛题,而是一个不断变化、充满噪音、语义还可能不统一的环境。
HarmonyCell 的价值就在这里。它不是再做一次“AI 可以辅助单细胞分析”的演示,而是试图处理单细胞扰动建模在语义漂移和分布漂移下的自动化问题。这说明研究重心已经开始发生变化:大家不再只关心 agent 能不能把任务跑起来,而开始关心它能不能在真实复杂条件下保持稳定。
这一点我觉得特别重要。因为 AI for Science 真正成熟的标志,从来不是它能不能在理想条件下做出一个 demo,而是它能不能在真实数据复杂性面前不立刻崩掉。
四、把这三篇放在一起看,会看到一条很清楚的主线
如果把 scPilot、ELISA 和 HarmonyCell 放在一起看,会发现它们虽然切入点不同,但共同指向的是同一个方向。
第一,AI 在单细胞场景里开始真正接触数据与工具。
scPilot 代表的是这一层。它不再满足于做解释器,而是往原位分析和工具调用走。
第二,AI 不再只是做回答,而是开始尝试做可解释、可追溯的发现。
ELISA 代表的是这一层。它强调表达锚定、可解释性和组合式分析链路。
第三,AI 进入科研流程之后,马上就会撞上真实数据世界的复杂性。
HarmonyCell 代表的是这一层。它不讨论一个理想化的 agent,而是处理漂移、扰动和建模稳定性。
这三层叠起来,几乎就是今天单细胞 AI agent 发展的一个缩影:
- 从“会不会说”
- 到“能不能做分析”
- 再到“能不能做发现”
- 最后到“在复杂现实里还能不能站得住”
这条路径很像一个技术方向真正开始成熟时会出现的状态。最早大家先展示可能性,然后逐渐把问题往更具体、更困难、更接近真实使用场景的地方推进。
五、为什么这组变化尤其值得在单细胞场景里关注
这里还有一个很值得注意的点:今天这几篇论文里,核心舞台几乎都落在了 single-cell 上。
这不是偶然。
单细胞数据本身就特别适合成为 AI for Bioinformatics 的试金石。一方面,它足够复杂:高维、稀疏、分析链条长,而且每一步都很依赖领域背景。另一方面,它又是当前生物信息学里最活跃、最有方法创新空间的场景之一。谁能在这里真正做出靠谱的 agent 化能力,谁就不只是做了一个“能回答几个生信问题”的工具,而是在往生信核心工作流里插旗。
从这个角度看,single-cell 不是这些论文恰好挑中的一个热门题材,而更像是一个压力测试场。因为如果 AI 能在单细胞这类复杂数据场景里开始站住脚,它往其他组学分析与生物数据流程里渗透,就是一件更可以预期的事。
六、当然,也不能把它们吹成“全自动生信研究员”
说到这里,也还是要把边界讲清楚。
这些工作很值得看,但距离一个真正成熟、可靠、可广泛部署的“AI 生信研究搭子”还远。至少从今天看到的材料来说,它们更多还是在非常具体的任务和设定里验证各自的方法路线。
换句话说,它们说明的是“方向已经很清楚”,而不是“问题已经解决了”。
尤其是在科研场景里,有几个约束始终不会消失:
- 数据质量决定上限
- 标注质量与实验设计仍然是硬约束
- 可解释性不是论文里写一句就真正达成了
- 工作流一旦拉长,任何一步不稳都会影响最终结论
所以我会更愿意把这几篇论文看成几个清晰的信号,而不是某种已经完成的终局。它们告诉我们:AI 在单细胞生物信息学里,已经不再满足于站在外围给建议,而是在试图真正走进分析流程内部。但它离“接管整个研究过程”仍然有很长的距离。
七、今天这三篇最值得记住的,不是各自的模型名,而是它们共同推出来的方向
如果一定要用一句话总结我看完这三篇之后最强烈的感受,那就是:
AI 在单细胞生物信息学里,正在从“辅助理解”走向“参与分析、发现与建模”。
scPilot 把模型往数据和工具那边推,ELISA 把模型往可解释发现那边推,HarmonyCell 则把问题往真实数据复杂性那边推。三篇连起来看,就像一条非常清楚的演化路径。
对于真正关心 AI for Science 的人来说,这比单独看某个模型又提升了多少 benchmark 分数更有意思。因为这里讨论的不是“更聪明一点的聊天机器人”,而是 AI 有没有可能开始成为生物信息学工作流里的一个组成部分。
至少从今天这几篇论文看,这件事已经不是一个很虚的口号了。它还远没成熟,但它已经开始有了明确的形状。