两条路进入生物信息学,然后在 AI 时代交汇
生物信息学有一个少被明说但每个人都心知肚明的现实:这个领域的人来自两个截然不同的起点。 有人是从计算机科学、软件工程、数学物理”跨”过来的——会写代码、懂算法,但在第一次拿到 RNA-seq 数据时,连”什么是文库、什么是接头、为什么要去重”都要从头学起。 有人是从生物学、医学、农学”转”过来的——做过 PCR、跑过胶、养过细胞,但在第一次面对终端窗口时,连 ls 和 cd 的区别都要查半天。 这两类人最终都在做同一件事——从生物数据里找答案。但他们走的路径、用的工具、面对的困难,完全不一样。 而 2026 年,AI 的介入让这两条路开始交汇了。但交汇的方式可能和大多数人想的不一样。 第一条路:从代码出发程序员转入生信的典型路径是:因为某个课题或项目需要分析生物数据,发现自己能写脚本、能调包、能搭环境,于是自然而然地接手了组里的计算任务。 这条路的人对以下场景不会陌生: 写 Python 脚本处理 FASTQ,用 Biopython 解析序列 搭 Snakemake 或 Nextflow 管线,把比对→定量→差异表达串起来 用 Docker/Singularity...
Python/R 太慢了?用 Rust 和 Go 重写生信分析管线
生信分析为什么越跑越慢如果你做过真正的大规模生物信息学分析,一定遇到过这种情况:数据量从几个 GB 涨到几十个 GB,脚本的运行时间从几分钟涨到几小时,甚至直接跑崩。 这不是你的代码写得不好。这是 Python 和 R 本身的限制。 解释型语言的代价Python 和 R 的核心问题不在语言本身好不好用,而在每一次循环执行时,解释器都要做大量额外工作: 1234# 一段看似简单的循环total = 0for i in range(10_000_000): total += i * 0.5 在 Python 里,每一次 total += i * 0.5 都要经历: 从对象池取出 i → 检查类型 从对象池取出 total → 检查类型 执行乘法 → 创建新的 float 对象 执行加法 → 创建新的 float 对象 引用计数更新 → 垃圾回收潜在触发 同样的逻辑在 Rust 里:直接编译成 addss 指令操作 CPU 寄存器,零开销。 操作 Python R Rust Go 1 亿次整数加法 ~15s ~20s 0.05s 0.15s 100 万次空循...
Stanford Proto:生成式生物编程语言的技术定位——它到底是什么,以及怎么融入 AI Agent 工作站
一个关键问题:它到底是不是”编程语言”?2026 年 6 月 22 日,Stanford 大学 Brian Hie 实验室开源了一个项目,叫 Proto。论文标题写的是 “A high-level programming language for generative biology”,官网也说 “Proto is a high-level programming language”。 但如果你 pip install proto-language 然后写代码,你会发现写的是标准的 Python。 12pip install git+https://github.com/evo-design/proto-language.gitpython your_program.py 所以第一个要搞清楚的问题:它到底是不是一门新的编程语言? 答案是否定的——严格来说,Proto 不是一个独立的编程语言,而是一个嵌入在 Python 中的领域特定框架(eDSL)。它没有发明新语法、没有自己的编译器或解释器。它提供了一套完整的领域词汇(7 个原语)和组合规则,使用者不是在”写 Python”,...
不切DNA也能改基因:Prime Editing进入临床,β-地中海贫血患者已经用上了
不切DNA也能改基因:Prime Editing进入临床,β-地中海贫血患者已经用上了2012年,CRISPR-Cas9横空出世,基因编辑从此进入”可编程”时代。但这把”基因剪刀”有个根本问题:它必须切断DNA双链,然后依赖细胞自己的修复机制来完成编辑。这个修复过程是随机的、容易出错的,可能产生意外的插入、缺失或染色体重排。 对于需要精确修复单个碱基突变的遗传病来说,这种”先破坏再修复”的策略风险太高。 2019年,哈佛大学的David Liu实验室开发出Prime Editing(精准编辑),彻底改变了游戏规则:不切断DNA,直接在原位”改写”碱基序列。2026年4月,这项技术的临床数据首次公开——5名β-地中海贫血患者接受了基于碱基编辑的治疗,血红蛋白水平快速上升,且无严重不良反应。 基因编辑,终于从”剪刀”进化成了”橡皮擦+铅笔”。 为什么传统CRISPR需要”切断”DNACRISPR-Cas9的工作原理是:向导RNA带着Cas9蛋白找到目标位置,Cas9切断DNA双链,然后细胞启动修复机制。修复有两条路径: 非同源末端连接(NHEJ):快速但粗糙,经常在切口处随机插入...
CAR-T终于在实体瘤里站稳了:KIR-CAR让T细胞不再"累"
CAR-T终于在实体瘤里站稳了:KIR-CAR让T细胞不再”累”CAR-T细胞疗法在血液肿瘤中创造了奇迹。2017年FDA批准的首个CAR-T疗法tisagenlecleucel,让复发难治性B细胞急性淋巴细胞白血病的完全缓解率达到80%以上。此后,针对淋巴瘤、多发性骨髓瘤的CAR-T疗法陆续获批,50-80%的完全缓解率让这些曾经的绝症变成了可治愈的疾病。 但实体瘤是另一个战场。 同样的CAR-T细胞,进入实体瘤后很快就”累”了——免疫抑制的肿瘤微环境、异质性的抗原表达、致密的细胞外基质,让CAR-T细胞无法持续杀伤肿瘤。过去十年,无数针对实体瘤的CAR-T试验失败了。 2026年4月,在美国癌症研究协会(AACR)年会上,一项名为STAR-101的Phase 1临床试验公布了初步数据:9名晚期实体瘤患者(卵巢癌、间皮瘤、胆管癌)接受了一种全新的CAR-T疗法——SynKIR-110。这是首个进入临床的KIR-CAR,它用自然杀伤细胞(NK细胞)的受体替代了传统CAR-T的信号结构,让T细胞在肿瘤微环境中不再那么容易”累”。 结果:无剂量限制性毒性,无神经毒性,仅33%的患者出...
单细胞+空间转录组的2026:从看见细胞到看见细胞在哪里做什么
单细胞+空间转录组的2026:从看见细胞到看见细胞在哪里做什么单细胞RNA测序(scRNA-seq)解决了一个长期问题:它让我们第一次看清了每个细胞在说什么。但它丢失了一个关键信息:这些细胞在组织中的位置。 空间转录组(spatial transcriptomics)补上了这块拼图:它保留了细胞的空间位置,但分辨率和基因覆盖度不如单细胞测序。 2026年,这两种技术的整合进入了新阶段。不再是”要么看得清细胞,要么看得清位置”,而是”既看得清细胞,又看得清位置,还能看清细胞在这个位置上做什么”。 问题:单细胞告诉你”是什么”,空间转录组告诉你”在哪里”scRNA-seq的优势: 单细胞分辨率 全转录组覆盖(数万个基因) 可以识别稀有细胞类型 可以做伪时序分析(推断细胞分化轨迹) scRNA-seq的盲区: 细胞被打散了,空间信息丢失 不知道细胞在组织中的位置 不知道细胞的邻居是谁 不知道细胞在什么样的微环境中 空间转录组的优势: 保留空间位置 可以看到细胞在组织中的分布模式 可以识别空间结构(如肿瘤边界、免疫浸润区) 空间转录组的局限: 分辨率有限(传统10x Vi...
AlphaFold之后:蛋白质结构预测的下一步是什么
AlphaFold之后:蛋白质结构预测的下一步是什么2021年,AlphaFold2横空出世,在CASP14(蛋白质结构预测竞赛)中达到了接近实验精度的预测水平。《Science》将其评为年度科学突破,《Nature》称其为”改变生物学的AI”。 但AlphaFold2不是终点。 它在单体蛋白质结构预测上表现出色,但在侧链堆积、条件依赖的构象变化、生物分子相互作用等方面仍然存在局限。更重要的是,蛋白质不是静态的——它们在细胞中不断运动、折叠、相互作用,而AlphaFold2只能预测一个”静态快照”。 2026年4月,多篇论文展示了蛋白质结构预测的新方向: ROCKET:把实验数据(cryo-EM、cryo-ET、X-ray)整合进AlphaFold2 RosettaSearch:用大语言模型在推理时优化蛋白质序列设计 FlexRibbon:联合序列-结构预训练,不依赖MSA ProteinVista:全原子3D CNN,在结构依赖任务上超越序列transformer 蛋白质结构预测,正在从”预测静态结构”走向”整合实验数据、优化动态构象、设计新蛋白质”。 AlphaFold...
一个基因编辑能治多少种病:从镰刀型贫血到地中海贫血的统一疗法
一个基因编辑能治多少种病:从镰刀型贫血到地中海贫血的统一疗法2023年12月,FDA批准了首个CRISPR基因编辑疗法Casgevy,用于治疗镰刀型贫血和β-地中海贫血。这是基因编辑从实验室走向临床的里程碑。 但Casgevy只是开始。 2026年,基因编辑正在从”一病一药”走向”平台疗法”——一个技术平台,可以治疗多种疾病。FDA在2026年2月发布了专门针对”平台化基因编辑疗法”的新指南,旨在简化审批流程。目前全球有250+基因编辑相关临床试验同时进行,覆盖从罕见遗传病到癌症、从血液病到神经退行性疾病的广泛领域。 一个基因编辑技术,能治多少种病?答案是:理论上,所有由单基因突变引起的7000+种遗传病。 两条技术路线:激活胎儿血红蛋白 vs 直接修复突变针对血红蛋白病(镰刀型贫血和β-地中海贫血),目前有两条主要技术路线: 路线1:激活胎儿血红蛋白(BCL11A增强子编辑)原理: 人类在胎儿期表达胎儿血红蛋白(HbF),由γ-珠蛋白基因编码 出生后,γ-珠蛋白基因被关闭,β-珠蛋白基因被激活 如果β-珠蛋白基因有突变(镰刀型贫血或β-地中海贫血),就会导致疾病 但如果能重...
周报|AI Agent 基础设施继续分化,药物发现出现新基准
周报|AI Agent 基础设施继续分化,药物发现出现新基准 本期覆盖时间:2026-04-20 ~ 2026-04-23(含) 本周 AI Agent 领域没有炸裂级新框架,但底层基础设施的分化在继续——有的在解决容灾和成本,有的在优化 token 效率,有的在积累可复用技能。同时,药物发现方向出现了新的评测基准,可能很快会成为 AI 药物公司的标配。 一、AI 与 Agent 工具1. HAWK:多模态模型的视觉 token 剪枝CVPR 2026 收录的一篇论文提出了一个叫 HAWK 的方法,解决多模态大模型(MLLM)推理时视觉 token 过多导致的延迟问题。 关键发现:多模态模型里,不同注意力头其实在处理不同的视觉语义——有的看轮廓,有的看纹理,有的看空间关系。但现有方法把所有注意力头当成等价的,一刀切地剪枝,导致重要信息也被删掉。 HAWK 的做法是:先评估每个注意力头对视觉任务的重要程度,然后结合文本引导的注意力权重来判断哪些视觉 token 是冗余的,哪些必须保留。剪枝过程不需要重新训练,可以直接套用到各种多模态模型上。 实验结果:在 Qwen2.5-VL...
僵尸免疫细胞不止让你变老,还可能让你得脂肪肝
僵尸免疫细胞不止让你变老,还可能让你得脂肪肝“僵尸免疫细胞”不是科幻里的怪物,而是生物学里一个真实存在的东西。 它指的是衰老细胞(senescent cells)——一类退出了正常细胞周期、停止了分裂、但没有死去、还留在组织里的细胞。它们之所以被叫作僵尸,是因为它们”不死”:既不执行正常功能,也不自我清除,而是留在原地缓慢积累。 更麻烦的是,僵尸细胞会向周围释放一系列促炎信号分子——这被称为衰老相关分泌表型(SASP)。这些分子会引发局部炎症,扰乱周围正常细胞的环境,推动邻近细胞也进入衰老状态,像涟漪一样扩散开来。 长期以来,僵尸细胞被认为主要和衰老有关——关节炎、动脉粥样硬化、肌肉退化,都被怀疑有它们的参与。但4月16日发表的多项研究,把它们和另一个现代流行病联系了起来:非酒精性脂肪肝(NAFLD)——也就是我们常说的”脂肪肝”。 衰老细胞怎么影响造血干细胞先说第一个发现:一项新研究揭示了一种与细胞死亡相关的蛋白,在造血干细胞(hematopoietic stem cells)中驱动了衰老的另一种机制——不是杀死细胞本身,而是损伤了它们分裂的能力。 造血干细胞是骨髓里一群可以...