数据驱动AI虚拟细胞探索:从Arc挑战赛看“数据基座”的力量

日期:2025-08-26 11:27:56 / 人气:15



在生命科学与医药研发领域,AI虚拟细胞(AIVC)正逐渐崭露头角,它借助海量生物数据与AI模型,精确模拟细胞在各种基因或药物扰动下的响应状态。然而,AIVC发展仍面临数据类型繁杂、模型难以泛化、缺乏统一标准等制约。2025年6月,Arc Institute发起的首届“虚拟细胞挑战赛”为解决这些问题提供了新思路,通过构建统一的数据基座与测评标准体系,引导细胞建模走向规范。

一、Arc挑战赛:重新定义数据与评测范式

(一)挑战赛概况

2025年6月,Arc Institute发起的首届“虚拟细胞挑战赛”(Virtual Cell Challenge)引发AI和生物医学界广泛关注。该挑战赛旨在推动人工智能虚拟细胞迈向新阶段,就像蛋白质结构预测领域的CASP竞赛一样,希望加速诞生“虚拟细胞领域的AlphaFold”。挑战赛中,参赛者需开发模型预测遗传和化学扰动对细胞种群转录的影响,即给定未经扰动的细胞状态,利用少量已知扰动响应数据,在新细胞(H1人胚胎干细胞系)中预测未知扰动的基因表达变化。评测基于差异表达基因预测准确性、扰动效应区分能力及整体表达误差三个指标。

(二)数据基座:构建统一数据资源

1. Arc虚拟细胞图谱Atlas:Arc Institute意识到实现虚拟细胞模型真正的因果预测能力,需引入大规模干预型数据。2025年2月,他们发布了空前庞大的开放数据资源组合——Arc虚拟细胞图谱Atlas,包含观测数据与主动干预数据,单细胞数据总规模已超过3亿个细胞。Atlas汇聚全球异质且分散的单细胞数据,经统一标准化处理,成为AI可直接读取的标准资源。其首批基础数据集包括Tahoe - 100M药物扰动数据集和scBaseCount观测数据集。前者由生物技术公司Tahoe与Arc合作生成,包含约1亿个单细胞,涵盖50种癌症细胞系对超过1100种小分子药物处理后的转录响应,条件总数高达6万余个;后者由Arc自主开发的智能AI Agent从NCBI的SRA公共数据库自动爬取、标准化处理并统一质控注释而成,囊括21个物种、72个组织,总规模超过2亿单细胞转录谱,且持续更新。通过AI驱动的统一质控、预处理与注释流程,Arc消除了不同实验批次、测序平台之间的技术噪音,使异源数据得以融合,降低了进入AIVC研究的门槛。同时,Atlas数据以AnnData的H5AD标准格式和CC0公共协议开放共享。
2. 干预型基准数据集:Arc挑战赛专门设计了干预型基准数据集,选择在人类H1胚胎干细胞上进行CRISPR干扰实验,产生了约30万个单细胞的高质量训练、验证和测试数据集。选择H1细胞是因为其具有多能分化潜能,基因扰动后易表现出丰富多样的转录变化,且作为新背景,有助于考察模型对未见细胞类型的泛化能力。Arc研究团队对候选基因进行预筛选和精选,确定了300个基因作为最终扰动数据集,涵盖了不同效应程度,并确保所选扰动能全面覆盖细胞响应模式,同时大部分基因在其他细胞类型的公开扰动数据集中有明确记录。在技术规格方面,使用10x Genomics最新的Chromium GEM - X Flex高通量单细胞转录组平台进行测序,测序深度远高于此前公开的单细胞数据集。

二、评测体系:从均值到分布的转变

(一)传统评测的局限性与新评测体系的构建

传统上,模型的预测能力一般通过预测值与真实值之间的均值误差(如均方误差)来评价。但Arc虚拟细胞挑战赛创建了一套更关注表达分布预测的评测体系,推动模型摆脱对均值拟合的依赖,转向更精细的预测评估。该体系包括差异表达基因集匹配度(Differential Expression Score,DES)、扰动分布区分度(Perturbation Discrimination Score,PDS)和全局表达误差(Mean Absolute Error,MAE)三个具体指标。DES衡量模型预测扰动引起的显著差异表达基因集合的准确性;PDS用于评估模型生成的细胞表达分布能否有效区分不同扰动;MAE则是基础的全局预测精度指标。比赛最终成绩以相对基线模型的平均提升来计算,基线为“细胞均值模型”,这种评测方式倒逼模型“学习分布而非学习均值”。

(二)评测体系的意义与影响

这种评测方式的调整使一些过去表现尚可的简单模型在新评测体系下不再具有优势,社区逐渐达成新的共识:要在匹配度和区分度上取得好成绩,模型必须具备生成式、分布层面的预测能力。Arc将竞赛设计为年度开放挑战,设有实时排行榜,每年引入新的数据集和任务,同时保持评测标准的连贯性,类似于蛋白结构预测领域的CASP竞赛,为整个社区向诞生“虚拟细胞领域的AlphaFold”这一目标稳步前进提供了具体可行的路线图。

三、AIVC的数据版图:观测数据与扰动数据相辅相成

(一)观测性细胞图谱数据

观测性细胞图谱数据描绘各种细胞类型在稳态下的分子特征分布,为AIVC提供生物系统的背景参照。其中,最具代表性的是由CZI资助的Tabula Sapiens计划,它构建了一个跨组织、跨细胞类型的人类细胞参考图谱,收集了来自24位正常人体供者、28个组织器官的单细胞转录组,总计超过110万细胞。这是人类多器官单细胞图谱的初稿,被誉为“基准级”的参考数据集。通过Tabula Sapiens和相关的人类细胞图谱计划,研究者首次系统地描绘了数百种细胞类型在正常生理条件下的基因表达“底稿”,为AIVC提供了普适的起点,模型可从中学习不同细胞类型的基因表达分布,建立对“健康细胞状态”的基本认知。

(二)干预性扰动数据

干预性扰动数据记录细胞在特定操作(基因编辑、药物处理等)下发生的变化,揭示因果扰动的功能结果。生命科学领域开展了大量干预型大数据实验,如Broad Institute的CMap项目,采用高通量L1000基因表达平台,系统测量了数以千计的基因敲低或小分子药物处理对细胞基因表达谱的影响,绘制出不同扰动条件之间的关联“连接地图”,首次实现了基因 - 药物 - 疾病表型间的规模化映射;Perturb - seq技术将CRISPR基因编辑与单细胞RNA测序结合,允许同时对数千个基因分别进行扰动,并精确捕获每个单细胞的扰动响应信息,解决了传统逐个基因扰动实验规模有限的问题;此外,还有Xaira Therapeutics发布的迄今规模最大的Perturb - seq数据集X - Atlas/Orion等。同时,小分子药物扰动也逐渐进入单细胞筛选时代,如Sci - Plex技术和Parse Biosciences公司发布的数据集等。

(三)不同数据资源的侧重与Arc的数据投入

观测数据如Tabula Sapiens等提供了对正常生物系统广覆盖的静态描绘,适合作为模型的背景知识和表型分类基准,但无法直接用于学习因果关系;扰动数据如Perturb - seq及类似数据则提供了针对特定细胞系或条件下的功能响应,直接揭示因果效应,但通常局限于某几个实验系统且每个条件的数据量相对有限,需要与其他数据结合以提高泛化性。Arc着重投入“一批细胞系×上千扰动”的广谱药物数据,辅以“一种细胞×多种扰动”的精细基因数据,高质量的投入产出比惊人,大量且高精度的数据会带来模型性能的非线性提升。

四、全球虚拟细胞数据生态:多方参与的局面

(一)Arc Institute的角色与积累

Arc Institute是成立于2021年的非营利研究机构,通过高度灵活的独立实验室模式运作,并亲自参与大规模数据生产。它与斯坦福大学、加州大学旧金山分校、加州大学伯克利分校建立制度化合作,研究人员可获得长期经费与技术平台支持。2025年2月,Hsu领衔的团队发布了基因组基础模型Evo2,可预见Arc在发起虚拟细胞挑战赛后,会不断引入更多类型、更大规模的数据并拓展可操作空间,强化其数据生产者和议题设置者的双重角色。

(二)其他国际顶尖机构与组织的布局

1. Broad Institute:是老牌的基因组学和计算生物学研究机构,开创了功能基因组“大数据”的先河。它支持了CRISPER基因编辑技术方面的革命性工作,发起成立了全球规模最大的公开人类基因组变异数据库(gnomAD)以及癌症基因组图谱(TCGA)等。2025年8月,其团队推出了覆盖超过15000个基因扰动后的全基因组尺度细胞形态学图谱,把虚拟细胞数据从单细胞转录组数据拓展到多模态数据维度。
2. Chan Zuckerberg Initiative(CZI):由Facebook创始人Mark Zuckerberg与Priscilla Chan创立,以“大规模资助与技术基础设施建设”著称,着力于打造全球共享的开放科学平台。它支持开发了众多开源软件项目,还成立了专门的“Virtual Cell”计划,发布了首批AI虚拟细胞模型及配套平台,建立了计算机群提供算力支持,启动了“十亿细胞计划”。
3. 产业界企业:多家生物科技创新公司投身数据驱动的细胞模拟实践。Insitro致力于将机器学习应用于药物发现,生产了海量诱导多能干细胞(iPSC)模型数据;Recursion通过自动化显微成像获取细胞图像,应用深度学习寻找药物和基因对细胞形态的影响模式,还与NVIDIA合作扩展虚拟细胞建模能力;Cellarity以细胞状态为靶点,用单细胞组学定义疾病相关细胞状态,宣称使用数百万单细胞转录组训练模型;Tahoe Therapeutics是重要的数据贡献者,依托与加州大学旧金山分校合作研发的平台生成规模化药物 - 细胞扰动数据,并积极通过开源模式将其成果纳入全球虚拟细胞生态。
4. 巨头企业:DeepMind的姊妹公司Isomorphic Labs据称正尝试更广泛的生物系统模拟,包括细胞级别的建模探索,谷歌、微软、Genentech的科学家也参与了2024年《Cell》AIVC倡议。

五、从数据到闭环:模型与实验的协同发展

(一)STATE模型:数据 - 模型共设计的典型

大量高质量数据的涌现改变了评测标准,也重塑了模型设计思路。Arc提出的STATE模型是“数据 - 模型共设计”的典型,它由状态嵌入模块(State Embedding,SE)和状态转换模块(State Transition,ST)串联而成。SE模块将原始单细胞转录组表达映射到一个平滑的高维向量空间,进行降噪和特征提取;ST模块基于双向Transformer架构,利用自注意力机制预测给定扰动下细胞状态如何在嵌入空间发生转移。STATE模型能充分利用同一扰动条件下细胞群体内部的变异信息,自适应地捕捉复杂的表达分布差异。在大量高质量数据的支撑下,STATE在各项指标上超越了简单线性基线模型,证明了复杂模型在生物系统上可以展现出类似在语言、图像领域的飞跃式提升。

(二)闭环学习:模型与实验的紧密迭代

以数据为中心的模型架构意味着,当数据规模积累到一定程度后,将催生模型与实验之间更紧密的闭环。西湖大学郭天南团队、Valence Labs等都强调了闭环学习的重要性,即通过主动学习结合高通量扰动实验,不断迭代模型预测与实验验证,逐步逼近真实细胞动力学。模型与实验的协同闭环思路得到了产业界的关注,ARK Invest预计这种模式将驱动生物制药产业走向以数据与模型驱动为主导的研发模式,降低单细胞组学数据生成与验证成本。一些前沿研究在局部场景中初步验证了“数据 - 模型 - 实验”闭环的可行性,随着Arc Institute主导的年度虚拟细胞挑战赛逐年展开,一个规模化、社区化的数据与评测闭环正在逐渐构建起来。

六、结语:迈向虚拟细胞的图灵测试

Arc挑战赛只是一个起点,全球范围内AIVC相关的竞赛和基准正逐步涌现。当前AIVC领域的进展仍以单细胞转录组数据为主要支撑,下一阶段的重要方向是拓展到更丰富的多模态干预数据,如单细胞扰动蛋白组学、染色质可及性谱与高内涵细胞成像表型数据等。另一个关键方向是组合扰动与动态轨迹,未来的竞赛可能会探索组合扰动等难而高价值的数据集,支持模型更接近细胞真实动态过程,推动从“静态虚拟细胞”向“动态虚拟细胞”转型。最终目标是超越预测本身,通过模型反过来揭示生物系统的因果机制,实现模型—实验—数据的闭环。在反事实实验和主动学习的驱动下,AIVC的持续迭代将催生出更深刻的科学问题和更精确的参考答案,让建模越来越逼真,直至实现ALife。Arc虚拟细胞挑战赛有望成为这场漫长攀登之旅的新基石。

作者:杏悦2娱乐




现在致电 8888910 OR 查看更多联系方式 →

杏悦2娱乐 版权所有