OpenAI用GPT-4b攻克诺奖难题 人体细胞"返老还童" 逆转效率飙升50倍

2025年08月23日 20:11 次阅读 稿源:新智元 条评论

在生命科学领域,一个长期未解的难题是:如何高效地将成体细胞逆转为多能干细胞。传统方法依赖一种称为“山中因子”的蛋白质。只要把它导入成体细胞,就能把它们“重编程”为诱导多能干细胞(iPSCs)。这种“细胞逆转”,能让普通的体细胞回到像胚胎一样的状态,从此人类就有可能再生各种组织,甚至治愈那些无法治疗的疾病。


“山中因子”的一种变体

今天在AI的帮助下,人类又一次离“逆转衰老”更进一步!

刚刚,OpenAI宣布,他们和Retro Biosciences的合作已成功利用GPT‑4b micro设计出了山中因子的“新颖且显著优化”的变体。

GPT‑4b micro是OpenAI专门为生命科学和蛋白质工程定制的AI模型。


可以理解为GPT-4系列的一个“微缩实验版”。

它不是通用大模型,而是针对蛋白质设计这个任务做了专门优化。

山中因子是一组特殊的蛋白质,因其在诱导产生多能干细胞(iPSCs)和实现细胞年轻化方面的开创性作用而荣获诺贝尔奖。

该技术还被用于开发治疗失明、逆转糖尿病、治疗不孕症以及解决器官短缺等问题的创新疗法。

山中因子

20世纪末,科学界有一个几乎不可动摇的共识:细胞的命运一旦确定,就无法逆转。

如果一个细胞已经分化成皮肤细胞、肌肉细胞或神经细胞,就不能再“回头”变成其他细胞。

皮肤细胞只能是皮肤细胞,神经元只能是神经元,没人相信它们还能逆转,重新变成万能的胚胎样细胞。

获取多能干细胞只能依赖胚胎,这不仅受制于伦理争议,也让再生医学的发展步履维艰。

然而,一位日本科学家山中伸弥(Shinya Yamanaka)并不愿接受这样的限制。


作为骨科医生出身的研究者,他亲眼见过病人因神经损伤、器官衰竭而无药可医。他心里一直有个疑问:

如果能让普通的体细胞回到像胚胎一样的状态,是不是就能再生各种组织,甚至治愈那些无法治疗的疾病呢?

2006年,他带着团队把几十个与干细胞有关的基因一股脑儿导入小鼠的皮肤细胞,尝试让它们“重启”。

出人意料的是,有些细胞真的开始“逆转”,逐渐表现出胚胎干细胞的特征。

经过不断筛选,他们最终锁定了OCT4、SOX2、KLF4、MYC四个关键因子。

只要把这四个基因一起导入成体细胞,就能把它们“重编程”为诱导多能干细胞(iPSCs)。

这个发现震惊了全世界,也彻底颠覆了“细胞命运不可逆”的传统观点。

正是因为这一里程碑式的突破,山中伸弥和John Gurdon在2012年获得了诺贝尔生理学或医学奖。

Gurdon早在1962年通过一项经典实验,发现已分化的特定成熟细胞要想变回“从前”,是可逆的。


OpenAI最新成就

OpenAI的体外实验结果显示,这些经重新设计的蛋白质所诱导的干细胞重编程标记物表达量,比野生型对照组高出50余倍。


同时,它们还表现出更强的DNA损伤修复能力,这意味着与基线相比,其细胞年轻化潜力更高。

OpenAI表示,2025年初他们就取得了这项发现。

后续通过在多种捐赠者来源、多种细胞类型和多种递送方法中的重复实验验证了其可靠性,最终确认所衍生的iPSC细胞系具备完全的多能性和基因组稳定性。

下面这三张图展示的是,OpenAI设计的蛋白质能更高效地诱导干细胞重编程:

初始状态的人类成纤维细胞(第1天)

使用标准的山中因子(SOX2, KLF4, OCT4, MYC)重编程10天后,细胞形态散乱


使用RetroSOX与RetroKLF变体(结合OCT4, MYC)重编程10天后,出现了大量具有紧凑、圆形形态的集落,这是细胞迈向iPSC状态的典型特征

一款专为蛋白质工程打造的GPT

OpenAI是如何实现“逆转细胞”的?

为验证AI加速生命科学研究的设想,他们设计并训练了一款定制模型——GPT-4b micro。

首先,从一个GPT-4o的缩减版进行初始化,以充分利用GPT系列模型已有的知识储备,随后在一个特殊的数据集上对其进行深度训练。

该数据集主要由蛋白质序列构成,并辅以生物学文本和Token化的三维结构数据——这些元素是多数蛋白质语言模型所忽略的。

研究团队对大部分数据进行了丰富,为其添加了额外的上下文信息,包括蛋白质的文本描述、共进化同源序列以及已知的相互作用蛋白质组。

有了这些上下文,GPT-4b micro便能根据提示词生成具有特定属性的序列。

由于大部分数据不包含结构信息,该模型能够同等出色地处理包含内在无序区域的蛋白质与结构稳定的蛋白质。

这对于山中因子这类靶点尤为关键,因为它们的活性并非依赖于形成单一稳定结构,而是通过与多种结合伴侣发生大量瞬时相互作用来实现的。

KLF4的3D结构可视化
KLF4的3D结构可视化

SOX2的3D结构可视化
SOX2的3D结构可视化

需要注意的是,这两种蛋白质的大部分区域是非结构化的,拥有可与其他蛋白质结合的柔性臂。

通过在富含进化与功能背景信息的蛋白质数据上训练,研究团队训练样本的有效上下文长度远超独立的蛋白质序列。

OpenAI发现,在推理时,模型能够处理长达64,000个Token的提示词,同时在可控性和输出质量上仍有持续提升。

尽管这一上下文长度在文本大语言模型中已属常见,但在蛋白质序列模型领域尚属首次。

在开发过程中,观察到了类似语言模型的scaling laws——在更大数据集上训练的更大模型,在困惑度(perplexity)和下游蛋白质基准测试上均表现出可预测的性能提升。

这使得研究团队能够在训练最终的GPT-4b micro模型前,先进行小规模的快速迭代。

然而,蛋白质AI模型的硅基评估(in silico evals)价值通常有限,因为这些指标的提升能否转化为真实世界的实用价值尚不明确。

为了证明该模型确实能加速疗法开发,研究团队与Retro的科学家们通力合作,由他们使用此模型重新设计了与其细胞重编程研究项目相关的关键蛋白质。


AI辅助重构SOX2与KLF4

提升干细胞重编程效率

山中因子——OCT4、SOX2、KLF4和MYC(简称OSKM)——是当今再生生物学领域最重要的蛋白质之一。

然而,这项技术有着一个关键瓶颈——效率低下。

在治疗过程中,通常只有不到0.1%的细胞能成功转化,且整个过程耗时三周以上。

对于来自年长或患病捐赠者的细胞,这一转化效率还会进一步降低。

但问题是,想要直接优化蛋白质序列,几乎是不可能的。

SOX2和KLF4分别包含317和513个氨基酸,其可能变体的数量高达10^1000的量级。

传统的“定向进化”(directed-evolution)筛选方法,一次只能改变少数几个氨基酸残基,所能探索的设计空间可谓沧海一粟。

一项顶尖的学术研究测试了数千个SOX2突变体,仅发现少数几个三突变体能带来有限的效率提升。

另一项长达15年的嵌合SOX蛋白研究,最终得到的变体也仅与天然SOX蛋白有五个氨基酸的差异。

在这次的实验中,Retro的团队利用人类成纤维细胞(来自皮肤和结缔组织)搭建了一个湿实验室筛选平台。

首先,他们使用标准的OSKM因子组合以及初步筛选中手动设计的SOX2变体,对平台进行了验证。

随后,他们让GPT-4b micro设计一组多样的“RetroSOX”序列。

筛选结果显示,模型给出的建议中超过30%的序列,在表达关键多能性标记物方面的表现优于野生型SOX2,尽管它们与野生型的平均差异超过100个氨基酸。

作为对比,传统筛选的阳性率通常低于10%。

下图显示,在初步筛选(Pilot)、RetroSOX筛选和RetroKLF筛选中,表达早期多能性标记物SSEA4(左柱)和晚期标记物TRA-1-60(右柱)的细胞百分比。

可以看到,与效率极低(<0.1%)的常规方法相比,RetroKLF显著提升了两种标记物的表达水平。

工程化变体在多能性标记物表达上的提升
工程化变体在多能性标记物表达上的提升

团队的下一个目标,是重新设计山中因子中分子量最大的KLF4。

尽管已知KLF4可被其他KLF家族的因子替代,但并不能提升重编程的效率。

此前,一项通过专家指导进行单氨基酸替换来改良KLF4的尝试,在测试了19个变体后仅获得一个有效结果。

与RetroSOX的策略类似,研究团队提示模型生成了一组增强型的RetroKLF变体。

最终,14个由模型生成的变体性能超越了RetroSOX筛选中效果最好的组合方案,阳性率接近50%。

下面两张图展示的是,AI设计方法的阳性率和序列编辑深度。

可以看到,将顶尖的RetroSOX和RetroKLF变体组合使用,带来了最大的性能提升。

筛选阳性率,即性能超越基线的蛋白质候选者比例(左)

与人类野生型蛋白质相比,序列被改变的百分比(右)

在三次独立的实验中,成纤维细胞的早期(SSEA-4)和晚期(TRA-1-60, NANOG)标记物水平均出现急剧上升,且晚期标记物的出现时间比使用野生型OSKM组合方案提前了数天。


在第10天,使用不同RetroSOX和RetroKLF变体组合(RK1-RK4)的细胞,其晚期标记物TRA-1-60(左)和NANOG(右)的表达水平远高于使用标准OSKM(检测不到)的对照组

此外,研究团队在第10天通过碱性磷酸酶(AP)染色对RetroSOX和RetroKLF变体进行了验证。

结果显示,形成的细胞集落不仅表达晚期多能性标记物,还表现出强大的AP活性,这是细胞具备多能性的有力标志。

AP染色确认了重编程的成功:紫色的集落表示干细胞重编程成功,集落颜色越深、数量越多,表明效率越高

为了进一步确认重编程效率的提升并探索其临床应用潜力,研究团队测试了一种新的递送方式(使用mRNA替代病毒载体)和另一种细胞类型——源自三位中年(50岁以上)捐赠者的人类间充质基质细胞(MSCs)。

仅7天内,便有超过30%的细胞开始表达关键的多能性标记物(SSEA4和TRA-1-60)。

到第12天,已出现大量形态与典型iPSC相似的集落。这些细胞中超过85%激活了包括OCT4、NANOG、SOX2和TRA-1-60在内的关键干细胞标记物的内源性表达。

接着,研究团队验证了这些由RetroFactor衍生的iPSC能够成功分化为全部三个主要胚层(内胚层、外胚层和中胚层)。

此外,研究团队将多个单克隆iPSC细胞系传代培养,证实了其具有健康的核型和适用于细胞疗法的基因组稳定性。

这些结果全面超越了由合同研究组织(CRO)使用标准因子生成的常规iPSC细胞系的基准数据,进一步证明了研究团队工程化变体的稳健性,也为其在不同递送方式和细胞类型中的应用提供了有力证据。

下面三张图中所有的结果共同证实了,研究团队已成功获得健康、且完全重编程的干细胞,从而也全面验证了重编程干细胞的健康与功能。

细胞集落呈现出干细胞特有的圆形、紧密堆积形态

TRA-1-60干细胞标记物(绿色荧光)呈阳性

细胞核型正常,染色体结构完整

综上所述,高阳性率、深度的序列编辑、标记物的提前出现以及AP阳性集落的形成,这些早期证据共同表明,AI指导的蛋白质设计能够极大地推动干细胞重编程研究的进程。

重构变体增强DNA损伤修复能力

接下来,OpenAI进一步探究了这些重构变体的细胞年轻化潜力,并重点考察了它们恢复衰老细胞年轻特征的能力。

现有的研究表明,山中因子可以在不完全逆转细胞身份的前提下,清除小鼠细胞中与DNA损伤相关的衰老标记。

那么,与标准的OSKM相比,OpenAI制作的变体是否能表现出更强的年轻化能力呢?

下图所展示的,便是经阿霉素诱导产生DNA损伤后,细胞内损伤标记物γ-H2AX的强度(越低越好)。

可以看到,与阴性对照组(GFP)和阳性对照组(OSKM)相比,使用Retro变体(RS4, RS5)处理的细胞,γ-H2AX信号有显著的降低。

也就是说,在遭受同等遗传毒性挑战后,RetroSOX/KLF组合方案比原始的山中因子能更有效地减少DNA损伤。

工程化变体展现出了更强的DNA损伤修复能力,为提升细胞年轻化技术和开发未来疗法开辟了一条充满希望的道路
工程化变体展现出了更强的DNA损伤修复能力,为提升细胞年轻化技术和开发未来疗法开辟了一条充满希望的道路

对此,OpenAI的研究合作负责人Boris Power总结道:

当研究人员将深刻的领域洞见与研究团队的语言模型工具相结合时,那些曾经需要耗费数年才能解决的问题,如今可能在几天之内就迎来转机。

总的来说,这次的成功,不仅仅是AI创造了几种更高效的蛋白质,更是向研究团队展示了一种利用AI深度理解复杂科学问题并提出创新解决方案的全新科研范式

从寻找抗衰老疗法,到设计新药、解决粮食危机,当人类的智慧与AI的超凡算力相结合,研究团队解决科学难题的速度,将发生革命性的改变。

一个由AI加速的科研新纪元,正向研究团队走来。

对文章打分

OpenAI用GPT-4b攻克诺奖难题 人体细胞"返老还童" 逆转效率飙升50倍

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘