端粒长度是衰老研究中历史最悠久的生物标志物之一。相对于你的年龄,端粒越短,患心脏病、糖尿病、阿尔茨海默病和癌症的风险就越高。问题是:要测量它们,需要复杂且昂贵的实验室检测。直到现在。2026年3月发表在《Cell Reports Methods》上的一项新研究揭示了一个名为TLPath的人工智能模型,由Sanford Burnham Prebys研究所Sanju Sinha实验室开发,能够从常规的组织学图像中预测组织中的端粒长度。
问题:为什么端粒难以测量
端粒是染色体末端的重复DNA序列,每次细胞分裂都会缩短。随着年龄增长,它们逐渐变短。目前通过专门的实验室检测来测量端粒长度,例如:
- qPCR:相对经济,但对某些组织精度较低
- TRF(末端限制片段)或Southern blot:精确但昂贵,且需要大量DNA
- FISH(荧光原位杂交)或基于Luminex的方法:研究中使用的其他方法
用于训练模型的端粒数据来自GTEx数据库,其中端粒长度采用基于Luminex的方法测量(Demanelis等人,《科学》2020)。正如Sinha所说:"直接测量端粒长度需要更复杂、更昂贵的检测,难以大规模实施"。这正是TLPath的用武之地。
理念:如果图像中存在端粒长度的迹象呢?
团队提出了一个简单的问题:当端粒变短时,细胞会发生变化。它可能变成僵尸细胞(衰老)、减缓分裂、改变形状或失去内部结构。这些变化在组织的显微镜图像中是否可见?
如果是,就可以训练深度神经网络来识别它们。世界上每家医院在日常工作中都会产生数百万张活检照片。如果存在端粒长度的视觉特征,就可以直接从现有的临床样本中估算它。
网络是如何训练的
团队收集了来自919名捐献者的5,263张数字组织病理学图像(常规H&E染色图像)。每张图像都与同一组织的实验室端粒测量结果配对。涵盖了18种不同的组织类型:皮肤、肺、肾、肝、肠等。
网络将每张图像平均切割成1,387个小块。每个小块通过多达1,024个结构特征进行检查:细胞形状、核结构、细胞质颜色、细胞间距离。网络学习哪些特征组合能预测短端粒,哪些能预测长端粒。
结果:超出预期的精度
在未参与训练测试样本上,TLPath显示出:
- r = 0.51的相关性,介于其预测与实验室测量之间,涵盖11种组织类型。这不如直接测量精确,但明显优于仅根据实际年龄进行的估算(后者相关性仅为r = 0.20),这是当前无测量时的标准
- 适用于11种不同的组织类型,显示出通用性
- 模型解释揭示其依赖于衰老标志物,如核质比增加和核形状改变
"直接测量端粒长度需要更复杂、更昂贵的检测,难以大规模实施",Sinha解释道。TLPath旨在弥合这一差距,从已有的图像中估算端粒长度。
意义:数据革命
如果TLPath被整合到标准的数字病理学软件中,以下情况可能成为可能:
- 人口规模的长寿研究。无需对数千人进行采样,就可以从现有图像中估算更多人的端粒长度
- 早期识别干预候选者(潜在)。一个人即使40岁进行病理检查,如果发现其端粒长度相对于年龄较低,或许可以尽早开始保护性生活方式。需要强调的是:这是未来的研究方向,而非已批准的临床应用
重要说明:TLPath仅被训练用于预测组织中的平均端粒长度(bulk tissue),精度适中(r = 0.51),它是一个研究工具。它不是经批准的临床检测,也不适用于调整化疗等治疗或筛选药物。此类用途尚未在研究中进行检验。
为什么这不仅仅是另一个人工智能模型
2026年的许多人工智能模型做着令人印象深刻但不切实际的事情。TLPath不同:它试图利用现有基础设施大规模解决一个具体问题。许多医院已经将其图像数字化扫描。无需新设备,无需对患者进行额外操作。只需添加一个软件组件。
这就是数字病理学领域的科学家所说的"增值":从你已经进行的检测中提取额外信息。
需要记住的局限性
- 相关性r=0.51意味着约26%的变异被解释。不足以作为精确的个人检测,但在统计-人口水平和研究中有用
- 模型是在特定人群上训练的。用于不同人群(不同种族)需要额外验证
- 端粒只是生物年龄的一个标志物。需要与其他标志物(表观遗传、蛋白质组)结合
- 网络不解释为什么端粒短。只说明它们基于组织特征看起来短
总结
TLPath是一个有前景的研究工具,而非临床检测。其代码已在GitHub上公开(Sinha-CompBio-Lab/TLPath),供希望扩展该工作的研究人员使用。更广泛的结论是:衰老测量可能逐渐从昂贵的实验室转向可在现有样本上运行的工具。如果TLPath是第一步,它可能只是整个"图像生物标志物"浪潮的开始:从现有样本中提取以前不可见的估算价值的模型。然而,适中的精度提醒我们,这仍处于早期阶段。
💬 评论 (0)
成为第一个对文章发表评论的人。