新闻资讯

“机器学习”果然是照妖镜:预测皮肤真实年龄

2019-10-23
中科新生命
2418

众所周知,人类寿命存在极大异质性,与其在同龄时截然不同的健康状态息息相关。因此,找到可以预测衰老(即寿命长短)的生物标志物将对构建健康生活方式和预防衰老带来翻天覆地的变化。

那么作为生物汪的小编,可能在未来还能兼职赚点算命先生的钱钱。。。当然,美梦总是不容易实现滴,回到现实,衰老相关指标并不好找,这是因为寿命的影响因素实在太多,很难得到一个准确的判断指标。

在以前,最大的窘境在于:人作为个体可以看作是不同维度的海量数据的堆叠,其中彼此又互相影响、互相干扰,如何找到筛选出最能反映个体差异的指标呢?随着大数据时代的来临,科研人员开发了多种算法进行生命科学领域相关数据的挖掘,而对于标志物诊断模型而言,不得不提的就是机器学习算法。

目前市面上机器学习的算法类型比较多、各有优劣。一般来说解决方案有两种:1)分别利用不同算法筛选权重最高的指标分别构建诊断模型(single/penal),然后分别比较不同算法模型的诊断效能,选取预测效果最好的那组;2)选择其中一种算法筛选指标并建立模型,在其他算法中去验证是否依然能有很好的表现。

然而,算法和衍生算法这么多,一种种去试,何时才是个头哇?

为了解决这个问题,保住广大科研人员亮丽的秀发,来自美国索尔克生物研究所的研究团队开发了一种集成机器学习的方法,对成纤维细胞的衰老标志物进行了挖掘,通过对比发现该方法优于其他单一的算法。这项工作于2018年发表在《Genome Biology》上,IF=14.028。

image.png

Predicting age from the transcriptome of human dermal fibroblasts  IF=14.028

那么,让我们一起看看,为什么这个算法这么好呢?要想寻找衰老相关标志物,和把大象装进冰箱一样,得一步一步来:首先,你需要一个包含了完整年龄跨度的研究人群,也就是说,这个队列上至高堂,下至婴儿全都得有。这项工作就召集了133名年龄在1-94岁的健康人和10名早衰性疾病(HGPS )患者的队列。有了这个队列,接下来要解决的是,取什么样本?经过大量思考,研究人员选择了皮肤组织,原因如下:首先,人类皮肤中的成纤维细胞增殖率较低,可能保留随着年龄增长而发生的损伤;其次,成纤维细胞表现出年龄依赖的表型、表观基因组和转录组变化;第三,来自老年成纤维细胞的直接重编程神经元保留了与年龄相关的转录组特征和细胞缺陷;第四,成纤维细胞系很容易从非侵入性皮肤活检中获得。因此,真皮成纤维细胞转录本有可能编码生物年龄的特征。所以,研究人员采集了该队列的皮肤成纤维细胞,然后进行了大量的RNA-seq数据分析。

“ 有了研究队列和样本,获得大量数据,真正的问题才显现出来:用什么方法分析数据,获得衰老预测的biomarker?哪种方法更加优胜?”

机器学习包含了多种方法:线性回归、随机森林、弹性网。。。所以,选择困难症的朋友们确实无法抉择。但是,研究人员在这些算法面前,表现了成年人应有的态度:小孩才做选择,我都要!所以,他们开发了一种集成算法,我们开发了一个集成机器学习方法,利用基因表达数据建立模型,来预测健康受试者的实际年龄。在这个方法中,他们集合了多个分类器,每个分类器都用不同的年龄离散化来训练。例如,分类器2将22-41岁的人纳为一组,分类器3将23-42岁的人纳为一组(相邻两分类器组年龄边界差1年)。

因此,集合算法由n个不同的分类器组成,每个分类器具有不同的年龄池(定义的年龄边界不同),集成的所有分类器都在同一个数据集上训练。

每个分类器都会根据受试者的基因表达水平来预测受试者所属的年龄范围。例如,分类器1投票支持该受试者属于21-40岁组,分类器2投票支持该受试者属于22-41岁组,分类器3投票支持该受试者属于3-22岁组。每一次分类器预测的年龄范围内每一年均获得1票,并在最终计算累积票数,得票最高即为预测年龄;若平票选择最年轻的年龄(上述示例最终预测年龄为22岁)。

这种集成方法对于每个分类器使用的算法类型是不可知的,因此研究人员把分析结果与多个单一算法得到的结果做了比较:

image.png

image.png

结果显示,该线性判别分析(LDA)集成方法优于以往用于预测生物标记物年龄的算法,这些算法包括线性回归、支持向量机和弹性网络。与单一算法相比,集成方法的真实年龄与预测年龄的中位数绝对误差更小,R2更高:集成法median=4,R2=0.81,线性回归法 median=10.0,R2=0.73,支持向量机 median=10.2,R2=0.72,弹性网络 median=11.0,R2=0.73。而这个集成算法比研究人员尝试的其他算法(随机森林、k近邻和高斯朴素贝叶斯)展示了更好的性能。

随后,研究人员为了验证集成算法的实际预测效果,对10例年龄2 ~8岁的早衰症患者进行了RNA-seq分析,平均年龄为5.5±2.4岁。然后使用集成算法,将早衰症患者的预期年龄与年龄匹配的对照组进行比较。集成算法一致预测了早衰症患者的年龄大于年龄匹配的对照组,而其他单一算法则没有能够预测到。这表明与其他方法相比,该技术是更好的生物年龄测量方法。

最后,感谢这篇文献,让小编看到了返老还童的可能性——保养好皮肤,我们就是年轻人!不说了,小编要继续码字赚钱买护肤品了~~~


中科新生命
蛋白|修饰|代谢|脂质|结构确证

www.aptbiotech.com      

T: 021-54665263

E: info_apt@sibs.ac.cn     

Q: 1875681852