数据分析神器!机器学习预测肥胖指数
根据世界卫生组织的数据,过去 40 年全球肥胖率几乎翻了三倍,超过三分之一的成年人因超重而易发心脏病、癌症等疾病,每年约造成280万人死亡。目前,超重和肥胖有多种衡量指标:
1)体重指数(BMI,最常见),用体重kg/身高cm的平方衡量体重,但不能区分脂肪和瘦肉,肌肉质量较大的人 BMI也较高;
2)腰臀比(WHR),计算腰围和臀围的比值,但只能测量人体腹部内脂肪分布,可使用腰围(WC)替代;
3)体脂百分比(BFP),使用生物电阻抗衡量人体脂肪组织与瘦肉和水的比例,但测量时容易受多种因素影响。
此外,肥胖人群遗传易感性较低,无法提供足够的信息对肥胖症和相关结局进行风险评估。因此,我们迫切的需要优化并量化表型数据,帮助我们更好的预测肥胖人群的疾病风险。今天要介绍的一篇文献是使用先进的机器学习模型,深度分析大规模人群血浆脂质组学数据、评估肥胖程度及后续疾病风险。
Machine learning of human plasma lipidomes for obesity estimation in a large population cohort
【 PLOS Biology IF=8.386 】
研究材料:
FINRISK 2012 样本集: FINRISK 研究是每 5 年一次的芬兰人口调查(要求参与者在检查前禁食超过4小时,且当日晨清淡饮食)。随机选取1141份血浆样本进行脂质组学检测,从中选出1061份用于分析(根据总脂质量或脂质分布紊乱进行质量控制)。
MDC-CC 样本集:MDC-CC 是瑞典的一项队列研究,旨在研究 1991 年至 1994 年颈动脉疾病的流行病学(要求参与者过夜进食后收集血浆样本)。随机选择 250 名受试者作为验证数据集。
技术方法:
脂质组学,机器学习(Cubist、Lasso、偏最小二乘法、随机梯度提升、随机森林和线性模型)
研究路线:
研究结果:
1. 脂质组学数据整体描述
作者利用脂质组学技术对FINRISK 2012 队列样本进行检测,获得了 183 种血浆脂质水平。分析发现,每个脂质亚种的变异系数显示种群变异为 23%至 150%,显著高于通过参考样本评估的亚种变异中值技术系数(6%)。其中,胆固醇(26%)和鞘磷脂(SM,中位数为 26%)等脂质类别变异程度较低;而饮食相关脂质变化很大,如甘油三酯(TAG)和甘油二酯(DAG)以及磷脂酰乙醇胺(PE)。此外,性别之间存在明显差异,男性的 TAG 变化更大,女性的 SM 变化更大。
2.肥胖预测模型构建
研究人员对 FINRISK 样本集获得的脂质组数据进行深入分析,以年龄和性别作为协变量建立肥胖预测模型。建模时,输入数据经过过滤,仅包含所有建模变量的完整测量值(n=1,002),输入数据随机分为训练集(80%,n=796)和测试集(20%,n=206)。使用经过交叉验证循环训练的 Lasso 回归分析,分别使用 BMI、WC、WHR 和 BFP 作为肥胖测量指标,得出平均绝对误差(MAE)和 NMAE(归一化 MAE)。从中发现通过 WHR、WC 和 BFP 测得的关于肥胖的脂质组信息比 BMI 更精确。由此可见,脂质组数据中蕴含实际体内脂肪量(BFP)及其分布(WHR/WC)的相关信息。
图 1 基于 Lasso 回归分析不同肥胖测量指标的 NMAE
3. 对比不同的 BFP 模型和条件
接下来,作者对 6 种 BFP预测模型进行训练,并在 796 个随机训练样本上学习了它们的参数:基于树的随机森林(rg)和随机梯度提升(gbm)的性能并不比普通线性模型(lm)好;偏最小二乘法(pls)性能较好,它非常适用于表征脂质组学数据集的多重共线性;而 Lasso 和 Cubist 模型显示出了更好的性能。简单的 Lasso 模型与 Cubist 模型一样适合数据,并且由于其简单性和可解释性,后续作者将 Lasso 模型用于所有其余分析。
图 2 通过 BFP 的 MAE 比较 6 种不同的回归算法
4.BFP 模型的描述
对不同模型比较发现,最佳的 BFP Lasso 模型(MAE=3.61±0.33,可解释变异=73.2±5%)可得出 58 个脂质预测变量(下图中菱形和圆形节点),而 MAE 最低的 Lasso 模型(MAE=3.65±0.33,可解释变异=72.9±5.1%)仅得到 45 个脂质预测变量(下图中菱形节点),且基本上是 BFP Lasso 模型中58个预测变量的子集。
图 3 两个 Lasso 模型的预测变量的 Pearson 相关网络图
从上图可以看出,SM 34:1;2 具有最大的负脂质β系数,SM 34:2;2具有最大的正脂质β系数,二者在网络中彼此相关,并且它们之间只有1个双键的差异,这意味着未知的去饱和酶参与了肥胖相关的脂质代谢异常。事实上,SM(鞘磷脂)是血浆中特别稳定的脂质类,最近也有报道说鞘脂与BMI相关。
5. 肥胖模型的独立验证
在 FINRISK 测试集上对 BFP 模型进行训练后,交叉验证的 MAE 为 3.61±0.33 BFP 单位,大约为 BFP 范围的 8%。作者又在另一个独立的、临床基线特征不同于 FINRISK 的数据集 MDC-CC 中进行了验证,得出的 MAE 为 3.67,仅略高于使用FINRISK 数据集获得的交叉验证误差。此外,验证工作还证实了所获得的模型与禁食持续时间无关,因为MDC-CC 队列的参与者整夜禁食。通过独立样本集的验证,说明本文的脂质组学方法具有高度可重复性。
图 4 训练集、测试集和验证集与基于 Lasso 回归的训练集预测结果验证
6.输入变量和脂质组分辨率水平对 BFP 的影响
为进一步评估脂质组学预测模型的价值,作者与基于临床参数的 BFP 预测进行了比较,发现在模型中添加除脂质组以外的其他变量,均不会改善 BFP 的预测。接着,作者又评估了提高脂质组结构分辨率对预测结果的影响,当使用单个脂质分子的摩尔量信息时,该模型获得了最大的改进。因此,分子脂质信息在预测 BFP 方面明显优于综合指标。
图 5 不同输入变量和脂质组细节对 BFP 回归的影响
7. 脂质与 BFP 的相关性
尽管预测算法(Lasso)会根据整体预测误差来选择特征,但不能用于定义与 BFP 相关的单个脂质组学特征。因此,作者对男性和女性受试者(包括年龄作为协变量)分别进行了脂质亚种和其他功能的全面 Spearman 相关分析,结果显示,经过 Benjamini-Hochberg 校正多种假设测试后,总共 202 种被测脂质种类中,女性的脂质亚种中有 53.5%(108),男性中有 65.3%(132)与 BFP 显著相关,还观察到所有脂质类别均具有显著相关性。这些结果表明,肥胖状态下脂质代谢的系统性复杂扰动。
图 6 脂质亚种与 BFP 的相关性
结论:
作者使用高级的机器学习模型,根据大队列中的血浆脂质组预测肥胖的不同测量方法,将脂质组学与机器智能建模完美结合。作者利用多种机器智能模型训练和比较,筛选出最佳的模型算法,最终发现对建模算法影响最大的脂质是含有 4E,14Z-鞘二烯的鞘磷脂。
小编心得:
脂质组学测量与机器智能建模相结合,不仅包含有关脂肪含量和分布的丰富信息,而且还超越了传统的临床检测方法。脂质组学与肥胖测量之间相关性的异常值具有可能会导致以后与肥胖有关的非传染性疾病的临床特征。未来的挑战将是使用这项技术对肥胖进行分层,以准确预测谁将保持健康以及谁将发展为疾病。此外,不同机器学习模型之间的表现各有优劣,而它们的性能也是因数据集的特征而异的,我们很难去评价到底哪种机器学习算法是目前最好的。
面对这种情况,我们就要发挥中国特色社会主义“民主集中制”的独特优势了—3月5日下午14:00,中科新生命高级学术顾问於佳乐博士为您带来《人工智能开启“精准医疗”时代:高通量组学数据挖掘策略》的线上讲座,带您深入浅出地认识集成机器学习以及在生物标志物筛选中的应用策略。