Tech Corner October 10, 2018

精准医疗和发挥数据的作用

Genome image

自在 2003 年公布首个人类基因组序列以来,人们已经认真预测和讨论了精准医疗(也被称为个性化医疗)时代的来临。精准医疗的基本概念是,我们可以通过收集我们所有人的数据,而不是仅仅聚焦于在患者就诊过程中获得的相对较少的数据,来更深入地了解我们每个人的健康状况。我们现在可以相对容易地获得这些数据点,但要用能够真正改善医疗的方式——共享它们,跨越患者群体和数据类型整合它们,以及分析它们等等——来管理它们所面临的困难仍然是我们前进的重大障碍。

在发表在《新英格兰医学杂志》的一篇论文中,JAX 教授 Peter Robinson 和他的同事就如何调整医疗数据基础结构以克服目前的障碍给出了建议:“促进精准医疗——分类、本体和计算推理”。

那么我们究竟在获取哪些数据?以普通医生的接诊为例。我们获取的是一些简单的数据:身高、体重、血压、脉搏和体温。通过抽血化验,我们可以获取胆固醇和血糖数据,如有需要,我们还可以获取甲状腺功能测定、前列腺特异性抗原水平(男性)以及维生素水平等各种其他数据。简单的询问可以了解病史、当前行为和生活环境,例如是否抽烟或锻炼,饮食习惯,服用的药物,饲养的宠物以及家族病史等。在很长一段时间里,这些几乎就是我们可以获取的全部数据。

如今,您可以收集基因组或外显子组序列;RNA 序列分析(哪些是活跃基因,哪些是不活跃基因);蛋白质组(实际存在哪些蛋白质,含量多少);CAT 扫描、核磁共振和/或其他医学影像;以及能够基本揭示患者生理结构的其他测量值和测试结果。另外还有患者告知的数据,其中包括新兴的可穿戴设备的数据和在诊所之外生成的其他实时输入,并且有时候这些数据是全天候生成的。

Peter Robinson
Peter Robinson 是一位计算机生物学家,拥有医学博士和科学硕士学位,他的工作是为转化研究和医疗护理开发生物信息学资源和算法

对于在当前环境下执业的医生而言,所有这些数据给他们造成了极大的挑战。现代电子病历 (EHR) 的设计更多地考虑了计费的便利性,而不是使这些新的患者数据标准化或者可互操作。目前的医学分类和数据语义针对计算环境的可移植性有限,有时甚至无法相互对应。

一个值得注意的例子是 1891 年首次发布、如今已是第 10 版的《国际疾病分类》(ICD)。ICD10 将每个代码限定为一种疾病,并且它所链接的“上级分类”也只有一个。如 Robinson 所指出,这意味着“甲状腺恶性肿瘤[癌症]”是“恶性肿瘤”的一种,但不属于“甲状腺功能异常”,从而严重限制了它在关联患者、疾病和群体时的使用。(注:考虑到所需的超粒度,这也会产生一些具体得不合情理的特定 ICD10 代码。希望很少用到的代码包括 V91.07(由于滑水橇着火而引起的烧伤)和 T63.012A(响尾蛇毒液的毒性作用,故意自残)。)

那么可用的解决方案是什么呢?

在该论文中,作者认为,人们需要共同努力“来使不同患者和系统的数据具有可比较的、一致的格式和语境意义”。

实现这个目标的一种方式就是在医学中实施本体。本体实质上是关于特定主题的各种术语集,这些术语集不仅描述了术语的属性,而且还说明了它们之间的关系。在现代用法中,本体通常被视为某个特定主题领域(例如医学)的一种计算表示。如果正确实施,本体可以提供跨越大量术语和概念的逻辑一致性。在医学中,本体可以通过整合基础科学数据与临床数据来超越 EHR 的限制,从而改善患者分类以及诊断和治疗洞察力。

本体已经在转化研究领域中帮助改善罕见疾病的基因诊断。在约 450 万个与表型(性状)异常相结合的基因组变体中发现临床意义十分困难,但使用本体的计算分析系统可以把患者性状评估中的序列数据语境化。相关的努力包括人类表型本体 (HPO),这是一种将疾病定义与关于基因功能、解剖学、生物化学和其他生物属性的本体联系起来进行计算分析的方法。从根本上说,HPO 将患者视为一个生物对象,而不是账单付款人,从而实现了更强大的个体诊断分析以及具有类似疾病表型的患者的识别。Robinson 在 2008 年启动了 HPO 项目,并且仍在继续领导它的发展。

Robinson 在论文结尾展望了一种医生可以在里面询问和/或回答各种问题的医学生态系统:“哪些类型的患者特征需要监视?人口统计特征、体征、症状、家族史、诊断、人体测量、测试结果、放射学或“组学”测量?这些数据中有多少已经存在于我的患者的记录中?在像我的患者这样的假定患者的记录中,这样的数据有多少?在我所在的诊所,我所在的医院,我所在的群体,我所在的省,我所在的国家/地区,我可以查阅的相关数据的范围有多大?”

然而,除了实施本体的任务之外,他还指出了实现这个愿景的三大障碍。其中之一便是,在对医学数据的访问变得如此重要之前,在已颁布的法律的背景下解决患者隐私和安全问题。另一个障碍是 EHR 问题,包括缺少互通性、专有接口和非标准的数据结构。最后一个障碍是其他数据源与 EHR 的整合以及不同数据源的相互整合,包括公共研究数据库和临床参考数据,我们需要打破较大患者群休的数据孤岛并最大程度地发挥数据价值。

在一个根深蒂固的系统中克服这些障碍是一个令人望而却步的过程,但现在时机已经成熟,并且潜在效益巨大。汇集并整合每个个体的数据所带来的描述将把患者作为一个整体系统,从而具有嵌入的相互关系。这些系统级的数据收集与数百万其他患者的数据收集的结合将揭示群体级模式以及个体与它们的差异。

我们正站在将会彻底改变医学领域的洞察力的入口。一旦我们清除了障碍并实现了有效数据管理,我们定将改变医学。