精准医学杂志

运筹新数据,中山大学精准医学中心的新存储之

 

  北京2020年11月5日 /美通社/ -- 什么叫精准医学?百科是这样定义的:精准医学(Precision Medicine)是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。

  定义可能过于学术化,不易于理解,来看看现实中经常遇到的例子:A和B同时患有某种肿瘤疾病,同样的药物对于A有效,但对于B却没有效果,反而会影响到B的病情;C和D患有不同肿瘤疾病,却通过同样的药物让病情得到极大缓解。类似情况在癌症、肿瘤等疾病领域经常出现,个体因为遗传基因、所处环境和生活方式的不同,在治疗反应性上存在着很大的差异。

  精准医学的出现,改变过去“一刀切”的治疗方法,通过整合基因组学、蛋白质组学、代谢组学以及相关环境与生活方式等大数据信息,为患者精准制定最有效治疗方案。事实上,从最早的经验医学到循证医学,再到如今的精准医学,医疗模式走向数字化、精准化已成必然趋势。

  要实现精准医学,先决条件在于构建一个巨大的“疾病知识网络”,其中关键在于数据和大数据平台:数据越丰富、维度越全面,意味着治疗方案的决策正确性就越高;大数据平台性能强、稳定性高、可靠性出色,则可以支撑起整个精准医学的长期研究。

  那么,精准医学的业务需求有哪些特点,数据特征情况如何,对于大数据平台建设又有哪些核心诉求?作为中国精准医学发展的先行者,中山大学精准医学科学中心自筹建伊始就确定了建立医学大数据中心,以大数据平台作为核心基础设施,来采集、存储、管理和利用数据,为精准医学发展打了个样。

  一个影响未来五年的选择题

  从2015年起,中山大学精准医学科学中心开始筹建,首先需要面临三件大事:成立样本库、建立医学大数据中心和搭建精准医学实验技术平台。如果从数字化的角度来看,成立样本库相当于构建起一个医疗相关数据集合库;建立医学大数据中心则是为了采集、存储、管理整个数据;而精准医学实验技术平台负责数据价值最终的输出。

  在三件事情中,医学大数据中心的建设虽然是最底层范畴,却属于新基建中典型的创新基础设施,起到支撑起整个科学研究运转的关键作用。中山大学精准医学科学中心在建设医学大数据中心时,面临着架构的选择,“第一个是超融合架构,另一个则是采用存算分离架构。”中山大学精准医学科学中心生物医学大数据平台高级工程师肖华锋如是说,“架构的选择关系着未来五年医学大数据平台能否有效支撑起精准医学业务研究。”


中山大学精准医学科学中心生物医学大数据平台高级工程师肖华锋

  彼时的超融合正是基础架构领域冉冉升起的明星,受到了业界、用户们的广泛关注,凭借简化的架构、强大的并发性能以及便捷的管理等优势,被认为是基础设施建设的首选。但是,中山大学精准医学科学中心经过对精准医学数据类型、业务特征以及未来应用规划进行仔细和反复的调研之后,最终选择了存算分离架构来构建医学大数据中心。

  为什么会舍弃超融合,选择存算分离的架构?肖华锋解释道:“当时决策原因有两点:一是成本,当时超融合成本高,每个节点必须配置SSD,加上License费用,采购成本较高;第二则是从场景适用上考虑,精准医学科学中心场景中,存储需求增长速度远超过计算,超融合扩展是计算与存储等比例扩展,存算分离架构反而会带来更加灵活的扩展方式。”

  那么,医学大数据中心采用存算分离架构之后,真实情况会不会出现“理想很丰满,现实很骨干”的窘境?

  让理想照进现实

  从2016年开始,中山大学精准医学中心开展生物医学大数据平台工作,核心是建成数据汇交、清洗整合、存储管理、共享交换、隐私保护、开放共享的医学大数据和生命组学数据两大数据库,并开展医学大数据互联共享工程,建立数据标准体系和安全体系,实现患者医学数据跨系统/区域互联互认、数据共享工作。

  “中山大学精准医学中心生物医学大数据平台真正意义上把附属医院的数据和中心实现互联互通,并实现了数据交互和存储。”肖华锋介绍道,“不过,数据增长的确是太快啦。”

  建设之初,生物医学大数据平台规划了浪潮500TB集中式SAN存储来承载精准医学医学大数据平台的检索、360随身档案系统等核心业务应用,目前使用近半;规划1PB 浪潮分布式存储AS来存储海量影像数据,随着业务数据的采集量的增加,不到3年时间,中心的影像存储已经扩展到了2PB。