"一花一世界",这句话在蛋白质、DNA所在的微观世界里体现得淋漓尽致,大到动植物、小到细菌,都蕴含着独特的DNA,例如人体内就包含着23对染色体、30亿个碱基对的数据量。探索这些碱基对蕴藏的“生命密码”,对于肿瘤早筛、罕见病诊治、靶向药物研制、遗传演化和精准医学研究等方面有重大助益。
近期,北京英信未来科技有限公司(以下简称北京英信)联合浪潮信息,为求臻医学的高通量测序平台提供了分布式存储平台,为全国数百家医院的肿瘤患者提供了精准、高效的肿瘤基因检测服务。
肿瘤基因检测 为何要跑在大数据上
【资料图】
基因检测作为医疗领域的新应用,不仅需要基于大数据平台,利用极为精密的测序系统将基因序列解读出来,还要通过大数据分析、比对,精确了解每个基因片段发挥的作用。在这方面,求臻医学拥有专业、丰富的经验。
求臻医学
求臻医学成立于2017年,以新一代基因测序和先进信息挖掘技术为基础,依托《中国肿瘤基因图谱计划》和《肿瘤精准医学大数据平台》项目,深度融合基因检测和人工智能,致力于肿瘤液态活检领域诊断产品的开发及智能迭代升级,业务涵盖肿瘤早筛、伴随诊断、动态监测、预后评估等多场景应用领域,同时不断探索发现中国人肿瘤基线及特异的生物标志物,助力抗肿瘤药物的研发。
然而,随着业务高速发展,求臻医学服务的医院、患者越来越多,数据量也相应的急速增长,原有的数据存储系统常常因巨量访问而超过性能阈值,存储系统也存在容量空间严重不足的情况。在这种情况下,求臻医学计划对原有的数据存储平台进行升级,新建的数据存储平台将主要支持肿瘤精准诊疗的生物医学信息化平台。
此平台涵盖了知识数据库、临床信息采集系统、数据注释接口(API)等模块系统,可以基于大数据分析为基因检测客户生成个体化的检测报告。整个信息平台数据存储的基础设施有着较大的挑战和要求:
首先,是存储数据量的需求。一个完整的基因测序样本会产生千万量级的文件。据了解,目前一台先进的测序仪、分析仪等设备每天捕捉的测序数据平均水平已达到4TB,加之基因信息分析过程一般会产生原始数据量5倍左右的中间文件及结果,PB级别存储空间已经成为存储设备的基本要求。
其次,是数据可靠性的需求。肿瘤基因检测数据作为肿瘤精准诊疗核心数据,检测数据通常需要多年保存,通过合理的生命周期管理系统进行归档保留,数据的自动化迁移归档、数据的安全性、存储的易扩展性是数据归档存储考虑的重要因素。
最后,基因测序访问实时性要求高。基因测序过程是一个超高并发的文件转换过程,整个生产过程有非常密集的文件读取和写入。整个生物样本的导入过程对文件存储的性能有着极高的要求,满足科研任务对不同文件高带宽的存储需求,既要文件系统必须提供超大文件数量的支持,同时必须在有限的时间内完成海量小文件的导入。
分布式存储:为基因测序构建数据基座
针对求臻医学基因测序应用数据量增长快、性能和可靠性要求高的业务特点,浪潮信息携手合作伙伴北京英信为求臻医学提供了专业化的存储解决方案。方案采用AS13000高密分布式存储,节点间管理网络采用千兆交换机,通过100GB高速IB网络连接前端并行计算业务集群,为前端业务构建了一套大容量、高可靠、高性能、低延迟的数据存储平台。
在容量方面,AS13000分布式存储集群由5个节点组成,每节点采用35块8T大容量硬盘配置,可提供PB级存储容量,满足海量数据存储需求。值得一提的是,该解决方案可实现分钟级扩充,最大可扩展至5120节点,在扩容同时可保障业务性能无明显波动,性能与容量随着节点的扩展而线性增长,避免对现有计算任务读写访问性能造成影响,使得存储系统的容量、性能在未来可随时按需扩展。
在可靠性方面,浪潮信息分布式存储平台AS13000提供副本和纠删码两种数据保护方式,为用户提供多层级的数据保护及容灾功能,充分保证检测任务以及前端计算任务7x24小时的连续读写访问。结合信息平台检测数据需要长期保存的业务特点,浪潮信息采用三副本的数据冗余保护方式,同时,还可搭配InView智能统一存储管理平台,对基因测序数据中心的设备进行管理,提供容量、性能、故障的智能化预测性分析,帮助运维人员预防硬件潜在故障,降低了存储的复杂性,同时也有效地降低了运维成本。
在性能方面,浪潮信息分布式存储解决方案针对基因测序数据特点采用冷热数据分级存储搭配全局缓存技术,实现热数据快速响应,延迟降低40%。对于对象类型数据,采用对象聚合技术,来提升单次落盘的对象大小,降低落盘操作次数,单节点恒定聚合带宽达2GB/s以上,确保基因测序任务的读写性能。
目前,基因测序应用范围在大幅扩展,从科研服务的基因图谱、遗传多样性,到医疗服务的疾病早筛和治疗都能涵盖,这对未来提升医疗智慧水平意义重大。浪潮信息始终坚持通过数据的力量,为基因测序基础研究储能,驱动精准医疗应用加速发展。