收集、存储和利用医疗数据是非常困难的。
虽然医疗保健“数据湖”包含了可用于改善患者护理的有价值信息,但很多数据都无法排序和有效使用。组织数据并使其可用需要大量的IT基础设施规划。
医院如要准备收集可行的健康数据,应创建一个路线图,使他们能够利用数据来改善工作流程和患者护理。
大数据分析和人口健康分析是数据湖中收集数据的两种用途。有兴趣使用的公司需要了解所收集数据的性质,如何存储和访问该数据,以及如何使该数据可操作。
1.规划结构化和非结构化数据
临床医生、患者和连接设备收集的数据是结构化或非结构化的。结构化数据是存储在固定范围内的数据,例如文件。结构化数据更易于分析和存储,因为它具有直接的界限,并以标准化格式创建和存储。
来自EHR的患者人口统计信息,诊断和程序信息、药物信息和某些其他数据通常以标准化的、结构化的方式生成。传统的数据库通常用于处理结构化数据。
非结构化数据没有标准化格式,也杂乱无章。非结构化数据来自许多不同的数据源,可以包含图像,数字和复杂数据集。
非结构化数据存在于数据湖中,通常比较大而无法方便地检索或用于分析。
公司需要工具来处理结构化和非结构化数据,因为两种数据都需要变为可操作的数据。不同的工具可以对数据进行排序,使其更易于访问和操作。利用Hadoop等工具可以将数据湖从”存储垃圾桶“激活。
Hadoop是一个开源的分布式数据存储及分析应用程序。Hadoop不是数据库,而是处理结构化和非结构化数据的软件框架。
Hadoop将大量数据分发到不同的处理节点,然后将收集的结果组合在一起。由于系统通常使用较小批量的本地化数据而不是整个库的内容,因此这种方法可以更快地处理数据。
Hadoop主要使用Hadoop分布式文件系统(HDFS)和MapReduce来存储和分析数据。
HDFS是Hadoop应用程序使用的主要分布式存储。HDFS不是物理数据库,但它会收集数据并将其存储在群集中,直到公司准备好使用它为止。
Hadoop将非结构化数据分离为节点,这些节点构成更大型数据架构的单个部分。节点链接在一起,能够组合存储在Hadoop的数据,以根据公司想要设置的参数生成结果。
2.评估数据湖的云服务模型
在云中存储数据可为公司提供一定程度的灵活性,而这些灵活性通常是内部部署无法实现的。
公司根据需要可以在云存储服务中购买更多存储空间,而不是投资额外的内部部署服务器,从而节省资金。
根据HIMSS的一项研究,随着越来越多的应用程序迁移到云,或者更多的计算周期因为分析工具能够访问,连接“应该可以轻松扩展”。
将数据移动到云不仅为组织提供了更简单的扩展方式,而且还削减了本地服务器的硬件成本以及管理和维护本地服务器所需的其他IT人员。
这个空间为公司提供了部署Hadoop等工具的资源,并可以更好地控制其IT基础架构。
然后,公司需要决定是否希望在公共云,私有云或两者的组合中部署其工具。公共云是最具可扩展性的数据存储解决方案。随着组织规模的变化,可以添加或删除存储空间。这使得公共云在临时项目以及数据迁移中很受欢迎。
私有云使组织能够更好地控制其数据所在的位置以及对用户的可访问性。私有云使健康IT人员可以直接控制存储在云中的内容。医疗保健组织可能会受益于私有云,因为他们可以密切关注PHI。公共云和私有云之间的决定因素是预算、人员和需要存储的数据量。对于拥有大量非结构化数据和较低预算但无法覆盖私有云部署的医疗系统而言,公共云通常是较便宜的选择。
无论医院的预算是多少,产生的数据越多,要存储它的成本就越高。在规划数据湖时牢记这一点将有助于云存储变得更易于管理。
“对象存储提供了一种廉价的方式来存储大量数据。“云服务密钥信息系统总监Clayton Weise说。“使用对象存储的数据始终是可访问的,与磁带不同,磁带必须知道序列号,跟踪磁带并物理检索它。”
对象存储将数据作为对象而不是文件或块进行管理。对象保存在没有分层结构的存储池中。相反,对象存储使用唯一标识符,允许将数据存储在存储池中的任何位置。
使用对象存储去存储数据为医疗保健组织提供了更多的数据分析可能性,并提供了可扩展的基础架构。“最大的挑战之一是医疗保健组织数据量的指数级增长,”Weise说。“医院监管要求各不相同,有些规则和法规要求将患者数据保存七年。一些医院只要患者活着就会保留信息,即使这样,他们也可能不会删除它。”
存储用于分析的数据不需要像应用程序那样定期访问。对象存储不是分析工具运行的地方,因为它不是最快的存储解决方案,但它可以选择以一种方式存储大量数据,使其在需要时可访问。无论如何接近数据湖,公司应对其数据进行分类并了解其用途。确定数据使用后,构建路线图以便为生成的数据使用正确的存储工具。组织数据并在需要时使其可访问是使数据可用于分析的关键步骤。