快捷搜索:

从医院信息管理转向数据利用的四点思考

2018年10月,陆军军医大学第一附属医院(西南医院)正式成立了医学大数据与人工智能中心,从信息科中剥离独立运行。分家不分心,我们仍是一起从不同侧重点共同推进医院信息化建设。对于我这个拥有16年医院信息建设管理经验的“老板凳”来说,终于能从信息科负责人的岗位上“光荣退休”。庆幸的是,总算逃离了过去无穷无尽的琐碎和时刻紧绷的不安,是莫大的释放与解脱。而同步而至的是新的压力与挑战,这一切都来源于自身对新领域知识储备的不足,以及开辟全新工作领地的艰难。

在这个新组建的部门成员中,既有OCP(Oracle数据库认证专家),也有C#.net、Java、PB开发程序员,还有高工级网络工程师,更有科研项目组织能手,全都是身怀绝技的业务骨干。但是,一开始大部分人还不知道下一步具体该干什么、怎么干,自己能发挥什么作用。用“深感茫然”来形容,一点也不为过。为了给并肩战斗的小伙伴们鼓劲,我确定了八字方针“居安思危、迎难而上”,并勉励大家如果不想被时代淘汰,那就搏击潮头、改变自己,不断提升未来20年职业生涯的核心竞争力。

言归正传,作为一名“初出茅庐”的医疗数据探路者,我谨谈谈医院后信息化时代,如何让数据驱动新一轮医院信息化建设。

一、掌握基本技能,实现从信息管理专家向数据利用专家的转变。

传统信息管理人员的核心能力在于对管理流程和数据流程的深入理解,在此基础上,准确把握用户需求,科学顶层设计,并优选适宜的技术开发或产品加以实现。而数据管理人员的核心能力在于对数据逻辑和相互关系的理解,以及掌握整个数据处理的技术链条,包括数据抽取、清洗、标准化、结构化、语义识别、存储、分析和开发等。这两者并非完全割裂,而是相辅相成,相互促进。这也是我们从信息管理岗位向数据处理应用岗位转换的优势所在。

然而,从信息管理走来的我们,劣势也不少。在上述整个链条中,有太多我们不熟悉的领域知识需要补课。譬如,拿最基础的数据抽取来说,抽取的方式、ETL工具、同步频率、一致性校验、字符集转换等细节都需要考虑。医院极其多样化、复杂的数据来源和类型,给数据汇聚与利用带来很大难度。下图从数据来源、数据类型、存储位置这三个维度体现了医疗相关数据的概貌。

\

做医疗大数据研究,正是要将这些分散的数据通过患者主索引(EMPI)等方式关联起来,通过大数据架构进行存储、处理,结合临床、科研、管理的需求进行统计学方法或全样本分析。

举一个我们在数据抽取过程中的小例子:由于历史原因,军队医院HIS数据库都是采用AMERICAN_AMERICA.US7ASCII英文字符集,因各系统间错综复杂的联系,绝大部分医院都没有转换成当前主流的中文字符集。于是问题来了,要想在数据中心采用中文字符集以兼容各种数据来源,就必须完成转换。我们采用了Oracle Golden Gate(简称:OGG)技术进行业务库实时同步和字符集转换,采用开源ETL工具Kettle进行数据抽取,在这一过程中遇到了一些问题。譬如:OGG要求归档日志必须延续一致,Oracle的SID不能发生变更,如果环境变了,前面的工作都可能要重来。对于大容量数据仓库来说,这就是“噩梦”。Kettle数据抽取工具的原理是,将英文字符集的数据表映射迁移至中间表,再写入中文字符集数据库。但是,对数据库字段中的空格等特殊字符的处理经常发生错误,处理blob等大对象类型的数据也存在问题。在数据开发过程中,如主流的Tableau、FineReport等报表工具完全不支持英文字符集,而有些实时数据的分析仍需要从英文字符集的生产数据中心直接得到分析结果。

这只是一个很基础、很小的技术障碍,可能有好的解决方案,只是我们暂时还没掌握。而这只是数据处理分析“万里长征”的第一步,还有无数“拦路虎”在前面埋伏着。我们深刻地感到,知识更新时不我待!

究竟还有哪些知识领域需要我们潜心学习?下图是我总结的一张大数据知识体系图:

\

术业有专攻。面对如此庞杂的知识体系要求,一个人精力有限,难以全面掌握和精通。但既然专业研究大数据,必然要求一专多能。所以,每位团队成员多少都要了解一些,并且要按这个知识体系逐步把团队打造好。

二、打破传统观念,以数据思维解决传统信息化中的难点与痼疾。

“互联网+”促使数据以前所未有的速度数量级增长,大家又开始讨论“数据思维”了。那什么是数据思维呢?

您可能还会对下面的文章感兴趣: