大数据、深度学习、临床辅助决策、智能随访,给科研和临床诊疗带来一个崭新的天地。那么他们离真正的应用还有多远?区块链能否解决医疗数据互联互通的问题?临床辅助诊断系统可靠吗?听中国区域卫生信息化奠基人之一,中国卫生信息标准领军人物,冯东雷为你解惑。
△ 点击放大查看
主持人:欢迎来到《知者不惑》专家坊,我是今天的特约主持王梦良。在这里继续与大家一起,听专家为大家解密医疗行业的新技术、新模式。人工智能、深度学习、医疗大数据到底会怎样影响临床和治疗?今天为大家请到是中国区域卫生信息化奠基人之一,中国卫生信息标准领军人物,冯东雷先生,他也是信医科技的创始人。
(以下为访谈纪要)
主持人:我们国家各个大型的医院、专科医联体的医疗大数据积累了很多,但是在数据的开发和利用这方面,目前是在一个什么样的一个水平?主要哪有研究的方向?
冯东雷:主持人好,各位同行,大家好。这个医疗信息化其实大家也做了这么多年了,主要就是包括一些大型医院和区域。从数据的利用角度呢,因为特别是最近的十年,就是医院内部首先实现的互联互通。特别是以卫生平台和CDR(医院临床数据中心)的建设。那么,在这轮建设当中积累的数据,几个可能逐步的深化应用方向,是DRG(疾病诊断相关分组)、临床辅助决策、临床科研。那么这三个方向呢其实本来也是一个是管理方向,一个是在临床方向,一个是在科研方向。
冯东雷:人工智能主要可能还是和临床科研和临床辅助决策紧密些,可能相对来说DRG总体上的还是比较传统一些这个数据分析的。从整个分布上来说他还是分一些阶段,头部医院可能是进入到临床辅助决策和这个临床科研这一部分。那么在大部分的医院呢,可能他还是360一般的绩效考核,医院管理啊,这个层次。
冯东雷:相对而言,比如说像医院管理这方面,其实因为他本身用的是我们的一些BI的一些技术,那么这些技术因为本身在国内,包括其他行业已经用的时间比较久了,他本身没有技术难度,主要是大家管理上各自的指标或者模型的,应该和国外没有本质性区别。但是在这个大数据人工智能方面,相对而言就说我们可能基本上是在四五年前水平。我可以举几个例子。2014年的时候科技部当时发布了这个863的医学大数据的一个指南,其中包括三个是跟那个基因组学相关的,还有两个是跟临床相关的。这个标志我们国家开始从国家层面开始做大数据的。在十三五期间,国家布局了很多的精准医学的项目。
冯东雷:2014年我当时做的上海中医药大学附属曙光医院就报了那个临床方向大数据课题。我们在上海做的另外一个项目比较早的是上海申康一期工程,当时他也是把上海所有的三甲以上医院做了互联互通,建立数据中心。但是这个数据中心里边只是包含了这个结构化的数据,文书数据其实没有包含的。他只有一些病案首页、出院小结,一些医疗费用啊这样一些数据。当时,辅助决策是应该说完全是一个雏形。但是从这个时候开始,大数据核心是两个方面,一个是数据怎么把它整理处理后变成可用的数据,还有一个是数据可用以后我们在上面做数据分析,我们一开始的直觉都是说我直接能不能用现在数据去做分析,那一般来说就是统计模型或者后面的挖掘模型,包括深度学习。但事实上,我发现数据基本上没有达到让你直接能套模型的程度。前面要做大量的数据清洗和数据治理的工作。
冯东雷:那么这个数据治理工作,其实里面也用了大量的人工智能技术,这个问题我今天不讲了。就是知识图谱啊,自然语言处理啊。相对而言呢,可能我们中文比英文呢,可能有更大一点难度,英文他不需要做分词的,中文里面还有一个分词问题。另外国外的他的数据体系是比较健全,但是国内就是很多东西都还没有。除了诊断编码可能通过这个十年的建设已经越来越完善了。但是其他的就还是比较薄弱。比国外要要滞后一些,像这种自然语言处理,深度学习,支付其实都是国外过来的。所以我们可能在技术上面是相对是跟从的状态。前两年google已经就联合了一些医院已经发表一些这种很高分数的论文,他们这个引领作用还是比较明显。
主持人:所以说,其实,我们有一些先天的劣势了。一个是咱们的中文的复杂性,另外一个就是数据体系我们国家起步也比较晚。运用这些大数据来做一些科研论文发表的时候,相对来讲比较少。另外一个就是这个数据本身的质量,或者是数据治理要化的功夫很多。特别是大段大段长病历如果是用机器来进行阅读的话,确实是很复杂。现在有好多大数据的应用的项目或产品,人工智能软件, CDSS系统等等,离临床应用还比较远吗?
冯东雷:现在影像方面的人工智能辅助决策,因为影像没有中文的问题。我们和国外差距不大。相对来说就是影像方面的就是原创性可能还不够,但是从应用角度,其实我们跟国外是在同一个层次上,包括很多肿瘤方面的诊断。但是文本方面的人工智能辅助决策,基于患者病历的,是落后的。
主持人:我也看到,有人利用深度学习对患者做一些预测,根据他的一些共病和健康信息,进行一些预后和风险的预测,这样的一些项目,您觉得对于这个临床的参考意义怎么样?
冯东雷:就是刚才回到我们刚才说的曙光医院项目。其实我们当时也是作疾病的预测,做一些,比如说他的再入院率预测、他的就死亡预测,但是这个不一定很准。现在来看的就是主要的挑战在几个方面,一个是数据量,比如说我们如果仅仅以曙光医院的一家医院,大概也就是五六千例患者,因为因为虽然我们说申康上面他有十几万患者,我们经过数据清洗以后大概也有八万的患者,其实心力衰竭本身,他是一个终末期的疾病,所以他前期会有,比如高血压、糖尿病或者是冠心病有很多的。在这些因素里面,我们来看他到底哪些疾病对它的产生心衰的可能性比较大,包括这些疾病用不同的用药,那么用对他的减轻影响是多大。这个样本到底只能也只能说明曙光医院的。可能不代表就是说上海的,这是一个问题。但是另外一方面呢,你如果说考虑到中医院,往往是可能是前面治疗不好的,往往可能就是比较重的。数据的分析已经看到他的年龄相对结构是偏大的。他们的代表性到底怎么样,其实确实也是存在一些疑惑。
冯东雷:2018年的9月份的申康工程启动了二期建设,这时候我已经从万达信息出来,一期工程我是万达信息两个总设计师之一吧。二期的一个核心就是电子大数据中心就是他把这些,因为原来没有上传的病例文书进行上传。那么这个工作的目前在做,我们信医公司也参与了其中的关键技术的。包括知识图谱等等。这个项目如果做成的话,那么就是我们刚才这个问题就解决了,就是他全样本的病例啊。就是全上海的代表性。数据量有了以后,那么你这个做出来,结果可能就是参考意义,就可以避免刚才说的偏移问题。
冯东雷:第二个问题是数据质量。申康是全国最早的这么大规模的数据,那么我们想象当中,就是说应该是正常做的很好的。但是后来发现还有很多问题,举个例子来说就是这个病人有的时候看是男的,有的时候是女的,他是同一个人,实际上,但是在我们数据库他其实变成了很多人。最最核心的根源因为就是数据原来的应用没有做科研,只是做管理,做费用的统计、绩效的统计、你的工作量、效率、这个数据质量对于监管或者考核已经足够用了。数据质量,其实也是要使用才能提高的。刚才说的知识图符、自然语言处理技术来去发现的。
冯东雷:第三个才是数据模型。我们有了这数据是不是就能够这找出个因果关系呢。其实不一定的。我们要用一些临床研究的一些方法,比如说队列研究或者是病例对照组研究。如果说你没有用这种方法的话,你就是直接做个统计,或者是做一个关联。其实也没用。实际上就是因为他要体现这个因果关系,就有时间顺序,你应在前我在后,才有可能是有关系。如果说你仅仅是做关联,这可能就是说,你把果当成因,因果倒置是有可能对吧。所以你要对照的时候,你只能把同样年龄的对象去放进去,你不能说我一个小青年,有很重的病,然后去匹配一个老年人也有同样的,就不科学了。所以我们可能在年龄、性别或者说他的一些偏好,上面那做一些匹配。这样的话,他的对照才会有这个医学的意义。因果关系是通过队列的。后面我们可能才是涉及到深度学习,或者是统计的,这种方法,我们最后发觉就是前面那个工作可能占了80%。那最后你用各种各种统计方法,或者挖掘方法是工作量只有20%,但前期的工作你没做好那后期等于甚为等于没有意义啊。
主持人:我们要从这个数据走向真正的临床应用,这几个很关键的问题绕不过去。现在的CDSS也好,人工智能也好都遇照这样的挑战。另外,我看到有一些APP对病人的进行一些自动化的提醒, 知道这个病人一些基本信息,所谓的随访提醒,这种简单的应用离真正的广泛应用还有多少距离?
冯东雷:如果说只是简单提醒,应该现在是可以的。那如果是比较深度的诊断或提醒,已经有点有点类似的我上面说的了难度可能会也会比较大,所以总体上来就是说这个是一个方向。在医生看病过程中,动态监测,他写个电子病历啊,或者他开的,这个检验申请单,检查的那种,他返回的报告,这些数据如果有的话,我如果做一个引擎的话其实这个都可以做到,一旦监测到,我们就可以提醒。其实这就是一个基于大数据和人工智能的患者筛查。做的筛查之后其实就可以动跟踪,结合这个移动端,就是他有一个患者端,我们可能对他随访的可能要一个计划了。你在家里可能要做一些运动啊,或者控制我的饮食啊。这些干预措施可以动态的去提醒。同时,有些数据可能自动采集,有些是人工,那么他就可以被我们捕获。这样一些的技术我们他下次再来说。这系统可能要不一定要去连接医院,这是一种轻量级的说法,那么稍微复杂一点的,那么他可以跟医院的内部的CDR做不定期连接,深一点。
主持人:说的数据互联,比如说在一个医院里边的,门诊工作站的数据和这些软件插件的数据对接,很容易吧,医院和医院之间这种连联通这个难度大吧?
冯东雷:这个互联互通其实两个方面,一个是肯定院内的互联互通,一个是院外的。因为刚才我们提到的集成平台和CDR的建设,最早的医院可能差不多有十年历史了。所以这个呢,现在很多那个医院都是比较的基础,不管是在后台的CDR上面作为引擎,还是在前台这个可能来说相对成熟度是比较高的。医院外互联,这个现在专科联盟啊,或者是一点比较,其实做的比较多,专科医联体里面数据互联互通,就要看了。总的来说,这个互联互通技术,我觉得也还是成熟的,关键看是不是愿意给数字,我觉得这个差异会比较大。是大家数据共享的这种意愿不是很强。科创板
冯东雷:其实我们公司从18年3月份就启动了这个区块链在医疗领域数据的应用试验,就是为了克服这个问题。就是各家医院参与到联盟当中,他都可以去贡献数据,然后使用。但是他不是简单的把数据拷贝给对方,或者是传输到一个我们的电脑。调用这个数据能够计算这个数据,但是不能把数值保存下来,这样一个模式,区块链是在互联网上发展起来的,而且他解决的就是这个信任问题。就是比特币,就是说大家钱转来转去不会觉得你骗了我,我骗了你。我们现在目前用的技术呢,是一个联盟链,就是也不是真正的公链。实际上是大家还需要有一个联盟,做一个组织保障。那么正好我本身就成立的专科联盟,这个组织保障就存在了,总共我们现在加上一个就是你要上链的话呢,那我要批准注册起来啊。然后你注册申请以后,我批准了。先进行处置对接。然后进行访问控制授权认证,包括里边的一些加密的操作,那这样子大家能够安全的使用数据,在这个基础上呢,大数据人工智能,实将来就是在联盟当中做一些这个科研。他不用把数据植入到一个单一的地方,比如说原来一般是一个单位去做大数据。呼吸科、肾病或者肿瘤,他每个医院建一个这种专病库,然后我们通过区块链技术,把它虚拟的构成一个联盟的大数据。
冯东雷:大家上面跑一些安全的算法,分布式算法。比如我们要做一个发病率,或者做一个刚才我说的这个疾病预测,或者是做一个疾病的这种因果关系模型这种研究,其实都可以开展,但是这个数据其实还是在各家医院。而且通过我们的区块链,还有一个好处。这个数据交易溯源不可更改。因为去年可能大家也看到很多关于这个论文造假,但是反正各种图表的问题,有数据的问题,但是实际上,如果按照我们设计的体系的话,数据本身是是其实是由各个医院自己控制的,上面一个数据都不能更改的。所以对我们这个科研这种体系建设也是有很大的一个帮助。
主持人:联盟链是非常的好的一个解决方案。我们有很多医生朋友,一些研究单位,企业,也都是在做大数据的科研项目。但是其实很多都是局限在一个医院,或者一个科室。我想知道,这个区块链实现起来,是不是会很长的时间?
冯东雷:我们最早研究一次,花了很多时间,我们从这个2018年3月份开始。当时是在江西省做了一个就配合江西卫建委做了一个试点。到了2018年的11月份我们这个试点成功。那么确实是不是太容易,后面就关键就很多应用,包括这个电子处方的流转,包括那个药品的真实世界研究。比如药企做真实世界研究,我把医院的数据全部集中到药厂,这个不大现实。所以可能也是我们这种模式,是一个虚拟的多中心的这种大数据可以解决。其实这个东西我们也在跟一些单位的合作在做实验。当然我们已经做成的东西,那么推广的速度是很快的,但是可能还是要做几个项目可能才行。
冯东雷:深度学习里面很重要的是有三个集合:一个是叫训练集,一个叫测试集,然后才是真实集。你的训练集,就是要有一部分是由医生做标注,做好以后,然后我们用这个训练模型,我们用算法去把这个训练模型跑出来,然后再用测试题去做测试,看看你的精度到底怎么样。那么精度满足到一定程度了,我才能去推广到其他数据。即使精度很高,也只是事后学习,他没法前瞻性的去发现规律,他只是说在学习发生事实当中去找规律,但是你唯一的提高精度方法就是不停的喂他数据,就是我扩大样本的来源,项目的范围。比如说我们假设以上海为单位,你把如果是申康二期的大数据全覆盖那么训练出来的东西,基本上可以代表是上海的情况,但你说拿到北京能弄吗?不一定。再有就是人工标注也是有很多的,不是全自动。他还离不开医生的参与,他总有一些东西,比如说80%我全自动标出来,然后他在手工可能再加一些。然后我们再学习。我又可以做自动标注东西,可能是又做越大,但是要说一统天下是做不到。
主持人:医疗大数据他涉及到可能是上万种的疾病,各种各样的指标,与消费品的数据相比,与消费者行为数据相比,比较复杂。如何我们照搬消费品行业或者电商行业经验和模型,来做医疗的化,是很难得。需要专业的团队和医生的参与。
主持人:虽然这个有很多的技术挑战的,但是我们都坚信,在帮助医生诊断,给医生一些建议,或者用药的建议,在甄别患者,患者的招募等等这方面肯定还是会越来越多的应用。最后,也想听听您觉得在未来最早能够大规模应用人工智能大数据的是那些领域?
冯东雷:可能先从科研入手是较好的一个途径。科研本身已经涉及到电子病历文本、涉及到自然语言处理、知识图谱,这几个技术都是这个互相通的。比如说我们说专人处理的时候,他其实也要用知识图谱。后面深度学习,包括预测模型的构建,其实他也是要用到知识图谱,所以这几个技术,你说到底谁是基础,谁是应用。通过一个临床科研的项目把这个我们整个的思路做清楚,从数据的清洗,到那个数据模型构建,再到这个就是你的深度学习的模型,这个结合那么这样整个流程就整个经历过一遍了。
冯东雷:第二步可以做预测,比如预测患者的寿命,,比如说患心衰的概率是多少啊,就是或者说是多少时间发生。也可以预测他的治疗啊,其实都可以的啊。比如说举例就是说,有一些疾病,他会做一些有创检查,但是可能从患者来说呢,他是觉得那种有创检查肯定很难过了,相当于做个小手术了,那肯定不愿意对吧。那么这时候呢,我们尽量去先做一些无创性的一些检查,或者是一些化验。使用这些检验来预测他做有创性检查的阳性率。如果是高,我们建议去做啊,确实是阳性不高,那你不用去做。减少患者痛苦和负担,其实这种也是一种辅助诊断的。再有就是,比如说癌症的这个治疗方案,我看过沃森机器人,他同一个病,有的先化疗后手术,同样这个病,有点先手术后化疗。我就想为什么会这样,后来我懂了。其实他们其实就有各种策略的,他有的可能是肿瘤太大,你要先缩小啊。但是有的时候呢,比较小其实风险不大。我把它去掉。所以这个预测是比较复杂。最后走向临床,其实是要按照循证医学的角度,就不是随便我拿一个回归模型,这个因素和那个因素相关,我就来提一个诊断意见或者治疗意见。这个可能风险很高。我们需要通过科研去形成这个依据。
结束语:数据安全有效的互联互通是大数据和人工智能要发挥临床价值的第一关。医学科研是医疗大数据最佳的应用场景。而临床辅助诊断要进入临床应用,还需要大量的医生的知识,复杂的符合医学规律的模型,需要循证医学的积累。虽然任重道远,但我们已经渐渐看清了他们的本质,看见了他们的未来。
原创文章,作者:dongshuai,如若转载,请注明出处:http://boke.6ke.com.cn/?p=32023