第一篇:对医疗大数据的认识
重庆大学研究生文献综述
对医疗大数据的认识
姓
名: 学
号: 指导教师: 专
业:
重庆大学光电工程学院
二O一六年十一月 医疗大数据产生的背景
在任何一个初具规模的医院,每天接待上万的患者前来就诊,患者的基本信息、影像信息与其他特殊诊疗信息汇集在一起是一个庞大的数据。据统计,上海市区域医疗信息平台(上海市“医联工程”及县区卫生数据中心)已经积累了覆盖3900万人群、1400TB数据量的电子诊疗与健康档案等医疗卫生数据(涵盖了全市38家三级医院3900万就诊人群的医疗信息,包括患者基本信息、就诊信息、健康档案、检验及影像检查报告、医学影像图像文件、住院相关病历、医保结算等医疗卫生数据,涉及就诊记录2.1亿条,处方记录9.1亿条)。
日积月累,这个数据量将会持续快速增长,为医院的数据存储、集成、调用等应用带来巨大压力。除了数据规模巨大之外,医疗行业的数据类型和结构极其复杂,如PACS影像、B超、病例分析等业务产生的非结构化数据,这些数据存储复杂,并且对传统的处理方法和技术带来巨大挑战【1】。医疗大数据得到人们的关注,并渴望有一种新的技术可以从这些看似杂乱无章的数据中得到价值。目前,为了提高人们的健康水平以及医疗水平,医疗行业在大数据环境下的各个领域异常活跃[2]。医疗大数据的相关概念
2.1 医疗大数据的定义
医疗数据是医生对患者诊疗和治疗过程中产生的数据,包括患者基本数据、入出转数据、电子病历、诊疗数据、医学影像数据、医学管理、经济数据等,以患者为中心,成为医疗信息的主要来源。
随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模正以前所未有的速度快速的增长,以至于无法利用目前主流软件工具,在合理的时间内达到撷取、管理并整合成为能够帮助医院进行更积极目的经营决策的有用信息。规模巨大的临床实验数据、疾病诊断数据以及居民行为健康数据等汇聚在一起形成了医疗大数据。
2.2 医疗大数据的主要来源
2.2.1 制药企业、生命科学
药物研发所产生的数据是相当密集的,对于中小型的企业也在百亿字节(TB)以上的。在生命科学领域,随着计算能力和基因测序能力逐步增加,美国哈弗医学院个人基因组项目负责人詹姆·鲍比就认为,到2015年,将会有5000万人拥有个人基因图谱,而一个基因组序列文件大小约为750MB[3]。
2.2.2 临床医疗、实验室数据
临床和实验室数据整合在一起,使得医疗机构面临的数据增长非常快,一张普通CT图像含有大约150MB的数据,一个标准的病理图则接近5GB。如果将这些数据量乘
以人口数量和平均寿命,仅一个社区医院积累的数据量就可达数万亿字节甚至数千万亿字节(PB)之多。
2.2.3 费用、医疗保险、利用率
患者在就医过程中产生的费用信息、报销信息、新农合基金使用情况等。
2.2.4 健康管理、社交网络
随着移动设备和移动互联网的飞速发展,便携化的生理设备正在普及,如果个人健康信息都能连入互联网,那么由此产生的数据量将不可估量。
2.3 医疗数据的基本类型
2.3.1 医院信息系统(HIS)数据
HIS是医院的核心系统,是对医院及其所属各部门的人流、物流、财流进行综合管理的系统,围绕着医疗活动的各个阶段产生相关数据,包括各门诊数据及病房数据两大主流数据流。
2.3.2 检验信息系统(LIS)数据
LIS是HIS的一个重要组成部分,其主要功能是将实验仪器传出的检验数据经分析后,生成检验报告,通过网络存储在数据库中,使医生能够方便、及时的看到患者的检验结果。
2.3.3 医学影像存档和传输系统(PACS)数据
PACS数据主要是将数字化医院影像科室日常核磁、CT、超声、各种X线机、各种红外仪等设备产生的图像存储起来。
2.3.4 电子病历(EMR)数据
EMR不同于以医疗机构为中心的门诊或者住院病历,是真正以患者为中心的诊断和其他检验数据的“数据池”,它将患者诊断过程中生成的影像和信号,如X线检查、CT扫描等纳入电子病历中,并以统一的形式组织起来。
2.4 医疗大数据的特性
2.4.1 数据规模大(volume)
例如一个CT图像含有大约150MB的数据,而一个基因组序列文件大小约为750MB,一个标准的病理图则大得多,接近5GB。
2.4.2 数据结构多样(variety)
相对于其他行业,医学中的数据类型更加多种多样,如电子病案中关于人口学特征的数据为纯文本型;检验科中有关患者生理、生化指标为数字型;影像科中如B超、CT、MR、X线片等为图像资料。
医疗数据通常会包含各种结构化表、非(半)结构化文本文档(XML和叙述文本)、医疗影像等多种多样的数据存储形式。
2.4.3 数据增长快速(velocity)
一方面,医疗信息服务中包含大量在线或实时数据分析处理,例如,临床决策支持中的诊断和用药建议、流行病分析报表生成、健康指标预警等;另一方面,得益于信息技术的发展,越来越多的医疗信息被数字化,因此在很长一段时间里,医疗卫生领域数据的增长速度将依然会很快。
2.4.4 数据价值巨大(value)
毋庸置疑,数据是石油,是资产,是资源,医疗大数据不仅与每个人的个人生活息息相关,对这些数据的有效利用更关系到国家乃至全球的疾病防控、新药品研发和顽疾攻克的能力。
2.4.5 多态性
医疗大数据包括纯数据(如体检、化验结果)、信号(如脑电信号、心电信号等)、图像(如B超、X线等)、文字(如主诉、现/往病史、过敏史、检测报告等),以及用以科普、咨询的动画、语音盒视频信息等多种形态的数据,是区别于其他领域数据的最显著特征。
2.4.6 不完整性
医疗数据的搜集和处理过程经常相互脱节,这使得医疗数据库不可能对任何疾病信息都能全面反映。大量数据来源于人工记录,导致数据记录的偏差和残缺,许多数据的表达、记录本身也具有不确定性,病例和病案尤为突出,这些都造成了医疗大数据的不完整性
2.4.7 时间性
患者的就诊、疾病的发生过程在时间上有一个进度,医学检测的波形、图像都是时间函数,这些都具有一定的时序性。
2.4.8 冗余性
医学数据量大,每天都会产生大量信息,其中可能会包含重复、无关紧要甚至是互相矛盾的记录。医疗大数据的主要应用
根据全球管理咨询公司麦肯锡的一份最新报告显示,医疗保健领域如果能够充分有效地利用大数据资源,医疗机构和消费者便可节省高达4500亿美元的费用[4]。
3.1 服务居民
居民健康指导服务系统,提供精准医疗、个性化健康保健指导,使居民能在医院、社区及线上的服务保持持续性。例如,提供心血管、癌症、高血压、糖尿病等慢病干
预、管理、健康预警及健康宣教(保健方案订阅、推送)。
医疗机构物联网的建设,包括移动医疗、临床监控、远程患者监控等(例如,充血性心脏的标志之一是由于保水而增加体重,通过远程监控体重发现相关疾病,提醒医生及时采取治疗措施,防止急性状况发生),减少患者住院时间,减少急诊量,提高家庭护理比例和门诊医生预约量。
3.2 服务医生
临床决策支持,如用药分析、药品不良反应、疾病并发症、治疗疗效相关性分析、抗生素应用分析;或是制定个性化治疗方案。
3.3 服务科研
包括疾病诊断与预测、提高临床试验设计的统计工具和算法、临床实验数据的分析与处理等方面,如针对重大疾病识别疾病易感染基因、极端表型人群;提供最佳治疗路径。
3.4 服务管理机构
规范性用药评价、管理绩效分析;流行病、急病等预防干预及措施评价;公众健康监测,付款(或定价)、临床路径的优化等。
3.5 公众健康服务
包括危及健康因素的监控与预警、网络平台、社区服务等方面。国内外医疗大数据技术应用现状
4.1 国外医疗大数据技术应用现状
美国远程医疗(telemedicine)公司研制成功了一款功能强大的医疗设备“智能心脏”(smartheart),把手机变成了一款功能齐全的医疗工具,用来监测用户可能存在的心脏病问题。智能心脏与智能手机相连,在安装运行了相应的程序后,手机拥有“医疗级”的心脏监测功能,并能够在30s内在手机屏幕上显示用户的心电图。医生可随时对患者的心脏进行监测和分析,提前做好预防措施。智能心脏解决了心脏病预防方面最关键的问题—时间。这在心脏病预防领域是一项重大的突破性技术。目前,“智能心脏”设备已经开始在网上销售。
意大利电信近期推出了Nuvola It Home Docto 系统,可让在都灵Molinette 医院的慢性病患者通过手机在家中监测自己的生理参数,相关数据将自动的通过手机发送到医疗平台,也可以通过ADSL、WiFi 和卫星网络得到应用。医生通过网页接入这
个平台,及时获取数据并调整治疗方案。
4.2 国内医疗大数据技术应用现状
IBM在上海的部分医院推出了BYOD系统,即员工自费终端,用来提高医生和护士在医院的移动性。通过和开发商合作,推出移动护理应用,将医生和护士的各种移动终端连在同一网络下,便于医生和护士了解患者在医院的位置和健康状况,也提高了医生和护士的移动性。
在上海,医联工程横向覆盖全市三级医院,纵向连通各区属医疗机构,已覆盖3900万患者,建成国内最大的患者诊疗档案库,拥有8.2亿条医嘱、1.8亿个病案、8100万份检验检查报告和107太字节医学影像数据;医联工程在服务医改、支撑资源整合、分布式影像网络会诊、三级医院诊疗信息社区调阅等方面,大幅度提升了区域卫生服务水平。
医联工程建成以来,对于患者,就医更方便,“一院办卡,跨院就医”“就医一站式付费”,共发放1300余万张医联卡,每月提供70万专家预约号源,人均节约就诊时间60min、排队时间45min;对于医生,服务看诊、提高医疗质量,支持每日5000人次实时诊疗档案调阅、1.25万人次重复医疗智能提醒,节约大量医疗费用;对于管理者,实现精细化管理,建成集医疗管理、绩效考核和统计分析为一体的整合平台,为医院管理提供决策支持。医疗大数据安全
5.1 人的安全
医疗大数据安全中“人”的安全,涉及的是数据隐私保护问题。在医疗过程中,患者的个人隐私主要有:在体检、诊断、治疗、疾病控制、医学研究过程中涉及的个人肌体特征、健康状况、人际接触、遗传基因、病史病历等[5]。这些内容还能被分为显性与隐性,显性一般是医嘱、诊断书、X线片、检查结果、报告单、病历、病案、住院患者床头卡等数据;隐性则是指蕴藏在这些数据历的信息,如患者血液组织所蕴含着的基因信息,患者罹患疾病所反应出的生活方式或者折射出的家族遗传历史等。
5.2 数据安全
一是易成为网络攻击的显著目标,在网络空间中,医疗大数据的关注高,其中含有的敏感数据会吸引潜在的攻击者;二是对现有存储或者安全防范措施提出挑战,特别是数据大集中后复杂多样的数据存放在一起,常规的安全扫描手段无法满足安全要求。这些问题将表现在数据资源共享、数据资产界定和盘活,以及数据真实性判断等各个方面。医疗大数据的未来展望
6.1 社会化医学
曾任美国克利夫兰医学中心(Cleveland Clinic)心血管科主任的美国心脏病学家埃里克·托普(Eric Topol),新近出版了一本名为《颠覆医疗》[6]的书,在此书中他认为:互联网的沉浸式和参与式文化培育了消费者,“每10个美国人中就有超过8位在网络上查询与健康相关的问题”,甚至有的“患者会自带着一系列摘自网络的医学问题”去访问医生,对自身病情、疾病和药物的知悉程度较过去高出很多,与此同时,医生的权威性大幅度降低。由此可见,这就是未来的趋势—社会化医学。
6.2 个性化医学
个性化医疗,是指以个人基因组数据位基础,结合蛋白质组和代谢组等相关内环境数据,考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系,为患者量身设计出最佳治疗方案,以期达到治疗效果最大化和副作用最小化的定制医疗模式。实施个性化医疗,首先针对特定疾病亚群进行分类,然后根据这些亚群的特异性发病机制进行药物开发,最终对这些亚群患者进行针对性治疗。这些涉及医学、生物、环境、社会和心理等诸多因素,传统的数据分析技术会遭遇瓶颈,很难以开展针对性研究,故而引发了大数据技术的介入。在现有研究中,通过对医疗大数据的分析和利用,可以完善个性化医疗。较著名的是德国默克公司正与Regenstrief研究院一起实施的个性化医疗项目。考察遗传变异、对特定疾病的易感染性和对特殊药物的反应三者之间的关系,然后在药物研发和用药过程中考虑个人的遗传变异因素。针对不同的患者采取不同的治疗方案,或者根据患者的实际情况调整药物剂量,可以减少副作用。总结
根据国际数据公司(International Data Corporation,IDC)的预测,中国的大数据市场在2012~2016年将增长5倍,其中最多份额将集中在政府、银行、医疗卫生、电信等四大行业【7】。医疗行业的数据已进入大数据时代,使用大数据库作为工具,将会辅助产生更有效、更加经济的医疗政策,更好的产品和服务[8]医疗大数据为我国带来了机遇的同时也带来了挑战,虽然只是刚刚起步,但是前景还是值得期待的。
参考文献
[1](于广军 杨佳泓主编 医疗大数据 上海科学技术出版社P14)
[2](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2013)[3](David Marco,John Wiley.Building and managing the meta data repository: a full lifecycle guide[M].New York: John Wiley & Sons Inc,2000)
[4](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2013)[5](汤啸天.个人健康医疗信息和隐私权保护[J].同济大学学报:社会科学版,2006,17(3):117-123)
[6](http://)
[7](Inmon W.Building the data warehouse[M].3rd ed.New York: John Wiley & Sons Inc,2002)
[8](郭晓科主编 《大数据》 清华大学出版社 p22)
第二篇:对大数据的认识
对于大数据的认识和理解
这学期选修了网络工程这门课程,当时是抱着扫盲的态度选的这门课程,给自己定的目标不高,只需要对一些基础的概念和网络结构有些认识就可以,以免以后在人前谈论的时候不至于成为IT文盲,被一些专业性的技术人员所吓倒。事实证明,态度决定一切,由于自己刚开始设定的目标就比较低,所以注定能够上升到的水平也就不高。
经过这几周的学习,对计算机网络的基础知识和大致结构有了一个粗浅的认识。由于学生本身这方面的基础不扎实,知识结构在这方面比较薄弱,所以不能在技术方面进行深入的研究,只能对一些理论性的知识做一些了解和认识,建立起大概的知识框架。在学习过程中,魏忠老师所提及的知识中有一点印象最为深刻,关于大数据Big Data方面的提及引起了我很大的兴趣,越是自己私下里做了一些阅读和查询(主要是维克托·迈尔-舍恩伯格的《大数据时代》和网络上查看的一些资料)。最后提交的这篇课程总结就着重报告一下自己在阅读了他人关于大数据的一些理论后自身的认识。
在这之前,我发现身边很多人都提起过大数据,其中包括老师和同学。可是对于这些热门的新技术、新趋势人们往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少同学能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“无知”,因为现在人们普遍都有以一种信息焦虑感,别人知道的东西我不知道,就会感到焦虑,无论这些信息对你有没有用;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。当然我也一样,虽然我希望能有些不一样,但是自己实在欠缺IT这方面的知识,所以也只能查阅一些资料,翻阅了最新的专业书籍,在自己局限的认识下把这些些零散的资料碎片或不同理解论述综合起来做一个类似于文献综述的报告,其实我很真诚的希望进入事物探寻本质。下面就从理论、技术、实践这三个层面写一下大数据的认识
大数据的一些相关理论:
最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。
很早就流传着一句话:三分技术,七分数据,得数据者得天下。先不论这句话是谁说得,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了很多例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的
是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Fare cast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。这里维克托·迈尔-舍恩伯格所认为的大数据思维是:1需要全部数据样本而不是抽样;2关注效率而不是精确度;3关注相关性而不是因果关系。
大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据的一些相关技术: 1)云技术:
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数
十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。
业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
那么大数据到底需要哪些云计算技术呢?
这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NOSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
2)分布式技术:
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。
3)感知技术:
大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。
其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了
大数据的实践:
政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。
但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。
具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。
学生在阅读了大数据相关的一些书籍和文章之后,提取出的一些观点和理论,并稍加了自己对大数据的一些认识,写成了这篇课程总结,因为自身的专业性不强,欠缺这方面的知识和技术,所以有些说法可能存在漏洞或者错误,希望老师不要见笑并加以指正。最后感谢老师这两个月来的教导。老师幽默的语言,灵活的教学方式营造了活跃的课堂环境,这些都得到了同学们的广泛好评。最后再次感谢教授!
第三篇:大数据认识
大数据认识
班级:B200216电商本科2 姓名:陈家玮 学号:20021624
一
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
层面
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
价值
1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销 2)做小而美模式的中小微企业可以利用大数据做服务转型
3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值 趋势
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
趋势六:数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
趋势七:数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
趋势八:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。
二
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
优点
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
hadoop大数据处理的意义
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。
大数据精髓
A.不是随机样本,而是全体数据:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样(随机采样,以前我们通常把这看成是理所应当的限制,但高性能的数字技术让我们意识到,这其实是一种人为限制)B.不是精确性,而是混杂性:研究数据如此之多,以至于我们不再热衷于追求精确度;之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,随着规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力
C.不是因果关系,而是相关关系:我们不再热衷于找因果关系,寻找因果关系是人类长久以来的习惯,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
开源大数据生态圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。
2、.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。
3、NoSQL,membase、MongoDb 商用大数据生态圈:
1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市:QlikView、Tableau、以及国内的Yonghong Data Mart。大数据分析
Analytic Visualizations(可视化分析)
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
Predictive Analytic Capabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
Semantic Engines(语义引擎)
我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
Data Quality and Master Data Management(数据质量和数据管理)
数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
数据存储,数据仓库
数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽取、转换和加载(ETL),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。
第四篇:医疗大数据及精准医疗
医疗大数据及精准医疗
谢邦昌
台北医学大学管理学院及大数据研究中心院长/主任
大数据的趋势以及价值是现在最热门的话题,也改变了许多企业经营的方式,对于各行各业来说是势必是一个大挑战,能否将大数据的力量从危机到转机就要看现代经营者有没有转变传统型态的思维?
首先什么是大数据?传统数据一年的数据量大概为3TB左右,以现今数据来说一天的资料量为50TB,由这简单的数据量差就可以得知传统数据跟现今数据的差异多么庞大,也就是现在俗称的大数据时代。数据庞大之下,不管是银行业、传统零售业、社会建设公共方面甚至是医疗保健产业对数据处理、分析方式以及经营企业的模式将会有所改变。
在过往的医疗诊断历史,到医院看病时必须耗费许多时间等待看诊,而医生看诊又要再花费时间。当医生要求病患拍摄X光片或检验时,又要再花额外许多时间诊断。而在现今医疗信息高度发展的台湾,看诊程序从网络挂号、候诊顺序、诊间病历调阅、医师医令、处方开立、放射影像存取、检查检验数据储存等,无数的数据信息便在医院中传递、交换、储存。同时大多数的生理检验信息在你回诊时得以从电子病历中检索,这些我们认为理所当然的信息处理,在台湾我们只要花费少许的时间如一个早上便完成了,而这一切正是仰赖医学信息分析与医疗大数据的交换处理。
医学大数据的产生,主要归功于医疗设备数字化及电子化病历发展两大领域的突破,透过仪器数字化,医院得以获得更多病人疾病与健康信息纪录。而在病人医疗诊断方面,为了完善纪录病患个人资料、诊断数据与过往医疗纪录等,即促成了电子病历系统发展。医学大数据发展由过去纸张记录、纸本信息数字化、医学纪录储存到现今多信息整合,其数据量有着爆炸性的成长,不仅由过去个人社经信息、诊断信息等文字媒介,更拓展到多媒体影像信息,如X光影像,动态视讯影像信息,如核磁共振MRI以及电讯号信息,如心电图等等,这些庞大医学数据的汇集与高度整合技术能力,正是台湾医学信息领域发展领先的原因,同时更显得医学数据发展的多元应用及其重要性。
而由医疗健保产业来说,个人医疗信息终端的产生给医疗产业带来革命性的变化,连结了传统医院、政府(社会保障)、保险公司、药物生产公司等相关产业,形成新的行业生态圈。将互联网+医疗保健去建构一个智能的健康系统,在整个健康系统下会有智能的合作伙伴,包含医院、医生、诊所、学术中心、保险公司、药厂、医疗设备制造商、政府等相关人员等,接着产生出个人化的护理体系,其中包含个人健康、成本节约、提高效率、病人教育、增强通信、绩效度量、预防等相关内容,使得人们有着更健康的社会。
经常听到的医疗云、照护云以及健康云都是运用云端技术结合大数据去提供健康咨询的服务。在网络普及下,人手一台智能型手机让这些云更能够去发挥,客户只需要使用健康感知的终端,其中包含穿戴型装置、爱睡宝、电视机以及相关的智能型测量装置,就能够让亲人、医生以及相关的护理人员得知目前的身体状态,不仅如此,还可以远程监护以及远程门诊,一切都透过远程医疗平台让人们有着安全、方便、快速及健康舒适的生活环境。
大数据在生技医疗卫生发展状况及应用,大数据已深耕于经济领域且创造了巨大的经济价值
美国的大数据产业已经创造了巨大的价值,具体表现在:大数据使美国医疗服务质量得到提高。
对于医疗服务的提供方和支付方来说,在减少医疗成本的同时不断提高医疗质量和效率仍然是一个难以实现的目标,而这也是改善民生的重大机遇。2010年,全美医疗支出占国内生产总值的17.9%,比2000年增长13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的医疗资源。
对这些疾病和其他相关健康服务的管理将深刻地影响国家的福祉。在这方面大数据可以发挥作用。为在广大人群中取得最有效的医疗效果,更多地使用电子健康记录(电子健康档案),并与新的分析工具相结合,将提供挖掘信息的机会。研究人员可以利用信息寻找有效的统计趋势,并依据真实的医疗服务质量开展医疗评估。
大数据在医疗及生技业之应用
医疗及生技业大数据应用的当前需求来自疫情和健康趋势分析、电子病例、医学研发、临床试验等领域。
疫情和健康分析趋势
利用大数据进行疫情分析,说明这个地方可能处于某种疾病蔓延,实时掌握病情。
Google和疾管局一样能够掌握流感疫情
2009年又冒出了一种新的流感病毒,称为H1N1。这种新菌株结合了禽流感和猪流感病毒,迅速蔓延。短短几星期内,全球的公共卫生机构都忧心忡忡,担心即将爆发流感大流行。有些人发出警讯,认为这次爆发可能与1918年的西班牙流感不相上下,当时感染人数达到五亿人,最后夺走数千万人的性命。雪上加霜的是,面对流感可能爆发,却还没有能派上用场的疫苗,公共卫生当局唯一能努力的,就是减缓其蔓延的速度。为了达到这项目的,必须先知道当前流行感染的范围及程度。在美国,疾病管制局(CDC)要求医生一碰到新流感病例,就必须立刻通报。即使如此,通报的速度仍然总是慢了病毒一步,大约是慢上一到两星期。毕竟,民众觉得身体不舒服之后,通常还是会过个几天才就医,而层层通报回到疾管局也需要时间,更别提疾管局要每星期才整理一次通报来的数据。但是面对迅速蔓延的疫情,拖个两星期简直就像是拖了一个世纪,会在最关键的时刻,让公共卫生当局完全无法掌握真实情况。
说巧不巧,就在H1N1跃上新闻头条的几星期前,网络巨擘Google旗下的几位工程师,在著名的《自然》科学期刊发表了一篇重要的论文,当时并未引起一般人的注意,只在卫生当局和计算机科学圈里引起讨论。该篇论文解释了Google能如何「预测」美国在冬天即将爆发流感,甚至还能精准定位到是哪些州。谷歌的秘诀,就是看看民众在网络上搜寻些什么。由于Google每天会接收到超过三十亿笔的搜寻,而且会把它们全部储存起来,那就会有大量的数据得以运用。
Google先挑出美国人最常使用的前五千万个搜寻字眼,再与美国疾病管制局在2003年到2008年之间的流感传播数据,加以比对。Google的想法,是想靠着民众在网络上搜寻什么关键词,找出那些感染了流感的人。虽然也曾有人就网络搜寻字眼做过类似的努力,但是从来没人能像Google一样掌握巨量数据(big data,直译为大数据),并具备强大的处理能力和在统计上的专业技能。
虽然Google已经猜到,民众的搜寻字眼可能与流感有关,像是「止咳退烧」,但相不相关其实不是真正的重点,他们设计的系统也不是从这个角度出发。Google这套系统真正做的,是要针对搜寻字眼的搜寻频率,找出和流感传播的时间、地区,有没有统计上的相关性。他们总共用上了高达4亿5千万种不同的数学模型,测试各种搜寻字眼,再与疾管局在2007年与2008年的实际流感病例加以比较。这套软件找出了一组共四十五个搜寻字眼,放进数学模型之后,预测结果会与官方公布的全美真实数据十分符合,有强烈的相关性。
于是,他们就像疾管局一样能够掌握流感疫情,但可不是
一、两星期之后的事,而是几近实时同步的掌握!因此,在2009年发生H1N1危机的时候,比起政府手中的数据(以及无可避免的通报延迟),Google系统能提供更有用、更及时的信息。公卫当局有了这种宝贵的信息,控制疫情如虎添翼。
最惊人的是,Google的这套方法并不需要去采集检体、也不用登门造访各家医院诊所,而只是好好利用了巨量数据,也就是用全新的方式来使用信息,以取得实用且价值非凡的见解、商机或服务。有了Google这套系统,下次爆发流感的时候,全球就有了更佳的工具能够加以预测、并防止疫情蔓延。
电子病例
将分散在医院中的各个部门、各式各样的病例集中在云端,医生们可透过语意搜查找出任何病例中的相关讯息,进而为医学诊断提供更加丰富的数据。可提供以病患为中心的个人化疗程建议,或帮助对医疗问题及其患病率进行自动诊断。台湾的医疗黑金:健保数据库 Google台湾董事总经理简立峰曾表示:「我认为最有价值的宝藏,就是台湾的全民健保数据库。」,台湾医疗产业贯穿上下游的数据,全在健保数据库里面,而且几乎所有人都要加入,全世界只有台湾拥有如此完整的数据库。美国麻省理工学院电机与计算机科学院教授约John Guttag也说,相较于美国,台湾的健保是由政府买单,这让医疗数据取得变得容易,「这是台湾的机会,未来也很有机会从中获利。」
累积15年来、2千3百万人民的健保数据库,正等待着识货的伯乐来挖宝。台中荣总医生、阳明大学教授吴俊颖以亲身经验说明,过去医学界只知道,幽门螺旋杆菌跟胃癌有关,但是却没有规模够大、时间够长的临床实验可以证实,他与研究团队藉由探勘台湾的健保数据库,发现服药根除幽门螺旋杆菌,可以降低胃癌的发生率。
这篇论文不只发表在肠胃科排名第一的杂志《肠胃病学》上,更震撼了日本医学界。日本是全球胃癌罹患率最高的国家,当地医生特别把这篇论文翻译成日文,并且说服日本厚生省,对幽门螺旋杆菌感染患者全面给付杀菌疗程,不仅影响医师的临床运作、政府决策,甚至有可能改变国际性医疗行为准则。
吴俊颖认为,台湾的健保数据库内容巨细靡遗,所有医疗项目都记录得一清二楚,「它像是永不干涸的黑金,当数据越来越多串联和使用,就会越来越有价值。」然而,吴俊颖也提到,健保数据库有个缺点,就是缺乏诊断和检测结果。麻省理工学院教授Peter Szolovits也曾举例说明过,如果有一位病患发现关节肿起来,医生跟他说这「疑似」是风湿性关节炎,因此记录风湿性关节炎的费用,可能后来病人发现根本不是这个病,如果把这笔数据用在风湿性关节炎的医疗研究上,那就会变成糟糕的数据,影响研究结果。
「如果能够把健保数据库与医院病历的数据库做结合,那它就会变成最完美的医疗数据库!」吴俊颖提到,病历数据包含检测和治疗的结果,不只对于台湾医疗产业来说非常有价值,国内外的生技和医药大厂,也都会抢着要跟台湾合作。想象一个情境,有天当你到南部度假,突然感到身体不适,就近到当地的诊所就医。第一次跟你见面的医生,登入全台湾共享的医疗数据库,调出你在其他医院的病历数据,花几分钟就能对你的身体了如指掌,还能透过临床决策辅助系统,显示出跟你有相同症状的病友群体、使用各种药物的治疗状况,透过大数据分析可以协助医生在最短时间内,找出最适合的治疗方式。
「很多人以为这样的愿景,离现实生活非常遥远,其实台湾已经走在半路上了。」台大医院竹东分院院长王明巨如此说道。的确,台湾医疗机构的病历电子化程度很高,很有可能成为全球第一个全国医院流通电子病历的国家。医学研发
运用实时监测及分析大量的仪器数据,建构预测模型,并利用统计工具改善临床试验设计,分析临床试验数据。发展个人化医学及疾病发作模式等医疗研发。利用大数据解决多发性硬化症的算法运算复杂度
位于水牛城的纽约州立大学(SUNY)是一个领先全球的多发性硬化症(MS)研 究中心。MS是一种具破坏性的、面性的神经系统疾病,影养全球近百人。这种疾病会使人的大脑和骨随发炎并产生神经病,导致患者可能出现行动不便、视力受损、疼痛等症状。
MS的病因是很复杂的,没有一个单一基因是可能的致病源。因此自2007年以来,SUNY就一直希望透过扫描MS患者的基因组的变化来开发新的治疗方式,透过从原本成千上万的基因序列的变异SNP,SNP指的是单核桃多型性,来获得单一样品,研究基因产物和其他基因产物及环境因素进行的交互作用。
研究人员的想法是以多个SNP变异点结合不同的环境变因,并使用一种被称之为「AMBIENCE」的算法,来检测县性和非线性两种数据数据中的相关性,以识别这些交互作用之间的关系。但是这个想法就如同大海捞针,因为环境变因包括像是实验对象曝晒太阳的时间长短、维生素D产生的量、吸烟的情况等皆有可能影响研究结果。况且人类的基因由23对染色体所组成,其中包含约30亿个DNA碱基对,这些因变量和应变量数量多到吓人,必须靠建构一套计算量高达1018的高等分析模型才能解决。
因此SUNY与IBM合作,建构一套搭配软硬件的数据分析系统,以往平均需要27.2小时的工作,缩短到现在只要11.7分钟即可完成。而且这套系统不仅大大简化和加速了复杂的分析过程,还提供了不同类型的变量值,如:分类变量、分配卜瓦松变量或连续常态变量等。过去,只要研究中增加一个新的变量值,研究团队就必须重新编写整个算法,而现在只需按几个键即可完成。
大数据系统分析的应用除了MS的研究以外,全球估计超过3300万人感染,至今没有方法可以完全治愈的艾滋病,以及罕见疾病等,都已开始利用大数据进行大型的医学研究。
临床实验
临床试验藉由大数据而有了重大的改变,可利用临床验数据、仪器读数等,进行比较效果研究、临床决策支持系统、远距病人监测及加强医学数据透明度等方面。
拥有数据数据保护的早产儿
所谓的早产儿是指怀孕不到37周就提早出世的宝宝。这些提早降临人世的小仙子,如果出生后体重不到1500公克,很可能会因为免疫系统尚未发育完全而受到感染,一旦感染之后就很容易引起呼吸衰竭、肺出血及败血症。
不过,加拿大多伦多市立儿童医院里的早产儿,却可以睡得特别安详,因为他们是有数据数据保护的「data baby」。随着医疗设备的发展,利用医疗监测仪器监测病患的生命征象,如血压、心跳和体温等,已经是非常普遍的事了。通常这些仪器还具有警报功能,一旦生理的数据数值超出正常范围时就会发出警示,医疗人员就会采取因应行动。但是即使医术再精湛、经验再丰富的医护人员,可能也无法准确地察觉这些异常的发生时间和严重性,尤其当发生在脆弱的早产儿生身上。根据美国弗吉尼亚大学追踪以往的数据显示,新生儿受到感染初期的12到24小时,因为脉搏和心跳几乎都可在接受的范围内,因此医护人员很难从生命征象数据的改变中察觉,等到警示灯响起,常常为时已晚。
连续监测和记录这些生理性数据,可以观察出新生儿是否遭受感染的早期征兆,但数据量实在太过庞大了。估计这些监测设备每一秒钟就会产生1000个读数。以往是30到60分钟由医护人员归纳出一个数据做为纪录,然后储存72小时。如果要把这些读数统统记录起来,根本是不可能的事。
但这项不可能的任务,并没有吓跑安大略省理工学院和IBM。他们使用来自怀生研究中心的最新技术,利用江河运算平台支持大量数据的收集和分析,一天24小时不间断地收集和记录着包括早产儿的体温、心跳、血氧饱和浓度和血压等电子监测仪器产生的大量数据,以及周遭环境如温度、湿度等相关数据。在保护病人的隐私安全考虑下,这些数据会直接传到安大略省理工学院研究中心和IBM华生研究中心;系统会分析和研究哪些因素的交互作用会造成感染,甚至哪几床的新生儿因为符合条件较多,可能出现疾病或感染的风险较大。之后,系统再将分析结果提供给医护人员比较判读。这些动作都在数秒内完成。藉由这项计划,儿童病房里的医护人员已经可以提前18到24小时,预防新生儿败血症的发生。
由于大数据在规模(Volume)、增加速度(Velocity),以及价值性(Value)上正呈现几何上升,而其数据所表现的多样性变化(Variety)与数据的有效性(Validation),更容易成为企业的风险源头。面对排山倒海而来的大数据,企业需运用大数据,迅速将数据转化成商业智能,运用分析信息,提升市场的洞察能力,做出更准确的营运决策。例如:电信业者可以分析手机在基地台漫游的特性,提供更好的在地费率;信用卡业者可以每天定期分析各种信用贷款所产生的风险,动态调整信贷利率;便利超商可以分析消费者的购买习惯,动态调整架上存货数量等;制造业者可透过现场制造系统所记录的大量在线实时生产数据进行分析,以协助制造业改善制程、提升良率,并减少物料浪费。因此大数据将是企业未来所面临的关键挑战。鉴于目前信息以超乎想象的速度产生、累积、消逝,而企业所面临的商机亦有相同的循环表现。透过海量信息的实时性分析与运用,将可对不同信息的需求者,产生不一样的价值与意义。若能持续在既有的数据中发掘价值,同时考虑动态信息所带动的巨大冲击,并藉此掌握瞬息万变的市场契机,则大数据的分析与应用,将有助于各类型企业在相关营运领域中,引领下一阶段的企业永续发展。基于以上的发展潮流与态势,麦肯锡(Mckinsey)管理顾问公司于2010年已指出未来引领企业发展趋势的十大科技,其中即包含了大数据的获取与分析、云端运算服务的公共价值,以及企业多层面的参与互动及服务。在这些技术与行动通讯网络的整合应用下,企业未来所产生的数据量将呈现倍数成长,并导致过去传统的储存技术即将遇到瓶颈,因此,虚拟化的云端运算分析技术,以及大数据的管理,将成为各方面所即将面临处理的新课题。从目前的技术发展 来看,未来各项实体化设施,将可能在未来藉由虚拟化的技术,得以降低各项成本的支出,然而云端运算与大数据的应用,绝非仅为建置一个大型数据中心即可,对于后续所产生大量数据下的数量管控、数据的质量与分析结果,以及这些数据所衍生之相关应用与服务,才是现阶段所应关心的重点。计算设施(Computer)网络设施(Network)储存设施(Storage)数据数量管控数据应用服务数据质量分析虚拟化(Virtualization)为了结合技术、数据,以及应用分析与服务等三项议题的探讨,本演讲大数据主要阐述BIG DATA 在生技医疗卫生上之应用与研究;抛砖引玉系望能激起大家投入医疗大数据的研究!
第五篇:大数据+精准医疗
大数据+精准医疗
2012年全国居民慢性病死亡率为533/10万,占总死亡人数的86.6%。心脑血管病、癌症和慢性呼吸系统疾病为主要死因,占总死亡的79.4%,其中心脑血管病死亡率为271.8/10万,癌症死亡率为144.3/10万(前五位分别是肺癌、肝癌、胃癌、食道癌、结直肠癌),慢性呼吸系统疾病死亡率为68/10过标化处理后,除冠心病、肺癌等少数疾病死亡率有所上升外,多数慢性病死亡率呈下降趋势。慢性病的患病、死亡与经济、社会、人口、行为、环境等因素密切相关。一方面,随着人们生活质量和保健水平不断提高,人均预期寿命不断增长,老年人口数量不断增加,我国慢性病患者的基数也在不断扩大;另一方面,随着深化医药卫生体制改革的不断推进,城乡居民对医疗卫生服务需求不断增长,公共卫生和医疗服务水平不断提升,慢性病患者的生存期也在不断延长。慢性病患病率的上升和死亡率的下降,反映了国家社会经济条件和医疗卫生水平的发展,是国民生活水平提高和寿命延长的必然结果。当然,我们也应该清醒地认识到个人不健康的生活方式对慢性病发病所带来的影响,综合考虑人口老龄化等社会因素和吸烟等危险因素现状及变化趋势,我国慢性病的总体防控形势依然严峻,防控工作仍面临着巨大挑战。
大数据的分析和应用都将在医疗行业发挥巨大的作用,提高医疗效率和医疗效果。
一、临床操作
在临床操作方面,有5个主要场景的大数据应用: 1.比较效果研究
通过全面分析病人特征数据和疗效数据,然后比较多种干预措施的有效性,可以找到针对特定病人的最佳治疗途径。
基于疗效的研究包括比较效果研究(Comparative Effectiveness Research,CER)。研究表明,对同一病人来说,医疗服务提供方不同,医疗护理方法和效果不同,成本上也存在着很大的差异。精准分析包括病人体征数据、费用数据和疗效数据在内的大型数据集,可以帮助医生确定临床上最有效和最具有成本效益的治疗方法。医疗护理系统实现CER,将有可能减少过度治疗(比如避免那些副作用比疗效明显的治疗方式),以及治疗不足。从长远来看,不管是过度治疗还是治疗不足都将给病人身体带来负面影响,以及产生更高的医疗费用。
2.临床决策支持系统
临床决策支持系统可以提高工作效率和诊疗质量。目前的临床决策支持系统分析医生输入的条目,比较其与医学指引不同的地方,从而提醒医生防止潜在的错误,如药物不良反应。通过部署这些系统,医疗服务提供方可以降低医疗事故率和索赔数,尤其是那些临床错误引起的医疗事故。在美国Metropolitan儿科重症病房的研究中,两个月内,临床决策支持系统就削减了40%的药品不良反应事件数量。
3.医疗数据透明度
提高医疗过程数据的透明度,可以使医疗从业者、医疗机构的绩效更透明,间接促进医疗服务质量的提高。
根据医疗服务提供方设置的操作和绩效数据集,可以进行数据分析并创建可视化的流程图和仪表盘,促进信息透明。流程图的目标是识别和分析临床变异和医疗废物的来源,然后优化流程。仅仅发布成本、质量和绩效数据,即使没有与之相应的物质上的奖励,也往往可以促进绩效的提高,使医疗服务机构提供更好的服务,从而更有竞争力。
4.远程病人监控
从对慢性病人的远程监控系统收集数据,并将分析结果反馈给监控设备(查看病人是否正在遵从医嘱),从而确定今后的用药和治疗方案。
2010年,美国有1.5亿慢性病患者,如糖尿病、充血性心脏衰竭、高血压患者,他们的医疗费用占到了医疗卫生系统医疗成本的80%。远程病人监护系统对治疗慢性病患者是非常有用的。远程病人监护系统包括家用心脏监测设备、血糖仪,甚至还包括芯片药片,芯片药片被患者摄入后,实时传送数据到电子病历数据库。举个例子,远程监控可以提醒医生对充血性心脏衰竭病人采取及时治疗措施,防止紧急状况发生,因为充血性心脏衰竭的标志之一是由于保水产生的体重增加现象,这可以通过远程监控实现预防。更多的好处是,通过对远程监控系统产生的数据的分析,可以减少病人住院时间,减少急诊量,实现提高家庭护理比例和门诊医生预约量的目标。
5.对病人档案的先进分析
在病人档案方面应用高级分析可以确定哪些人是某类疾病的易感人群。举例说,应用高级分析可以帮助识别哪些病人有患糖尿病的高风险,使他们尽早接受预防性保健方案。这些方法也可以帮患者从已经存在的疾病管理方案中找到最好的治疗方案。
二、付款/定价 对医疗支付方来说,通过大数据分析可以更好地对医疗服务进行定价。以美国为例,这将有潜力创造每年500亿美元的价值,其中一半来源于国家医疗开支的降低。
1.自动化系统
自动化系统(例如机器学习技术)检测欺诈行为。业内人士评估,每年有2%~4%的医疗索赔是欺诈性的或不合理的,因此检测索赔欺诈具有巨大的经济意义。通过一个全面的一致的索赔数据库和相应的算法,可以检测索赔准确性,查出欺诈行为。这种欺诈检测可以是追溯性的,也可以是实时的。在实时检测中,自动化系统可以在支付发生前就识别出欺诈,避免重大的损失。
2.基于卫生经济学和疗效研究的定价计划
在药品定价方面,制药公司可以参与分担治疗风险,比如基于治疗效果制定定价策略。这对医疗支付方的好处显而易见,有利于控制医疗保健成本支出。对患者来说,好处更加直接。他们能够以合理的价格获得创新的药物,并且这些药物经过基于疗效的研究。而对医药产品公司来说,更好的定价策略也是好处多多。他们可以获得更高的市场准入可能性,也可以通过创新的定价方案,更有针对性疗效药品的推出,获得更高的收入。
在欧洲,现在有一些基于卫生经济学和疗效的药品定价试点项目。
三、研发
医疗产品公司可以利用大数据提高研发效率。拿美国为例,这将创造每年超过1000亿美元的价值。
1.预测建模
医药公司在新药物的研发阶段,可以通过数据建模和分析,确定最有效率的投入产出比,从而配备最佳资源组合。模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集,尽可能及时地预测临床结果。评价因素包括产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本,在通过数据建模和分析预测药物临床结果后,可以暂缓研究次优的药物,或者停止在次优药物上的昂贵的临床试验。
2.提高临床试验设计的统计工具和算法 使用统计工具和算法,可以提高临床试验设计水平,并在临床试验阶段更容易地招募到患者。通过挖掘病人数据,评估招募患者是否符合试验条件,从而加快临床试验进程,提出更有效的临床试验设计建议,并能找出最合适的临床试验基地。比如那些拥有大量潜在符合条件的临床试验患者的试验基地可能是更理想的,或者在试验患者群体的规模和特征二者之间找到平衡。
3.临床实验数据的分析
分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后,可以对药物进行重新定位,或者实现针对其他适应症的营销。实时或者近乎实时地收集不良反应报告可以促进药物警戒(药物警戒是上市药品的安全保障体系,对药物不良反应进行监测、评价和预防)。或者在一些情况下,临床实验暗示出了一些情况但没有足够的统计数据去证明,现在基于临床试验大数据的分析可以给出证据。
这些分析项目是非常重要的。可以看到最近几年药品撤市数量屡创新高,药品撤市可能给医药公司带来毁灭性的打击。2004年从市场上撤下的止痛药Vioxx,给默克公司造成70亿美元的损失,短短几天内就造成股东价值33%的损失。
四、更具体一些,大数据已经得到实际应用的已经有如下场景
1.组学大数据精准医疗
人类通过开展组学研究及不同组学间的关联研究,从环境、生活方式和行为等暴露组学,至个体细胞分子水平上的基因组学、表观组学、转录组学、蛋白组学、代谢组学、宏基因组学,再到个体健康和疾病状态的表型组学等。利用大数据将各种组学进行综合及整合,既能为疾病发生、预防和治疗提供全面、全新的认识,也有利于开展个体化医学,即通过系统整合生物医学与临床数据,可以更准确地预测个体患病风险和预后,有针对性地实施预防和治疗。
2.大数据虚拟药物研发
快速识别生物标志物和研发药物。利用某种疾病患者人群的临床数据和组学数据,可以快速识别有关疾病发生、预后或治疗效果的生物标志物。在药物研发方面,医学大数据使得人们对病因和疾病发生机制的理解更加深入,从而有助于识别生物靶点和研发药物。同时,充分利用海量临床数据和组学数据、已有药物的研究数据和高通量药物筛选,能加速药物筛选过程。
3.生物大数据流行病防治
快速筛检未知病原和发现可疑致病微生物。通过采集未知病原样本数据,对病原进行测序,并将未知病原与已知病原的基因序列进行比对,从而判断其为已知病原或与其最接近的病原类型,据此推测其来源和传播路线、开展药物筛选和相应的流行疾病防治。
4.互联网大数据公卫监测
利用互联网大数据以及有关专业数据实时开展公共卫生监测。公共卫生监测包括传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测,如出生缺陷监测、食品安全风险监测等。此外,还可以通过覆盖全国的患者电子病历数据库进行疫情监测,通过监测社交媒体或频繁检索的词条来预测某些传染病的流行。
5.大数据健康管理
实时开展大数据健康管理,通过可穿戴设备对个体体征数据,如心率、脉率、呼吸频率、体温、热消耗量、血压、血糖、血氧、体脂含量等数据的实时、连续监测和流数据挖掘、分析,提供实时健康指导与建议,更科学地实施个性化健康管理。
6.大数据疾病谱研究
了解人群疾病谱的改变,这有助于制定新的疾病防治策略。全球疾病负担研究是一个应用大数据的实例,该研究应用的数据范围广、数据量巨大,近4700台并行台式计算机完成了数据准备、数据仓库建立和数据挖掘分析的自动化和规范化计算,应用大数据研究人群疾病谱。
7.大数据人群队列研究
以大数据为导向的人群队列研究逐渐成为医学研究的热点。超大规模队列研究具有大样本-如数十万人群,前瞻性-如数十年长期随访,多学科-如基础、临床、预防、信息等多学科合作,多病种-如对多种疾病进行研究,多因素-如探讨多种危险因素,整合性-如监测系统、信息系统、医保系统的整合,共享性-如生物标本和数据资源的共享,等特点,经过长期随访能够产出大量人群数据,基于大数据的人群队列研究更具有科学性、可靠性和权威性。