快捷搜索:

曾成功预测H1N1病毒疫情,细数这些年大数据的神

导读:2003年至2008年间,谷歌利用自己的搜索数据,推出“谷歌流感趋势”(GFT)系统。2009年,美国H1N1流感病毒疫情爆发,神奇的GFT成功预测了疫情在全美范围内的传播,与美国CDC的官方数据相比,准确率高达97%。

作者:王宏志 何震瀛 王鹏 李春静

来源:华章科技

但从2011年起,GFT开始“翻车”,它会高估流感流行趋势,原因众说纷纭。有分析认为,搜索引擎的自动联想功能可能是造成趋势被高估的原因,如下同所示,在谷歌输入“喉咙”,会自动联想“喉咙痛”等相关搜索。

曾成功预测H1N1病毒疫情,细数这些年大数据的神

尽管如此,提起大数据技术的应用,GFT仍然是人们津津乐道的神奇案例。那么大数据这些年都经历了哪些发展?还有哪些神应用?

曾成功预测H1N1病毒疫情,细数这些年大数据的神

01 大数据的基本概念

一般来说,大数据泛指巨量的数据集。当今社会,互联网和物联网,尤其是移动互联网的发展,显著加快了信息化向社会、经济等各方面以及大众生活的渗透,推动了大数据时代的到来。

近年来,人们能明显地感受到大数据来势迅猛。据有关资料显示,1998年,全球网民平均每月使用流量是1MB,2003年是100MB,而2014年是10GB;全网流量累计达到1EB(即10亿GB)的时间在2001年是一年,在2004年是一个月,而在2013年仅需要一天,即一天产生的信息量可刻满1.88亿张DVD光盘。

事实上,我国网民数居世界首位,产生的数据量也位于世界前列,这其中包括淘宝网每天超数千万次的交易所产生的超50TB的数据,百度搜索每天生成的几十PB数据,城市里大大小小的摄像头每月产生的几十PB数据,甚至包括医院里CT影像抑或门诊所记录的信息。

总之,大到学校、医院、银行、企业的系统行业信息,小到个人的一次百度搜索、一次地铁刷卡,大数据存在于各行各业,连接着大众生活的各个角落。

大数据因自身可挖掘的高价值而受到重视。在国家宽带化战略实施、云计算服务起步、物联网广泛应用和移动互联网崛起的同时,数据处理能力也在迅速发展,数据积累到一定程度,会显示出开发的价值。

同时,社会节奏的加快,要求快速反应和精细管理,急需借助数据分析和科学决策,这样,我们便需要对上面所说的形形色色的海量数据进行开发。也就是说,大数据的时代来了。

有学者称,大数据将引发生活、工作和思维的革命;《华尔街日报》也将大数据称为引领未来繁荣的三大技术变革之一;麦肯锡公司的报告指出,数据是一种生产资料,大数据将是下一个创新、竞争、生产力提高的前沿;世界经济论坛的报告认为大数据是新财富,价值堪比石油;等等。

因此,大数据的开发和利用将成为各国家抢占的新的制高点。

曾成功预测H1N1病毒疫情,细数这些年大数据的神

02 大数据的4V

大数据是相对于一般数据而言的,目前对大数据尚缺乏权威的严格定义,但较普通的解释是“难以用常规的软件工具在容许的时间内对其内容进行抓取、管理和处理的数据集合”。通常用4V来概括大数据的特征:

1. Volume(规模性)

大数据之“大”,体现在数据的存储和计算均需要耗费海量规模的资源上。规模大是大数据最重要的标志之一,事实上,数据只要有足够的规模就可以称为大数据。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据的分析结果也越具有代表性。

例如,美国宇航局收集和处理的气候观察、模拟数据达到32PB;而FICO的信用卡欺诈检测系统要监测全世界超过18亿个活跃信用卡账户。

不过,现在也有学者认为,社会对大数据的关注,应更多地被引导到对数据资源的获得与利用上来,因为对于某些中小型数据的挖掘也有价值,目前报道的一些大数据挖掘的应用例子,不少也只是TB级的规模。

2. Velocity(高速性)

大数据的另一特点是数据增长速度快,急需及时处理。例如,大型强子对撞机实验设备中包含15亿个传感器,平均每秒收集超过4亿的实验数据;同样在一秒内,有超过3万次用户查询被提交到谷歌,3万条微博被用户撰写。

而人们对数据处理速度的要求也日益严格,力图跟上社会的节奏,有报道称,美国中央情报局就要求利用大数据将分析、搜集数据的时间由63天缩短为27分钟。

3. Variety(多样性)

在大数据背景下,数据在来源和形式上的多样性愈加突出。除以结构化形式存在的文本数据之外,网络上也存在大量的位置、图片、音频、视频等非结构化信息。

其中,视频等非结构化数据占有很大比例,有数据表明,2016年,全部互联网流量中,视频数据达到55%,那么,有理由相信,大数据中90%都将是非结构化数据。

并且,大数据不仅仅在形式上表现出多元化,其信息来源也表现出多样性:大致可分为网络数据、企事业单位数据、政府数据、媒体数据等。

4. Value(高价值性)

大数据价值总量大,但价值稀疏,即知识密度低。大数据以其高价值吸引了全世界的关注,据全球著名咨询公司麦肯锡报告:

如果能够有效地利用大数据来提高效率和质量,预计美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元,能够使得美国医疗卫生支出降低8%。

然而,大数据的知识密度非常低,IBM副总裁CTO Dietrich表示:

可以利用Twitter数据获得用户某个产品的评价,但是往往上百万记录中只有很小的一部分真正讨论这款产品。

并且,虽然数据规模与数据挖掘得到的价值之间有相关性,但是两者难以用线性关系表达。这取决于数据的价值密度,同一事件的不同数据集即便有相同的规模(例如对同一观察对象收集的长时间稀疏数据和短时间密集数据),其价值也可以相差很多,因为数据集“含金量”不同,大数据中多数数据是重复的,忽略其中一些数据并不影响对其分析的结果。

注意

大数据之所以难处理不仅在于规模大,更大的挑战是其随时间变化快和类型的多样性,随时间和类型的变化增加了大数据的复杂性,同时也丰富了大数据的内涵。

对大数据仅仅冠以“大”这个形容词是不全面的,只不过在大数据4V中,规模相对于变化和类型这两个特征量来说容易定量,而且即便是单一类型的数据集,只要具备足够的规模也能称得上是大数据。

当然,数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据分析的结果也越有代表性。因此对大数据突出规模大这一特征是可以理解的。

数据分析挖掘需要有足够规模的数据,但前提是这些数据要有一定的时间或空间跨度,即要具有普遍性。例如,每分钟将一个人的身体数据记录下来以了解其身体状况是有效的,如果将频率改为每秒钟,数据规模有所增加,但其价值并无提升。

显然,数据样本密度与被观察对象有关,如风力发电机的很多传感器每毫秒就要检测一次,以检查叶片等的磨损程度。

曾成功预测H1N1病毒疫情,细数这些年大数据的神

03 无处不在的大数据

大数据是无处不在的。大数据包括:

1. 数目极庞大的网络数据

有自媒体数据(比如社交网络),有日志数据(比如用户在搜索引擎上留下大数据),还有流量最大的富媒体数据(比如视频、音频)等。

例如,淘宝网每天的数据量就超过50TB;新浪微博晚高峰时每秒钟要接受100万次以上的请求;美国YouTube网站每分钟就有72小时的视频被下载。

2. 企事业单位数据和政府数据

一家医院一年能接受包括医疗影像、患者信息在内的500TB数据;中国联通每秒钟记录用户上网条数近百万,一个月的数据量大概是300TB;国家电网信息中心目前累计收集了2PB的数据。

3. 我们身边的一些公用设施所记录的数据

就监控而言,很多城市的交通摄像头多达几十万个,一个月的数据就达到数十个PB,另外,基本上所有的超市都覆盖了摄像头,这些都可以是大数据的基本来源并可被挖掘利用;在北京,每天公交一卡通的刷卡记录有4000万条,而每天地铁刷卡的记录也有1000万条,这些数据可以用来改善北京的交通状况,优化交通路线。

4. 国家大型公用设备和科研设备等产生的数据

例如,波音787每飞一个来回可产生TB级的数据,美国每个月收集360万次飞行记录;风力发电机装有测量风速、螺距、油温等的多种传感器,每隔几毫秒就要测量一次,这些数据用于检测叶片、变速箱、变频器等的磨损程度;一个具有风机的风场一年会产生2PB的数据,这些数据用于预防和维护,可使风机寿命延长3年,极大降低了风机的成本。

5. 一些地理位置、基因图谱、天体运动轨迹的数据

总之,任何可以利用数据分析的地方就会有大数据的存在。

曾成功预测H1N1病毒疫情,细数这些年大数据的神

毋庸置疑,大数据将带动产业和市场,包括服务器、存储器、联网设备、软件与服务等,但是硬件、软件和服务仅仅是狭义上的大数据产业:通过大数据挖掘,大数据被应用到各行各业,可有效提升生产效益、支撑节能降耗、促进经济发展,因此广义上的大数据产业的产值更多地体现在工业、农业、交通运输、建筑制造等行业。

事实上,大数据分析在社会治理和民生服务上的效益更为显著,这远不是GDP可以衡量的。也就是说,大数据的社会效益大于经济效益,大数据受到广泛重视也是因其溢出效应明显。

04 大数据在各领域的应用实例

大数据计算是关系国民经济发展与国家安全的重大需求,是把握信息产业的制高点。在大数据中,我们可以获得比其他方式更及时、更精准的统计特征,继而建立相应的数据模型,辅助政策制定者更有效地制定决策、观察反馈、优化调整。

总的来说,在各行各业研究大数据都有非凡的意义,大数据可以辅助社会管理、推动科学发展、提高企业效益、改善人民生活,以下是大数据在各个领域的一些具体作用和应用实例。

1. 在宏观经济领域

淘宝网根据网上成交额比较高的390个类目的商品价格来得出CPI,比国家统计局公布的CPI更早地预测到经济状况。国家统计局统计的CPI主要根据刚性物品得出,如食品,百姓都要买,差别不大。可是淘宝网是利用化妆品、电子产品等购买量受经济影响较明显的商品进行预测,因此淘宝网的CPI更能反映经济走势。

美国印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条短信和网民留言中归纳出6种心情,进而预测道琼斯工业指数,准确率高达87%。

2. 在企业经营领域

华尔街对冲基金依据购物网站的顾客评论,分析企业的销售状况;一些企业利用大数据分析实现对采购和合理库存的管理,通过分析网上数据了解客户需求,掌握市场动向;美国通用电气公司通过对所产生的2万台喷气引擎的数据分析,开发的算法能够提前一个月预测需求,准确率达70%。

3. 在农业领域

硅谷的气候公司利用30年的气候变化和60年的农作物收成变化、14TB的土壤历史数据、250万个地点的气候预测数据和1500亿例土壤观察数据,生成10万亿个模拟气候据点,可以预测下一年的农产品产量以及天气、作物、病虫害和灾害、肥料、收获、市场价格等的变化。

4. 在商业领域

商家得到消费者在网上的消费记录后,就可以留意其上网踪迹和消费行为,并适时弹出本公司商品的广告,这样就很容易达成交易,最终的结果是顾客、商家,甚至相关网站都有收益。

再比如,沃尔玛将每月4500万条网络购物数据与社交网络上产品的大众评分结合,开发出“北极星”搜索引擎,以方便顾客购物,在线购物的人数因而增加了10%~15%。

5. 在金融领域

阿里公司根据淘宝网上中小型公司的交易状况,筛选出财务健康、诚信优良的企业,为其免担保提供贷款达上千亿元,坏账率仅有0.3%,相较于需要担保的商业银行,坏账率要低很多;华尔街德温特资本市场公司通过分析3.4亿条留言判断民众心情,以决定公司股票的买入和卖出,从而获得了较好的收益。

6. 在医疗卫生领域

一方面,相关部门可以根据搜索引擎上民众对相关关键词的搜索数据建立数学模型进行分析,得出相应的预测进行预防。例如,2009年,谷歌公司在甲型H1N1爆发前几周,就预测出流感形式,与随后的官方数据相关性高达97%;而百度公司得出的中国艾滋病感染人群的分布情况,与后期卫生部公布的结果基本一致。

另一方面,医生可以借助社交网络平台与患者就诊疗效果和医疗经验进行交流,能够获得在医院得不到的临床效果数据。除此之外,基于对人体基因的大数据分析,可以实现对症下药的个性化诊疗,提高医疗质量。

7. 在其他领域

如在交通运输中,物流公司可以根据GPS上大量的数据分析优化运输路线,以节约燃料和时间,提高效率;相关部门也会通过对公车上手机用户的位置数据分析,为市民提供交通实时情况。

大数据还可以改善机器翻译服务,谷歌翻译器就是利用已经索引过的海量资料库,从互联网上找出各种文章及对应译本,找出语言数据之间的语法和文字对应的规律来达到目的的。

大数据在影视、军事、社会治安、政治领域的应用也都有着很明显的效果。总之,大数据的用途是无处不在的。

曾成功预测H1N1病毒疫情,细数这些年大数据的神

当然,大数据不仅仅是一种资源,作为一种思维方法,大数据也有着令人折服的影响。伴随大数据产生的数据密集型科学,有学者将它称为第四种科学模式,其研究特点在于:

不在意数据的杂乱,但强调数据的规模;不要求数据的精准,但看重其代表性;不刻意追求因果关系,但重视规律总结。

如今,这一思维方式广泛应用于科学研究和各行各业,成为从复杂现象中透视本质的重要工具。

关于作者:王宏志,哈尔滨工业大学计算机科学与技术学院教授、博士生导师,英才学院副院长。研究方向为大数据、数据科学、数据管理与分析。在VLDB、SIGMOD等国内外重要会议和期刊上发表学术论文200余篇,出版学术专著两本,其论文被SCI收录50余次,他引千余次。

何震瀛,博士,复旦大学计算机科学学院副教授,中国计算机学会数据库专业委员会委员、大数据专业委员会通信委员。主要研究兴趣是数据管理和数据分析等。

王鹏,毕业于哈尔滨工业大学软件工程专业,研究生学历。曾就职于中国普天信息技术研究院,并担任架构师、技术总监等职使。曾代表企业主导网络存储国家行业标准制定,拥有相关专利3项。

李春静,工学硕士,现任北京华育兴业科技有限公司大数据讲师,并承担高校大数据技术与应用资源建设工作。主要从事Hadoop、HBase、Hive、Spark、大数据库、机器学习等课程研发工作。

本文摘编自《大数据管理系统原理与技术》,经出版方授权发布。

曾成功预测H1N1病毒疫情,细数这些年大数据的神

延伸阅读《大数据管理系统原理与技术》

推荐语:本书介绍了多种数据库管理系统的基本概念以及代表性数据库管理系统的使用和优化方法,覆盖了传统的关系数据库、数据仓库,以及列族、键值、文档、图等NoSQL数据库系统。

您可能还会对下面的文章感兴趣: