流星小说网 > 其他小说 > 一本书读懂大数据时代 > 第10章 大数据时代的企业创新
    随着科技发展和生活方式的转变,我们的生活中无时无刻不在产生数据,而这些数据的价值需要科学的挖掘和研究。数据本身不会创造价值,只有充分发现和合理利用这些数据才能让其改变营销,改变生活!

    与传统数据分析的逻辑推理研究不同,大数据研究是对海量的数据做统计性的搜索、比较、聚类和分类等分析归纳。大数据所分析的是全部数据,通过对所有数据的分析就能洞察细微数据之间的相关性,从而为企业提供指向型商业策略。

    大数据另辟蹊径

    大数据与流感预测

    2009年,一种很奇怪的流感突然出现,在短短几周时间里,就迅速传播开来。历史上,流感曾经多次肆虐全球,夺走了数以亿计的生命。

    这一次流感是甲型H1N1流感,它来势凶猛,全球众多的公共卫生机构都担心会有一场致命的流行病蔓延开来。美国公共卫生机构要求医生在发现新型流感病例时告知疾病控制与预防中心,但由于人们对流感的危险认识不够,可能会出现患病多日都自己治疗,一直到病情严重时才去医院就诊的现象。而且,医院在接收流感病人后,要经过一段时间才能将信息传递给疾病控制与预防中心,而传递过程又需要一段时间。总的算来,从一个人患流感到疾病控制与预防中心得知信息,中间大约有一两周的延迟,而疾病控制与预防中心每周只进行一次数据汇总。那么,对于一种以非常快的速度蔓延的疾病来说,信息滞后两周的后果是非常严重的。

    凑巧的是,在这次甲型H1N1流感爆发前几周,谷歌的工程师们在《自然》杂志上发表了一篇论文,说他们能够预测冬季流感的传播。谷歌是如何做到这一点的呢?

    在这个互联网发达的大数据时代,人们早就习惯了借助网络来搜索各种问题的答案。谷歌的工程师想到,在患流感后,应该会有很多人通过谷歌查询该怎么办;谷歌的服务器保留了多年来用户留下的所有搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成预测工作。

    谷歌用几十亿条检索记录,处理了4.5亿个不同的数字模型,结果证明,谷歌的预测与官方数据的相关性高达97%。和疾病控制与预防中心一样,谷歌也能判断出流感是从哪里传播出来的,而且其判断非常及时,不像疾病控制与预防中心那样,要在流感爆发一两周后才可以做到。

    所以,2009年甲型H1N1流感爆发的时候,与滞后的官方

    数据相比,谷歌的预测数据成了一个更有效、更及时的指示标,公共卫生机构的官员由此获得了非常及时、有价值的数据信息。谷歌不懂医学的工程师们做出的疾病预测走在了官方数据的前面,这无异于是对专业预测提出了挑战。工程师们基于事物相关性原理做出的大数据预测,其精准性与传统方式不相上下,而其速度是传统方式所无法比拟的。

    无独有偶,日本国内也有一个网站,只要你打开这个网站用自己的推特账号登录,就可以在短时间内通过数万条推特消息找出可能感冒的人,并对过去的感冒情况和今日的感冒情况进行分析,另外这个网站还会结合气温和湿度的变化来预测将来感冒的流行情况,并制作一个“易感冒日历”。这家网站表示,通过其大数据分析,大家就能够知道在自己身边到底有多少人有感冒的症状,并提前做好预防准备。

    此外,日本京都大学的荒牧研究室也运营了一个名叫“流感君”的网站,主要功能是通过感冒信息的检索,预测流感的分布状况,比如流感在哪些地区比较严重、哪些地区未来出现流感的可能性较大。这个网站会自动将推特上的话题进行分类,并选择实际感染上流感的人群的留言,然后进行人工编辑,之后,服务器通过GPS定位,在地图上标记感染者所在的位置。如果某个地区的流感有加重的趋势,那个区域将会被标红,提醒当地的人注意防范。

    与传统数据分析的逻辑推理研究不同,大数据研究是对海量的数据做统计性的搜索、比较、聚类和分类等分析归纳。大数据所分析的是全部数据,通过对所有数据的分析就能洞察细微数据之间的相关性,从而提供指向型商业策略。

    人们一直以来都在追求“实事求是”“按客观规律办事”,但是,由于对环境的认知能力的局限,或者说获取数据、分析数据的能力的局限,人们一直在按照寻根求源的方法来了解这个世界,一直不能很好地了解什么是“事实”或什么是“客观规律”。人们对自己身边事物的认知过程像“瞎子摸象”一样,只能了解局部的情况,整体的情况只能凭借有限的数据去推断,这种判断的结果与实际情况往往有很大的差距。

    随着科技的发展,由于数据收集能力、计算机计算能力、数据存储能力的提高以及网络技术、云计算的出现,人们可以根据海量数据依靠相关性理论进一步认识世界。关注相关性而非因果,让我们可以更高效地利用数据而不是研究数据。只要发现了两个现象之间存在着显著相关性,就可能创造出巨大的经济利益,而不必非

    得像科研机构一样马上弄清楚其中的原因。

    错误数据的用处

    大数据的数据量庞大,大到我们完全没办法一个个核实,比如,一个数据库记录下了一千万人的体重,其中有几个人的体重记录明显是错的。虽然我们一个个去核实数据,的确可以能挑出这几个错误数据,但一份一千万人的体重记录以完全不成结构的方式摆在你面前时,你想的第一件事情一定是“怎么才能够不去核实数据”。事实上,错误的数据在这个大数据库里显得微不足道,对最后数据分析的结果根本没什么影响,就像一滴墨水滴在大海里一样,大海并不会被染色。

    但有的时候,错误的数据会变得非常有用,在某些地方,错误的数据比正确的数据还有用。这又是怎么回事呢?

    比如,你上网打开百度网站首页,在搜索框里输入“局部地区有血”几个字并点击搜索,百度会提醒你是不是要搜索“局部地区有雪”,这就是一个非常好的例子。百度从众多的搜索请求里发现很多搜索“局部地区有血”的人,其实是在搜索“局部地区有雪”时输入文字发生了错误,因此会给出这么一个提示。

    这个功能很贴心实用,我们可以想到,百度的这个功能或许可以继续拓展,在不久的将来用于校对文章里是否有错别字、资料里是否有错误数据等等。而另外一个搜索巨头谷歌,则利用错误数据做了一件了不起的事情。

    2006年,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个重要步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。

    谷歌翻译系统为了“训练”计算机,会吸收它能找到的所有翻译。

    它会到各种各样语言的公司网站上去寻找联合国和欧洲委员会这些国际组织发布的官方文件和报告的译本,甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹·奥齐是机器翻译界的权威,他指出,“谷歌的翻译系统不会只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档”。不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。

    尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等

    翻译。之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。

    谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制,而是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看,它之所以能比其他翻译系统多利用成千上万的数据,正是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自互联网的一些废弃内容。这就是“训练集”,可以借此正确地推算出英语词汇搭配在一起的可能性。

    20世纪60年代,拥有百万英语单词的语料库——布朗语料库算得上这个领域的开创者,而如今谷歌的这个语料库则是一个质的突破,后者使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语音识别系统和计算机翻译的基础。彼得·诺维格,谷歌公司人工智能方面的专家,和他的同事在一篇题为《数据的非理性效果》的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效”。他们明确指出,混杂是关键。

    从传统意义上说,谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是,谷歌语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了它的缺点。

    数据也甜蜜

    只用了一年时间,大数据已开始进入人们生活的方方面面,恋爱也不例外。据相关统计,有约五分之一的恋爱关系是从婚恋网站开始的。

    新华社曾经有一篇文章说中国适婚的单身男女数量已超过1.8亿,这群极力脱离单身的年轻人正在努力寻找某种方式去遇见爱情,婚恋网站成了他们最好的选择。那么婚恋网站是如何利用大数据给两个素不相识的人牵线搭桥当红娘的呢?

    婚恋网站温馨甜蜜的气氛背后,是默默无闻的庞大数据库。这个庞大的数据库收集了用户各方面的信息,当数据分析结果显示两个年轻人的各项信息都十分匹配时,网站便当起了红娘,对两人发送推荐信息。

    许多用户并不知道,婚恋网站除了红娘,还有一群数据库专家、大数据科学家和数学家在辛勤工作。用户在注册和使用中国最大的婚恋交友

    运营商世纪佳缘网站时,通过收发信件、填写资料提交了包括择偶条件、自身情况、兴趣爱好以及其他细节的大量数据。有了这些数据之后,世纪佳缘利用数据库从分布全国的服务器中搜索最匹配的用户。系统要与其他千万名注册用户进行数据比对,至少进行10亿次计算。经过一系列复杂的算法,用户未来的爱人就出现在其屏幕上。数据输入质量决定输出质量,这是所有数据库共有的特点。用户在在线交友网站上填写的资料越详细,回答的问题越真实,就越能找到真爱。

    世纪佳缘智能网警查杀系统也是通过深入挖掘大数据发生作用的。

    据悉,世纪佳缘智能网警查杀系统人工排查一个问题账号并将其加入黑名单的用时约133秒,而智能系统用时只需60秒。在智能系统引入之前,审核工作主要依靠工作人员手动将诈骗分子的数据特征输入后台进行检索,再结合登录时间和发信状况进行人工排查。系统引进后,智能系统会根据相关数据进行自动检索。系统投入后,世纪佳缘的查杀效率提高了45%以上。

    世纪佳缘根据会员行为轨迹,通过大数据的挖掘,从庞大的会员数据库中挖掘出各种信息碎片,通过资料完整度、交友真诚度及账号安全度3个维度来评定这个用户是不是靠谱。其中资料完成度占了50%的比重,交友真诚度和账号安全度则分别占了20%和30%。用户可通过个人主页查看自己的“靠谱度”分数,若用户“靠谱度”分数较低,可通过完善资料、诚信认证、上传照片以及发信回信的方式获取高分。除此之外,用户还可通过购买服务实现对心仪对象靠谱度的查询。

    在中国,像世纪佳缘一样的婚恋网站依靠大数据分析做得红红火火,而在日本,大数据在婚恋方面也扮演着重要角色。日本社会老年化、少子化的现象十分严重,未婚率逐年攀高,平均结婚年龄也一直在增长,很多日本人对这一现象十分忧心却又束手无策。而现在,大数据就能帮上忙。

    日本曾在和歌山纪美野町举办了一次相亲派对。举办相亲派对的初衷,是为了给未婚青年男女提供更多的结识机会,以缓解人口数量较少的地区青年未婚率过高的问题。在派对上,未婚男女先是自我介绍,晚宴上可以自由交流,在咨询调查过程中写出合乎心意的异性姓名,活动最后则公布速配成功的男女。为了提高配对成功的比率,活动举办者希望借助先进的数据获取和分析工具,改进活动的举办方式,并对参加者提供交友建议。

    参加相亲派对的男女都被要求佩戴胸卡式

    传感器。在活动过程当中,这个传感器可以实时取得参加者在相亲活动中的一系列数据,包括与异性交流情况以及进展速度等。在活动举办前,宣传单、咨询窗口以及技术人员的讲解,使参加者解除了害怕交谈内容被记录从而泄露个人隐私的顾虑,大数据相亲活动得以顺利进行。在实际活动中,参加者们非常投入,对于佩戴传感器一事并不在意,而且也有参加者希望了解速配成功男女的交流方式。

    日本的两个大企业为相亲派对的主办方提供了数据采集和分析技术的支持。获取的数据在某企业提供的系统中进行分析,整个活动情况被制成组图,每个人的交流情况等将得到可视化展示。为了保护个人隐私,可视化展示里并不包括个人基本信息。

    活动的主办方认为,以前活动结束后,他们虽然也会努力听取参加者的意见,但这种方法较为主观,过多地依赖工作人员的感觉而不是中立理性的数据支持。而通过大数据的方式,则可以为完善活动细节、为参加者提供建议和数据支持。

    一家国外的约会网站的研究员通过分析7000多张个人照片,并基于每个用户收到的信息数量来确定哪些照片最有利于在线约会成功。研究者们将照片分为3类:调情脸、微笑脸和严肃脸。调情脸指人“直接对着镜头调情”,跟微笑或看上去高兴的脸不一样。结果发现,照片用调情脸的女性每月都比别人多收到一点信息,与镜头没有眼神接触的人收到的信息会比有眼神接触的人少一些。与女性情况相反,男性在资料中使用不看镜头且比较严肃的照片时,最有可能成功约到女性,使用看上去像在调情且不看镜头的照片则最难约到女性。

    因此研究者得出这样的结论:照片可以说明一切。照片激起浏览者的好奇心,很大程度上展示了主角是一个什么样的人。同时,主角不能忽视选择正确照片的重要性。

    这一切都说明,大数据不仅仅是商业工具,只要有合适的数据源,它同样可以向我们展示如何最好地展现自我以寻求到合适的另一半。大数据在社交上的意义远不止这些。它能为我们提供视角,了解围绕在我们关系周边的外界环境,还能加深现有关系并支撑新关系的建立。

    在线约会,数据也能让人感觉甜蜜。数据采集及分析在我们想得到的、想不到的领域都发挥着作用,这反映出大数据对人们日常生活日益增强的渗透作用。

    IBM的美味机器

    2012年,大数据对于普通人来说还是一个很陌生的名词;2014年,街头巷尾的人们

    都在谈论着大数据可能给生活带来的变化。如果你此前从来没有听说过大数据这个词,也许你不知道它到底能用来做什么。

    “大数据是什么,能吃吗?”如果你这样问IBM的研发团队,他们有可能告诉你:“是的,能吃,而且味道相当不错哦。”

    这当然不是说大数据能吃,而是指他们可以利用数学、化学和大数据分析技术,制作出一些前所未有而又不同寻常的食谱。

    通常,我们为了解决一个问题,会进行以下步骤。首先,我们需要理解我们打算解决的问题到底是什么,难度在哪里,怎样才算解决了;然后,我们需要从这个问题的难点入手,尽可能多地学习相关知识,从而积累起专门的知识,并在这套知识的武装下,生成一些新的想法,甚至把不同类型的想法结合起来;接下来,就是从这一大堆想法中挑选出最具创意的;最后,实现我们的想法。

    IBM的研发团队也是这么考虑的,他们构建了一套算法,根据以上这个解决问题的步骤建立了模型。尽管这些步骤中有很多以前就曾经由计算机执行过,但IBM团队的过人之处在于他们找到了量化一份食谱的创造性办法,并且能把所有不同的部分结合在一起。

    领导IBM团队开发这种新型食谱生成系统的拉夫·瓦什内一直都用这套系统生成的食谱来做饭,而且他还表示,这套他们自己创造的食谱中有一些菜确实非常好吃,比如奶油烤肯尼亚球芽甘蓝、开曼车前草甜点和瑞士与泰国混合式芦笋乳蛋饼。还有一些菜谱是研发团队与合作伙伴烹饪教育学院合作创造的,那可就是世界级的食谱了,比如西班牙扁桃牛角面包和厄瓜多尔草莓甜点。

    那么IBM的计算机大厨们是怎么通过大数据分析来创造美味的呢?

    首先,启动软件时,使用者会被要求选定一种关键食材,以及使用者想要制作哪个地区的菜系,然后决定使用者感兴趣的餐食类型(比如汤或者蛋饼)。这是第一步,相当于告诉计算机“你要解决的问题是什么”。

    然后是第二步,这是最重要的一步。在这一步里,大数据分析起着最重要的作用。计算机会调动电脑里存储的好几百万份不同食谱的文本数据,研究者们利用自然语言处理算法扫描并分析这些数据。利用这些数据,他们将已经成文的食谱转化为关系网,包括不同食材的用量和将这些食材做成食物的过程;他们扫描维基百科,了解在各个地区菜系中通常会用到哪些食材;他们考察调味品的说明书,了解不同调味品中含有哪些分子,并获取了

    这些分子的化学结构方面的信息;他们还收录了人们对70种不同化学成分的“好感度”评分……最终,研究者们积累了巨量计算机可读的知识体系,其中包括人类的口味偏好、地区食谱和这些食谱化学构成方面的信息。程序就这样做好了掌勺的准备。

    第三步,软件从某种菜系的传统食谱开始,产生出几百万条符合用户要求的新食谱。这些食谱不是随机产生的,而是遵循着“食物搭配律”的经验法则生成的。食物搭配律的主要内容是在食谱中能够良好搭配的食材有着相同的呈味分子。全新的食谱是依靠“异化”现有食谱中的食材,然后将其与其他食谱融合,产生各种各样前所未见的混合食谱的方式得来的。这种算法被称为遗传算法,是在模仿生物遗传变化的过程。

    也许你会问:“一下子产生了几百万种菜谱,肯定有很多是非常失败的,要么口感不好,要么味道不好。怎么选出味道好的呢?总不能把这几百万道菜都做一遍吧?”说得对,计算机生成的几百万种食谱确实没法做成菜一一验证。就算可以验证,愿意品尝几百万种奇特乃至奇葩的新食谱的志愿者估计也很难找,比如突然端上来一道叫作“蒜蓉糖葫芦炒臭豆腐”的菜,估计会让很多志愿者失去下筷子的勇气。

    这一步,研发人员早就想到了。研发人员的对策是:不做出菜,直接让软件自动化处理。那么,到底是怎么自动处理的呢?毕竟,软件又不会有味觉,怎么能把不好吃的菜给剔除掉呢?

    IBM的研发人员希望他们的食谱能做到非常具有创造性,同时实现新颖和美味两个标准。他们是这么考虑的:每个人对新鲜食物的接受能力都不一样,而且由于地区和文化差异,每个人对食物的偏好本身也不一样。越是和就餐者以往吃过的食物相似的食谱,就越是不会让就餐者感到新奇;越是那种奇葩得就餐者用脚趾头都想不到的食谱,就越能让就餐者觉得出乎意料。出于这种考虑,他们根据一个食谱能够多大程度上让就餐者感到诧异来衡量这份食谱的新颖程度。

    然后考虑的就是味道了,味道的形成本身是非常复杂的,我们的舌头能够品尝出几种基本的味道:甜、咸、酸、苦和鲜。然而,我们对食物的体验还受到很多其他因素的影响,比如食物是不是温热的,是奶香味还是糖一样的甜腻味,口感粗涩还是黏滑,是很耐嚼还是入口即化……另外还有其他的一些因素,比如咬它时它发出的声音、你的饥饿程度、这种味道所勾起的记忆等等。

    研究者最后从神经美食学领域的研究工作得出了

    强有力的论点:气味是味觉的主要构成部分。因此,只需考虑一盘菜的气味即可。这听起来似乎很荒谬,气味是鼻子闻到的,味道是舌头尝到的,这完全不一样嘛。不过,我们不妨想想自己感冒鼻塞后吃东西的场景,那时我们的舌头是正常工作的,可是我们会觉得食物没什么味道,因为闻不到气味。

    那么软件怎么知道一盘菜闻起来香不香呢?这个问题的答案要到化学中去找。软件会考察一份食谱中所有不同的呈味分子,查询它们的化学性质——这个过程会用到很多技术名词,诸如“拓扑极曲面面积、重原子数、复杂度、可旋键数量,以及氢键受体数量”。通过将这些化学性质与其他70种气味分子作比较,研究者们可以预测一盘菜的气味是香气四溢还是恶臭扑鼻。最后他们在计算机里把各种不同分子的气味混合起来,算出每种食物的“香度”。

    最终,软件产生了一系列食谱,并以3个标准排序:新奇程度、气味怡人度和口味搭配。到这里,一份菜谱就被挑选出来了。

    大数据给我们带来的新鲜感是不可想象的,也许,在不久的将来,我们走进一家美食店,会看到计算机正在自己生成食谱并根据食谱来烹饪食物。

    “预言帝”的诞生

    2008—2010年,一只叫作“保罗·爱伦”的章鱼在互联网上被球迷们狂热追捧,大家纷纷称之为“预言帝”。保罗生活在德国的奥博豪森海洋馆,章鱼保罗这个名字来自德国儿童作家波尔洛生所作的诗《章鱼保罗》。保罗前后一共“预言”了14场足球比赛,其中13场都是准确的,正确率高达93%。

    下面就是保罗的预测成绩:

    2008年欧洲杯(6次预言,5次准确。正确率83%)赛事预测结果

    德国VS波兰德国胜德国2-0胜√德国VS克罗地亚德国负德国1-2负√德国VS奥地利德国胜德国1-0胜√德国VS葡萄牙德国胜德国3-2胜√德国VS土耳其德国胜德国3-2胜√德国VS西班牙德国胜德国0-1负×2010年世界杯(8次预言,8次准确。正确率100%)赛事预测结果

    德国VS澳大利亚德国胜德国4-0胜√德国VS塞尔维亚德国负德国0-1负√德国VS加纳德国胜德国1-0胜√德国VS英格兰德国胜德国4-1胜√德国VS阿根廷德国胜德国4-0胜√德国VS西班牙德国负德国0-1负√德国VS乌拉圭