大工作范围

2024-05-06

大工作范围（共8篇）

篇1：大工作范围

梁庄镇卫生院集中开展“大走访、大巡防、大宣传”活动工作方案

为增强公众安全感，进一步提高公众对我院平安建设工作的满意度，按照关于印发《全县卫生计生系统集中开展“大走访、大巡防、大宣传”专项活动实施方案》的通知（内卫〔2017〕174号）文件要求，我院组织开展了“大走访、大巡防、大宣传”活动。现将具体工作方案汇报如下：

一、健全组织，加强领导

成立梁庄镇卫生院集中开展“大走访、大巡防、大宣传”专项活动工作管理领导小组：

组长：金瑞波（主管院长）

负责全面协调、组织安排、督促进展。

副组长：史建鹏（公卫办主任、副院长）

负责公卫办和各村卫生室人员协调、组织安排。

曹丁占（副院长）

负责卫生院人员协调、组织安排。

成员：闫孔宁、张磊、卢朋军、冯红超、朱玉明、王伟伟。主要领导要率先垂范，做到亲自安排、亲身参与，要从财力、物力、人力等各方面给予大力支持，及时解决工作中遇到的困难和问题。

二、精心组织，深入宣传

我院认真组织“大宣传、大巡防、大走访”活动，科学安排宣传活动，采取多种形式，大力宣传“大走访、大巡防、大宣传”活动的重要性，形成浓厚的氛围：

1、通过住院部门口LED屏循环播放平安建设宣传内容；

2、院内悬挂平安建设宣传条幅；

3、组织人员在人员密集处进行平安建设版面、发放宣传单宣传；

4、通过微信方式对平安建设内容进行宣传。

三、建立台账，狠抓落实

对深入推进“大走访、大巡防、大宣传”活动，及时建立台帐，发现问题要及时进行整改。对因工作不力导致突出公众安全问题、重大案事件处置失误的，要按照院委会有关规定，严格追究有关领导和人员的责任。

梁庄镇卫生院 2017年11月16日

篇2：大工作范围

近期，全国多个地区发生多起重特大安全生产事故，给群众的生命财产安全造成了重大损失。根据四川省教育厅《关于迅速开展学校安全工作“大排查、大检查、大整治”的通知》文件精神，同时按照西华师范大学安全工作领导小组办公室和武装保卫部《关于在全校范围内开展安全工作“大排查、大检查、大整治”的通知》，结合我院安全工作实际，对可能影响我院全体师生生命财产的安全隐患进行了逐一排查、检查、整治。现将相关工作情况予以汇报，如下：

一、我院属文科类教学单位，各项教学及科研活动所使用设备基本上没有安全隐患，我院师生主要在学校食堂就餐，本身不涉及食品卫生安全事宜，我院教学及科研活动也不涉及化学实验，不存在危险化学品和其它易燃易爆物品。

二、汛期将至，我院高度重视地质灾害防治工作，对学院办公室及学生公寓雨天路滑地面进行了处理。我院位于行政楼二楼的行政办公室215对面的男厕所雨天墙体易浸水，存在一定安全隐患，希望相关部门予以重视并解决。

三、开展消防安全隐患排查整治工作，是我院的一项长期工作，在近期的安全事故频发的相关背景下，我院更是高度重视此项工作。我院多次组织教师和学生对学生宿舍、仓库等重点部位进行全面排查。在检查学生公寓的过程中发现一些问题，主要有这几点：

1、少量寝室使用大功率电器。

2、少数寝室插板线路混乱，有的把插板直接放到床上。

3、有学生出寝室后忘记关闭各种电源。对于这些情况，我们给予当事学生严厉处分，进行了严厉批评，并取消了当学期各种评优评奖资格。针对我院存放日常办公及教学用品的仓库，我们也进行了全面排查，进行了清理，同时保持通风，并定期检查。我院还开展安全消防教育，对消防安全通道及各种灭火器设施进行了检查，确保关键时刻发挥作用。我院还进一步健全安全制度，明确各领导、负责人相关责任，制定消防应急处置方案，完善各项消防安全管理。

篇3：大工作范围

《方案》指出, 加强大质量工作机制建设要达到5大目标, 即不断提升质检工作水平和服务科学发展的能力;促进各级政府加强对质量工作的领导, 履行对质量安全负总责的责任;促进有关部门、行业协会加强合作, 形成紧密衔接、协调配合的质量安全监管网络和工作合力;促进企业牢固树立“质量第一”的思想, 全面落实提升质量和保障质量安全的主体责任;促进全社会不断提高质量意识, 积极参与质量振兴事业。努力形成政府重视质量、企业追求质量、社会崇尚质量、人人关心质量的良好氛围, 推动我国产品质量总体水平不断提升。

《方案》要求各地质检部门要从四个方面着手, 加强大质量工作机制建设。

第一, 要依靠地方政府, 加强对质量工作的领导。深入开展质量兴省、质量兴市活动;建立质量状况分析报告制度;研究建立宏观质量评价指标;推动优质产品生产示范区建设;推动建立政府质量奖励制度。

第二, 要联合部门, 形成工作合力。建立部门协作机制;加强对质量工作的指导;加强对外贸易质量安全应对合作;加强具体工作的合作。

第三, 推动企业落实质量安全责任, 发挥提升质量的主体作用。推动企业认真履行质量安全责任;引导企业全面加强质量管理;加强企业和产品质量监管;推动企业提升技术和标准水平;帮助企业提高检测水平;推动企业建立严格的原材料、生产过程和产品出厂检验制度;充分利用质检系统技术资源, 在产业集群、区域经济圈、特色园区或中小企业密集区, 搭建检测技术公共服务平台, 帮助企业提高检测水平;加快质量诚信体系建设;促进企业加大培训力度, 提高员工素质。

篇4：大工作范围

摘要:广州市第一市政工程有限公司党委在市政集团党委的正确领导下,坚持“大经营、大政工”格局,认真开展思想工作,为企业发展保驾护航。

关键词:企业思想工作大经营大政工

0 引言

广州市第一市政工程有限公司是国家市政建设工程施工一级企业,具有建设部核准的市政公用工程施工总承包壹级、环保工程专业承包壹级、房屋建筑工程施工总承包贰级资质,承担各类市政公用工程施工(一级),工程技术咨询,建筑材料试验及检测,建筑机械维修及租赁,生产、销售预制混凝土和水泥制品等业务,年施工生产能力5亿元以上。公司有50余年市政工程施工的丰富经验和雄厚的技术实力,先进的机械设备和较高的管理水平,共建造跨江桥、立交桥、高架桥40多座,370多万平方米道路和580多公里干渠。近年来,参与了内环路、广园东路、华南快速干线、地铁、污水处理、机场快速路等多项广州市重点工程建设。公司通过了ISO9001-2000,OHSAS18001:2001,ISO14001:1996体系认证。全面加强施工与技术管理,努力建造精品工程,金穗路隧道,新国际机场高速路三元里立交D19-1标工程分别获得市政建设最高荣誉“金杯奖”,小北立交、禺东西立交A1.1标、猎德污水厂A、B系统曝气池、沉淀池、三元里立交系统等多项工程分别获得省、市优良样板工程、五羊杯奖。海珠桥加固与维修补强获交通部科技进步奖、市政府科技进步奖、市建委科技进步奖,解放大桥主要施工技术获市科技进步奖。

近年来,广州市第一市政工程有限公司党委在市政集团党委的正确领导下,坚持“大经营、大政工”格局,认真开展思想工作,为企业发展保驾护航。在思想观念、工作方法、活动方式等方面,由强调共性向既注重共性又尊重个性的转变,由传统行政命令型向指导服务型的转变。坚持改革创新,工作中注意建立党员联系和服务群众的工作体系,建立党员党性定期分析制度,落实党建工作制度,健全党员受教育的长效机制,建立党内激励关怀、帮扶机制,为企业的改革改制创造良好的政治氛围。

公司党委坚持围绕中心、服务大局的原则,坚持“两手抓、两手都要硬”工作方针,围绕企业每年的工作目标,团结、动员和激发广大党员和员工的积极性和创造性,以完成中心任务为首要的工作目标。

1 将思想政治工作融入中心,服务大局,深入扎实地开展工作

一是把思想政治工作着力于把握好正确的舆论导向,多做鼓干劲、凝人心、聚人气的工作,营造团结向上、振奋精神的氛围。二是把思想政治工作的落脚点放在转变员工思想观念上,鼓励员工参与项目管理、设备管理改革和技术创新等活动。三是把思想政治工作融入到企业管理之中,以思想教育引导、典型塑造为重点,引导员工爱岗敬业,提高责任心,努力实现经营业务和项目成本的“两个可控”目标。

2 公司党委围绕生产经营中心,根据阶段任务开展“一活动两创建”活动

公司通过家访、谈心、教育等形式,了解和掌握职工的思想动态,切实为职工解决切身问题,凝聚人心,稳定员工队伍,促进企业生产的发展,例如,设备部改革、预制厂经营模式转变、拌站拆迁停产等,能及时掌握员工的思想动态并做好各种问题的排查、解释工作,切实为员工解决切身问题,保障了企业的稳定。

3 加强调研活动,为公司重大决策献计献策

公司坚持组织好每年公司的政研工作,鼓励员工围绕公司经营、生产、管理、党建等各方面献计献策。调研的主题有:一是如何在基层深入贯彻十七大精神。二是完善施工项目管理。三是加强基层党建工作的新思路。四是探索企业改革发展的新方向。五是把握企业热点、难点问题。

4 抓住重要历史时刻,提高员工的社会道德意识

2008年初我国南方发生罕见寒潮,大量民工、旅客返乡受阻,5•12汶川大地震发生,这些历史罕见的灾难,也是考验员工社会公德水平的时刻。 “一方有难、八方救助”,两次灾难面前,党委积极响应集团公司的号召,向灾区人民献大爱心,广大党员和员工一次又一次慷慨解囊,向灾区捐款共47531元,特殊党费7309元。

2008年5月下旬,公司响应集团号召,援建四川灾区过渡性安置房,抽调9名精兵强将、多台大型机械设备,加入到市政集团赴川援建队伍,为灾区重建贡献力量,体现国有企业高度的政治使命感。

5 积极支持开展改革创新活动,促进工程质量提高

几年来,公司党委大力支持和配合公司施工生产和经营管理工作,先后完成了南沙开发区黄阁北路工程、广州大道北、天河北路口交通改善工程、三元里立交右线D19-6标、内环路至三元里立交道路工程一标段土建施工工程、广州市双桥路珠江大桥东桥等十五座桥梁整饰工程、佛山大道(325国道)张槎—人民路口下沉式立交桥施工工程、肇庆矶东西排洪渠工程、南沙市南路金沙北延线工程、新光快速路工程(第4标)、清远市高职院直通路市政工程、中山市珍家山污水处理厂一期等工程。

公司在工程质量安全方面有了新飞跃。2004年,沥滘污水处理厂池体工程A标、沙河涌整治(林和西横路-广州大道桥段)、大坦沙二沉池被评为广州市优良样板工程。2005年,广州大道北、天河北路口交通改善工程评为省、市优良样板工程,猎德污水处理厂(二期)厂区池体及配套构筑物土建工程评为市优良样板工程。广州大道北、天河北路口交通改善工程被评为市安全文明施工样板工地,仑头SD1标工程被评为市安全生产样板工地。2006年,广州北部地区新国际机场高速路D19-6标、广州地区南部高速路SD1标两个工程获得市优,其中广州南部仑头SD1标被评为省优。2007年,新光快速路4标工程获得了市优、省优,更创下了金杯奖,广州内环路广花放射线一标工程被评为广州市安全文明样板工地。

公司QC活动荣获部优9项,省优3项,市优3项。公司被评为2005年度全国工程建设质量管理优秀企业和2007年度广东省用户满意服务明星企业,荣获广州市安康杯竞赛优胜企业奖。

6 营造和谐氛围、活力市政

公司的维护稳定及社会治安综合治理工作,坚持“以防为主,防治结合”的方针,以内部政治稳定为核心,突出综治重点,强化目标管理责任制,全面落实综合治理各项措施,为顺利完成生产经营任务创造了良好的治安环境和稳定的政治环境。

一是落实综合治理责任制,每年的年初公司党政领导都分别与17个单位签订了每年度的综治责任书,并坚持每月对各单位综治工作进行全面检查。二是定期召开维稳工作会议,做好各类矛盾纠纷的排查调处及化解工作。对出现的部分员工对政策的不理解进行梳理解释,民工工资被拖欠到公司来访事件,采取特事特办,跟踪督办,及时召集有关人员开会研究,领导班子成员采取积极主动的态度,面对面与来访者进行说服解释工作,妥善处理信访问题。三是加强“普法宣传教育”工作。组织全体员工学习了《治安管理处罚法》、《妇女权益保障法》、《安全生产法》、《中华人民共和国劳动合同法》等法规,进一步提高了员工法律意识。同时,注重从源头上抓起,对年度中的敏感期、重大节日和重大活动的维护稳定工作能及早部署、加强预防。利用宣传墙报、板报、公司通讯、宣传标语、专题活动、会议等形式广泛宣讲,并揭露“法轮功”、“黄赌毒”的危害性,引导员工和民工遵纪守法,增强法律意识和法制观念。四是发挥群众组织的独特优势做工作。加强对工会、共青团、女职委的领导,发挥群众组织的桥梁和纽带作用。一是组织员工参加广州市建筑职业技能比赛和市政集团“三新”活动。二是开展创建青年文明号、安全示范岗活动和QC活动。三是加强武装工作的指导,完成每年的征兵任务。四是加强新形势下对女工合法权益和特殊利益的维护、支持和指导女职委开展系列有利于女职工素质提高,有利于女性健康活动,发挥“半边天”作用。五是坚决响应市政集团开展“和谐活力市政——员工活动日”活动的决定,每月根据不同时期的主题要求,组织有利于员工身心健康、形式多样的活动,起到寓教于乐、凝聚人心的作用。

三年来,公司涌现了多名集团优秀党员、优秀项目经理、优秀市政人、劳动模范。

篇5：大排查、大走访工作总结

程成

2016年注定是不平凡对一年,迎接G20排查作为全年工作的重中之重已经上升到了政治高度。作为社区综治专管员，维护辖区平安、深化平安建设、掌握人员信息、成为了护航G20的具体要务。

4月开始，在街道党工委的领导下，社区党支部的带领下大北社区开启了大走访大排查的工作。社区网格片长各负其职，分工合作带着责任、带着满腔热情投入了该项工作当中。

作为这项工作的牵头汇总人，不仅要掌握宏观排查进度，并且要关注走访细节，对辖区内的楼道格局、电梯情况、监控数量、车辆进出、人员信息、特殊人群等要仔细记录，并在走访当中对辖区居民面临的困难问题做到有效解决和记录。到目前为止社区大走访工作已经进入白热化阶段，在各领导同事的合力下我们共排查937户居民，其中老人431人，困难户11户，残疾人10人。化解各类矛盾纠纷96起。真正的做到信息到家，责任到人。

篇6：安全大排查大整治工作汇报

一、对各站灭火器数量进行清点统计，查看有误损坏和失效的，发现失效的灭火器马上进行更换。

二、对各站的站内设备设施进行查看，发现有损坏的进行修复和加固，发现问题要立即汇报整改。

三、严查站场消防安全隐患、消防设施齐全等工作。对站内灭火器及站场内消防设施和消防应急通道等进行全面彻查。

四、站场机务人员加强了对车辆电动门、车窗、手自动开关的检查，确保开启正常，并重点检车车辆轮胎、电路、油路、气瓶、转向、制动系统等关键部位，及时发现和更换老化、损坏部件，严禁车辆带病上路行驶，严防车辆自燃、爆胎、刹车失灵等安全事故。

下步要做的事情：

一、检查各站场设施的完善情况,是否存在安全隐患。

二、检查职工上岗操作规范情况。具体内容如下：第（一）：对安全员操作是否按规定实施。

第（二）：对机务例保员操作是否按规定作业。

第（三）：对道闸管理员的工作职责是否认真、落实。

第（四）：站场管理员在操作方面是否到位，对安全员管理是否重视，进行彻底的排查。

第（五）：特别对站场夜间门卫管理上工作职责是否做到进行彻底排查。

第（六）：对各站员工岗位安排是否合理，有无到位和缺岗。第（七）：对食堂安全（包括：水、电、煤气）、食品卫生（包括：食品有无变质、过期、食用安全），食堂卫生（包括：餐厅打扫清洁、地面无杂物不留水渍、厨房干净不含细菌），食堂人员安全（包括：食堂工作人员和用餐人员进入餐厅内进行人为活动时的安全）进行重点关注和管理。

一、岗位职责落实情况、检查

二、各站场安全设施大排查，大整治落实、进行情况

三、劳动纪律落实情况

四、站场分公司下步重点要落实3点内容;

篇7：百日大排查大整治工作总结

一、加强领导，压实责任。

县农业农村局加强对农业领域安全生产大排查大整治专项行动领导，成立大排查大整治专项行动工作领导小组，制定《县农业农村局元旦春节期间农业领域安全生产风险隐患大排查大整治行动工作方案》，明确工作目标、排查整治重点、时间安排及工作要求。在开展全面深化安全生产大排查大整治攻坚行动中，进一步强化了“隐患就是事故、事故就要处理、不处理就要追责”意识，切实把大排查大整治工作落到实处。

二、突出重点，严格排查。

专项行动开展以来，为落实省、市、县安全生产文件精神，落实安全生产职责，强化安全生产管理，重点对农机、农药、饲料、畜禽屠宰等领域实施了大排查大整治专项行动。在组织、指导、督促各有关农业生产经营单位开展自查和整改的基础上，通过明查暗访、突击检查、随机抽查等方式深入农药、饲料生产经营单位、乡村道路、棚库、农机大户等场所开展地毯式、拉网式安全生产大排查大整治，全面清理排查农业安全生产隐患，切实做到横向到边、纵向到底，及时发现问题、补齐“短板”、消除安全隐患，有效防范和坚决遏制了农业安全事故的发生。此次大排查大整治专项行动中，共检查农药生产经营单位4家、饲料生产经营单位7家、屠宰场8家、农机经销单位2家、农机大户5家，检查销售的拖拉机、收割机共计20台;检查检查农机配件50件，共排查出一般问题隐患2个，均以整改完毕。

三、强化措施，整改到位。

篇8：大工作范围

第一章更多不是随机样本,而是全体数据

大数据开启了新的时代转型,它带来了许多转变。事实上它与三个重大思维转变有关:第一,要总体、不要抽样。第二,要混杂性、不要死扣精确性。第三,要相关性而不是因果性。本章介绍的是第一个转变———利用所有的数据,而不再仅仅依靠一小部分数据。

在过去很长一段时间内,我们都无法准确分析大量的数据。那是因为我们收集、存储和分析数据的工具不够好,所以我们试图减少数据量,采用抽样来分析数据。作者认为这实际上已经成为了一种人为的限制。如今技术有了极大的提高,我们已经可以较为廉价地处理过去看来是天方夜谭般庞大的数据。但在某些方面我们仍没有意识到这种进步,假定自己仍旧只能收集少量信息,这成为了一种习惯。

为了更好地了解采用全体数据带来的转变,我们需要和样本分析进行对比。书中举了人口普查的例子。在过去,由于人口普查极为复杂而且费时费力,政府极少进行普查。美国宪法规定每十年进行一次普查。随着人口的迅速增长,数据变化的速度甚至超过了人口普查局统计分析的能力。1880年的人口普查,耗时8年才完成数据汇总。而当时预计,1890年的人口普查将耗费13年。也就是说,在他们还没有完成1890年人口普查的数据汇总时就要开始1900年的人口普查了,这无疑是荒谬的。最终,美国发明家赫尔曼·霍尔瑞斯的穿孔卡片制表机解决了这一难题,在一年之内就完成了数据汇总的工作。这标志着自动处理数据的开端。这种穿孔卡片制表机事实上就是一种大数据的采集方式,它让每一个美国人都填写一张表格,其缺陷在于昂贵的价格。

统计学家们证明,采样分析的精确性随着样本的随机性增加而大幅度提升,却与样本数量的关系不大。作者认为,随机采样确实有着成本低的优势,这也是它取得巨大成功的依据,甚至让它成为了现代社会、现代测量领域的主心骨,但事实上这只是一条捷径。这是人们在难以处理大量数据的前提下做出的选择,它本身是存在着许多固有缺陷的。比如它的成功依赖的是采样的绝对随机性,但在现实情况中这样的绝对随机性是十分困难的。

作者为了证实自己的观点,举了一个以固定电话用户为基础进行投票民调的案例。作者认为它的采样缺乏随机性,出现了偏见———它没有考虑到只使用移动电话的用户,而这些用户往往更年轻、更热爱自由。这导致了最终的民意测试结果出现了三个点的偏差。在票数差距微弱的大选中,这已经是十分大的偏差了。

作者还认为,随机采样不适合考察子类别的情况。一旦对样本进行继续细分,随机采样结果的错误率就会大大增加。就像一份民调本身已经存在3%左右的误差,那么如果对这份调查继续细分,误差将会越来越大。所以作者认为,随机采样的方法并不适合更深层次的细分领域的研究。

随机采样调查的结果缺乏延展性。你没有办法从它的结果中重新分析出计划之外的目的。作者举了一个案例。从2007年开始,23andme公司就开始分析人类的基因,价格仅为几百美元。它对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。通过这样的样本,能够更快也更容易地发现问题,但却不能回答事先没考虑到的问题,这正是作者所提到的随机采样缺乏延展性的问题。而乔布斯花了几十万美元对自身所有的DNA和肿瘤DNA进行排序,并非只是样本。虽然这并没有拯救他的性命,但还是把他的生命延长了好几年。

在过去那个信息处理能力受限的时代,没有很好的可以用来分析所收集的数据的工具,所以产生了随机采样。这只是一种无奈之下做出的选择,是一种捷径。而现如今我们拥有了更强大的处理和收集能力,以及更好的工具,可以轻易地对大量的数据进行分析,也就可以分析全体的数据,而不再仅仅是样本。作者认为,数据处理技术已经有了巨大进步,只是我们仍处于过去的习惯中,方法和思维没有跟上这种改变。

采样有一个我们广泛承认的缺陷,那就是忽略了细节的考察。事实上,生活中真正有趣的事情经常藏匿在细节之中。随着收集的数据越来越多,预测结果就会越来越准确,这与采样分析依靠样本的绝对随机性是不同的。

书中举了一个案例来证明采集所有数据来分析的重要性。Xoom是从事跨境汇款业务的公司。2011年时它发现用“发现卡”从新泽西州汇款的交易量比正常情况多一些,于是系统启动报警。单独来看每一笔交易都是合法的,但事实上这是一个犯罪集团在试图诈骗,而发现的唯一办法就是重新检查所有的数据,找出样本分析法错过的信息。

作者强调,大数据并不是简单意味着大量的数据,比如人体完整基因组有约30亿个碱基对,但这只是数据节点的绝对数量而并不代表它就是大数据。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

在日本的“相扑”运动中非法操纵比赛结果被发现的案例恰到好处地说明了全数据模式的重要性。一位经济学家使用了11年中超过64000场摔跤比赛的记录。通过分析后发现,非法操纵比赛结果的现象的确存在,是在那些大家不会十分关注的比赛上,因为这往往没什么风险。相扑比赛有一个较为特殊的地方,那就是选手要在15场比赛中的大部分场次中胜利才能保持排名和收入。所以当一位7胜7负的选手遇上一位8胜6负的选手时,胜利对后者就不那么重要了,而结果也往往是前者取得胜利,这就像是一个礼物。事实上在两人的下次碰面中往往是后者取胜,就像是付出总有回报。这样的情况如果采用随机采样分析法是无法发现的,而大数据却能轻而易举地发现。大数据分析法不止关注一个随机的样本,而“大”取的也是相对意义而不是绝对意义,是相对所有数据来说的。

拥有了全部或者几乎全部的数据,我们就能够从不同的角度更细致地观察和研究数据的方方面面。Lytro相机就是一个很好的例子。它的出现是具有革新性的,因为它将大数据运用到了基本的摄影当中。与传统相机只能记录一束光不同,Lytro相机可以记录光场中所有的光,达到1100万束之多。用户不需要一开始就聚焦,想生成什么样的照片可以在拍摄之后再进行决定。这些照片相对于传统相机拍出来的照片就更加具有“可循环利用性”。

作者并没有彻底否认采样分析法。在有些时候我们还是可以使用它,毕竟我们仍然活在一个资源有限的时代,但利用掌握的所有数据成为了最好也是最可行的选择。

大数据的观念同样对学术研究产生了巨大的影响。社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代样本分析,我们再也不依赖抽样调查了,我们可以收集过去无法收集到的信息,无论是通过电话,还是通过Twitter。

在艾伯特-拉斯洛·巴拉巴西和他的同事研究人与人之间互动的案例中,他们调查了四个月内的所有移动通信记录,这些记录是匿名的,是由一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过分析他们发现了一个有趣的事实。在一个社区关系网中,如果将一个在关系网内有许多连接关系的人去掉,这个关系网会变得不那么高效但不会解体;但如果剔除一个在关系网外有众多好友的人那么这个关系网很快就会破碎成很多小块。这个结果十分重要而且让人出乎意料。作者认为,这说明一般来说无论是针对一个小团体还是整个社会,多样性是有额外价值的,这促使我们重新审视一个人在社会关系网中的存在价值。

第二章更杂不是精确性,而是混杂性

本章阐述的是作者提出的大数据带来的三个思维转变中的第二个,即不是精确性,而是混杂性。

在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确。但作者认为,允许不精确的出现会让我们掌握到更多的数据,更加庞大的数据使得放弃精确性变得更加划算。执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用。

作者认为,对“小数据”而言,最重要的就是减少错误,所以需要确保记录下来的数据是足够精确的。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

在过去的很多时候,人们都会把通过测量世界来征服世界视为最大的成就,而对精确度的高要求始于13世纪中期的欧洲。很多著名的物理学家同样认同测量的精确度十分重要这一观点。开尔文男爵就曾说过:“测量就是认知。”但作者认为,对精确度的高要求并不适用于大数据时代。他举了一个关于法国开发的能准确计量时间、空间单位系统的案例。

19世纪时,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统,并逐渐成为其他国家普遍采用的标准,还为后来国际公认的测量条约奠定了基础,成为测量时代的巅峰。但是仅仅半个世纪之后,在20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦。

作者认为,在不断涌现的新情况中,允许不精确的出现已经成为了一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来。但在掌握更多的数据的同时,由于忽略了精确性,我们需要与各种各样的混乱作斗争。

混乱可以指随着数据的增加,错误率也会随之增加。比如桥梁的压力数据量增加到1000倍,其中的部分读数可能就是错误的。而随着读数量的增加,错误率也会继续增加。在处理来源不同的多种信息时,同样会加大混乱程度。

混乱还可以指格式的不一致性。比如同样是IBM三个字母,既可以指代一个公司,也可以是某几个英文单词的缩写。

作者认为,虽然这样的混乱在小数据量的情况下会带来极大的不便,但随着数据量的增加,这样的混乱所带来的负面影响是可以逐渐消除的。为此他举了一个测量葡萄园温度的案例。

在这个案例中,作者进行了一个对比。假设整个葡萄园只有一个温度测量仪,那么就必须确保它的正常工作。但假如每100棵树就有一个温度测量仪,即使中间有一部分不能正常工作,得到了不精确的数据,但众多数据合在一起就会得到更加精确的结果。它不仅能够抵消掉错误数据造成的影响,还能提供更多额外价值。

所以作者提出,在很多情况下,与致力于避免错误相比,对错误的包容会带来更多好处。为了了解大致的发展趋势,对精确性做出一些让步是可以的。

在这一章中,作者还引用了一个十分重要的观点———大数据的简单算法比小数据的复杂算法更有效。作者同样举了案例来佐证他的观点。

1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。这个程序的指挥官相信,在三、五年之后,机器翻译将会变得很成熟。然而1966年时他们发现翻译远比想象的更困难。毕竟翻译不仅仅是记忆和复述,还涉及选词。20世纪80年代后期,IBM的研发人员提出了一个新的想法,试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词或词组的可能性,然后再决定对等的词和词组。20世纪90年代,IBM这个名为Candide的项目花了大概十年时间将加拿大议会资料翻译成英语和法语并出版,这让这个方法看起来很有效,但这次飞跃后尽管投入了很多资金,取得的成就却不大。而在2006年,谷歌开始涉足机器翻译,它利用一个更大更杂的数据库,也就是互联网。尽管输入源很复杂,但是庞大的数据量弥补了这一缺陷,谷歌的翻译效果反而是相对而言最好的。

作者认为谷歌的成功不在于有多么先进的算法系统,而在于它接受了错误的数据,拥有上万亿的语料库。彼得·诺维格在自己的《数据的非理性效果》一文中写到:“大数据基础上的简单算法比小数据基础上的复杂算法更加有效”。而作者无疑十分赞同这一观点,他们认为,混杂是关键。

作者认为随着大数据时代的来临,我们要重新审视精确性的优劣。在过去那个信息贫乏的时代,任何一个数据点都十分重要,所以才需要保证精确性。而在大数据背景下,这样的精确性就显得不那么重要了。错误并不是大数据所固有的特性,而是我们亟需解决的问题,并且有可能长期存在。不过在短期内,大数据带来的利益,让我们可以接受不精确的存在。

在麻省理工与通货紧缩预测软件案例中,作者为我们揭示了接受混杂性和大数据所带来的巨大利益。美国劳工统计局人员每个月都要公布消费物价指数(CPI)。为了得到这些数据,他们会雇佣很多人向全美90个城市的商店、办公室打电话甚至登门拜访,政府每年为此的开销是两亿五千万美元。这些数据精确且有序,却有一定滞后性。2008年经济危机表明这个滞后是致命的。而麻省理工学院的两位经济学家提出了大数据方案,接受更混乱的数据,在互联网上收集信息。它在雷曼兄弟破产后马上发现了通货紧缩趋势,而依靠官方数据的人等到11月份才得知这一信息。

作者认为,混杂性不是我们要竭力避免的,而是一种标准的途径。比如在Flickr网站的照片案例中,标签没有标准、没有预先设定的排序和分类,互联网上的资源反而能够更容易被找到。同时也能够带来以前所没有的功能,比如通过合并标签来过滤搜索的图片。

为了进一步阐述容忍不精确的必要性,作者举出了一些贴近生活的事实。比如在互联网当中,在Facebook“喜欢”按钮下显示的人数,当较少时,会显示“63”这样的精确值,而当数量较多时,就只会显示近似值。这并不代表系统不知道精确值,只是数量规模变大时,确切数量已经不那么重要了。

书中还提到,不精确甚至已经深入了数据库设计当中。这同样带来了巨大的变革。传统的数据库索引是预先设定好了的,存在许许多多的限制。而现如今我们拥有各种各样的数据,这样的数据存储和分析方式就越来越与现实冲突,所以出现了新的非关系型数据库设计。作者引用了帕特·赫兰德的一个结论“我们再也不能假装活在一个齐整的世界里”。他认为,处理海量数据不可避免会有损耗性,但是更高的效率会弥补这一缺点。大的数据库往往分散在多个硬盘,当其中一个发生改变时,就需要同步更新。而当数据库广泛地分布在多台服务器上时,这就变得不那么现实。所以作者认为,多样性是一个解决方案。

Hadoop与VISA的13分钟这个案例,就能够很好地代表这个转变。Hadoop与传统的数据分析不同的是,它假定了数据量的巨大使得数据无法移动,所以人们必须在本地进行数据分析。它的输出结果不如关系型数据库精确,但对于不要求极端精确的任务就比其他系统快得多。VISA使用Hadoop能够将处理两年内730亿订单的时间,从一个月缩减为13分钟。所以当允许少量错误时它就非常实用。

作者还举了Zest Finance公司的案例来佐证“宽容错误会给我们带来更多价值”这一观点。作者又接着对这一观点进行了深入的调查和研究,发现社会已经将两个折中的想法不知不觉地渗入了我们的处事方法中。

第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。这个折中在第一章中进行过深入的分析,作者认为,通过“样本=总体”这样的方式来处理数据,我们将从中获得极大的好处。

第二个折中体现在数据的质量上,也就是对精确度的要求。在小数据时代我们需要精确度,因为样本数量很少,任何一个数据的不精确都会造成较大的影响。如今对一些事情这仍然试用,但对于其他的一些事情,快速获得大概的轮廓和发展脉络,就要比严格的精确性要重要得多。

作者认为,虽然牺牲了数据的精确性,但是大数据凭借着数据的完整性和混杂性,能够帮助我们进一步接近事实的真相。当我们局限于某个部分时,即使对这个部分有着再精确的掌握,也依然会错过事物的全貌,丧失从各个不同的角度观察事物的权利。

第三章更好不是因果关系,而是相关关系

作者认为,在大数据所带来的三个思想转变当中,影响最大、最具有颠覆性的,就是要相关关系而不是因果关系。简单来说就是知道是什么就可以了,不需要知道为什么。这与我们传统的“打破砂锅问到底”的精神背道相驰。

为了支撑这个观点,作者对林登与亚马逊推荐系统案例进行了分析。这个系统简单来说就是根据客户个人以前的购书喜好,为其推荐具体的书籍。亚马逊从每一个客户身上捕获了大量的数据,由于数据量实在庞大,亚马逊必须先用传统的方法对其进行处理,也就是通过样本分析找到客户之间的相似性,但这费时费力且效果不好。林登发现,其实系统没必要比较客户与客户,只需要找到产品之间的关联性。这使得估算可以提前进行,推荐系统也就十分迅速。这种关联性无法找到其因果性,但数据告诉你,它们的确相关,而且能够带来巨大的价值和利益。作者认为,知道是什么已经足够了,它可以带来你所需要的一切,而知道为什么就显得不那么重要。

作者认为大数据的核心是预测,预测的关键就在于关联物。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。关于这种通过相关关系的预测,作者举了一个沃尔玛的飓风与蛋挞的案例。

在这个案例当中,沃尔玛通过对销售情况大量数据的分析,发现每当季节性飓风来临之前,蛋挞的销量都会增加。这二者之间存在很强的相关性,却很难解释为什么。但这样的发现促使沃尔玛改进销售策略,使蛋挞的销量得到了增加。

书中提到,在大数据时代到来之前,相关关系就已经证明大有用途。但由于收集数据的困难,专家们往往通过找到一个关联物来进一步收集与之相关的数据,从而评价关联物的优劣。他们往往通过一些抽象的论点来寻找关联物。但作者认为,一旦出现些许偏见,就会使我们在过程中出现失误。这样的偏见往往基于我们生活中所谓的常识,难以回避。而在大数据时代,由于我们已经拥有了强大的机器计算能力,所以我们不再需要人工选择关联物,也就避免了由于偏见带来的误差。作者由此进一步提出,建立在相关关系分析法上的预测是大数据的核心。

在FICO的案例当中,对预测这一大数据的核心有很好的体现。美国个人消费信用评估公司发现,通过分析一系列的变量,甚至可以发现一个人是否按时吃药。这是一种相关关系,而且看似毫不相关,但的的确确证实了预测的可能性。类似的案例还有很多,比如中英人寿保险公司想利用信用报告和顾客市场分析数据作为部分申请人血液和尿液的关联物,这些分析结果用来找出更有可能患高血压、糖尿病和抑郁症的人。

作者在对这些生活中寻找关联物的大数据分析法研究过后,继续进行了通过找出新种类数据之间的相互联系,来解决日常需要的大数据分析方式。作者对机器出故障的过程进行了研究,发现在出故障的过程中,机器会发出不同的信号。通过分析这些信号就能够判断机器是否即将出故障。就此,作者进一步提出,通过找出一个关联物并监控它,我们就能够预测未来。同时作者也指出,这样的分析无法告诉你故障的原因,它是通过寻找相关性得出的结论。

作者发现,在小数据时代,无论是相关关系分析还是因果关系分析都不容易,需要先设定假设,而这个假设就很容易受偏见的影响。现在,由于计算机能力的提升,我们可以直接对大量数据进行相关关系分析,甚至能够发现数据的“非线性关系”。所谓“非线性关系”,作者举了幸福的非线性关系这个案例。在案例中谈到,对收入水平1万美金以下的人来说,收入越高越幸福,而对1万美金以上的人来说,这样的关系就不那么明显了。

通过对人类思维模式的研究作者发现,在遇到一个问题时,我们的直接愿望就是了解因果关系。即使没有因果关系存在,我们也还是会假定它的存在。作者引用了心理学专家丹尔卡尼曼的一个观点———人有两种思维模式,第一种不费力的思维模式,通过这种思维模式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定问题,就是需要考虑到位。书中写到,快速思维模式让人们偏向于用因果关系看待事物,而通常这样的因果关系都是不存在的。这样的思维模式也可以称之为“直觉”。

在小数据时代,很难证明这样的直觉是错误的。但现在通过大数据的相关关系分析,将经常用来证明直觉的因果关系是错误的。与此同时作者认为,第二种思维模式也会因为大数据的相关关系而迎来巨大改变。相关关系证明相对而言更可行,可以通过数学方法、统计学方法。相关关系的分析也可以为因果关系的证明奠定基础。作者的观点是,相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。

作者提出,相关关系的分析不仅比快速的因果关系分析更有说服力,甚至比经过长期思考的慢速因果分析更有用和有效。在橙色的汽车质量更好这一案例当中,一家公司通过研究发现,橙色的汽车有质量问题的可能性只有其他车的一半。即使经过了慢性的思维分析,也很难找出其中的道理。

当我们不满足于相关关系时,就可以借助相关关系来研究因果关系。作者提出,因果关系只是一种特殊的相关关系。为了说明数据正在以新的方式帮助我们解决现实生活中的难题,作者举了曼哈顿沙井盖的案例。曼哈顿有大约51000个沙井盖和服务器。每年因沙井盖内部失火,纽约有很多起沙井盖爆炸事故,而检修也只是碰运气。1880年以来的数据虽然都保存着,但都很杂乱,负责这个项目的统计学家辛西亚·鲁丁和她的同事必须使用所有样本。如果要找出因果关系可能需要一个世纪,还不一定找得对。她决定研究相关关系。预测爆炸的效果非常好。最终,最重要的因素是这些电缆的使用年限和有没有出现过问题,通过与爱迪生电力公司的合作迅速为事故发生的可能性进行排序。

在过去,人们了解世界都是首先通过一系列的假想和猜测,这些通常来自自然理论或社会科学。而书中写到,2008年时克里斯·安德森提出了大胆的设想,那就是“理论已死”。他认为,数据爆炸使得科学的研究方法都落伍了。作者并不完全同意这个说法,但对他的大胆设想在一定程度上表示肯定。作者认为,大数据虽然不会叫嚣数据己死,但它毫无疑问会从根本上改变我们理解世界的方式。作者明确了自己的观点,即大数据是在理论的基础上形成的。

第二部分大数据时代的商业变革

第四章数据化一切皆可“量化”

当今的信息技术变革重点在“T”(技术)上面,而作者认为是时候把重心转移到“T”也就是信息本身了。在这一章当中,作者主要表达了将一切都数据化的观点。他认为,世间万物都是可以被量化的,一切都可以是被分析的数据。这将带来极大的变革。而数据化的价值,目前主要体现在商业领域。

在本章的开端作者用了大量的篇幅叙述“莫里的导航图”这个案例,该案例是大数据的最早实践之一。莫里发现当时的航海路线常常是在水上绕弯而不走直线,船长们认为在大海上走熟悉的路线要比走陌生的直线更安全,但莫里的航海经验告诉他并不完全是这样的。他通过整理大量的航海笔记和日志并绘制成表格,提供了更精确的航海路线。为了获得更多的数据,他创建了一个标准的表格来记录航海数据,并且要求美国所有的海军舰艇在海上使用。商船们也纷纷加入了这个信息交流计划。他的工作为第一根跨大西洋电报电缆的铺设奠定了基础。

在这个案例当中,莫里的成功之处就在于他利用了足够大量的数据。由此作者也提出,庞大的数据库有着小数据库所没有的价值。莫里是通过人工一笔一画完成的图表绘制,也就是说,远在信息数字化之前,对数据的运用就已经开始了。

作者认为,数据可以从任何地方提取出来,甚至是从最不可能的地方。“日本先进工业技术研究所的坐姿研究与汽车防盗系统”的案例就能很好说明这一点。在这个案例当中,日本的越水重臣教授通过在汽车座椅下部安装压力传感器,将人体屁股特征转化成了数据,并进行了量化,产生了专属于每个乘坐者的精确数据资料。这样的研究可以用于分析坐姿和行驶安全之间的关系,或者是用于识别盗贼。这个案例的关键之处在于,越水重臣教授从看似完全与数据不沾边的地方提取出了极其有用的数据,并进行了创新性的应用。作者觉得,这无疑为我们开阔了思路。越水重臣教授的这种转变,作者称之为数据化。

作者提出了数据化的核心就是量化一切的观点。作者认为,计量和记录一起促成了数据的诞生,它们是数据化最早的根基。比如,通过计量和记录建筑物的建筑方法和原材料,我们就能再建同样的建筑,或进行实验性的操作。作者对计量和记录的历史进行了研究。事实上,早期的计量方法对于古代的人们来说是不太方便的。比如使用罗马数字的地方,它们没有一个以10为底的进制,所以大数目的乘除即使是专家也不会。后来阿拉伯数字的出现开启了算术的腾飞。作者发现,最终让阿拉伯数字广为采用的是复式记账法的出现,这也是一种数据化的工具。这样的记账方法简而言之就是用两个账本记录交易明细。它的出现实现了相关账户信息的“分门别类”记录。它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读懂彼此的账本。作者认为,这样的设计理念中包含了“纠错”的思想,这也是现在的技术人才需要学习的。真正让阿拉伯数字和复式记账法站稳脚跟的,是帕西奥利的一本数学教材,以及美第齐家族使用复式记账法带来的成功经验。二者奠定了复式记账法成为标准数据记录法的基础,也奠定了阿拉伯数字在此之后不可取代的地位。

作者专门对数据化和数字化进行了区分。他认为,大数据所需要的是数据化而不是数字化。从定义上来讲,数据化指的是一种把现象转变为可制表分析的量化形式的过程。而数字化指的是把模拟数据转换成用0和1表示的二进制码。数据化的前提是拥有正确的工具以及计量和记录的需求。而我们在数字化时代到来的几个世纪前就已经奠定好了数据化的基础。关于数字化和数据化的关系,作者认为,数字化带来了数据化,但是数字化无法取代数据化。前者是把模拟数据变成计算机可读的数据,与后者有本质的不同。

作者通过“谷歌公司的数字图书馆”这个案例,来进一步区分数字化与数据化。在这个案例中,谷歌公司试图将所有版权条例允许的书本内容进行数字化,让世界上所有的人免费阅读。一开始他们只是将每一页都扫描,并将其存入服务器中一个高分辨率的数字图像文件中。但由于这样数字文本没有被数据化,所以它们不能通过搜索词找到,也不能被分析。后来谷歌公司采用了能够识别数字图像的光学字符识别(OCR)软件来识别文本,这样就把数字化图像转化成了数据化文本,进而可以更容易地被查找到,也能够被人们用来分析。

在另一个案例当中,哈佛大学的研究员们对几百万册书籍和超过5000亿个单词进行了深入研究,发现这些书当中出现过的单词有一半以上在字典中是无法找到的,这些生僻字是一个巨大的宝藏。这些数据化了的文字,不仅人可以用之进行阅读,机器也可用之进行分析。谷歌公司就利用这些数据化文本改进了自己的机器翻译系统。

从技术角度,作者对同样拥有数据化书籍的亚马逊公司和谷歌公司进行了对比。前者虽然拥有数据化书籍,却不曾挖掘书籍在数据化之后的附加价值。这其中可能有版权因素的制约,但作者认为,至少现在,可以不失公允地说,亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。

作者认为,地球本身构成了世界上最基础的信息。但是,历史上它几乎从来没有被量化和数据化过。将方位数据化是在将文字数据化之后作者讨论的又一个话题。为此,作者举了GPS的案例来说明将方位数据化的价值与意义。

在GPS的这个案例之前,作者先阐述了西方对于位置信息量化的发展过程。它起源于希腊,埃拉托色尼发明了用格网线来划分区域的系统。在公元1400年,托勒密的著作《地理学》的复印本传入佛罗伦萨,从那以后地图上标上了经纬度和比例尺。而经纬度的标准化是一个漫长的过程,直到1884年的国际子午线会议之后才有了一个标准。但当时进行地理位置定位还只能依靠地标、天文星座、航位推测法和尚显欠缺的无线电定位技术。

1978年,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功,而这也带来了巨大的转变。随着技术的发展,全球定位系统能够快速、相对低价地进行地理定位,而且不需要任何专业知识。定位时时刻刻都可能生成信息,而用GPS进行定位一般仅需要几秒钟的时间,而且它使用的是标准化坐标表示法。

不仅仅是人,事物的地理位置信息也同样可以被迫踪。这样的地理位置数据有很多用途,比如一些App通过对你的位置信息进行分析,进而为你推荐最近的餐厅。而公路和其他基础设施的建设也会因为这些数据产生影响。作者举了“多效地理定位与UPS的最佳行车路径”这个案例来进一步说明地理位置数据带来的价值。在这个案例当中,UPS在一定程度上根据过去的行车经验进行了总结,为货车定制了最佳行车路径。这个分析项目效果显著。2011年,UPS的驾驶员们少跑了近4828万公里的路程,节省了300万加仑的燃料,并且减少了3万公吨的二氧化碳排放量。UPS的过程管理总监杰克·莱维斯说:“预测给我们知识,而知识赋予我们智慧和洞见。”

书中写到,毋庸置疑,对无线运营商来说,收集用户地理位置数据的能力已经变得极其具有价值。从个人层面上来说,根据他所居住的地点和他要去的地方的预测数据,可以为他提供定制广告。而且,这些信息汇集起来可能会揭示事情的发展趋势。

不过作者认为,位置数据在商业以外的用途或许才是最重要的。在“现实挖掘”这个研究当中,研究人员通过处理大量来自手机的数据,发现和预测人类行为。这非常具有价值,比如可以通过对流感患者位置信息的分析和预测,提前进行区分和隔离。如果出现重大疫情,这可以挽救很多人的生命。

书中提到,数据化的另一个前沿更加个人化,体现在将沟通变为数据。这样的案例在我们的生活中更加普遍,比如facebook的“社交图谱”。

然而这种对数据的使用还远未成熟。比如facebook为了防止用户反应过激,精明地选择了隐忍。作者发现,它目前所面对的指责都集中在能采集到什么,而并非它实际用这些数据干了什么。

在“twitter公司开辟数据新用途”的案例中,该公司将2012年超过1.4亿用户每天发送的4亿条近乎随意的闲言碎语的微博数据化。实现了将人们的想法、情绪和沟通的数据化。

但数据被人类利用的频率远没有被计算机利用的多。twitter的元数据,即“关于信息的信息”,其中包括33个分离的项。2011年《科学》杂志的一项研究显示,来自世界上不同文化背景的人们每天、每周的心情都遵循着相似的模式,这项研究建立在两年多来对84个国家240万人的5.09亿条微博的数据分析上。

作者认为,数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为。在“微博关联与疫苗接种”案例中,来自宾夕法尼亚州立大学的生物学家马塞尔·萨拉特和软件工程师沙先克·坎都拉斯通过分析微博发现,人们对于疫苗的态度与他们实际注射预防流感药物的可能呈现出相关性。他们利用twitter中谁和谁相关的元数据进行了进一步研究后发现未接种疫苗的子人群也可能存在。这项情绪分析实际上揭示了个人的卫生行为。

作者认为,一些社交网络坐拥了大型数据的宝藏。一旦数据得到深入分析,它们就能轻易获得社会各行各业以及三教九流的几乎所有的动态信息。

第五章价值“取之不尽,用之不竭”的数据创新

这一章作者主要写了数据的商业价值。作者将数据的价值分为两个部分,一个是数据的基本用途,另一个是数据的潜在价值。用作者自己的话说,数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。

作者先是对“Re Captcha与数据再利用”案例进行了说明。20世纪90年代后期,网络逐渐变得拥堵起来,垃圾邮件和广告泛滥,网络因此成了一个不守规矩、不受欢迎、不够友善的地方。2000年,22岁大学刚毕业的路易斯·冯安提出了解决的办法:要求注册人提供真实身份证明。他找到一种对人类而言便于回答但对机器很难的东西——一些波浪状、辨识度低的字母,也就是验证码,取得了不错的效果。后来他并没有因此止步,他试图利用这种方式识别一些计算机光学字符识别(OCR)程序无法识别的文本。他将其命名为ReCaptcha。它的用途有两个,主要用途在于证明用户是人,另一个用途是破译数字化文本中不清楚的单词。后者相较于人工每年省下了10亿多美元。

Re Captcha的故事强调了数据再利用的重要性。在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。而在大数据时代,事情再次发生变化。数据的价值从它最基本的用途转变为未来的潜在用途。

作者认为,信息对于市场交易而言是必不可少的。在过去,它通常只是被视为附属于企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别。但在大数据时代,所有数据都是有价值的。这里的“所有数据”包含了那些最原始的、看似最平凡的信息单位。但至今都没有一个简单的方法来收集、存储和分析这些数据。而我们所处的时代,数据的收集不再存在固有的局限性。技术发展使得大量的信息可以被廉价捕捉并记录。在这个时代,以较低成本获得更多数据的可能性比以往任何时候都大。

作者认为,数据的基本用途为信息的收集和处理提供了依据。而不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。它可以为了同一目的而被多次使用,也可以用于其他目的。

作者接着讨论了数据的“潜在价值”。为了支撑他的观点,作者用了一个案例来进行说明。在“IBM,电动汽车动力与电力供应系统优化预测”案例中,2012年时IBM曾与加利福尼亚州的太平洋天然气与电气公司以及汽车制造商本田合作进行了一项实验,收集了大量信息来回答关于电动汽车应在何时何地获取动力及其对电力供应的影响等基本问题。基于这些信息,IBM开发了一套复杂的预测模型。电网的使用数据可以用于增强电网的稳定性,汽车电池电量指示器告诉司机何时充电,而这些数据都可以找到二级目的,比如这个案例当中对充电站位置的选定。

作者认为,数据再利用的重要性还没有被企业和社会充分意识到。而要解锁这些数据价值,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。最终,数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择,这些选择的总和就是数据的价值,即数据的“潜在价值”。

书中写到,数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。作者提了数据的六个创新,分别是:数据的再利用、重组数据、可扩展数据、数据的折旧值、数据废气以及开放数据。

一、数据的再利用

作者提到,数据创新再利用的一个典型例子就是搜索关键词。用户搜索时实现了那一刻的特定功能。而之后有的公司可以通过采集搜索流量数据来揭示消费者的喜好。在这一方面亚马逊公司有一个很好的案例。亚马逊公司早期与AOL达成了一项协议,为AOL电子商务网站提供后台技术服务。外人看来这只是一个普通的外包协议,但亚马逊真正看重的是掌握用户的数据。这些数据可以帮助亚马逊提高它的推荐引擎性能。

作者发现,由于在信息价值链中的特殊位置,有的公司可能会收集到大量的数据,但是他们并不急需使用也并不擅长再次利用这些数据。对这些公司来说,数据只具有狭窄的技术用途。但是当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。

在“移动运营商与数据再利用”案例中作者写到,移动运营商们记录了人们的手机在何时何地连接基站的信息,并长期使用这些数据来微调其网络的性能。但是这些数据也有很多其他潜在的用途,比如手机制造商可以用它来了解信号强度的因素。有的运营商创立了独立公司来向零售商和其他买家出售其收集到的匿名用户位置信息。

二、重组数据

在丹麦癌症协会的一项关于手机是否增加致癌率的研究中,他们分析了1 990年至2007年间拥有手机的用户,共涉及358403人。该国还同时记录了所有癌症患者的信息。结合这两个数据集后,研究人员开始寻找两者的关系。所有数据都是在多年前就已经生成,而且当时的收集目的与此项研究毫不相关。最重要的是,该研究没有基于任何样本,却很接近“样本=总体”。虽然最终并没有发现二者之间有什么联系,但这为“数据重组”提供了一条不错的经验,也为我们提示了更多的可能性。

三、可扩展数据

作者提出,促成数据再利用的方法之一是从一开始就设计好它的可扩展性。谷歌的街景汽车每时每刻都能积累大量的离散数据流。这些数据之所以具有可扩展性,是因为谷歌不仅将其用于基本用途,而且进行了大量的二次使用。例如,GPS数据不仅优化了其地图服务,而且对谷歌自动驾驶汽车的运作功不可没。

四、数据的折旧值

作者发现,随着时间的推移,大部分数据都会失去一部分基本用途。在这种情况下,继续依赖旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如在亚马逊公司的推荐系统中,你十年前买了本书,十年后系统继续依照这个数据为你推荐书籍。你很可能已经不再对这一类书感兴趣,甚至会担心该网站之后的推荐是否合理。所以亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。

然而作者认为,并非所有数据都会贬值。比如谷歌公司始终拒绝将互联网协议地址从旧的搜索查询中完全删除,因为它希望得到每年的同比数据。此外,通过了解搜索者的位置,可以帮助改善搜索结果的相关性。

五、数据废气

作者在书中写到,“数据废气”是一个用来描述人们在网上留下的数字轨迹的艺术词汇。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。在书中同样给出了案例来进一步说明这个创新。

在“微软与谷歌的拼写检查”案例中提到,在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序。由于需要不断编译和更新字典,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。谷歌公司则不同。可以说,谷歌拥有世界上最完整的拼写检查器,基本涵盖了世界上所有语言。这个系统一直在不断完善和增加新的词汇,这是人们每天使用搜索引擎的附加结果。而且谷歌几乎是“免费”地获得了这样的检查,它依据的是其每天处理的30亿查询中的错误拼写。谷歌的拼写检查系统显示,那些“不正确”、“有缺陷”之类的数据也是非常有用的。

作者认为,数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。

六、开放数据

书中写到,相对于谷歌等公司而言,政府才是大规模信息的原始采集者。由于政府在获取数据中所处的特殊地位,因此他们在数据使用上往往效率很低。于是“开放政府数据”的倡议响彻全球。

开放数据早期的一个例子,来自美国一个叫做Fly On Time.us的网站。该网站结合了航班信息和互联网免费提供的官方天气预报。通过这个网站,人们可以交互地判断恶劣天气使某一特定机场的航班延迟的可能性有多大。Fly Ontime.us充分体现了一个不收集或者控制信息的实体单位是如何像搜索引擎或大零售商一样,能够获取数据并利用其创造价值。

在阐述完数据的六个创新之后,作者的下一个话题是给数据估值。公司账面价值和市场价值之间的差额被记为“无形资产”。书中写到,在20世纪80年代中期,无形资产在美国上市公司市值中约占40%,而在2002年,这一数据已经增长为75%。无形资产早期包括仅包括品牌、人才和战略,但逐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴。

目前还找不到一个有效的方法来计算数据的价值。但随着会计窘境和责任问题得到缓解,几乎可以肯定数据的价值将显示在企业的资产负债表上,成为一个新的资产类别。

作者提出,一个给数据估值的办法,是从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。2008年在冰岛成立的Data Market向人们提供其他机构的免费数据集,靠倒卖商业供应商(如市场研究公司)的数据来获利。

第六章角色定位数据、技术与思维的三足鼎立

作者在这一章的序言中写到:如今我们正处于大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。作者将重点转移到使用数据的公司及其如何融入大数据价值链中,讨论了大数据对公司以及个人的事业和生活意味着什么。

书中描述了“Decide.com与商品价格预测”这个案例。在这个案例中,Decide.com推出了一个门户网站,想为无数顾客预测商品的价格。网络产品的价格受一系列因素的影响全天都在不断更新,所以公司收集的数据必须是即时的。这不仅是一个“大数据”问题,还是一个“大文本”问题,因为系统必须要对数据进行分析,才能得到需要的信息。经过一年的时间,通过对近400万产品的超过250亿条价格信息的分析,这家网站发现了一些过去人们意识不到的怪异现象。比如新产品发布时,旧产品可能会经历一个短暂的价格上浮。作者指出,事实上让Decide.com异军突起的不是数据,不是技术,而是思维观念。他们拥有大数据的思维观念,先人一步地挖掘出了数据的潜在价值。这造就了他们的成功。

作者发现,在大数据的价值链中,根据所提供价值的不同来源,也就是数据本身、技能与思维,分别出现了三种大数据公司。第一种是基于数据本身的公司,第二种是基于技能的公司,第三种是基于思维的公司。到目前为止,前两种因素一直备受关注。现如今,技能仍然欠缺,但数据非常之多。但过分强调技术和技能而忽略数据本身的重要性也是不可取的。作者强调,人力技术的落后会被慢慢克服,数据才是最核心的部分。

大数据掌控公司

大数据最值钱的部分就是它本身,所以最先考虑数据拥有者才是最明智的。他们可能不是第一手的收集者,但是他们能接触到数据、有权使用数据或者将数据授权给渴望挖掘数据价值的人。

四大机票预订系统之一的ITA Software就为Farecast提供预测机票价格所需要的数据,而它自身并不进行这种数据分析。原因一在于其商业定位不同,二在于它在大数据价值链上所处的位置。

相对地,VISA和Mastercard这样的信用卡发行商和其他大银行站在了信息价值链最好的位置上。通过为小银行和商家提供服务,它们能够从自己的服务网获取更多的交易信息和顾客的消费信息。Mastercard虽然也可以把这些数据授权给第三方使用,但它更倾向于自己分析、挖掘数据的价值。例如通过分析来自210个国家的15亿信用卡用户的650亿条交易记录,预测商业发展和客户的消费趋势,然后将结果卖给其他公司。MasterCard占据了收集数据和挖掘数据价值的黄金位置。我们可以想象,未来的信用卡公司不会再对交易收取佣金,而是免费提供支付服务。作为回报,它们会获得更多的数据,而对这些数据进行复杂的分析之后,它们又可以卖掉分析结果以获得利润。

大数据技术公司

这种公司拥有技术和专业技能,它们从数据中发现了价值,但它们最后却不得不将这些

价值拱手让给大数据拥有者。有些公司选择在两个类型中游移,也有的公司选择发展专业技能。比如说埃森哲咨询公司就和各行各业的公司合作应用高级无线感应技术来收集数据,然后对这些数据进行分析。在2005年埃森哲与密苏里州圣路易斯市共同合作的一个项目中,它给20辆公交车安装了无线传感器来预测公交车什么时候会抛锚以及维修的最佳时机,使得车辆更换零件的周期由30万或40万公里变成50万公里,帮助该城市节省了60万美元。在这里获利的不是埃森哲,而是圣路易斯市。

大数据思维公司和个人

第三种类型是有着大数据思维的公司和个人。他们能够先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。作者认为,很可能正因为他们是外行人,他们的思维才不受限制。他们思考的只有可能,而不考虑所谓的可行。

在“Flight Caster的大数据思维”这个案例中,布拉德福德·克罗斯用拟人手法解释了什么是有大数据思维。2009年8月,他和他的伙伴们一起创办了Flight Caster.com。这个网站主要致力于预测航班是否会晚点。数据拥有者做不到这样的事,因为他们没有这样使用数据的动机和强制要求。航空公司不可以这么做,也不会这么做,因为这些数据所表达的信息越隐蔽对它们就越有利。因为有着大数据思维,克罗斯和他的Flight Caster是第一个行动起来的,但也没比别人快多少。所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。

大数据思维这个概念以及一个拥有创新思维的人的地位,与20世纪90年代电子商务初期出现的情况是不一样的。电子商务先驱者们的思想没有被传统行业的固有思维和制度缺陷所限制,所以杰夫.贝索斯创建了网上书店亚马逊而不是巴诺书店。如今,拥有大数据思维的领导者通常自己并不拥有数据资源,但就是因为这样,他们不会受既得利益和金钱欲望这样的因素影响而阻碍自己的想法实践。

也有的公司集合了大数据的多数特点。谷歌和亚马逊就是三者兼备的典型例子。谷歌收集搜索时拼写错误的数据,它也有利用这些数据创建一个世界上最好的拼写检查程序的好点子,同时它自身也具备挖掘数据价值的技术。谷歌在大数据价值链中同时充当的这三个不同的角色,与谷歌其他项目整合后为谷歌带来了巨大的利润。除此以外,它还把掌握的部分数据授权别人使用,这样数据就能重复使用还可以产生附加价值。亚马逊也是类似的。虽然它们都是三者兼备,商业策略却不同。谷歌在刚开始收集数据的时候就已经带有多次使用数据的想法,而相对地,亚马逊更关注的是数据的基本用途而且也只把数据的二级用途作为额外收益。

作者认为,现在看来,在大数据价值链当中获益最大的是那些拥有大数据思维或者说创新性思维的人。但随着大数据时代的推进,别人也会吸收这种思维,然后那些先驱者的优势就会减弱。技能也是如此,越来越多的人会掌握这些技能,所以这些技能的价值就会相对减少。但不是说大数据技能不重要,只是这不是大数据价值的最主要来源。现在我们处于大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身中挖掘。

如果数据拥有者做长远打算的话,有一个小问题十分值得关注,那就是有些情况下会出现“数据中间人”,它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。数据拥有者可以让中间人充当这样的角色,因为有些数据的价值只能通过中间人进行挖掘。

交通数据处理公司Inrix就是一个很好的例子。它汇集了来自美洲和欧洲近1亿辆汽车的实时交通数据。私家车主的移动电话也是数据的来源。Inrix通过把这些数据与历史交通数据进行比对,再考虑进天气和其他诸如当地时事等信息来预测交通状况。Inrix是典型的独立工作的大数据中间商。它汇聚了来自很多汽车制造商的数据,这些数据能产生的价值要远远超过它们被单独利用时的价值。汽车制造商不一定掌握了分析数据的技能,它们更擅长造车,所以很愿意第三方来做这个预测的事情。

数据不再是单纯意义上的数据,它被挖掘出了新的价值。除了Inrix以外,大数据价值链上还出现了很多类似的中间人。这些中间人在这个价值链中站在了一个收益丰厚的位置上,但是它们并没有威胁到为他们提供数据的数据拥有者的利润。

有时候这些中间人不一定是商业性质的组织,也可能是非营利性的。比如2011年由美国几个最大的医疗保险公司联合创立的卫生保健成本协会。它们的数据汇集了来自3300万人的50亿份匿名保单。数据共享之后,这些公司可以看到在一个较小的独立数据库里看不到的信息。2008年9月,它发现美国的医疗花费比通货膨胀率的增长速度快3倍之多。显然医疗保险公司是不可能把它的数据给除非营利性机构以外的任何组织的。这个组织的动机更明确,运行更透明化且更富有责任心。

作者认为,大数据公司的多样性表明了数据价值的转移———由技术转移到了数据自身和大数据思维。随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。上文中的与供货商进行知识产权交易的欧洲汽车制造商需要一个科技公司为其挖掘数据的价值。这个公司虽然可以获得报酬,但大头在制造商那里。于是它改变商业模式,用部分报酬换取了一部分的分析结果,因为这个结果是可以循环使用的,这样在将来就可以继续创造新的价值。

对于中间商来说,公司之间不愿意进行数据共享的问题会让他们很头疼。但Inrix相信,到最后所有的汽车制造商都会意识到数据共享的好处。

Inrix与众多科技创业公司的商业模式不同,它的工作重心在设计上。微软掌握着技术的核心专利,但它认为,一个独立的小公司可能更容易被接受,更有利于汇聚行业内各方的数据并从知识产权中获利最大。2010年UPS就把它的UPS Logistics Technologies部门卖给了一家叫Thoma Bravo的私人股本公司,如今它可以为多家公司进行线路分析。该公司的首席执行官兰·肯尼迪解释称,如果是UPS Logistics,那么UPS的竞争对手肯定不会交出它们的数据,因此,只有让它变成一个独立的公司,UPS的竞争对手才会愿意拿出数据。最终每个公司都从中受益了,因为数据汇集之后,系统的精确性更高了。

在这一章中,作者还谈到了一个关于专家的消亡以及数据科学家的崛起的问题。作者提出,人类判断存在误区,一个似乎经过了理智讨论的事情其实是在没什么实际标准的情况下做出的决定,并没有什么客观标准。有一个很好的案例来说明专家的消亡和数据科学家的崛起。

奥克兰运动家棒球队的总经理比利·比恩抛弃了几百年一直依赖的选择球员的传统惯例,采用了一种依靠电脑程序和数学建模分析比赛数据来选择球员的方法。比恩的这种“赛伯计量学”取得了成功,他带着这支备受争议的球队在2002年的美国联盟西部赛中获得冠军,还获得了20场连胜的战绩。从那之后统计学家取代球探成了棒球专家,更多的球队开始争相采用“赛伯计量学”。

作者认为,人类从依靠自身判断做决定到依靠数据做决定的转变是大数据做出的最大贡献之一。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系上,没有受到偏见和成见的影响。

书中提到,大数据的先锋们通常并不来自他们做出了极大贡献的领域。他们是数据分析家、人工智能专家、数学家或统计学家,但是他们把他们所掌握的技能运用到了各个领域。

作者还强调,行业专家是不会真正消亡的,只是他们的主导地位会发生改变。未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样。

作者提出,人类的价值将不再体现在与思维类似的同龄人的交际上,而体现在与各行各业的人的交际上,因为这样知识就能广泛而深刻地进行传播。

在电子游戏领域,大数据的普通人才早已经和高级专家站在了一起,他们正在一同改变这个行业。过去,一个游戏中的各种设定都是基于设计师的创造力。但像Farm Ville这样的交互式游戏允许zynga收集用户数据以及在这些数据的基础上对游戏进行修改。事实上,这些游戏远远不止一个版本。该公司不仅会借助收集到的数据修补游戏的漏洞,甚至会针对不同的玩家设计不同的游戏。

作者认为,这种转变意义非凡。大部分人往往都通过经验、回忆以及猜测做决定。执行官们相信自己的决定,但是随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。

这里有一个很好的案例。The-Numbers.com利用海量数据和特定算法在一部好莱坞电影上映之前就能预测出它的票房。该公司通过寻找复杂的相关关系来预测一部电影的收入,而借助这个预测,这个公司甚至可以告诉客户改变哪些选择可以增收或者降低风险。

作者认为,大数据向小数据时代的赢家以及那些线下大公司提出了挑战,后者必须意识到大数据的威力然后有策略地收集和使用数据。同时,科技创业公司和新兴行业中的老牌企业也准备收集大量的数据。

大数据也为小公司带来了机遇,他们有着聪明而灵活的特点。最好的大数据服务都是以创新思维为基础的,所以它们不一定需要大量的原始资本投入。大大小小的公司都能从大数据中获利,这个情况很可能不仅适用于使用数据的公司,也适用于掌握数据的公司。这些使得消费者拥有了比以前更大的权利,他们可以自行决定把这些数据量中的多少授权给哪些公司。这样的情形很可能催生出一些中间商。如果成本够低,消费者又足够信任中间商,那么个人数据市场就很可能诞生。

大数据也会撼动国家竞争力。制造业大幅转向发展中国家,而大家都争相发展创新行业时,工业化国家因为掌握了数据和大数据技术,所以仍然在全球竞争中占据优势。但就像互联网和计算机技术一样,随着其他国家和地区开始采用这些技术,这样的领先地位将慢慢消失。

第三部分大数据时代的管理变革

第七章风险让数据主宰一切的隐忧

这本书用绝大部分讲述了大数据带来的好处。但凡事总有两面,作者在这一章中讲了对大数据时代的隐忧。书中用了一个非常形象的比喻。在大数据时代,我们时刻都像暴露在“第三只眼”的监视下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。

1989年,柏林墙倒塌。之前的40年间,民主德国国家安全局“Stasi”雇用了十万左右的全职间谍监视民众。甚至还让情人、夫妇、父母和孩子相互监视,导致人与人之间丧失了最基本的信任。民主德国是一个史无前例的受到如此全面监控的国家。

如今,我们时刻暴露在“第三只眼”下。在互联网出现前,一些专业数据收集公司就采集、记录了全球范围内大约几百万人口的数据,而它们提供的每个人的个人数据就多达好几百份。互联网的出现使得监视变得更容易、成本更低廉也更有效。如今不只是政府在暗中监视我们,亚马逊、谷歌以及社交网站们也通过各自的渠道监视着我们。大数据会加剧互联网时代我们的隐私受到的威胁。毕竟,大数据的核心思想就是用规模剧增来改变现状。

除了对隐私和倾向的不良影响,大数据还有一个弊端。我们冒险把罪犯的定罪权放在了数据手中,借以表达我们对数据和我们的分析结果的崇尚,但是这实际上是一种滥用。我们所冒的风险要比想象中大。如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,会导致的不良后果比定制的在线广告要严重得多。

20世纪有很多由于数据利用不合理所导致的惨剧。比如荷兰著名的综合民事记录数据被纳粹分子用来搜捕犹太人,1943年美国人口普查局递交了地址数据来帮助美国政府拘留日裔美国人,这一切都表明是数据处理帮助实现了大规模的屠杀。

不是所有的数据都包含了个人信息。事实上英国石油公司不需要也不想要个人信息,就能分析挖掘出他们所需要的数据价值。作者认为,这方面的数据分析并不威胁个人隐私。

但是目前所采集的大部分数据都包含有个人信息。甚至有的数据表面上并不是个人数据,但是经由大数据处理之后就可以追溯到个人了。比如在美国和欧洲部署的一些智能电表,它们每6秒钟采集一个实时读数,这样的数据就能暴露一个人的日常习惯这样的个人信息。

作者认为,大数据不仅仅是加剧了这种威胁,甚至已经改变了威胁的性质。因为大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想。更重要的是,大数据时代,很多数据在收集时并无意用作其他用途,而最终却产生了很多创新性的用途。所以公司告知个人收集哪些数据、作何用途,或者从一开就要用户同意所有可能的用途都是不可行的。在大数据时代,“告知与许可”这个经过了考验并且可信赖的基石,要么太狭隘限制了大数据潜在价值的挖掘,要么就太空泛而无法真正地保护个人隐私。

另外,用技术方法来保护隐私也是不可行的。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。而另一条技术途径在大部分情况下也不可行,那就是匿名化。2006年8月,美国在线(AOL)公布了大量的旧搜索查询数据,本意是希望研究人员能够从中得出有趣的见解。这些数据都是经过了精心的匿名化的。然而尽管如此,《纽约时报》还是在几天之内通过把“60岁的单身男性”“有益健康的茶叶”“利尔本的园丁”等搜索记录综合分析考虑后,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡妇塞尔玛·阿诺德。这引起了公愤,最终美国在线的首席技术官和另外两名员工都被开除了。

两个月之后DVD租赁商奈飞公司做了一件差不多的事情,那就是宣布启动“Netflix Prize”算法竞赛。该公司公布了大约来自50万用户的一亿条租赁记录。它们同样对数据进行了精心的匿名化处理,然而还是被一个用户认出来了。

这两种情况的出现,都是因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。

书中写到,在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加不堪设想。

我们现在收到的监控不仅来自国家,还来自各种各样的公司。它们在我们不知情的情况下采集了我们日常生活方方面面的数据,并且进行了数据共享以及一些我们未知的应用,这还是很恐怖的。

书中写到,据《华盛顿邮报》2010年的研究表明,美国国家安全局每天拦截并存储的电子邮件、电话和其他通信记录多达1 7亿条。为了弄明白这所有的数据,美国建立了庞大的数据中心,其中美国国家安全局就耗资12亿美元在犹他州的威廉姆斯堡建立了一个。

作者认为,相对于政府和企业拥有的这种采集信息的能力,另一个问题更让我们恐慌,那就是用预测来判断我们。

在电影《少数派报告》中,华盛顿特区警局预防犯罪组的负责人约翰·安德顿在一天早上冲进住在郊区的霍华德·马克思的家中并逮捕了他,后者正打算用剪刀刺杀他的妻子。警方开始控制他,但他其实还什么都没有做。这部电影描述的是一个未来可以准确预知的世界,而罪犯在实施犯罪前就己收到了惩罚。人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。这个电影中的预测依靠的不是数据分析,而是三个超自然人的想象,但是电影中的这个令人不安的社会正是不受限制的大数据分析可能会导致的。

在孟菲斯市,一个名为“蓝色粉碎”的项目为警员提供情报,关于哪些地方更容易发生犯罪事件,什么时候更容易逮到罪犯。在里士满的另一个项目中,警察把犯罪数据与其他数据相关联,比如当地举行运动赛事或音乐会的时间。这些系统通过预测来预防犯罪,最终要精准到谁会犯罪这个级别。

但是这很危险,因为如果我们可以用大数据来预防犯罪,我们就可能会想进一步惩罚这个未来的罪犯,这也是符合逻辑的。基于预测基础上的惩罚似乎也是我们现在惯行方法的一种提升。

作者认为,大数据所做的和我们以前所做的没有本质上的差别。如果大数据预测只是帮助我们预防不良行为,那么似乎是可以接受的。但如果我们使用大数据预测判定某人有罪并对其尚未实施的行为进行惩罚,就可能让我们陷入危险的境地。基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对它负责。

如果大数据分析完全正确,那么我们的未来就会被精准地预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。当然,这是不现实的。大数据分析只能预测一个人未来很有可能进行的行为。

宾夕法尼亚大学教授理查德伯克建立了一个大数据模型,声称这个模型可以预测一个判缓刑或者假释的人一旦提前释放会不会再次杀人。这个模型据他本人称对未来行为预测的准确率可以达到75%。这听起来不错但也意味着如果真的依靠他的分析,那么每四个人当中就会出现一次失误。

作者认为,最主要的问题是我们在人们真正犯罪之前对他进行惩罚否定了人的自由权利,也否定了法律系统或者说我们的公平意识的基石——无罪推定系统。也许,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否定了我们之所以为人的重要组成部分———自由选择的能力和行为责任自负。大数据成了集体选择的工具,但也放弃了我们的自由意志。

但是作者强调,大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。人们习惯性地从因果关系的视角来理解世界,因此大数据总是被滥用于因果分析,而且我们往往非常乐观地认为,只要有了大数据预测的帮助,我们进行个人罪责判定就会更高效。这很可能会导致我们生活在一个没有独立选择和自由意志的社会。

大数据在带来新威胁的同时也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。罗伯特·麦克纳马拉的例子能够很贴切地揭示大数据分析的不可靠性。

麦克纳马拉是一个执迷于数据的人。他年轻的时候成为了五角大楼中被称为“统计控制队”中的一名精英。这个队伍让世界权力的中心人物都开始依靠数据进行决策。1 943年制作的综合清单为部队节省了36亿美元。后来他们决定挽救福特公司。他们不关心如何制作汽车,但是却救活了福特公司。麦克纳马拉是典型的20世纪经理人——完全依赖数字而非感情的理智型高管,他可以把他的数控理论运用到任何领域。后来他被肯尼迪总统任命为美国国防部长。随着越南战争升级和美国加派部队,这变成了一场意志之战而非领土之争。于是,评判战争进度的方法就是看对方的死亡人数。但事后的调查显示仅有2%的美国将军们认为用死亡人数衡量战争成果是有意义的,而三分之二的人认为大部分情况下数据都被夸大了。下级军官为了达成命令或者升官,会汇报可观的数字给他们的上级,只要那是他们上级愿意听到的数字。

书中举过无数谷歌的例子,我们明白它的一切运作都是基于数据基础之上的。很明显,它大部分的成功都是数据造就的,但是偶尔谷歌也会因为数据栽跟头。谷歌的创始人一直强调得到每个应聘者的SAT成绩以及大学毕业时的平均绩点。尽管公司内部研究早就表明,工作表现和这些分数根本没有关系,谷歌仍然冥顽不化。谷歌对数据的依赖有时太夸张了,甚至到了数据独裁的地步。2009年谷歌首席设计师道格·鲍曼因为受不了随时随地的量化,愤然辞职。她离职后在博客上说,“谷歌完全是工程师的天下,所以只会用工程师的观点解决问题———把所有决策简化成一个逻辑问题。数据成了一切决策的主宰,束缚住了整个公司。”

作者认为,卓越的才华并不依赖于数据。他提出,只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成强大的武器。大数据诱使我们犯下罗伯特·麦克纳马拉所犯的罪行,也让我们盲目信任数据的力量和潜能而忽略了它的局限性。我们必须杜绝对数据的过分依赖。

第八章掌控责任与自由并举的信息管理

这一章是本书正文的最后一章。在这一章中,作者讲述了信息管理上的变革———责任与自由并举。书中这样写到:我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。

大数据早己开始推动我们去重新考虑最基本的准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁,但我们也许只有几年时间去适应。作者认为,在大数据时代,我们需要全新的制度规范。想要保护个人隐私就需要个人数据处理器对其政策和行为承担更多的责任。同时,我们必须重新定义公正的概念,以确保人类的行为自由(也相应地为这些行为承担责任)。

一、个人隐私保护

作者发现,在过去的数十年中全球范围内的隐私规范都把控制权放在了人们自己手里。在互联网时代,这个伟大的理想往往都会演变成“告知与许可”的公式化系统。在上一章中阐述过,由于大数据时代数据的价值主要集中在二级用途上,所以“告知与许可”就不能再起到好的作用了。作者提出,应该由个人许可转向让数据使用者承担责任。

作者认为,未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对大数据使用进行正规评测及恰当使用,可以为数据使用者带来切实的好处,但相反地,它们也需要承担责任。作者强调,数据使用者的责任只有在有强制力规范的情况下才能确保履行到位。

作者认为,将责任从民众转移到数据使用者很有意义,也存在充分理由。因为数据使用者比任何人都明白他们想要如何利用数据。也许更为重要的是,数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们对自己的行为负责。

另外一点与现在大多数隐私保护法不同的是,在数据使用者达到最初的目的之后,法律上不再规定必须删除个人信息。这样,数据的二级用途才能被更好地挖掘。所以,社会必须平衡二次利用的优势与过度披露所带来的风险。为了实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。

作者认为,更适用于大数据时代的平衡原则是:公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。除了管理上的转变,新的技术方式也可以用来保护个人隐私。比如“差别隐私”就是通过故意将数据模糊处理,从而使得对大数据库的查询不能显示精确的结果而只有相近的结果。

个人隐私保护从个人许可到数据使用者承担责任的转变是一个本质上的重大变革。我们必须将类似范围内的变革应用到大数据预测中去,以维护人类的自由和责任。

二、个人动因VS预测分析

在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。

通过保证个人动因,我们可以确保政府对我们行为的评判是基于真实行为而非单纯地依靠大数据分析。从而,政府只能依法对我们过去的真实行为进行追究,而不可以追究大数据预测到的我们的未来行为;或者,在政府评判我们过去的行为时,也应该防止单纯依赖大数据的分析。

相似的原理也要应用到政府领域之外,比如公司在决定雇用或解雇的时候。作者认为,如果他们单纯依据大数据预测做出这些决定,特定的保护措施就必须到位。这包括公开原则、公正原则、可反驳原则以及确保个人动因能防范“数据独裁”的危害。

作者提出,保护个人责任也同样重要。例如,“预测警务”的运算法则鉴定某个青少年在未来五年有犯重罪的倾向,而当局决定定期拜访并尽力解决他的问题。如果周围的人将这个拜访视为一种耻辱,那么的确是对未发生行为的惩罚。而如果只是一种降低风险的方式,那么情况也不会有太大改观。书中强调,社会越是用干预、降低风险的方式取代为自己的行为负责,就越会导致个人责任意识的贬值。否认个人为其行为承担责任实际上就是在摧毁人们自由选择行为的权利。如果国家做出的许多决策都是基于预测以及减少风险的愿望,就不存在所谓个人的选择了,更何况自主行为的权利。

三、击碎黑盒子,大数据算法师的崛起

目前,计算机系统做出决策的方式是基于程序明确设定所需遵循的规则。这样,当决策出错时就可以回过头来找到原因。然而有了大数据分析,这种追踪会变得愈发困难。大数据的运作是在一个超出我们正常理解的范围之上的。所以在这种背景下,我们能看到大数据预测、运算法则和数据库存在着变为黑盒子的风险。为了防止这些情况的出现,大数据将需要被监测并保持透明度,以及使这两项得以实现的新型专业技术和机构。

社会发展中出现过很多这种情况,当一个特定领域变得特别复杂和专门化之后,就会催生出对运用新技术的专门人才的迫切需求。大数据将要求一个新的人群来扮演这种角色,作者称他们为“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员。他们必须保证公正和保密。他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的解读是否正确合理。一旦出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。

作者提出,外部算法师将在客户或政府所要求的任何时间,根据法律指令或规章对大数据的准确程度或者有效性进行鉴定,也可为需要技术支持的大数据使用者提供审计服务。在人们认为受到大数据预测危害时,也可向他们咨询。而他们也会有自己的行业规范。

内部算法师则不同。他们在机构内部工作,监督其大数据活动。他们不仅要考虑公司的利益,也要顾及受到公司大数据分析影响的其他人的利益。遭受其公司大数据危害的人会最初与他们取得联系,他们也会在大数据分析结果公布之前对其完整性和准确度进行审核。为了做好这样的工作,算法师首先要做到的就是必须在工作机构内部拥有一定程度的自由和公正。书中还提到,与内部算法师相似的职业已经存在,即负责确保企业不滥用个人信息的职业人。

四、反数据垄断大亨

作者认为,随着以上三个转变的完成,大数据的不利影响将得到控制。但随着尚未成熟的大数据产业不断发展,我们必须防止21世纪数据大亨的崛起,它相当于19世纪强盗大亨的现代翻版。

为了确保给大数据提供一个与早期技术领域情况相当的活跃的市场环境,我们应该实现数据交易,比如通过授权和协同合作的方式。我们可以学习反垄断法的发展历史。反垄断法适用于多个领域,它是不带有任何偏袒的强有力的规章,因为它提供的是一个平等的竞争平台。反垄断法的经验是,一旦确定了极重要的原则,管理者就要将之付诸行动,以确保保护措施的实施到位。

作者提出,大数据和其他领域的新技术一样,带来了无法彻底解决的挑战。另外,它们也不断对我们管理世界的方法提出挑战。而我们的任务是要意识到新技术的风险,促进其发展,然后斩获成果。书中强调,在推进科学技术进步的同时,应确保人类自身的安全。因此,我们不能让大数据的发展超出我们可以控制的范围。

附录:

《〈大数据时代:生活、工作与思维的大变革〉提要》写作报告

北京市陈经纶中学高二洪方恩

选题来源

2014-2015学年度第二学期,我们高一年级的信息技术学科开设了“数据管理技术”课程。在第一节课上,陈阳老师说“数据管理技术”课程的理论性比较强。为了引导同学们理论联系实际地学习,为了开阔同学们的视野,也为了活跃课堂气氛,他要征召一位志愿者带领大家开展读书活动。这位志愿者每周都要按计划读书,并在每节课的前5分钟把自己最新的阅读收获分享给大家。

这是一个看似简单实则艰巨的任务。在挑战这个任务之前,我还是犹豫了一阵子。作为班里的团支部书记,我平常有一些工作需要完成。因为爱好运动,我参加了学校的篮球队和健美操队。作为两支队伍的队长,我定期要参加训练。因为家离学校比较远,我平常住在学校,能自由支配的时间不多。因此,时间对于我来说,是非常关键的一个因素。经过一番认真的思考,我还是决定接受这个任务。老师说的这个任务的主题我十分感兴趣。虽然这对我来说是一个挑战,但我很乐意接受这个挑战,并且我已经为迎接这个挑战做好了准备。

陈老师推荐给我们读的这本书是浙江人民出版社2013年1月出版的《大数据时代:生活、工作与思维的大变革》(ISBN:978-7-213-05254-5),作者是维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)和肯尼斯·库克耶(Kenneth Cukier)。为了完成每节课的5分钟的小讲座,我边读书边做简要的阅读笔记。就在整本书快要读完的时候,我忽然觉得这本书真的是一本好书,有很多内容值得深入思考和借鉴。我决定开始写《提要》。这样,我不仅可以在将来利用它回味很多重要的、有价值的和有意义的内容,更可以把它分享给我的家人、同学与老师们。

写作设想

在开始写这部《提要》之前,我对如何写作有了一个初步的设想。

首先,我要对之前完成的阅读笔记做一个简要的回顾,解决因为阅读时间跨度较长导致的遗忘问题。

其次,我会从原著的目录入手,将《提要》分成几个部分,每个部分从书中的案例、观点、叙述、解释和分析中提取出精华内容。

再次,我计划将《提要》的每一章的字数控制在一定规模,并随着写作过程整理出每一章的关键案例索引表和关键语句索引表。最后,合并形成整本书的关键案例索引表和关键语句索引表,供自己日后备查。

第四,在完成《提要》的初稿之后,与陈老师进行一下交流。在此基础上对《提要》的内容做出微调,形成《提要》的终稿。

写作过程

在实际写作时,我基本上按照写作设想当中的步骤完成。我发现,这本书当中的许多语句具有高度概括性并且能够直接反映作者观点。这些语句在我的阅读笔记当中也有体现。于是,我从书中找出对这些语句的观点进行阐释的案例,并从作者的角度对其进行了介绍。

在完成《提要》的初稿之后,我根据原著中的引言和结语部分对《提要》进行了一些微调。这时,老师推荐我略读一下《西方伦理学名著提要》(江西人民出版社2000年4月第1版,ISBN:7-210-02204-X/B·64)一书。在借鉴了一些写法后,最终完成《提要》的终稿。

后记

通过阅读《大数据时代:生活、工作与思维的大变革》,我第一次和“大数据”有了接触。在此之前,我并没有听说过这个词。通过阅读,我了解到大数据的一些基础的理念和价值,并且对其产生了浓厚的兴趣。最让我感兴趣的是大数据的预测。在大量看似无关的数据背后,我们甚至可以对人类未来的行为进行预测,这是多么神奇的一件事情。另外我还了解到,大数据的商业价值是十分巨大的。在未来,大数据将成为主流,我们的确有必要去了解它。在阅读的过程当中,我开阔了眼界,也反思了一下自己的一些思维方式。阅读这本书,我收获更多的是在知识和思维方式方面。

此前,我从来没有做过任何一个上万字的课题,更从来没有对一本书进行过这种庖丁解牛式的分析和提要。在撰写这部《提要》的过程当中,我的观察、分析和理解社会现象的能力,语文方面的阅读、写作、分析和概括能力,做事的条理性和逻辑性都得到了一定程度的锻炼与提升。这或许是我写这部《提要》的最大收获。

在我完成这个项目的过程中,2015年5月8日星期五出版的《中国教育报》在第1版刊登了《在线学习也能拿清华学位》的文章。文章谈到,清华大学正式宣布启动国内首个混合式教育的硕士学位项目———“数据科学与工程”专业硕士学位项目。该项目以实践为导向设计课程体系,既汇聚清华大学计算机科学与技术系、软件学院、自动化系、交叉信息研究院等院系的知名教师,还将由研发一线专业人士讲授企业案例课程。清华将与百度、阿里、腾讯等企业合作建立学生实践基地,还特别按需定制专用大数据实验平台,旨在培养我国急缺的大数据人才。

2015年9月6日星期日出版的《京华时报》在第2版刊登了《我国2018年底前建成政府数据统一开放平台》的文章。文章谈到,国务院日前印发的《促进大数据发展行动纲要》指出,到2018年底前建成国家政府数据统一开放平台,率先在信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重要领域实现公共数据资源合理适度向社会开放。

2015年10月30日星期五出版的《中国青年报》在第1版刊登了《中共十八届五中全会在京举行》的文章。文章谈到,“中国共产党第十八届中央委员会第五次全体会议,于2015年10月26日至29日在北京举行。……全会强调,实现“十三五”时期发展目标,破解发展难题,厚植发展优势,必须牢固树立并切实贯彻创新、协调、绿色、开放、共享的发展理念。……,实施国家大数据战略。”由此可见,大数据在我们国家的地位越来越重要了。

创新点

作为一名普通的高中生,我可能很难对大数据进行非常专业和深入的研究,也很难写出具有较高学术价值的论文。但通过这部在自己认真阅读的基础上撰写出来的《提要》,我可以让我周围的人对大数据有更多的了解和认知。即使我的家人、同学甚至是老师们没有时间或没有兴趣认真读原著,读读我这部《提要》也会有很大的收获。

目前,我的职业规划选项包括信息技术行业。有了这部《提要》,特别是留作自己日后备查的关键案例索引和关键语句索引,将来在学习和工作中需要引用相关内容时将给我带来极大的方便。这部《提要》也将对我未来的职业起到一定的影响作用。

参考文献

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【大工作范围】相关文章：