腾讯大数据报告范文

2022-06-16

在我们的学习与生活中，根据自身的需求，编写出格式正确、逻辑合理的报告，已经成为生活与学习的常见流程。该怎么样写出适合自身工作实际的报告？下面是小编为大家整理的《腾讯大数据报告范文》，仅供参考，希望能够帮助到大家。

第一篇：腾讯大数据报告范文

拿到2015年阿里运营、百度大数据产品经理、腾讯产品策划Offer的面经分享

曾无数次假设过毕业找工作的样子，却没想到这个求职季走的异常平淡，在一个星期内相继接到了阿里和百度的橄榄枝，之后又在打酱油的霸面中拿下了腾讯。

几经考虑后，选了一个在很多人看来也许不是最好，但自己却觉得最合适的，人不能贪心地想把所有好处都占着，而最好的也未必是最适合的。所谓选择也许只是综合了多方面因素，取重去轻后做出的一个现阶段的决定，它会影响一段时间，但却未必是一辈子，毕竟后来的道路上我们还会不断自我修正。

在面试之前也在网上看过一些面经，所以从感谢前辈和回馈后来者的角度还是要先写点干货，不过我觉得真正有用的还是那点心得体会，世界上没有绝对的真理，只是单纯记录这一阶段自己的一些想法，希望能有所帮助。

一、阿里运营

阿里的校招历年都是互联网公司里边行动最早的，8月底之前就会截至网申，所以锁定互联网行业的小伙伴们一定要早行动。

在线笔试全部是开放性问题，主要是对个人经历和一些产品运营类的思考。

面试分为三到四轮，群面，一到两轮专业面，HR面，整个流程节奏非常快，两天搞定，第二天晚上直接出结果。

1、群面

我们这组的群面过程是，轮流自我介绍，分析每个人的优势，然后每个人15分钟时间，针对暖男在淘宝上做一次运营活动，15分钟自我思考后每人分别陈述，最后大家统一意见选出一个方案进一步讨论完善，再由一个代表做陈述总结。

关于群面就是把它当成一次真实的团队协作，大家共同努力解决一件事情，而至于做什么角色完全取决于你本人的优势，还是那句话最适合的才是最好的。我个人的优势在于清晰的逻辑思维和陈述总结能力，所以在团队协作中会做一个倾听者和框架的搭建者，在大家跑题的时候适时拽回来，另外能在凌乱的陈述中迅速梳理重点并清晰表达做最终陈述，但是缺点是不愿意跟别人争，所以如果团队中碰到喜欢抢话又提不出建设性意见的搅局者就会比较惨。

2、专业面

采用的是交叉面的方式，两轮时间分别在1小时左右，会针对你的简历经历问一些项目的问题，另外也会在你的项目经历上做一些延伸性的提问，所以两点很重要，第一写在简历上的经历必须真实且有的说，第二面试前自我提问式地回顾之前的项目也很重要，毕竟时间久了谁都会记不清。另外专业面还会问一些跟面官的项目相关的问题，比如天猫双十一你有什么运营上的创新点子，你怎么看待阿里产品和运营的区别等。

我认为最好的单面的状态应该是聊天，所以不光是面官问，你来答的状态，也可以适当地去引导面官的提问。比如我会从自己之前的餐饮O2O经历扯到淘点点，从之前自己的旅行经历和在蚂蜂窝的工作经历扯到淘宝航旅，也会去往一些近期的运营动态上去靠，比如当时比较火的S2O的案例女神的新衣，天猫APP中刺激UGC产生的频道FUN，而这些内容除了之前长期的关注和积累外，也有一些是可以短时间内去集中恶补的。

阿里的面官还有个特点就是蛮喜欢听故事的，所以除了工作经历外，如果有些其他能佐证你某项品质的故事也是可以讲出来听听的，但是前提是它是有效信息且能调动对方兴趣，比如讲到策划能力和执行力的时候我说到了自己线上卖明信片的故事，当面官问及看起来你一路都很顺没吃过苦的时候，就开始给他讲当年自己在没有暖气的房子里一个冬天的北漂故事。不过讲故事的前提还是，你真的得是一个有故事的人，这个恶补不了。

3、HR面侧重于考验你这个人本身，特别是一些真实性的问题，这个过程会很轻松，但是在和风细雨中也极有可能埋有雷，所以再次强调在面官面前真实性最重要，你的情商还不足以在他面前耍小聪明，阿里的HR当时就揪住了简历上特别不起眼的一句话，是大二的时候在媒体的一段经历，让我详细阐述是怎么实现的以及自己从中承担了什么任务，我只能很坦诚地说时间过去太久，确实记不清楚，而且当时自己毕竟是一个大二的学生，还不足与在一个联动全国各省市媒体的活动中承担太重要的角色顶多就是一个联络的工作，不过细想来也怪自己在简历上给自己埋了一个雷。面试中还会有一些比较有趣的问题，比如你这么喜欢旅游，又做过西南西北自助游的创业项目，那给我画下中国的地图吧，再给我推荐些旅游目的地。

二、百度大数据商业产品经理

这是一份我蛮不舍的工作，确实也得来的不易，百度商业产品经理是目前接触的所有互联网类职位中要求相对最高的，首先笔试环节就会挂掉一大批的人，它对一个人的逻辑思维能力、语言表达能力，数理分析能力，甚至与气场都会有比较高的要求。

鉴于自己之前的经历和接触的东西都是用户产品类的，对于商业产品并没有太大的信心，但还好对于应届他们是有耐心的，不需要你有完全匹配的经历，只要在综合素质上符合他们的要求，他们是有耐心和时间去培养的，毕竟对于很多中国的大学生而言，步入职场才是真正学习的开始，而之前在学校只是教给你了学习的能力。

1、一面

时长大概在半小时，主要是挖简历上的内容，说白了是考察你这个人还有之前的经历，如果你有互联网的相关经历，会集中在这部分来问，我是有两段互联网公司的实习经历加两次互联网创业的项目经历，这部分对创业项目问的比较多，比如针对其中的一个旅游项目，跟市面上其他的同类产品和百度内部同类产品之间的对比分析。所以也打消了我最初的顾虑，作为应届，就算你没有产品类经历也是可以投产品经理的，就算你没有接触过商业产品，也是可以尝试的。

2、二面

时长持续了1个多小时，这是所有面试中最像聊天的一轮面试，面官人很好，在问完问题的时候会补上一句，你可以尝试着说说你的想法，我对这个问题也没有想太清楚，我们可以共同讨论下之类的话，所以很像两个喜欢互联网热衷于研究产品的朋友之间的聊天。这部分主要都是些开放性的问题，鉴于对商业产品了解并不是很多，加上当时百度刚刚推出直达号，所以针对直达号谈了很多自己的想法，过程中也涉及到一些自己之前做餐饮类O2O项目时跟线下接触的一些经验。当然在产品讨论之余也会问一些素质考验型的问题，如我提到了产品经理的沟通协调能力，就被问到，如果你是直达号的产品，这个产品上线后有可能损害到百度内部哪些产品的利益，如何去协调这个关系。

3、三面

就像三面的面官所说，到了这个环节，就是一个双向选择的过程，在面官了解你的同时，你也要尽可能地去了解将要进行的这份工作，这个团队，甚至于这个领导，当然对于应届来说，还是多少会有些压力的，因为很少能看到应届面试的时候双方处于一个很平等对谈的位置，多少会有些紧张和担忧。

这个环节，面官考核的重点我觉得是综合素质和气场，很赞同后来这位面官跟我说的话，一个人跟一个团队的气场契合很重要，就跟一家人一样，不是一家人不进一家门。所以顺便说一句宽慰大家的话，有些时候被拒未必代表你不够优秀，也许只是气场不够契合。而气场外化的体现，就是你的言谈举止，自信的人最美，而有理有据说话让人信服也是助力面试成功很重要的一点。我身边也有很多极其聪明，很有想法，但是嘴皮子跟不上脑袋运转速度，甚至于完全不能同步运作的人，针对这类人，建议可以重点锻炼下语言表达能力，模拟情景地做一些演讲，录下来自己听听，然后不断修正是会有帮助的，如果实在不行，也不要勉强，毕竟人各有所长，那就去无限放大自己的优势就好了。

三、腾讯产品策划/运营

腾讯内部好像不太细分产品策划和运营，所以招聘的过程也是混在一块进行的，因为8月份招过一次产品培训生，所以这次产品的招聘拖到了10月，而且需求量也不大。决定再去霸面下腾讯，可能有之前产培挂在了群面的遗憾，也有纯粹想体验下霸面的感觉的新奇，当然更重要的一点是，离开上海两年后很怀念那个时候周末扫街时压的马路，于是就想借着这么个引子再去逛逛徐汇和卢湾，走走思南路、雁荡路、陕西南路„„

1、霸面

互联网公司是比较开放的，所以一般都会接受霸笔、霸面这事，不过一般霸群面是比较容易的，只要你有耐心等，但是霸单面就比较难了，这次第二天的单面，愣是一个霸面的都没放进去。

2、群面

上午游荡着愣是被百度地图骗到了一个距离腾讯大厦3公里开外的地方，差点就放弃去面试直接跑去压马路了，后来鉴于跟朋友约好，还是赶了过去，霸面的大概有20个左右，交份简历，坐那等，如果面官挑中你的简历，就会被安排进某一组面试，索性有很多霸面的小伙伴一起等，过程到是很轻松有趣。

我们组的群面题是给广场舞大妈设计一款产品，这一组成员比较多，大概在十三四个的样子，一开始的规则是轮流发言，我前方的四五个人分别陈述了很多后都还没扯到互联网和产品上来，明显带着大学生办社团活动的思路来对待这个问题，吸取了上次产培群面太谦逊的状态，还是决定稍微带动下团队的节奏，不然怕又出现上次马上到时间大家还没统一意见的惨剧，其实群面最怕的就是碰到奇葩队友，当然这个全看运气，还好这次运气没上次那么背，搭好框架后大家也就顺着讨论起来了，再适时补充下，提些有亮点的建议，最后的总结陈述不算出彩，但至少把大家思考的精华都总结出来了。

3、专业面

专业面的面官是群面面官之一，这个时候也基本能判断出来你有可能进入哪个部门，对于我们这种霸面没有选部门的人来说，这还真是个随机随缘的事情。我的面官是偏图像类产品的，所以对我摄影和旅游的爱好比较看重，插一句话，人有些爱好总是好的，即使它看起来有些不务正业，但是但凡你喜欢并且乐于钻研它，从中积累的东西，早晚都会让你受用无穷，比如那些拿到游戏策划offer的很多就是从不务正业地玩游戏开始的，但是这不是鼓励大家都去玩游戏或者出去旅游，凡事有个度，掌握平衡很重要，玩的过程中的思考和自我技能的提升更重要。腾讯的面试还是比较费脑子的，甚至于还会问一些考验智商的题，比如时针、分针、秒针一天重合几次;估算中国iPhone用户的比重;烧一根质地不均匀的绳子需要一小时，现在有一把，让它恰好烧1小时15分钟，怎么实现。关于智力题这事，我觉得除了考验智商外，更重要的是考验你的应急能力，我是分分钟被自己的智商蠢哭的纯文科生，庆幸面官没有就此把我pass掉，所以就算你不能立马答出这些问题，你也还是有希望的。另外就是会涉及到一些产品方面的问题，比如你常用的图片类的APP 有哪些，如果让你做一款图片类的APP 你会从哪个角度切入，用三句话概括它的亮点，大众点评的APP产品优化你有哪些提议，对现行的社交类产品怎么看，都关注哪些互联网类的媒体，从哪些渠道获知信息等，反正这些天马行空的问题真的都是得看平时的积累，看看自己手机里满屏的APP和飘红，外加没事把APP store当淘宝逛得习惯，总归是能扯一些东西的。

4、总监面

又是为时1个小时的一场面试，这场面试是脑细胞死的最多的，因为基本上他不会去考察任何你可能准备好的经历或者case，所有的问题都是在聊天的过程中抛出的假设情境下你会怎么做的未来时问题。针对包车自助游项目的创业经历，问到了如何准确定位你的目标用户并估算数量，你之前只是做针对西北西南的包车自由行中的租车业务，那如果现在我是风投，你怎么说服我投你，资金资源到位的情况下，业务领域怎么扩展，过程中扯了很多旅游类互联网的东西。找工作都看哪些网站，应届生这个网站如果优化怎么做，做独立APP的话，画一个demo图，阐述下产品思路和框架逻辑关系。鉴于当天脑细胞损伤严重过去的时间又久，很多问题已经记不清了，当然还有个智力题记得很清楚，说俩人一块从一个筐里拿苹果，一共100个，每次每人只能取不超过5个，对方先拿，怎么能保证最后一个是你拿到，估计又是一个理工科秒答，我要推半天的题，神伤。

四、一些心得体会

1、心态是最重要的。对于应届生而言，不着急、心气太高、孤注一掷是一个极端，太着急、太浮躁、海投海面是另外一个极端，心态调整好很重要，工作总归会有的，而且是最适合当下的自己的，可能没别人的好，可能没达到你的预期，可是一切才刚刚开始，起头的这步其实什么都决定不了。

2、早点明确自己的喜好，和想要从事的行业。对于中国学生而言，打小更多的就是填鸭式教育，很少想得清楚自己想要什么喜欢什么，如果高考填志愿的时候你这么说我觉得可以理解，但是大学毕业甚至研究生毕业的时候还这么说，就只能说你已经错过了人生一个很好的试错阶段。

学生时期我尝试过很多事情，有务正业的也有不务正业的，呆过报社、电视台，后来又转去互联网，在一度迷茫的时候还去体验了一下房地产，最后还是坚定地回归了互联网。除了实习自己还参与过两个互联网的创业项目，在创业公司给你的锻炼是远超出想象的，毕竟在公司体量很小的时候，是不会有具体的职能区分的，于是产品、运营，甚至商务，市场都会接触，从中学到了很多更重要的是明确了自己的不足。当时去创业的时候曾经告诉自己，在这么好的试错空间就该去尝试，就算失败了又能怎样，我又没损失什么，只要顺利毕业我至少没比别人落后，而这段经历是无价的。

3、只要去经历都是好的。我是个精力过度旺盛的人，喜欢挑战和尝试不同的事物。不过究其根本还算好学生，本科年年奖学金毕业直接保送研究生，但是也做过很多所谓的坏学生会做的事，体验过间隔年，临近毕业的半年走了很多地方，会去青旅做过义工，会一随性跑西藏呆一个月，会保持着一个月出行一次的频率，或近或远，反正我赚的那点钱都用来旅行了;身边的人总是弄不清楚我的状态，有人觉得我在读书，有人觉得我在工作，还有人觉得我天天都在玩，所以也变相验证了不要单纯地相信自己片面的视野范围内告诉你的事情。除此之外，出于兴趣爱好，也是为了给自己多赚点外快，还会同时兼职做一些工作，比如咖啡馆微博运营，杂志专题写作，线下活动组织等，而这些看似做着玩的活动在面试的过程中反而也能帮到你很多。比如有一次从产品的一个“约饭”的功能延伸到陌生人社交类产品，再去挖掘需求的时候，我就可以直接把海伦屋做线下美食、摄影、桌游等活动的案例搬出来，这样的回答也许会显得不那么空虚。

4、我们都不乏好的想法，但是缺乏说做就做的执行力。其实这点，我自己也蛮惭愧的，有100个想法，却未必有1个执行了的，但是在某些事情上，还是够雷厉风行的，比如当时心血来潮地卖明信片，思考到落地执行只用了不到2天，只问了自己一个问题，如果成本全赔进去，能承受吗，其实只要回答是yes那就去试吧，反正年轻没什么输不起的。

5、人是社会人，你身边的人的高度在某种程度上会决定你的未来。我是一个不擅于维系人脉的人，因为觉得人脉这个词太冰冷，但是我喜欢交朋友，因为朋友是一种基于感情无关利益的存在。也很庆幸自己一路走来总能有贵人相助，就说一句话，世界是公平的，与人善，于己善，在索寻所得时先去看看自己付出了哪些。

6、路是一步步走出来的。自己没有太大的野心，也说不好几年或者几十年后的事情，唯一能做到的就是每天别让自己闲置，闲久了人会废掉，今天比昨天好一点，明天比今天好一点，然后这么一步步走下去就好了。在做职业抉择的时候我们都会考虑长远发展的问题，但是在这个瞬息万变的时代，其实以我们现在的浅见根本看不到多远的长远，所以谁都说不好明天，我们都在摸索着前行，而最需要做的就是看好眼前脚下的路，用力过好今天。

7、再度回归到心态。希望看完这篇所谓的面经，记住的不只是面试中的问题;希望不要去抱怨“凭什么”，多去问问“为什么”，身边还是有很多不拼爹，靠自己的;希望你想的不是复制某某某的路，还是在综合考虑自己各方面特质后，给自己量身定做一条属于自己的路，不要活在“别人家的**”怎么样的世界里;希望你能心存感恩地看待这个世界，每一个机会，每一次挫折，每一个朋友甚至每一个敌人。

第二篇：大数据报告

课程总结报告

学生姓名：尹怡学

号： 1370714 导

师：庞哈利专

业：控制工程所属课群：学位课

课程名称：前沿技术与职业发展课程负责人：徐林

课程开设日期： 2014.6.23-2014.12.31

东北大学信息科学与工程学院

2014年

科学技术创新对大数据发展的动力

1.绪论

随着信息技术的飞速发展，人类社会进入数字信息时代。获取和掌握信息的能力己成为衡量一个国家实力强弱的标志。一切信息伴随需求不同决定其效益不同，而一切有益信息都是从大量数据中分析出来的。海量数据又随时间持续产生、不断流动、进而扩散形成大数据。大数据不仅用来描述数据的量非常巨大，还突出强调处理数据的速度。所以，大数据成为数据分析领域的前沿技术。数据成为当今每个行业和商业领域的重要因素。人们对于数据的海量挖掘和大量运用，不仅标志着产业生产率的增长和消费者的大量盈余，而且也明确地提示着大数据时代已经到来。

数据正成为与物质资产和人力资本同样重要的基础生产要素，大数据的使成为提高企业竞争力的关键要素。数据成为资产、产业垂直整合、泛互联网化是数据时代的三大发展趋势。一个国家拥有的数据规模及运用的能力将成为综合国力的重要组成部分，对数据的占有权和控制权将成为陆权、海权、空权之外的国家核心权力。大数据与人类息息相关，越来越多的问题可以通过大数据解决。不仅在数据科学与技术层次，而且在商业模式、产业格局、生态价值与教育层面，大数据都能带来新理念和新思维，包括政府宏观部门、不同的产业界与学术界，甚至个人消费者。大数据与互联网一样，是信息技术领域的革命，更加速企业创新，在全球范围引领社会变革并启动透明政府的发展。

大数据正在引发一场思维革命，大数据正在改变人们考察世界的方式方法，以前所未有的速度引起社会、经济、学术、科研、国防、军事等领域的深刻变革。大数据除了将更好的解决商业问题，科技问题，还有各种社会问题，形成以人为本的大数据战略。大数据这一新概念不仅指数据规模庞大，也包括处理和应用数据，是数据对象、技术与应用三者的统一。大数据既可以是如政府部门或企业掌握的数据库这种有限数据集合，也可以是如微博、微信、社交网络上虚拟的无限数据集合。大数据技术包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。大数据应用是应用大数据技术对各种类型的大数据集合获得有价值信息的行为。充分实现大数据的价值惟有坚持对象、技术、应用三位一体同步发展。大数据是信息技术与各行业领域紧密融合的典型领域，有着旺盛需求和广阔前景。把握机遇需要不断跟踪研究大数据并不断提升对大数据的认知和理

解，坚持技术创新与应用创新协同共进同时加快经济社会各领域的大数据开发与利用，推动国家、行业、企业对于数据的应用需求和发展水平进入新的阶段。

在大数据时代数据作为一种独立存在的实体，其资产价值越来越突出，日益引起人们的重视。从具体的个人到形形色色的企业，从各国政府到各种组织都可以合法地去收集数据。不论个人还是企业，以及政府等都可以是数据的拥有者。今后个人隐私与数据归属权可能关系越来越少，欧洲民众要求政府公开信息的诉求极其强烈，民众有权向政府申请信息公开。除了涉及国家安全和个人隐私的公共信息外，大部分政府信息都可以公开。

大数据主要有三个方面对人类经济社会发展影响巨大，归纳起来：一是能够推动实现巨大经济效益，二是能够推动增强社会管理水平，三是能够推动提高安全保障能力。大数据在政府和公共服务领域的应用可有效推动政务工作开展，提高政府部门的服务效率、决策水平和社会管理水平，产生巨大社会价值。总而言之，大数据将为人们提供强有力的新工具，使人们能更加容易地把握事物规律，更准确地认识世界、预测未来和改造世界。

大数据可以分为大数据存储和大数据分析，大数据存储的目的是支撑大数据分析，大数据存储致力于研发数据存储平台，大数据分析关注在最短时间内处理大量不同类型的数据集，大数据分析相比于传统的数据仓库应用数据量大、查询分析复杂，大数据分析平台需要具备并行数据库、Map Reduce 及基于两者的混合架构。

2.社交网络崛起的大爆发

我们已经进入一个复杂科学领域，随着云计算、云存储、物联网、二维码技术和 LBS(基于位置的服务)的互联网技术广泛应用，人类的各种社会互动、沟通设备、社交网络和传感器正在生成海量数据。商业自动化导致海量数据存储，但用于决策的有效信息又隐藏在数据中，如何从数据中发现知识，以数据挖掘为代表的大数据分析技术应运而生。

1、社交网络的公共性

社交网络是大数据的重要来源，大数据的社会应用与社会价值就来自于社交网络，比如

国外影响巨大的 Facebook 和 Twitter，国内近年来风起云涌突然兴起的微博，特别是大家关注度非常高的新浪微博，这种网络交流平台具有媒介属性，日益成为影响不可忽视的的社会化媒体,每分每秒时时刻刻都在产生数以亿级形形色色

的话语文本。人具有与他人交流、分享、传播信息的天生需求，与他人直接交流互动和传播各种信息加大了人的社会交往，基于人际关系的信息传播创造了数量庞大的关系数据，扩大了大数据的社会价值与社会影响，带来商业上的无限想象力和各种企业的商业应用价值，大数据产生的技术背景离不开社交网络，移动互联网和物联网的发展导致大数据越来越大，具有随时收集、即时应用、及时生产的重要特点。

例如时装产业产生的大数据基本源自无处不在的社交媒体。全世界每天都有 10 亿人以上在社交网络上交流信息发表观点。每一刻都会有上百万人通过社交媒体点赞分享、转发微博、讨论时尚、引导潮流。大数据时代，越来越多的各大品牌知名设计师直接利用社交网络与公众交流，让大众直接参与到设计当中，根本改变了此前这一行业的封闭性，不再只对时尚界的所谓精英开放。越来越多的品牌比如巴宝莉选择在时装秀之前的通过官方微博账号发布了模特们在后台的照片，许多顶级设计师愿意在网上发布自己全新的设计，如奥斯卡・德拉伦塔在Instagram上通过微博发布了最新款式的高级女装成衣系列。顶级买家被流行博客写手取代，网络红人占据了时尚杂志主编的前排座椅，在社交媒体上拥有大批微博粉丝的摄影师对大众的时尚影响力远远超过传统的精英人群。

2、社交网络的价值性

在一定程度上，大数据的社会应用价值越来越多的来自新型的社交媒体，在这些影响巨

大的微媒体社会背景下，大数据参与渗透进入各种各样的商业应用领域，产生巨大的社会影响，微博营销开始成为商家的选择，已成为目前最显著的商业模式，是大数据最直接的商业应用。社会化媒体直接成为企业首选地营销工具，企业通过社会化媒体发布有效信息，直接影响和引导消费者的潮流，主动收集来自消费者的反馈信息，积极进行互动，成为利润来源的重要渠道。社交网络互动传播彻底改变传统大众媒体单向的传播方式，可以针对具体特定不同的各种目标群体，通过信息技术点对点直接传递不同的特定信息，影响舆论，改善声誉，建立美誉度，有助于形成购买决策。很多企业关注从海量采集的关系数据中提取发现真正有价值的商业信息，建立客户档案，实现精准营销，追踪目标客户，分析客户价值建立商业模型。

企业开始加强了解社会化媒体，其深刻认知和巨大投入将产生新的媒介形态并实现产品营销的新思路。社交大数据不仅仅对个别企业，而且对一些相关行业

都可以带来及其深刻的巨大变革。第一大数据有效改善传统的营销方式，与之相比利用有效精准的大数据营销，可以保持前期的大量曝光，中期的利益转化，到后期的实际购买，所有行为都是可提前预测并且随时监测的。效果可量化评估是采用大数据带来的前所未有的最实质性的根本影响;第二在社交这个环节，会产生越来越多的普通消费者在网络上通过各种社交媒体随时反馈自己在使用过程中对企业突出的产品以及建构的品牌形象发表看法，这个互动的过程会不断产生各种各样许多富有价值的有效信息，甚至还会包括发现一些潜在的意想不到的市场需求。对一个处在发展阶段的企业来说，这些有效信息不仅帮助他们可能采取措施调整原有传统产品，甚至引发并且催生新的不一样的商业模式。洞察消费者需求是大数据追求的核心价值;第三大数据可以变革某些具体行业，比如电影行业大数据可以根据实际数据能够预估票房，在金融行业可以进行前瞻预测提前作出调控措施，企业可以根据采集的大数据建立一些加上模型，预测消费者行为，进行数据分析。就连奥巴马为了赢得美国总统大选，他的团队就采集利用来自各种社交媒体产生的数据进行有效分析，做出民意评估，监测舆情，帮助连任，无疑发挥出来巨大的推动作用。

3、社交网络的应用性

社交媒体可以很短时间产生很大信息量，采取有效方法运用海量数据才是每个企业在市场面临的棘手问题。社会化媒体必须学会处理数据，具体步骤可以分为以下内容，首先进行收集，然后根据数据的不同类型导致具有不同用途，经过判断有些可以用于市场评估，反映市场效果，进一步了解市场，时时监测竞争对手，获得市场情报;还有一些可以通过信息技术采取自然语言处理，比如适当分类，有效聚类，快速获得消费者的需求以及人们对企业产品和所在行业的及时反馈和相关看法，利于企业做出判断，快速做出相应调整。例如电视广告价格很贵，媒体投放成本相对较高，一个企业的销售广告同时有 15 秒和 30 秒两个不同版本，但事先难以确定哪个版本更能吸引消费者，这时可以提前把视频传播至互联网，通过无处不在的社交媒体进行免费传播。应用大数据技术可以把采集消费者的信息，快速收集所有评价加以系统分析，找到有助于传播的元素，分析引起消费者反感的原因，快速提前测试有助决策，为广告主节省大量成本。通过大数据企业与用户间出现新的沟通方式，商业模式正在发生变化，在全世界社交媒体都引起市场变革，表现出企业日益关注消费者，用户重要性正在不断凸显。2012

年9月一家美国调研机构对市场营销人员进行调查，将近2/3的受访客户承认提高在广告营销领域采用数据管理平台的原因出于挖掘大数据的市场需求。

运用社交大数据，关键在于拥有数据。尽管用户数量不迅速增加，但预测用户行为，提出更精准的建议，仍然需要采集更大更多的数据量。如果数据处理能力没有提高，不能结合实际商业场景，就不会形成精细落地方案，既不可持续，也不可获利，导致社交大数据发展面临挑战。只有提高分布式计算、改善存储功能，加快实时计算的能力，才会实现价值。如果没有实际应用，大数据技术就不会产生实际意义。

大数据带来市场变革，挑战已有经验，颠覆已知模式，引领人类走向智能社会，数字化生存成为新的生活方式，社会化媒体随时记录人们的社会生活，感知行为态度、参与交往过程、建立互动关系，数据记录不仅保存而且可以分析，产生新的社会科学研究方法，拥有预知社会的可能性，在社会科学领域产生革命性变革和影响，大数据直接改变社会科学研究的模式和路径。

3.物联网发展的促进作用

随着物联网迅速发展，各种行业、不同地域以及各个领域的物体都被十分密切地关联起来。物联网通过形形色色的传感器将现实世界中产生的各种信息收集为电子数据，并把信号直接传递到计算机中心处理系统，必然造成数字信息膨胀，数据总量极速增长。 2.1、物联网形成产业链

物联信息不仅仅包括物联管理对象信息与物联感知设备信息，更突出物联实时信息。根据物联网数据的来源可以分成传感器感知数据和社交网络数据两种。虽然目前网络上产生的数据多于各种传感器感知到的数据总量，但是随着物联网设备的日益普及和感知技术的进步，传感器产生的数据量将大幅增加，最终将超过网络数据量，这种趋势越来越明显。

物联网改变了人们的社会活动形式，改善了人们的生活方式，变革了商业模式，被称为第三次信息化高潮，继计算机、互联网产生之后对社会的发展产生新的冲击。物联网把对象物和互联网相互连接起来，即时信息交换，智能化识别，实现定位跟踪，监控管理对象，产生大量数据，影响电力、安防、医疗、物流、交通、环保等行业形成新的商业模式。物联网联合大数据，正在迅速创造出巨大的社会价值和商业价值。

中国信息产业商会乐观预测，中国在 2013 年传感器设备将继续保持市场规模，表现快速增长势头，中国物联网 RFID 产业市场达到 320 亿元左右，规模将比 2012 年增长 35%左右。物联网伴随着移动互联网和云计算的迅猛崛起，物联网产业链上的各环节成本减少，相关产品价格迅速下降，进一步带来物联网硬件及其基础设施的大规模普及。同时，工信部联合财政部提供专项资金用以支持物联网发展,2013 年投入的专项资金将超 5 亿元。而在政策支持与市场反馈的协同发展推动下，业内人士大胆预测未来数年物联网会全面推广大规模普及，其产业规模或许比现有互联网大 30 倍。

物联网发展离不开基础建设，需要设备制造企业提供传感设备与网络核心设备，随着存储能力非常巨大的云计算中心的不断建设和投入使用，物联网持续产生的大数据可以随时存储，在线处理，产生价值，成为现实。企业需要思考物联网收集的大数据与其产业发展的融合与转换，将数据转化为利润，开辟市场蓝海，收获真金白银，发明新的商业模式，形成新的商业思维。 2.2物联网产生大数据

物联网大数据成为焦点，引起各大 IT 巨头越来越多的注意，其潜在的巨大价值也正在通过市场逐渐被挖掘出来。微软、IBM、SAP、谷歌等国际知名 IT 企业已经在全球分别部署了大量数据中心，还拿出大笔资金收购擅长数据管理和建构分析方面的优秀软件企业。这些物联网产生的大数据来自于不同种类的终端，比如智能电表、移动通信终端、汽车和各种工业机器等，影响生产生活的各个领域，各个层面，不可小觑。

物联网产业链的核心不是设备和元器件，而是数据以及数据驱动的产业，物联网的核心价值不在感知层和网络层，而是在更广泛的应用层。物联网产生的大数据经过智能化的处理、社会化的分析，将生成各种商业模式，产生各异的多种应用，形成了物联网最重要的商业价值。

处理物联网收集的大数据并不容易，物联网中的大数据不简单等同于互联网数据。物联网大数据不仅包括社交网络数据，更包括传感器感知数据，尽管社交网络数据包含大量可被处理的非结构化数据，比如新闻、微博等，但是物联网传感器收集的许多碎片化数据属于非结构化数据，在目前还不能被处理。

物联网应用于多个行业，而每个行业产生的数据有独特的结构特点，因此就形成很多相异的商业模式。物联网创造商业价值的基础是数据分析，物联网产业

将出现各种类型的数据处理公司，比如数据分析公司，软件应用集成公司和商业运营公司将逐步分化，产业链将逐步完善。

中国物联网刚刚进入应用阶段，刚刚起步，调查物联网产业最前沿的一线参与主体，可以发现主要包括 RFID 标签厂商、传感器厂商、电信运营商和一些系统集成商。目前各地已经建成的大量物联网系统已经开始进入市场，主要应用于远程测量、移动支付、环境监控等方面。另外主要分布在物品追溯系统和企业供应链管理等方面，应用较多的医疗健康、智能电网、汽车通信等服务也已开始出现，积极探索盈利，努力获得用户，占领高端市场。而在物联网应用的过程中，我们发现电信运营商起到主导作用，扮演起行业龙头，发挥带动的作用，另外中国电信表现突出，也开始宣传自己物联网应用系统用于全球远程监控。而电信运营商之所以分外努力推广应用物联网，不仅仅在于运营商可整合硬件、芯片、应用等各步骤中的许多优秀合作伙伴，在运营方面以外，还在于物联网广泛应用在电信终端，可以有效整合电信互联网产业链的推进。电信运营商的示范不仅积累实战经验，甚至可帮助电信运营商将业务在物联网中拓展为系统方案解决商，介入各种增值业务。 2.3物联网催化大商业

看待电信运营商，可以应用大数据的观点，物联网商业模式将更多的移动终端容纳进来，作为数据采集设备，加以信息化应用，适应市场需求，成为物联网跨界发展的趋势。这种数据如果能得到运营商快速化、规模化、跨领域的广泛应用，那么电信运营商可能获取的商业回报会进一步参与到物联网的各个建设环节中，并且还可能使越来越多的商业信息被运营商掌握。这些信息驱动企业合作，推动参与各方共同寻找一种多方共赢的路径，建立新型商业模式。实现应用物联网数据，特别需要升级商业模式，真正创造多方共赢的有利环境。而要建立多方共赢的理念，就应该推动物联网真正成为市场的中心，变成一种商业的驱动力，吸引产业链内的所有企业共同参与物联网发展建设。

现在大部分行业的商业信息移动化、社交化，大数据必然会成为最佳捷径，实现用户商业价值的。物联网大数据支撑商业开展，服务商业决策，提供各种行业信息，因此物联网大数据的未来是无限的，富有商业魅力。物联网大数据要获得产业健康有序发展，不能仅在概念上停留，还需要政策支持，市场完善以及产品持续的不断创新。而更为重要的方向是推动不同部门、不同机构、不同行业之间共享物联网大数据的问题。各部门公开数据、分享数据才能利用数据深层价值，

产生数据的附加价值。虽然目前交通、电力、工业等不同行业还没有合为一个物联网，但是共享不同行业的各种数据信息是可行的。而目前政府部门也开始意识到数据单一难以发挥最大效能，开始寻求数据交换伙伴，部门之间已经开始相互交换数据，必将成为一种发展趋势，而共享不同部门之间不同种类的数据信息有助于发挥物联网更大的价值。

在未来几十年，物联网大数据面临着战略性的时代发展机遇及挑战。物联网握手大数据，不仅延伸更为广泛的应用，更会产生出价值更大的产业链，所以，将物联网发展离不开大数据理念，而大数据的广泛应用进一步加快物联网的前进步伐，在互动发展全过程中，物联网能够促进并带动大数据发展。大数据的采集和感知技术的发展是紧密联系的，提升以传感器技术、RFID 技术、指纹识别技术、坐标定位技术等为基础的感知能力是物联网发展的基石。普及智能手机发展感知技术的高峰期，如广泛的应用地理位置信息、通过对手机呼气直接检测燃烧脂肪量、手机键内嵌指纹传感器、可以监测从空气污染到危险的化学药品的嗅觉传感器、可感知用户当前心情的智能手机技术及通过衣着进行识别人物的技术。还有实时监控口腔活动及饮食状况的牙齿传感器，可追踪眼球读懂情绪的 3D 笔记本摄像头，新型可监控用户心率的纺织材料，引入支付领域的生物测定技术等。世界被数据化的过程就是感知被逐渐捕获的过程，一旦世界被完全数据化了，信息就是世界的本质。

4.云计算提供的技术平台

大数据与云计算的关系密不可分，大数据必须采用分布式计算架构挖掘海量数据，必须依托云计算的分布式数据库、分布式处理、云存储和虚拟化技术。大数据包括大量非结构化和半结构化数据，下载这些数据到关系型数据库用于分析时会消耗大量时间和金钱，因为实时的大型数据集分析需要像MapReduce一样的框架来向许多台电脑分配工作。依靠宽带、物联网的大数据提供了解决办法，具有无数分散决策中心的云计算大系统能够产生接近整体最优的帕累托效应，无数分别思考的决策分中心通过互联网与物联网形成超级决策中心。互联网中多元动态、并行实时的大数据思维的出现促进重新定义知识的本质特性的认识。大数据时代企业的疆界变得模糊、网民和消费者的界限正在消弭、数据成为核心资产并将深刻影响企业的业务模式，甚至重构其文化和组织。因此大数据改善国家治理模式，影响企业决策、组织和业务流程，改变个人生活方式。如果利用大数据

贴近消费者、深刻理解需求、高效分析信息并作出预判，所有传统的产品公司都只能沦为新型用户平台级公司的附庸。

大数据是继云计算、物联网之后 IT 产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道，而数据才是真正有价值的资产。企业内部的经营交信息、互联网世界中的人与人交互信息、物联网世界中的商品物流信息、位置信息等数量远远超越现有企业 IT 架构和基础设施的承载能力，实时性要求也将大大超越现有的计算能力。大数据的核心议题和云计算必然的升级方向是盘活数据资产，使其为国家治理、企业决策乃至个人生活服务。

大数据和云计算这两个词经常被同时提到，很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性，也有区别。云计算指的是一种以互联网方式来提供服务的计算模式，而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。大数据处理会利用到云计算领域的很多技术，但大数据并非完全依赖于云计算;反过来，云计算之上也并非只有大数据这一种应用。

大数据出现具有深刻的原因。2009 年至 2012 年电子商务在全球全面发展，电子商务是第一个真正实现将纯互联网经济与传统经济融合，嫁接在一起发展的混合经济模式。正是互联网与传统经济的结合才催生出现在社会高度关注的大数据。大数据链接互联网产业与传统产业，而且大数据结合互联网应用于传统产业领域，范围超过纯互联网经济。在电子商务模式出现以前，传统企业的数据数量缓慢增长。传统企业的数据仓库大多数属于交易型数据，而交易行为处于用户消费决策的最后端，电子商务模式使得用户的搜索、浏览、比较等行为企业可以采集到，这就至少提升了企业的数据规模一个数量级。现在日益流行的移动互联网和物联网又必将使企业数据量提高两三个数量级。从这个角度来看，大数据时代必然出现，大有发展。

5.结论

大数据如同大爆炸一样强烈冲击着整个社会，无处不在的社交网络、移动物联产生难以想象的海量数据，已经成为描述整个宇宙一切信息的工具，普适计算、数据开放带领我们迈进穿越时空障碍的信息时代，云计算、大数据金融造就拥有更多权利的智慧地球，开放流动的大数据时代带来更加公平繁荣的大社会!大数据可以预测未来，提供帮助，但未知是永恒的，自由意志永远存在，

- 910 -

第三篇：大数据课程报告

摘

要

流形学习方法作为一类新兴的非线性维数约简方法，主要目标是获取高维观测数据的低维紧致表示，探索事物的内在规律和本征结构，已经成为数据挖掘、模式识别和机器学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性，使得它在许多标准的 toy 数据集和实际数据集上都取得了令人满意的结果，然而它们本身还存在着一些普遍性的问题，比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此，本文从流形学习方法存在的问题出发，在算法设计和应用(图像数据与蛋白质相互作用数据)等方面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析，然后针对流形的泛化学习和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型、大规模数据的流形学习等几个方面进行了重点研究，提出了三种有效的流形学习算法，并和相关研究成果进行了理论与实验上的比较，从而验证了我们所提算法的有效性。

关键词：流形学习，维数约简，正交局部样条判别投影，局部多尺度回归嵌入

目录 ................................................................................................................................................. II 第1章研究背景 ....................................................................................................................... 1

1.1 流形学习的研究背景 ................................................................................................... 1 1.2 流形学习的研究现状 ................................................................................................... 2 1.3 流形学习的应用 ........................................................................................................... 4 第2章流形学习方法综述 ....................................................................................................... 5

2.1 流形学习方法介绍 ....................................................................................................... 6 第3章流形学习方法存在的问题 ........................................................................................... 9

3.1 本征维数估计 ............................................................................................................... 9 3.2 近邻数选择 ................................................................................................................. 10 3.3 噪声流形学习 ............................................................................................................. 10 3.4 监督流形学习 ............................................................................................................. 11 第4章总结 ............................................................................................................................. 11

第1章研究背景

1.1 流形学习的研究背景

随着信息时代的到来，使得数据集更新更快、数据维度更高以及非结构化性等问题更突出。在科研研究的过程中不可避免地遇到大量的高维数据，这就需要一种技术能够使在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据，满足人的存储需求和感知需要。流形学习这一非监督学习方法应运而生，引起越来越多机器学习和认知科学工作者的重视。而在海量的高维数据中，往往只有少量的有用信息，如果想快速高效的搜集到人们想要的、有用的那些少量信息且快速的处理信息，这就需要一些关键技术的支持，即是必须采用相应的降维技术。而流形学习正是在数据降维方面有着重要的贡献。然而，降维的过程与《矩阵分析》中的内容有着密切的关系。

基于流形的降维方法能充分利用数据中所隐藏的低维有价值信息，进一步提高检索性能。Seung从神经心理学的角度提出“感知以流形的形式存在，视觉记忆也可能是以稳态的流形存储”，为流形提供了与人类认识相关的理由。流形学习的方法主要有主成分分析(PCA)、多维尺度化(MDS)、基于局部切空间排列法(LTSA)和基于等度规映射(ISOMAP)、局部线性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外，流形学习方法在人脸识别、图像处理、模式识别、计算机视觉、认知科学、人工智能、人机交互等众多学科中有着广泛的应用。

线性维数约简方法是通过在高维输入空间与低维子空间之间建立线性映射关系，把高维数据样本集投影到低维线性子空间。线性维数约简技术通常假设数据集采样于一个全局线性的高维观测空间。如果所要处理的数据集分布确实呈现出全局线性的结构，或者在一定程度上可以近似为全局线性结构，则这些方法能够有效地挖掘出数据集内在的线性结构，获得数据紧致的低维表示。在线性维数约简方法中，使用最广泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002; Turk and Pentland, 1991)

1 和线性判别分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。

主分量分析(PCA)主要是根据高维数据在低维空间重构误差最小的原则，来寻找一组最优的单位正交向量基(即主分量)，并通过保留数据分布方差较大的若干主分量来达到降维的目的。然而，众所周知，由于 PCA 算法没有利用数据样本的类别信息，所以它是一种非监督的线性维数约简方法。与 PCA 算法不同，LDA 算法考虑到样本的类别信息，它是一种有监督的方法。基于各类样本服从高斯分布且不同类的协方差矩阵相同的假设，LDA 算法在 Fisher 准则下选择最优的投影向量，以使得数据样本的类间散度最大而类内散度最小。由于 LDA 算法利用了样本的类别信息，而样本的类别信息通常有助于改善识别率，因此 LDA 算法更适用于分类问题。

1.2 流形学习的研究现状

流形学习假定输入数据是嵌入在高维观测空间的低维流形上，流形学习方法的目的是找出高维数据中所隐藏的低维流形结构。经过十多年的研究与探索，人们提出了大量的流形学习理论与算法。经典的流形学习方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部线性嵌入算法(LLE)(Roweis and Saul, 2000; Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps，LE)(Belkin and Niyogi, 2002; Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding，HLLE)(Donoho and Grimes, 2003)、最大差异展开算法(Maximum Variance Unfolding，MVU)(Weinberger et al., 2005; Weinberger and Saul, 2004; Weinberger and Saul, 2006; Weinberger et al., 2004)、局部切空间排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形学习算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007; Lin et al., 2006)和局部样条嵌入算法(Local Spline Embedding，LSE)(Xiang et al., 2006; Xiang et al., 2008)等。

Tenenbaum 提出的 ISOMAP 算法是多维尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非线性推广，其核心思想是用测地距离代替欧氏距离来表征流形上数据点的内在几何关系。对于样本

2 点和它的近邻点之间的测地距离用它们之间的欧氏距离来代替;对于样本点和近邻点之外的点之间的测地距离用它们之间的最短路径来代替。Bernstein 等人证明了只要样本是随机抽取的，在样本集足够大且选择适当近邻参数k 时，近邻图上两点的最短路径可以逼近它们的测地距离(Bernstein et al., 2000)。当应用于内蕴平坦的凸流形时，ISOMAP 算法能够忠实地捕获数据内在的低维流形结构(De Silva and Tenenbaum, 2003)。

ISOMAP 算法的主要缺点在于：① 对样本点的噪声比较敏感;② 对于具有较大曲率或稀疏采样的数据集，不能发现其内在的本征结构;③ 需要计算全体数据集的测地距离矩阵，因此算法的时间复杂度较高。围绕 ISOMAP算法，已经出现了许多相关的理论分析与研究工作。

Balasubramanian 等人对ISOMAP 算法的拓扑稳定性进行了深入探讨 (Balasubramanian and Schwartz, 2002)。对于数据分布所在的低维流形具有较大的内在曲率情况，de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。为了减小 ISOMAP 算法的计算复杂度，de Silva 和 Tenenbaum提出了带标记的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。

针对 ISOMAP 算法对于数据集噪声敏感的问题，Choi 等人通过观察图中的网络流提出了一种消除临界孤立点的方法以加强 ISOMAP 算法的拓扑稳定性(Choi and Choi, 2007)。在构建近邻图方面，Yang 提出通过构造k 连通图方式来确保近邻图的连通性，以提高测地距离的估计精度(Yang, 2005)。

2009 年，Xiang 等人提出了局部样条嵌入算法(LSE)(Xiang et al., 2006; Xiang et al., 2008)。Xiang 认为，对于嵌入在高维输入空间的低维流形，非线性维数约简的任务实际上是寻找一组非线性的复合映射，即由局部坐标映射(Local Coordinatization Mapping)与全局排列映射(Global Alignment Mapping)复合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下，LSE 算法首先通过主分量分析计算每个样本点局部邻域在切空间上的投影获得该邻域所有样本的局部坐标，从而保持流形的局部几何结构信息;然后采用Sobolev 空间的一组样条函数把每个样本点的局部坐标映射成

3 全局唯一的低维坐标。它们均是利用每个样本的局部切空间来捕获流形的局部几何，样本点在切空间的投影来表示样本点的局部坐标。然而它们的主要区别在于全局排列，LTSA 算法是利用仿射变换来进行全局排列，而 LSE 算法是利用样条函数来获得全局唯一的坐标。因此相对于 LTSA 而言，LSE 算法能够实现更小的重构误差。LSE 算法的主要缺点在于：一是无法保持全局尺度信息;二是不能学习具有较大曲率的低维流形结构。除此，如何选择满足要求的样条函数也是一个值得考虑的问题。

不同流形学习算法的区别在于所尝试保持流形的局部邻域结构信息以及利用这些信息构造全局嵌入的方法不同，与以往的维数约简方法相比，流形学习能够有效地探索非线性流形分布数据的内在规律与性质。但是在实际应用中流形学习方法仍然存在一些缺点，比如本征维数估计问题、样本外点学习问题、监督流形学习问题和噪声流形学习问题等。为了解决这些问题，相关的算法也不断涌现出来。Freedman 等提出了一种基于简化单纯复形的流形重构方法来自动估计流形的本征维数(Freedman, 2002)。

为了解决样本外点学习问题，研究人员分别在流形学习的线性化、核化和张量化等方面作了有益的探索(Yan et al., 2007)。Geng 等将样本的类别信息融入到 ISOMAP 算法，提出了一种用于可视化和分类的有监督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一种基于局部线性平滑的流形学习消噪模型(Zhang and Zha, 2003)。这些方法的提出在一定程度上缓解了目前流形学习方法中存在的一些问题，但是还需要进一步充实和完善。

1.3 流形学习的应用

目前，流形学习方法的应用可归纳为以下几个方面：

1) 数据的可视化。流形学习方法在高维数据的可视化方面有了广泛的应用。人不能直接感知高维数据的内部结构，但对三维以下数据的内在结构却有很强的感知能力。由于流形学习方法可以发现高维观测数据中蕴含的内在规律和本征结构，而且这种规律在本质上不依赖于我们实际观测到的数据维数。因此我们可以通过流形学习方法

4 对高维输入数据进行维数约简，使高维数据的内部关系和结构在低于三维的空间中展示出来，从而使人们能够直观地认识和了解高维的非线性数据的内在规律，达到可视化的目的。

2) 信息检索。随着多媒体和网络技术的迅猛发展，图像和文本信息的应用日益广泛，对规模逐渐庞大的图像和文本数据库如何进行有效的管理已成为亟待解决的问题。灵活、高效、准确的信息检索策略是解决这一问题的关键技术之一。这些图像和文本信息呈现出高维、大规模、非线性结构，利用流形学习方法来处理这些信息，在大大降低时间和空间计算复杂度的同时，能够有效地保留这些信息在原始高维空间的相似性。

3) 图像处理。流形学习给图像处理领域提供了一个强有力的工具。众所周知，图像处理与图像中物体的轮廓以及骨架等密切相关。如果我们把图像中物体的轮廓以及骨架等看成是嵌入在二维平面中的一维流形或者由一组一维流形构成，那么显然流形学习方法凭借其强大的流形逼近能力可以应用于图像处理领域。

第2章流形学习方法综述

流形学习方法作为一种新兴的非线性维数约简方法，主要目标是获取高维观测数据的低维紧致表示，探索事物的内在规律和本征结构，已经成为数据挖掘、模式识别和机器学习等领域的研究热点。本章首先探讨了流形学习的基础性问题，即高维数据分析的流形建模问题;然后依据保持流形几何特性的不同，把现有的流形学习方法划分为全局特性保持方法和局部特性保持方法，并介绍了每一类方法中有代表性的流形学习算法的基本原理，对各种流形学习算法进行性能比较和可视化分析，最后就流形学习方法普遍存在的本征维数估计、近邻数选择、噪声流形学习、样本外点学习和监督流形学习问题等进行了分析和讨论。

5 2.1 流形学习方法介绍

流形学习的定义：流形是局部具有欧氏空间性质的空间。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。

流形学习用数学语言描述是：令Yyi且: Y是一个光滑的嵌套，其中D >> d。那么流形学习的目标是基于上的一个给定被观测数据集合xi去恢复Y与 ，也就是在Y 中随机产生隐藏的数据yi，然后通过 映射到观测空间，使得xifyi。

从流形学习的定义中可以看出，这是一个把数据从高维映射到低维的过程，用到了线性变换，当然少不了矩阵的分解及其基本运算。 2.1.1 多维尺度分析(Multidimensional Scaling, MDS)

多维尺度分析(Multidimensional Scaling, MDS)是一种经典的线性降维方法，其主要思想是：根据数据点间的欧氏距离，构造关系矩阵，为了尽可能地保持每对观测数据点间的欧氏距离，只需对此关系矩阵进行特征分解，从而获得每个数据在低维空间中的低维坐标。

DDDxx设给定的高维观测数据点集为YU，i，观测数据点对i,

Tyj间的欧氏距离为ijxiyj，传统MDS 的算法步骤如下：

a) 首先根据求出的两点之间的欧氏距离

ij构造n阶平方欧式距离矩阵Aij2 nn。

6 b) 将矩阵A进行双中心化计算，即计算

B1HAH2(其中H 为中心化eeTHIn，将矩阵H左乘和右乘时称为双中心化)矩阵，。

c) 计算低维坐标Y。即将B奇异值分解，设B的最大的d个特征值diag1,2,...,dYUT。

u1,u2,...,ud则d维低维坐标为，对应特征向量，U虽然作为线性方法，MDS在流形学习中不能有效发现内在低维结构。但是从这一基本的算法中我们可以清楚的看出矩阵分析在流形学习研究中的应用。在这个MDS算法中，运用到了矩阵中的线性空间变换、矩阵特征值和特征向量的计算、矩阵的中心化计算、矩阵的奇异值的分解等相关知识点。想象一下，如果没有这些知识点做基础，这些算法如何进行。 2.1.2 等距特征映射(ISOMAP)

(1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多维尺度分析(MDS)基础上的一种非线性维数约简方法。ISOMAP算法利用所有样本点对之间的测地距离矩阵来代替MDS算法中的欧氏距离矩阵，以保持嵌入在高维观测空间中内在低维流形的全局几何特性。算法的关键是计算每个样本点与所有其它样本点之间的测地距离。对于近邻点，利用输入空间的欧氏距离直接得到其测地距离;对于非近邻点，利用近邻图上两点之间的最短路径近似测地距离。然后对于构造的全局测地距离矩阵，利用MDS算法在高维输入空间与低维嵌入空间之间建立等距映射，从而发现嵌入在高维空间的内在低维表示(Tenenbaum et al., 2000)。

(2)算法流程 <1>构造近邻图G

<2>计算最短路径

<3>计算 d 维嵌入 (3)算法分析

7 ISOMAP算法是一种保持全局几何特性的方法，它的低维嵌入结果能够反映出高维观测样本所在流形上的测地距离。如果高维观测样本所在的低维流形与欧氏空间的一个子集是整体等距的，且与样本所在流形等距的欧氏空间的子集是一个凸集，那么ISOMAP算法能够取得比较理想的嵌入结果。但是当流形曲率较大或者流形上有“孔洞”，即与流形等距的欧氏空间的子集非凸时，流形上的测地距离估计会产生较大的误差，导致嵌入结果产生变形。

从算法的时间复杂度来看，ISOMAP算法有两个计算瓶颈(De Silva and Tenenbaum, 2003)。第一个是计算n×n 的最短路径距离矩阵DG。当使用Floyd算法时，计算复杂度为O(n3) ;若采用Dijkstra算法，可将计算复杂度降低到O(kn2log n) ( k 为近邻数大小)(Cormen, 2001)。第二个计算瓶颈源于应用MDS时的特征分解。由于距离矩阵是稠密的，所以特征分解的计算复杂度为O(n3) 。从中我们可以看出，随着样本个数n 的增大，ISOMAP算法计算效率低下的问题会变得十分突出。 2.1.3局部线性嵌入(LLE)

1、基本思想

与ISOMAP和MVU算法不同，局部线性嵌入算法(LLE)是一种局部特性保持方法。LLE算法的核心是保持降维前后近邻之间的局部线性结构不变。算法的主要思想是假定每个数据点与它的近邻点位于流形的一个线性或近似线性的局部邻域，在该邻域中的数据点可以由其近邻点来线性表示，重建低维流形时，相应的内在低维空间中的数据点保持相同的局部近邻关系，即低维流形空间的每个数据点用其近邻点线性表示的权重与它们在高维观测空间中的线性表示权重相同，而各个局部邻域之间的相互重叠部分则描述了由局部线性到全局非线性的排列信息(Roweis and Saul, 2000)。这样就可以把高维输入数据映射到全局唯一的低维坐标系统。

2、算法流程

LLE算法的基本步骤分为三步： (1) 选择邻域

8 (2) 计算重构权值矩阵W (3) 求低维嵌入Y

3、算法分析

通过前面算法描述我们不难发现，LLE算法可以学习任意维具有局部线性结构的低维流形。它以重构权值矩阵作为高维观测空间与低维嵌入空间之间联系的桥梁，使得数据点与其近邻点在平移、旋转和缩放等变化下保持近邻关系不变。而且LLE算法具有解析的全局最优解，无需迭代。在算法的计算复杂度上，选择邻域的计算复杂度为O(Dn2) ，计算重构权值矩阵的计算复杂度为O((D+k)k2n) ，求解低维嵌入Y 的计算复杂度为O(dn2) 。因此与ISOMAP和MVU算法相比，LLE算法的计算复杂度要小得多。

但LLE算法也存在一些缺点：① 由于LLE算法只是保持局部近邻的重构权值关系，并不是保持距离关系，因此，LLE算法通常不能很好的恢复出具有等距性质的流形。② LLE算法希望样本集均匀稠密采样于低维流形，因此，对于受噪声污染、样本密度稀疏或相互关联较弱的数据集，在从高维观测空间到低维嵌入空间的映射过程中，可能会将相互关联较弱的远点映射到局部近邻点的位置，从而破坏了低维嵌入结果。

第3章流形学习方法存在的问题

流形学习相对于传统的线性维数约简方法来说，它能够更好地发现高维复杂非线性数据内在的几何结构与规律。但其各种算法本身还存在着一些普遍性的问题，比如本征维数估计问题、近邻数选择问题、噪声流形学习问题、泛化学习问题和监督学习问题等。本小节将对这些问题进行简要的分析和讨论。

3.1 本征维数估计

本征维数估计是流形学习的一个基本问题(赵连伟 et al., 2005)。本征维数一般被定义为描述数据集中所有数据所需要的自由参数(或独立坐标)的最小数目。它反映了隐藏在高维观测数据中潜在低维流形的拓扑属性。在非

9 线性维数约简过程中，本征维数估计的准确与否对低维空间的嵌入结果有着重要的影响。如果本征维数估计过大，将会保留数据的冗余信息，使嵌入结果中含有噪声;相反如果本征维数估计过小，将会丢失数据的有用信息，导致高维空间中不同的点在低维空间可能会交叠。因此，设计稳定可靠的本征维数估计方法将有助于流形学习算法的应用和性能的改善。

目前现有的本征维数估计方法大致分为两大类：特征映射法和几何学习法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998; Fukunaga and Olsen, 1971)和多维尺度分析方法(Cox and Cox, 2000)，它主要利用了数据分布的本征特征是数据的局部特征的基本思想，对局部数据进行特征分解，选取对应特征值最大的特征向量作为本征特征。显然，这类方法所估计的本征维数大小在很大程度上取决于数据的局部邻域划分和阈值的选择，因此特征映射方法不能提供本征维数的可靠估计。几何学习法主要基于最近邻距离(Nearest Neighbor Distances)或分形维(Fractal Dimension)(Camastra, 2003)来探索数据集所蕴含的几何信息，这类方法通常需要充足的样本数，因此，对于样本数少、观测空间维数较高的情况，经常会出现本征维数欠估计的情况。

3.2 近邻数选择

流形学习探测低维流形结构成功与否在很大程度上取决于近邻数的选择(Zeng, 2008)，然而在构造近邻图时如何选择一个合适的近邻数是一个公开的问题。如果近邻数选择过大，将会产生“短路边”现象(“short-circuit” edges)，从而严重破坏原始流形数据的拓扑连通性。

3.3 噪声流形学习

当观测数据均匀稠密采样于一个理想的低维光滑流形时，流形学习方法可以成功地挖掘出其内在的低维结构和本质规律。但是在实际应用中，我们经常发现高维采样数据由于受各种因素的影响，一般总是存在着噪声和污染，这将势必影响流形学习算法的低维嵌入结果。

10 3.4 监督流形学习

现有的流形学习方法多数用于无监督学习情况，如解决降维与数据可视化等问题。当已知数据的类别信息，如何利用这些信息有效地改进原始流形学习算法的分类识别能力是监督流形学习所要解决的问题。从数据分类的角度来看，人们希望高维观测数据经过维数约简后在低维空间中类内差异小而类间差异大，从而有利于样本的分类识别。原始的流形学习算法都是无监督学习过程，一些引进监督信息的改进算法纷纷被提出来(Li et al., 2009; Zhao et al., 2006)。这些方法的基本思想是利用样本的类别信息指导构建有监督的近邻图，然后利用流形学习方法进行低维嵌入。尽管这些方法能够获得较好的分类结果，但是这种通过类别属性构建的近邻图往往会被分割成多个互不相连的子图，而不是一个完整的近邻图，这就给原始流形学习算法的最终应用带来了很大的不便。

第4章总结

流形学习是一个具有基础性、前瞻性的研究方向，其研究成果和技术已经立即应用于模式识别、计算机视觉、图像处理等相关领域。如高维数据的可视化、可听化;基于内容检索的模型;视频中三维对象的跟踪和检测;从静态二维图像中进行三维对象的姿态估计和识别;二维和三维对象的形状重构;从运动中构建结构、从阴影中成形等。此外流形学习还应用于自然语言处理、基因表达分析等生物信息处理领域，特别是在基因表达分析中，用于检测和区分不同的疾病和疾病类型。

尽管流形学习的算法和应用在过去的几年中已经取得了丰硕的成果，但是由于其数学理论基础较为深厚复杂，以及多个学科之间交叉融合，所以仍有许多亟需研究和解决的问题，尤其在下述几个方面：

1.目前已有很多流形学习算法，但很多算法只是建立在实验的基础之上，并没有充分理论基础支持，所以我们一方面要进一步探索能够有效学习到流形局部几何和拓扑结构的算法，提高流形投影算法的性能，另外更重要的是要不断完善理论基础。

2.各支几何都是研究空间在变换群下的不变性，微分几何亦是如此。而很多情况下我们正需要这种不变性，所以研究局部样本密度、噪声水平、流形的正则性、局部曲率、挠率结构的交互作用对流形学习的研究有积极促进作用。

3.统计学习理论得到充分发展并逐渐成熟，流形学习理论在其基础上发展自然可以把统计学中有用的技术应用于流形学习中，如流形上的取样和Monte Carlo估计、假设检验，以及流形上关于不变测度的概率分布密度问题，都值得进一步研究。

4.目前大部分学习算法都是基于局部的，而基于局部算法一个很大缺陷就在于受噪声影响较大，所以要研究减小局部方法对于噪声和离群值的影响，提高学习算法鲁棒性及泛化能力。

5. 谱方法对噪声十分敏感。希望大家自己做做实验体会一下，流形学习中谱方法的脆弱。

6.采样问题对结果的影响。

7. 一个最尴尬的事情莫过于，如果用来做识别，流形学习线性化的方法比原来非线性的方法效果要好得多，如果用原始方法做识别，那个效果叫一个差。也正因为此，使很多人对流形学习产生了怀疑。

8. 把偏微分几何方法引入到流形学习中来是一个很有希望的方向。这样的工作在最近一年已经有出现的迹象。

参考文献

[1] R. Basri and D. W. Jacobs. Lambertian reflectance and linear subspaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003. [2] R. Vidal. Subspace clustering. IEEE Signal Processing Magazine, 28(2):52–68, 2011. [3] J. Shi and J. Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000. [4] G. Liu, Z. Lin, S. Yan, J. Sun, Y. Yu, and Y. Ma. Robust recovery of subspace structures by low-rank representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013. [5] E. Elhamifar and R. Vidal. Sparse subspace clustering: Algorithm, theory, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781,

12 2013. [6] Y. Wang, Y. Jiang, Y. Wu, and Z. Zhou. Spectral clustering on multiple manifolds. IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011. [7] B. Cheng, G. Liu, J. Wang, Z. Huang, and S. Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011. [8] C. Lang, G. Liu, J. Yu, and S. Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Processing, 21(3): 1327–1338, 2012.

第四篇：大数据时代读书报告

这本书里主要介绍的是大数据在现代商业运作上的应用，以及它对现代商业运作的影响。《大数据时代》这本书的结构框架遵从了学术性书籍的普遍方式。也既，从现象入手，继而通过对现象的解剖提出对这一现象的解释。然后在通过解释在对未来进行预测，并对未来可能出现的问题提出自己看法与对策。

下面来重点介绍《大数据时代》这本书的主要内容。

《大数据时代》开篇就讲了google通过人们在搜索引擎上搜索关键字留下的数据提前成功的预测了2009年美国的h1n1的爆发地与传播方向以及可能的潜在患者的事情。google的预测比政府提前将近一个月，相比之下政府只能够在流感爆发一两个周之后才可以弄到相关的数据。同时google的预测与政府数据的相关性高达97%，这也就意味着google预测数据的置信区间为3%，这个数字远远小于传统统计学上的常规置信区间5%!而这个数字就是大数据时代预测结果的相对准确性与事件的可预测性的最好证明!通过这一事以及其他的案例，维克托提出了在大数据时代“样本=总体”的思想。我们都知道当样本无限趋近于总体的时候，通过计算得到的描述性数据将无限的趋近于事件本身的性质。而之前采取的“样本<总体”的做法很大程度上无法做到更进一步的描述事物，因为之前的时代数据的获取与存储处理本身有很大的难度只导致人们采取抽样的方式来测量事物。而互联网终端与计算机的出现使数据的获取、存储与处理难度大大降低，因而相对准确性更高的“样本=总体”的测算方式将成为大数据时代的主流，同时大数据时代本身也是建立在大批量数据的存储与处理的基础之上的。

接下来，维克多又通过了ibm追求高精确性的电脑翻译计划的失败与google只是将所有出现过的相应的文字语句扫描并储存在词库中，所以无论需要翻译什么，只要有联系google词库就会出现翻译，虽然有的时候的翻译很无厘头，但是大多数时候还是正确的，所以google的电脑翻译的计划的成功，表明大数据时代对准确性的追求并不是特别明显，但是相反大数据时代是建立在大数据的基础住上的，所以大数据时代追求的是全方位覆盖的数字测度而不管其准确性到底有多高，因为大量的数据会湮埋少数有问题的数据所带来的影响。同时大量的数据也会无限的逼近事物的原貌。

之后，维克托又预测了一个在大数据时代催生的重要职业——数据科学家，这是一群数学家、统计学与编程家的综合体，这一群人将能够从获取的数据中得到任何他们想要的结果。换言之，只要数据充足我们的一切外在的与内在的我们不想让他人知道的东西都见会在这一群家伙的面前展现得淋漓尽致。所以为了避免个人隐私在大数据时代被这一群人利用，维克托建议将这一群人分为两部分，一部分使用数据为商业部门服务，而另一群人则负责审查这一些人是否合法的获得与应用数据，是否侵犯了个人隐私。无论如何，大数据时代将会到来，不管我们接受还是不接受! 而且这两年，大数据这个词突然变得很火，不仅出现在阿里巴巴、谷歌等互联网公司的战略规划中，同时在我国国务院和其他国家的政府报告中多次提及，无疑成为当今互联网世界中的新宠儿。我对大数据一直好奇已久，阅读了很多资料仍不得其解，直到读完《大数据时代》才有了粗略的认识。

我侧重于从第一部分中的这三个观点谈谈自己的看法，这三个观点可以说是哲学上说的世界观，这三个观点可以说是哲学上说的世界观，因为世界观决定方法论，所以这三个观点对传统看法的颠覆，就会导致各种变革的发生。首先是第一个，作者认为在抽样研究时期，由于研究条件的欠缺，只能以少量的数据获取最大的信息，而在大数据时代，我们可以获得海量的数据，抽样自然就失去它的意义了。放弃了随机分析法这种捷径，采用所有的数据。作者用大数据与乔布斯的癌症治疗例子说明了使用全部数据而非样本的意义，列举了日本“相扑”等来证明使用全体数据的重要性。这个观点足以这个观点足以引起统计学乃至社会文明的变革，因为统计抽样和几何学定理、万有引力一样被看做文明得以建立牢固的基石。我对这个观点还是比较认同的，如果真能收集到整体的数据而且分析数据的工具也足够先进，自然是全体数据研究得出的结果更令人信服。但是这个观点也过于绝对，就算是在大数据时代要想收集到全体数据还是不太可能实现的，因为收集全体数据要付出的代价有时会很大。比如说，你要检测食品中致癌物质是否超标，你不可能每一件食品你都检测一遍吧。

第二，要效率不要绝对的精确。作者说，执迷于精确性是信息缺乏时代和模拟时代的产物，只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下95%的非结构化数据都无法被利用。作者是基于数据不可能百分之百正确的考虑而做出这样的判断的，如果采用小数据一个数据的错误就会导致结果的误差很大，但是如果数据足够多、数据足够杂那得出的结果就越靠近正确答案。大数据时代要求我们重新审视精确性的优劣，甚至还说到大数据不仅让我们不再期待精确性，也让我们无法实现精确性。谷歌翻译的成功很好地证明了这一点，谷歌的翻译系统不像candide那样精确地翻译每一句话，它谷歌翻译之所以优于ibm的

candide系统并不是因为它拥有更好的算法机制，和微软的班科和布里尔一样，谷歌翻译增加了各种各样的数据，并且接受了有错误的数据。第三个观点，不是因果性，而是相关性，这是这本书中争议最大的一个观点，不仅是读者，就算是本书的译者也在序言中明确地说到他不认同“相关关系比因果关系更重要”的观点。作者觉得相关关系对于预测一些事情已经足够了，不用花大力气去研究他们的因果关系。作者用林登的亚马逊推荐系统的成功，证实了大数据在分析相关性方面的优势以及在销售中获得的成功。沃尔玛也是充分利用并挖掘各类数据信息的代表，从啤酒和尿布的案例，以及作者举的有关蛋挞和飓风天气的案例，都说明了掌握了相关关系对于他们策略的帮助。一句话，知道是什么就够了，不用知道为什么。很明显作者所举的例子都是属于商业领域的，但是对于其他领域来说这个观点就值得商榷了。比如说，在科学研究领域，你需要知其然也需要知道其所以然，找到事件发生的原理。用文中的一个例子说明，乔布斯测出整个基因图谱来治疗癌症，但是你治疗癌症你必须知道癌症发病的原理，知道哪一段基因导致了这种疾病，不可能只是说收集各种数据，然后利用其相关性来判断哪里出现了问题

作者在书中把大数据说的很厉害，在最后一部分分析大数据带来无数好处的同时带来的不良影响以及如何面对这些影响。用麦克纳马拉的例子来说明对数据过度依赖所带来的后果。也用《少数派的报告》这部电影来说明如果痴迷于数据会导致我们将生活在一个没有独立选择和自由意志的社会，如果一切变为现实，我们将被禁锢在大数据的可能性之中。所以书中提出了几种解决方法，一种是使用数据时征询数据所有个人的知晓和授权。第二个技术途径就是匿名化。毫无疑问，大数据将会给社会管理带来巨大的变革。

大数据给人类社会的方方面面带来了巨大的变革，这是社会发展的潮流，不可逆转，我们只有顺应这种潮流，在思想上和技能上做好准备才能成为时代的弄潮儿。对于一家公司或一个国家，要从根本上改变思维和观念，尽早适应这种潮流。

最后，附上一段来自原著的结语：

大数据并不是一个充斥着算法和机器的冰冷世界，人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案，只是参考答案，帮助是暂时的，而更好的方法和答案还在不久的未来。篇二：《大数据时代》读书报告

读书报告

——读《大数据时代》

坦白地说，这是我第一本看了睡不着的书，我还记得第一次阅读时的兴奋和激动，就像一场头脑风暴。书里的事例是那么的鲜活与生动，完全颠覆我的思维方式，打破了我大脑中解决问题原有的枷锁。这本书让我明白了太多~~~ 它让我明白生活必须要主动。有些人碰到了不公就自认倒霉，能干一点的可能还会去讨个说法，但并没有解决实际问题，这一次可能挽回了那么一点点的损失，但下次遇到了仍是如此，无限循环。当你绞尽脑汁为了节约成本而提前一个月去购买一张你自以为廉价的飞机票，回头却发现，比那些只提前一天购买的人所付的钱还要高出很多时，不知你会怎么想?是被动的接受还是想方法让现实变得更美好? 它让我更好地去理解现实生活的很多情况。现在才理解，为什么网络上有这么多验证码的存在，为什么社交网要用实名制注册，为什么有这么多的“我猜你喜欢”~~~ 虽然我很喜欢那些“黑匣子”，会让我感觉很神奇，但当我真正理解的他的原理时，其实更让我兴奋不已。原来谷歌翻译背后是这样操作的，原来那些每天时不时闯进我们眼球的广告并非偶然，原来预测流感不需要疾控中心而是网络词条，原来电影在开播前就已经知道了收视率和票房~~~ 当然以上这些相当抓人眼球，但这只是大数据的表面，其真正的价值远不仅如此。人类总是以为自己很强大，能控制一切，当然最好还能预测未来。其实大数据真的可以做到，虽然不可能很精确。在我看来这样更好，大致结果可以意料，这就够了，如果发现结果不尽如人意，我们可以提前控制。当然还会有我们意想不到的情况发生，这样会让未来更充满想象，更加充满期待。

它让我懂得不能墨守成规，也不能自以为是。大数据环境是那些微型企业发展的福地，它是行业竞争重新洗牌的动力源泉。在大数据面前，小公司不需要妄自菲薄，大的商业帝国也只有打气十二分的精神才可能让自己立于不败之地。

他让我知道没有做不得，只有想不到。现在的赚取资本的方式已经不再是单靠苦力就可以解决问题的时代了，看见朋友圈里的那些做代购的，都在自我催眠“不要看我们现在是微商~~~微商将来前途无量~~~·”我一直都抱着看看不说话的心态，难免也会哂笑，真的不知道他们和菜场卖菜的有什么本质区别~~~现在是一个依靠知识科技来富国强兵的时代了，真正的优势来源于你提前想到了别人还没去想的，提早完成了别人还没有筹备的计划。

他让我学会世界上没有光杆司令，我们必须学会合作。一个人的能力是有限的，一个人的时间也是有限的，同样公司，国家都是一样的。我们知道谷歌，亚马逊，facebook以及中国的阿里巴巴，百度，新浪这些企业都很强大，可是他们仍然在不断收购合并整合其他一些小的公司，为的是引用他们的科技技术来强大自己的事业版图。

它还教会我在机会面前必须要眼疾手快。在你还在犹豫不决或是自我陶醉的时候，你的对手已经用一个非常低廉的价格得到了他想要翻身的王牌，当你发现时，要么花大血本去换取一张相似的王牌，要与他赤身搏斗。大部分情况下那些聪明的人往往会选择前者，因为他们知道宁可为自己现在的失误埋单也不会让自己靠近万丈深渊。因为若丧失了主动权，那么很有可能导致的结果就是，那个原来看起来微不足道的“小木桩”却扳倒了你这体积庞大的“大象”。

说了这么多大数据给我的启示，其实就是想突出大数据背后的那种神奇的力量。在近代我们似乎与每一样新的科技都失之交臂，但是这一次我们似乎还有机会和时代同步伐，甚至如果我们足够重视，可能还会走在时代的前沿。虽然我们现在谁都没有把握中国到底会利用大数据到什么程度，但已经有好多像周涛一样的有志之士看好中国在利用大数据上的实力，并且付诸了他们的努力。他们一直都坚信以前的落后仅仅是时间上的后知后觉，他们在这一次想

要做到与世界同步，和欧美同步发行此书，在最早一刻就向大家推广大数据这一新名词，向大家灌输着大数据的思维。对此，我也很庆幸，在恰当的时间点与大数据的偶遇。

当然，世界上没有十全十美的东西，再好的发明总是有它的缺陷，大数据也不会例外。舍恩伯格这个对大数据最有权威发言权的人，既然有能力将大数据的好处讲得淋漓尽致，毫无疑问自然也是最清楚大数据危险的人。我很尊敬他的严谨和坦诚，他在细致入微地解释大数据革命性优势的同时，毫无修饰地点明了大数据的劣根性。他很准确地说明了如果我们滥用或误用数据，我们将会受到毁灭性的打击，后果将会如何不堪设想，并且这篇幅一点都不敷衍。作者非常专业，他并没有像某些专家一样，一味地鼓吹自己的“一家之言”。而是在我们头脑发热，一哄而上之前，就给我们非常而且深刻的警醒。这也正是大数据思维的其中之一：馈前控制。

读完这本书以后，我有的确一点蠢蠢欲动，因为它让我觉得大数据并没有像想象的那么遥不可及。书中说，会好好利用大数据的有三种人：第一种是拥有庞大数据库的政府或者商业机构，他们之前只是不知道那些尘封已久的数据还可以创造巨大的价值。第二种是利用技术手段，让数据发挥它独特功能，从而帮他们解决实际问题的数据分析学家，统计师，精算师和其他一些有关于处理数据的相关人员，他们非常了解数据的状态，结构和特征。的确这两类人实力雄厚，前者拥有数据本身，而后者拥有技术。但他们有着同样的短板，那就是他们没有更为创新，灵动的视野，他们很难或者说没有更多的时间去发现那些数据的真正力量。因为他们有太多的思维定式，但种种利用大数据的成功事例表明，每次数据创造的奇迹总在那么的偶然和不经意之间。而这正是我们第三种人的长处，我们没有思维定式，更有闲暇的时间来感受生活，激发灵感。篇三：大数据时代读书笔记

大数据时代——读书笔记

一、引论

1. 大数据时代的三个转变： 1. 可以分析更多的数据，处理和某个现象相关的所有数据，而不是随机采样 2. 不热衷于精确度

3. 不热衷与寻找因果关系 2. 习惯：用来决策的信息必须是少量而精确的。实际：数据量变大，数据处理速度变快，

数据不在精确

3. 危险：不是隐私的泄露而是未来行动的预判

二、大数据时代的思维变革 1. 原因：没有意识到处理大规模数据的能力，假设信息匮乏，发展一些使用少量信息的技

术(随机采样)

1. 1086年末日审判书英国对人的记载 2. 约翰·格朗特：统计学，采样分析精确性随着采样随机性上升而大幅上升，与样本数

量关系不大

3. 1890年，穿孔卡片制表机，人口普查 4. 随机采样有固有的缺陷 1. 采样过程中存在偏差 2. 采样不适合考察子类别

3. 只能得出实现设计好的问题的结果 4. 忽视了细节考察

2. 全数据模式：样本=总体 1. 通过异常量判断信用卡诈骗 2. 大数据分析：不用随机抽样，而是采用所有数据。不是绝对意义而是相对意义。

(xroom信用卡诈骗，日本相扑比赛) 3. 多样性的价值(社区外联系很多》社区内联系很多) 3. 混杂性而非精确性 1. 葡萄树温度测量：数据变多，虽然可能有错误数据，但总体而言会更加精确。 2. 包容错误有更大好处

3. word语法检查：语料库》算法发展 4. google翻译：让计算机自己估算对应关系，寻找成千上万对译

结论：大数据的简单算法好过小数据的复杂算法 5. 大数据让我们不执著于也无法执着于精确 6. mit的通货紧缩软件：即时的大数据 7. 标签：不精确

8. 想要获得大规模数据的好处，混乱是一种标准途经 9. 新的数据库：大部分数据是非结构化的，无法被利用 10. hadoop：与mapreduce系统相对的开源式分布系统，输出结果不精确，但是非常快结论：相比于依赖小数据和精确性的时代，大数据因为更强调数据的完整性和混杂性，帮助我们进一步接近事情的真相。“部分”和”确切“的吸引力是可以理解的。但是当我们的视野局限在我们可以分析和确定的数据上时，我们对世界的整体影响就会产生偏差和错误。不仅失去了尽力收集一切数据和活力，也失去了从不同角度观察时间的权利。

三、不是因果是相关 1. 知道是什么就够了，不需要知道为什么。 1. 亚马逊放弃书评组，使用大数据预测人们的未来购书需求 2. 2. 在小数据世界，相关关系有用，但是大数据背景，相关关系大放异彩。通过找关联物，相关关系可以帮助我们捕捉现在和预测未来 1. a和b经常一起发生，那么a发生时可以预测b发生 2. 例子：沃尔玛把飓风用具和蛋挞放在一起 3. 过时的寻找关联物的方法 a) 原因：数据少且收集花时间 b) 在建立，应用假想和选择关联物时容易犯错误 c) 结论：我们不需要人工选择关联物 3. 大数据的相关分析法更准确，更快 1. 例子：fico我们知道你明天会做什么 2. 伊百丽：根据个人信用卡交易记录预测个人收入，防止逃税 3. aviva：根据生活方式数据预测疾病 4. 美国零售商target：通过购买习惯预测是否怀孕 4. 通过找出新种类数据的相互联系解决日常需要：找到关联物并监控，我们可以预知未来

1. 例子：ups与汽车修理预测 2. 新生儿健康监测：肉眼看不到，但是计算机能看到 5. 当收集分析和储存数据的成本较高时，应当适当丢弃一些数据 6. 数据的非线性关系 1. 幸福的非线性关系 7. 快速思维模式使人们偏向于用因果关系看待周围的一切，因此经常对世界产生错误认识。这也使大脑为了避免辛苦思考而产生的捷径。大数据会经常被用来证明我们习惯的思维方式是错误的。 8. 证明因果关系的实验开销大，难于操作;相关关系很有用，不仅是因为能为我们提供新的视角，而且提供的视角都很清晰。一旦我们考虑因果关系，这些视角会被蒙蔽。 9. 大数据并非是理论消亡的时代。

四、一切皆可量化 1. 莫里的信息交换计划：总结所有船只的航海日志已获得好的航线，为第一根大西洋电缆奠定基础

2. 坐姿研究与汽车防盗系统 3. 数据化

1. 把现象转变成可指标分析的量化形式的过程 2. 计量和记录促成了数据： 1. 阿拉伯数字 2. 计数板 3. 复式记账法

3. 数字化与数据化的区别

1. 例子：google的数字图书馆：开始使用扫描-》数字化，进而光学识别-》数

据化。google借此改进自己的翻译 2. 文化组学：定量分析揭示人类行为 4. 文字变成数据：人可以阅读，机器可以分析 5. 方位变成数据：需要一套标准的标记系统和收集，记录数据的工具。 1. 始于古希腊

2. 1884年，国际子午线会议 3. 1978年，全球定位系统 4. 英国汽车保险

5. ups的最佳行车路线：减少左转 6. 收集用户地理位置数据，以便进行忠诚度计划。或者可以预测交通情况 6. 现实挖掘

1. 处理大量手机数据，发现并预测人类的行为。 2. 例子：预测流感隔离区域 3. 例子：通过非洲预付费用户的位置信息和他们账户的资金，发现贫民窟是

经济繁荣的跳板 7. 沟通变成数据

1. facebook：社交关系数据化

号。新推特频率可以预测电影票房

可能性呈现正相关 8. 万物数据化

1. 触觉地板：适时开关灯，确定身份，某人摔倒之后是否站起来 2. 人体传感器：监控健康状态 4. 结论：世界的本质是信息和数据，大数据提供新视角。

五、大数据的潜在价值 1. 例子：captcha(验证码，全自动区分人类和电脑的图灵测试)与数据再利用。作者使用了新的验证码recaptcha，人们从计算机光学字符识别程序无法识别的文本扫面项目中读入单词并输出，知道他们都输出正确后才确定(用来破译数字化文本中不清楚的单词) 2. 大数据时代，所有的数据都是有价值的。现在，我们能够以较低成本获取并存储数据。数据的真实价值就像漂浮在海洋中的冰山，绝大部分隐藏在表面之下。 3. 不同于物质性的东西，数据的价值不会随它的使用而减少，而且可不断被处理。意味着数据的最终价值远远大于它的最初价值。在基本用途完成后，数据的价值仍然存在，数据的价值是其所有可能用途的总和。 4. 例子：ibm与电力汽车动力系统的优化预测：大数据预测模型，甚至考虑天气预报 5. 数据再利用：

1. 搜索关键词，搜索结果预测夏天流行色 2. google保存语音翻译记录，开发自己的语音识别技术 3. 移动运营商长期使用大数据微调网络性能 4. 有些公司可能会收集到大量的数据，但是他们并不急需使用，也不擅长使用数据，但是别的公司可以借此探寻数据的潜在价值 8. 重组数据 1. 例子：丹麦癌症协会与手机致癌调查：使用所有的手机用户信息和所有的中枢神经系统肿瘤信息。

随着大数据的出现，数据的总和比部分更有价值，当我们将多个数据集的总和重组在一起，重组总和本身的价值也比单个总和更大 9. 可拓展数据 1. google街景和gps采集，不仅将其用于基本用途，而且进行了大量的二次利用。例如，对google自动驾驶汽车的运作 10.数据的折旧值

1. 随着时间的推移，大多数数据都会失去一部分基础用途，不应用此破坏新数据 2. 挑战：如何得知某些数据不再有价值 3. 并非所有数据都会贬值。例子：google希望得到每年的同比数据

结论：组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应该与第三方分享数据

11. 数据废气：用户在线交互的副产品，包括浏览哪些页面，停留多久，输入信息等 1. 数据再利用的方式很隐蔽 2. 例子：google的拼写检查：搜集每天处理的查询中数据搜索框的错误拼写 3. 例子：google的过滤噪音技术：如果用户点击搜索结果靠后的链接，说明这个结果更加有相关性，google会把这个页面的排名相应提升。 4. 当用户指出了各种自动化程序的错误，实际上是训练了系统 5. 例子：巴诺与数据快照，电子书阅读器捕捉人们阅读书籍的习惯 6. 例子：coursera通过捕捉学生犯的错误来提示未来犯错误者

结论：数据废气可以成为公司的巨大竞争优势，和对手的强大进入堡垒 12. 开放数据 1. 最大的数据收集者：政府，可以强迫人们提供信息，但是信息利用效率低下。最好允许私人运营部门和社会大众访问

2. 例子：flyontime网站，通过开放的数据分析航班延误可能性。 3. 给数据估值：从数据持有人在价值提取上所采取的不同策略入手，将数据授权给第三方

三、角色定位：数据，技术与思维 2. 思维转变的重要性 3. 三种大数据公司

1. 基于数据本身的公司：twitter 大数据最值钱的是他本身，所以应该优先考虑数据拥有者

例子：机票预订系统ita不直接使用数据：担心暴露利润

例子：mastercard通过大数据预测客户的消费习惯 2. 基于技能的公司：咨询公司，技术供应商或者分析公司：teradata 例子：埃森哲公司利用大数据检测汽车零件并节省费用

例子：微软分析公司利用大数据降低病人的再入院率 3. 基于思维的公司：创新思维

例子：flightcaster飞机晚点预测

例子：prismatic分析新闻并排序 4. 大数据先驱者一般有跨学科的知识 5. 例子：google和amazon三者兼备 6. 全新的数据中间商：从各个地方搜集数据，提取有用的信息进行利用，并不威胁数据拥有者的利益

1. 社会需要定向广告

例子：inrix：分析各种汽车制造者的数据和用户的数据，提供卫星导航服务

汽车制造商们本身数据量不够，自身也没有技术利用大数据，也并不介意数据会被中间商利用。同时可以提供失业率等相关数据

例子：quantcast：收集用户访问信息来测评用户年龄等，之后发定向广告

例子：hcci收集医疗保单，分析美国医疗费用上涨是否合理

结论：

1. 数据价值的转移：从技术到数据本身和大数据思维 2. 传统商业模式颠覆：交易数据而不是交易技术 3. 传统专家的光芒会被统计和数据学家取代，因为后者只关心数据 1. 例子：谷歌翻译团队的工程师都不会说出翻译的语言 2. 真正的专家不会消亡，但是主导地位会改变 3. 专业技能只适用于小数据时代，因为那是需要依靠直觉和经验指导，但是

遭遇海量数据时，可以通过数据挖掘得到更多 4. 数据和统计学知识将成为现代工厂的基础，人类的价值体现在交流上，以进行广泛而深刻的传播

1. 例子：交互式游戏，会根据用户来改良，以数据为基础运作 5. 大数据决定企业核心竞争力 1. 数据规模决定价值

2. 例子：劳斯莱斯通过大数据监测引擎，预测可能出问题的引擎 3. 例子：苹果进军手机 4. 大数据为小公司带来了机遇：能享受非固有资产规模的好处，低成本传播创新结果，只需要创新思维

5. 大数据拥有者会想办法增加数据存储量 6. 消费者成为数据拥有者并与中间商交易 7. 大数据对中等规模的公司帮助不大：既没有灵活性也没有规模效应 6.大数据撼动国家竞争力：西方世界优势减少

四、大数据时代的管理

1. 大数据会带来很多危险，因为其核心思想是用规模剧增来改变现状。 2. 滥用大数据的力量会伤害人身安全 3. 大数据的二次利用颠覆了隐私保护法：无法征得个人同意 4. 如果所有人的信息在数据库里，有意识地避免就是此地无银三百两 5. 匿名化：交叉检验会检验出来 6. 大数据预测：罪责判定基于对个人未来行为的预测。大数据可能会否定人的自由意志 7. 数据有其局限性，数据的质量可能会很差，有误导性。 8. 卓越的才华并不依赖数据：apple乔布斯的才能

五、掌握大数据 1. 个人隐私保护：从个人许可到让数据使用者承担责任，因为将责任从民众转移到数据使用者很有意义因为数据使用者比其他人更明白他们想怎么样使用数据，也因为他们是最大利益获得者：监管机制可以决定不同种类的个人数据必须删除的时间 2. 信息模糊处理

3. 个人应该为他们的行动而非倾向负责 4. 打破大数据的黑盒子：大数据算法师：评估数据源，分析数据工具，解读运算结果 1. 外部算法师：审计大数据的准确程度和有效性篇四：读书笔记-《大数据时代》

读《大数据时代》初次见到维克多·迈尔-舍恩伯格教授是在《对话》栏目中，当时谈及当今各种科技信息的变化，然后在主持人的各种提问下，我逐渐了解到“大数据”这个名词，他也是现在对于大数据最有发言权的预言家。一位睿智的人总是能够给人留下很深的印象。然后在中央财经频道的特别节目《指尖上的商机》系列节目中，也谈及到大数据对于当今时代的影响和蕴藏的巨大商机。

读一本好书就像与智者交谈。今天我翻读《大数据时代》，细细品读这位智者给我们的礼物。我们首先应该明白一个概念“大数据”，他不是单单的说数据很大，或者数据很多的意思，真正的意思是：不用随机分析法这样的捷径，而采用所有数据的方法。它告诉我们一种超越现在的对于数据的一种分析方法，这个方法建立在尽可能多的数据上。下面让我们合上此书，让他从我们的思想深处开始发声吧。

首先，大数据时代是建立的基础就是有一个很庞大的数据库，我们分析的对象不是抽取样本，而是用全部的数据作为样本，“样本=总体”。这样我们能够把要调查的对象精确到每一个个体，我们能够对每一个个体提供个性化分析和服务。我们会摆脱抽样样本的误差和失误，同样我们能够细化我们研究的对象和分析的数据。我们分析的适合一个大的整体，也适合每一个个体。这是大数据分析的基础。

第二，大数据是由很多不同的纷繁复杂的数据汇总在一起的，我们必须接受他们的复杂性和不精确性，我们的研究方向除了寻找因果关系之外，增加了一种相关关系的研究。我们通过数据之间的关系，分析得到我们想要得到的结论或者是模型。在这里我们应该重点看一下，相关关系是我们打开的另一扇窗，而不能关闭因果关系的现在开着的窗户。我们开始重视相关关系，但是不能放弃对于因果关系的研究。作者也在文中阐释我们的生活还是需要因果关系的，甚至我们需要大数据算法师，我们需要了解“黑匣子”中的神秘。这是大数据时代我们应该正确认识的。

第三，大数据的原始来源是用不同的方法收集，为了有尽可能多的数据，我们现在有了电脑，搜索引擎，智能手机，可穿戴设备，社交平台，还有无数的传感器等等，我们可以把文字，位置，动作，喜好等所有的世界进行量化，他都可以用数字表示，这就是我们所有的纷繁复杂的原始数据，他们是一座钻石矿，由于无数种的相关组合可以不断地挖掘出我们所需要的信息。这是我们不断利用大数据的基础。我们需要不断更新的数据。

第四，未来在过去的尘埃中。我们分析大数据最大的作用就是预测未来，知道下一步你会做什么，知道下一个最危险的事物或人。我们用什么方法预测未来。这是一个商业，政府，甚至世界的时代，我们分析的方法就是动用自己敏锐

的思维发现相关性，然后动用我们的数据分析工具对其进行相关性分析，最后我们用统计学研究出一个模型。通过模型我们能够预测未来。大数据分析的关键就在于数据，思维和技术。现在我们有快速分析的工具，正在不断收集数据，那么最重要的就是人类的思维，一个能够分析相关性，能够创新使用数据的思维。在大数据时代我们需要把统计学，软件工程师和创新思维结合在一起的人才。

第五，我们能够知道每一个人的位置，喜好，关注什么，即将干什么等等，对于每个人来说都是一个很可怕的事情，如果我们赤裸裸的暴露在阳光之下，或者我们正在暴露中，我们的隐私应该受到保护，这也是大数据时代一个亟待解决的问题，尽管我们匿名分析信息，到最后我们还是能够精确到个人，我们需要有人负责，这是安全问题，自由和科技或商业的发展产生矛盾，我们应该何去何从?我们担忧的，相信会有人来解决。这涉及到我们每个人的利益。

来暴露我们需要的产品;我们用百度、google来暴露我们所关注的事情。我想有好多双眼睛正在盯着我们，只是我们还不知道。这是一件可怕的事情。