阿里云云计算安全

2022-06-22

第一篇:阿里云云计算安全

阿里云计算参展2012中国计算机大会 final

阿里云参展2012中国计算机大会 云计算实践获学界关注 10月18至20日,阿里云计算参展同期在大连举办的2012年中国计算机大会。 中国计算机大会是中国计算机领域级别最高、规模最大的学术盛会,大会的特点是高端的学术性和专业性,面向学术界和产业界的专业人士,众多高校教师和学生参加了本次大会。会议主要通过大会特邀报告和技术专题论坛进行交流,还安排了科技成果展览和专业参观。

阿里云云计算、云OS和高校关系等多个部门分别参与了大会主论坛、系统软件分论坛、移动互联网和智能终端分论坛、科技成果展览等多个环节。阿里云计算资深总监张春晖在大会主论坛就云计算和移动互联网的结合做了主题演讲,介绍了阿里云在云计算落地实践上的成果云OS。阿里云的展位也备受关注,云计算平台和云OS获得了众多学术界人士的咨询和交流。

云计算带给移动互联网新的体验

阿里云作为国内云计算领域的领军企业,在云计算的应用实践上卓有成效,受邀参与本次大会主论坛的主题演讲。

张春晖重点介绍了阿里云在云计算和移动互联网结合方面的实践,认为随着技术和应用发展,云计算、大数据、移动互联网成为计算机领域的重心,而云计算将带给移动互联网新的体验。

张春晖介绍,云计算将使互联网的服务落地到终端上,像水电煤一样提供给所有人,这些服务将以数据为核心,比如在手机上通过云来备份各种信息和数据。为了保持数据的不丢失不中断,提供大规模的服务,需要强大的云计算平台和分布式系统来支撑,解决众多技术问题。

阿里云的飞天大规模分布式计算系统,以大规模计算机集群为基础,完成分布式文件系统和任务管理调度,支持弹性计算、开放结构化数据服务、开放存储等服务,进一步支持云服务引擎和各种前端应用,提供从底层到应用层面的不同服务。同时,阿里云结合云计算和终端的资源和服务,构建了完整的开发者平台,让开发者更便捷的将互联网服务接入移动终端。为了鼓励开发者参与,阿里云在近期举办了开发者大赛,还将在11月9日举行2012开发者大会。

阿里云展位获学界关注

云计算在中国正呈现百花齐放的迅猛发展势头,从学术界到产业界,都在以各种各样的方式尝试云计算的最新技术与业务的深度结合,阿里云在云计算的商业实践上取得了重要的成效。

计算机大会的科技成果展区上,阿里云与众多的高校科研项目一同展出。弹性计算ECS、开放存储服务OSS、关系型数据库RDS、开放数据处理ODPS、开放结构化数据服务OTS、云OS等众多云计算的实践应用赢得了关注。众多高校老师和学生驻足阿里云展位前,对云计算在实践领域的发展非常感兴趣,并且乐意参加阿里云的调研问卷。根据问卷的初步反馈,众多高校师生对阿里云的提供的云计算服务表现出了很大的兴趣,认为阿里云的云计算服务可以更好的将学习和科研成果应用到实践中。

阿里云致力于打造公共、开放的云计算服务平台,借助技术的创新,不断提升计算能力与规模效益,将云计算变成真正意义上的公共服务。阿里云希望更多的学术科研人士、开发者和中小企业加入阿里云平台,共同促进云生态系统的繁荣发展。

开发者大会将于11月举行

为了更全面的展示阿里云计算的在云计算领域,推动开发者参与阿里云云计算平台。阿里云将于11月

8、9日在杭州举办2012阿里云开发者大会,开发者大会以云计算为主题,包括弹性计算、大规模存储、大规模计算、云网络、“大数据”5个分论坛。大会将盘点阿里云一年来在弹性计算、存储、大数据处理、云平台建设等方面的技术革新、产品发展以及实践成果,并发布未来阿里云的发展战略及业务规划。

用友畅捷通、壹人壹本、福建电信、浙江水利厅、海尔、施耐德、阿里金融、万网等来自互联网、云计算、电信运营商、消费电子、移动终端等领域的业界领袖和技术专家将分享云计算在传统IDC、移动互联网、SaaS应用、PaaS平台等领域的变革力量,展示云计算在各行业落地实践的成果,与近3000名开发者共同探讨云计算在中国的机遇与挑战。

秉承阿里云开发者大会往届的特色,大会还将提供现场丰富的产品体验和互动,提供各种产品优惠体验机会。

第二篇:关于阿里云(aliyuncom) 阿里云计算有限公司成立于2009年9月10日

关于阿里云(aliyun.com)

阿里云计算有限公司成立于2009年9月10日,由阿里巴巴集团投资创办,在杭州、北京和硅谷等地设有研发和运营机构。阿里云计算的目标是打造互联网数据分享的第一平台,成为以数据为中心的先进云计算服务公司。

阿里云计算依托阿里巴巴集团在电子商务领域的宝贵经验积累,汇集来自国内外顶尖的技术人才,专注互联网和电子商务的技术创新,打造未来互联网和电子商务的新体验,用世界一流的技术让阿里巴巴成为世界最有影响力的互联网企业和最大的电子商务服务商。

阿里云计算致力于提供完整的云计算基础服务。

在未来的电子商务中,云计算将会成为一种随时、随地,并根据需要而提供的服务,就像水、电一样成为公共基础服务设施。高效的绿色数据中心以及能支持不同互联网和电子商务应用的大规模分布式存储和计算是营造下一代互联网和电子商务的服务平台所需的最基本的核心技术。在此基础上结合新的用户体验技术以及分布式数据库技术、无线移动计算技术和搜索技术等平台技术,高性能、高扩展、高容量和高安全的计算服务将成为未来互联网和电子商务创新的基石。

阿里云计算目前拥有完整的云计算系统解决方案,并于2011年7月份发布了中国首个针对移动互联网的操作系统云OS。

第三篇:阿里云计划为“新制造”提供计算与人工智能

近日,云栖大会?广东分会在惠州召开,会上阿里云表示将为制造业提供人工智能ET,让厂房里的制造机器以及制造出来的产品也具备ET大脑,通过公共云的普惠计算能力以及物联网技术方案,协助制造业实现关键工序智能化、生产过程智能优化控制等方面的转型升级。

与此同时,阿里云还宣布与制造企业华中数控达成合作,推进新制造发展。另外,阿里云与南凌科技签署战略合作框架协议,共推混合云。比亚迪CIO在会上分享了汽车行业如何利用云计算、人工智能来提升生产效率。

“基于云计算为社会带来的强大计算能力,人工智能将为中国制造业带来25%的生产效率提升,创造额外附加值6万亿。”波士顿咨询在《工业4.0――未来生产力和制造业发展前景》的报告中指出。中国作为世界制造中心,以云计算、大数据和人工智能为代表的工业4.0新技术将成为制造业提升效能的关键。

阿里云在云栖大会?广东分会上提出,为机器装上ET大脑,用人工智能的技术揭开“新制造”时代的面纱。大会上,阿里云和华中数控发布合作,双方将在云计算、大数据、物联网等领域开展合作,从而推动制造装备从“数控一代”向“智能一代”升级。

ET是阿里云研发的人工智能,目前已具备智能语音交互、图像/视频识别、交通预测、情感分析等技能。其优势在于对全局的洞察和实时决策上,在复杂局面下快速做出最优决定。

“阿里云ET下一步将应用到制造业中,用大数据AI技术协助企业分析生产过程中的全链路数据,实现生产效率提高、库存周转率提高、设备使用效率提升等目标。”阿里云副总裁喻思成在大会现场表示。

除了??现工厂的数据化,云计算还为企业内部实现快速创新提供了基础。今年5月,徐工集团与阿里云达成战略合作,共同搭建国内首个“工业云”平台。吉利汽车也在利用阿里云的大数据人工智能技术,设计更符合用户“口味”的产品和服务,未来这一项目还将成长为“吉利大脑”,让吉利可以对市场、研发、制造做实时决策。

“从中国是制造中心,变成中国是计算中心。”喻思成表示,阿里云自主研发的大规模通用计算操作系统“飞天”伴随数据中心的布局走向世界,以在线公共服务的方式为全球提供强大、通用并且普惠的计算能力。

在全球化的云计算基础设施布局之下,如大疆、大拿等中国企业可以使用阿里云的服务来支撑全球化业务发展。此前,企业在出海过程中,需要在全球多个网络的不同系统中来回跳转。

在国际市场竞争中,喻思成认为,阿里云的优势在于自主研发的云计算底层底数体系,并且在安全、人工智能和企业级互联网架构方面有独特的优势。

在产品层面,阿里云宣布推出“竞价实例”,该产品充分利用云计算的规模效应,客户将有机会用低至平时1折的价格做灵活的小时级短期计算,首批产品将定向邀请使用。

“免费套餐”是指获得邀请码的新用户可在半年内免费使用30余款云产品,目前开放的产品类型包括弹性计算、数据库、中间件、安全、云市场等。阿里云表示,希望通过这一计划加速普及云计算技术。

降低云计算的使用成本是阿里云长期的策略,在惠州分会上,阿里云宣布新用户华南区云服务器优惠至7折,中国各大区云数据库全系调价,平均降幅20%。云服务器独享实例最高降幅30%。

第四篇:阿里云大数据计算平台的自动化、精细化运维之路

本文章来自于阿里云云栖社区

摘要: 作者简介:

范伦挺

阿里巴巴基础架构事业群-技术专家

花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput 免费开通大数据服务:https:///product/odps 作者简介:

范伦挺

阿里巴巴基础架构事业群-技术专家

花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamCompute等)的运维、架构优化及容量管理等

1、前言

本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战;

阿里自动化平台建设;

数据精细化运维;

我对运维转型的思考和理解;

2、在阿里我们面对的挑战

在讲挑战之前,我们可以简单看一下阿里大数据平台演进历史,我们的MaxCompute(原ODPS)平台是2011年4月上线的,2013年8月份单集群超过5K,2015年6月单集群超10K,目前在进行异地多活和离在线混布方面的事情。

首先是规模大、小概率事件常态化

对于小概率事件大家不能赌运气,基本每次都会踩中狗屎的。譬如各类硬件故障,规模小的时候觉得硬件故障概率比较低,即使坏了也比较彻底,但是规模大了后会有很多情况是将坏不坏,类似这种奇葩事件会越来越多。

还有网络链路不稳定,网络链路会有很多原因导致它不稳定。一方面是网络设备多了,网络设备出现故障的概率也大了,另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战。

还有一部分是工具,机器的环境变得复杂以后,我们对工具稳定性就有更高要求,比如你要考虑到有些机器的 SSH 会 hang 住,还有某些机器yumdb是坏的,不能想当然的以为一条命令下去一定会执行成功。

其次是多机房多地域

几千公里距离会有几十毫秒的延时增加,大家在布置异地多机房应用的时候,要考虑到应用之间的超时设置是不是合理,需要重新 review 尤其针对多次往返的请求,累加效应是非常明显的。

还有一块是资源不均衡,可能那个集群早上忙一点,那边是下午忙一点,但是因为计算任务依赖下面大规模底层数据,所以你不可能利用长传带宽直接来进行直读直写的计算,因此要考虑应用的合理布局。

关于自动化平台建设,自动化的意义我想读者们应该是有共识的。

第一自动化能够提升稳定性,机器的操作比人要靠谱,固化的操作交给机器去做,可以减少人犯错机会,提高线上稳定性。

第二自动化能够提高效率,机器代替人做很多事情之后,把我们从日常繁琐运维操作中解放出来,解放出来以后我们可以做更有价值和意义的事情。

今天因为时间关系,我会从以下四个最常见自动化方向做简单举例介绍,变更、问题排查、硬件维修,交付检查。右边是我们内部用的运维平台架构简图,下面介绍的东西都是基于这个平台的功能模块。

3、 四步走让平台自动跑起来

3.1 第一步:实现自动变更

说到变更,做运维的总是有很多共同语言要聊。变更在我们日常工作中占的时间还是比较多的,包括变更方案整理,变更跟进执行,都是比较耗时的,另外变更也是非常危险的。

原来有过统计,号称70%稳定性事件是跟变更相关的,有可能是运维工程师直接变更操作引起的,也有可能是上线代码有 bug 引入的,这两类都归结在一起,反正是“线上不作不死,一作就死”。

但是不能因为这个不发布,还有很多功能开发也是跟我们一样,天天加班熬夜,搞出来的代码不给他推上去也说不过去,还要满足业务需求,那这个问题得解。怎么解呢?

我们内部思路是首先会把最底层的一些操作进行原子抽象,比如像把一台机器从 VIP 里摘取出来,装一些包进行固化,固化之后抽象出来,称为工作流,然后把工作流进行组装把它称之为组合工作流。

一个组合工作流对应一种日常的固化变更类型,比如控制集群服务升级等等,这样固化的变更就可以由对应的组合工作流去做。

在组合工作流之上,还会有一层封装需求单。主要解决开发的自助申请,审批等环节。在工作流执行页面可以查看详情,包括对应的每个步骤具体命令,返回信息,执行超时时间,超时或者失败的通知方式和人等等。

通过这样一套平台,基本上能够解决日常固化的那一类变更请求,能够做到变更由开发自己申请发起,运维只需审核一些参数、测试报告等等。

3.2 第二步:高效稳定的解决问题

第二个例子是关于问题排查的,上图画的是我们当前用的实时日志分析系统的架构,阿里因为这块的产品自研的都有,所以用的都是自研的产品。

为了便于理解,我在边上备注了对应的开源产品,基本上的流程或者逻辑也是比较好理解的,首先在服务器上部署 Agent,Agent 会依据日志服务里配置的规则进行过滤以后,将对应的信息推送到日志服务。日志服务里数据可以实时进入到流计算平台进行实时分析计算,并且把结果存到 RDS 里面,然后 tesla 通过 RDS 进行调取和展现。

另外日志服务存的数据,也会通过实时建立索引,提供 WEB 级别日志查询,帮助用户做日志查询。同时也会导入 max compute 做永久存储和进一步分析。

基于这套系统,我们举一个例子:异常流量排查。流量打满是很常见的问题,通过这样的机制怎么帮忙我们排查和定位这些问题呢?

比如有N个机房,机房与机房之间有很多链路,每一条链路带宽都是有限的,有时一个突发流量尖峰过来会导致流量拥塞,假设平台上有一条链路,流量打满以后,呈现黄色预警状态,通过点击这条链路,就会进入流量分析实时界面。

这里可以看到从某个时间段到某个时间段,从某个机房到另外一个机房最近十分钟的情况,这里显示的是最近十分钟对应作业流量总的情况,点击流量最高的点可以在右侧看到每个作业对于流量贡献情况及其最近10分钟的变化趋势。

下面还可以列出来这些作业具体的项目归属,作业名称等等。通过这个机制就可以很快定位到问题的原因。这里收集的日志是阿里云飞天盘古 master audit log,盘古 master 有点类似Hadoop里的 name node 节点,它会记录所有集群发起的数据访问请求,包括来源 IP 是什么,获取数据大小是多少,发起的作业名称等。

把这些信息通过前面介绍的实时架构收集完之后,放到流计算平台算,然后再结合网络地域和 IP 归属,就可以画出整个网络拓扑和实时流量图。

基于这套平台还可以做很多其他的事情,比如说网络静默丢包,这个理论上来讲在网络层很难做到监控。但可以通过收集作业执行日志,分析长尾和失败的作业相应的源IP及目的IP分布情况,可以发现某些交换机的异常情况。做到先进行隔离,再让网工去排查解决。

3.3 第三步:更高效的硬件维护

第三步是硬件维修,我们内部有个硬件全生命周期管理工具称之为是 DAM,在日常工作中它能够涵盖整个硬件循环的生命周期,上线以后如果发现线上有硬件问题,它会调应用自定义的下线接口,把这台机器从具体应用里摘出来,从应用层面隔离完之后,再去调机房维修自动接口进行报修。

报修以后会监测这个维修单子状态,等维修结单后,自动做上线前硬件检查,检查通过以后会把这个工单关闭,同时调用应用自定义的上线接口,完成服务器上线。

所以这套东西基本上跟应用是属于松耦合的,只要应用提供满足条件的上下线 API 接口,基本上都可以转起来。

这是它的一个架构简图,主要有三大模块:Dam Worker 、Dam Client、Dam Center.

这里面主要难点还是在于硬件信息收集和分析,怎么判断这块磁盘坏了,怎么判断 CPU 是有问题的。这其中需要长期的数据和经验积累。

这里我可以简单介绍一下我们现在采集的信息源:

硬盘主要依赖于 kernel log/smartctl/tsar

内存是ipmitool/mcelog/stream,

CPU/风扇是mcelog/cpu频率/ipmitool,

网络/网卡/交换机端口是tsar/kernel log。

主板方面如果我们分析以后都不是以上信息,那可能就是主板的原因。

上面这个图是一个最终的效果,这个系统在规模化场景下还是非常有用的,以前没有这个的时候,值班人员是比较痛苦的,因为我们知道现在互联网用的机器都不是高可靠的,去 IOE 都差不多了,都是廉价的服务器,所以出现一些硬件问题还是比较常见的。

很可能一个电话过来,客户就开始抱怨作业又长尾了,你上去一看,这个机器硬盘有问题,加入黑名单,重跑一下,用户和我们自己都搞得很痛苦。

现在我们就不会因为单台机器的硬件问题而受到骚扰了。主要白天看看那些异常工单原因,不断优化逻辑即可。

对于这类自动处理我们肯定采取比较保守的策略,任何系统拿不准的或者不是完全精准匹配的就不动,先做隔离而不做进一步自动处理,放到异常工单池子里,由人工介入分析异常 case 什么原因,不断完善我们硬件检测判断的模型。

3.4 第四步:完善的交付检查

交付检查分为软件交付检查和硬件交付检查,软件交付检查就是用前面介绍过的工作流,硬件交付检查主要针对 CPU、内存和磁盘,对于 CPU 做法是绑定每个 CPU 算 π,算算它的消耗时间分布,最终把曲线画出来,标准就是看曲线的偏离程度。

其实大家可以看出,大部分还是很规矩的,会集中在一起,类似上面有几条偏离曲线的就是我们认为有问题的。那么这里大家可能会问,为什么你这里集中在两个区段,是不是有一半的机器都是有问题的,其实是因为这个集群机器是异构的,本来就有两种类型的cpu。

内存压测采用通用的 stream 方法,就是对内存做拷贝、读取相加,读取做乘法诸如此类的,对于性能指标明显偏离的机器也是有问题的。

磁盘主要用 Linux FIO 命令按照不同的读写比例和块大小,来看它的表现。

其实这里并没有用到什么高深的技术,我之所以拿来说是告诉大家这个极其重要,尤其是对于离线场景。离线计算在公司里一般给的是都是更廉价,更低成本的硬件设备,甚至很多时候在线应用退役的机器也会拿来用,即所谓的利旧。这种时候再加上机器是经过搬迁的话,那硬件的压测就必须做,否则线上会很长时间不得消停。

4、数据驱动精细化运维

下面我们讲讲数据驱动精细化运维,今天主要是讲一些点,举一些例子,以此来表达我的一些想法。

大家都知道数据是有很大价值的,我们通过历史数据分析,能够知道平台过去是发生过的事情,对于现在的数据分析,可以知道平台现在正在发生的事情,还可以通过建模预测未来可能会发生的事情,所以数据可以说是能够通晓过去未来之事。

我们运维的大数据平台上每天都在产生海量的各种运维日志、信息,我们手里拥有在线、离线,各种大数据平台,我们也想把运维做得更精细化一些,可以说是有数据,有需求,有平台,正可谓天时、地利、人和,所以一直在这方面做些尝试。

4.1 实时大屏背后的精细化运维实践

第一个例子是关于双十一大促的,这个屏相信大家不会太陌生,这是双十一大促在深圳晚会现场直播的一个媒体屏,上面有双十一大促最终定格的成交额 1207亿。

这是一个 GMV 翻牌器,它的作用就是实时汇总当前每一笔成交,并且把成交额显示在上面,在光鲜亮丽的媒体屏背后,其实我们还有很多保障用的技术屏,今天就带大家一起来看看其中的一块技术屏。

这上面的数字都抹掉了,简单介绍一下我想说的事情,左边部分是用于承载翻牌器成交额实时计算作业主备集群负载情况,在它的右边显示的就是几个关键的核心作业当前实时的延时情况,单位是毫秒。

这里最右边的这几个白色的数字,代表了每个作业对应的延时,有了这个之后我们才能知道当前算的成交额比真实的用户下单时间,它的延时有多大,超过一定的量,我们就要进行链路切换。

所以有了这个数字以后,可以更好地帮助我们判断现在哪条链路是好的,哪条链路不好的,不好到什么程度,好的话什么程度,不能盲目的去拍脑袋判断,需要有实时化的量化指标做评判。

这里还要强调说明一点,这里用不同的颜色深浅分成三段,这三段分别代表这个作业它的日志采集延时、消息队列读取延时和读到之后计算的延时,把三段延时进行了分开展现,这个有什么用呢?

当链路有问题之后,我们可以知道哪段出的问题,因为实时计算整个链路是非常长的,对于秒级应用来讲,每个环节消耗的时间都是需要被清晰度量的,也就是说,有了这个时间你才能准确判断现在是因为哪里出现的瓶颈导致整体延时不达标。

也就是说,不但能够知道哪条链路有问题,还可以知道链路具体问题点在哪,加快问题定位。

所以对于这个核心指标我建议大家做到三化

量化,这些压力值都可以清晰看到。

细化,每个指标再分细一点,可以更精准判断和定位问题。

持久化,这些实时屏不能看完就算了,还要把数据存起来,非常有用。

所以做到三化,量化、细化、持久化,在核心指标量化分析里是很重要的。

4.2 存储分析在精细化运维中的实践

下面讲一个存储分析的例子,这个例子起源是因为集群规模太大了,每年都被老板盯着能不能省出一点钱来,我们分析了下存储的数据,看看每个 byte 是被什么占用了,这是可以分析的。

我们通过分析之后得到右边的图,这个是真实的图。看了这个图之后,你会注意到,原来存储是这么被消耗的。其中我们可以找到一些应用层的优化。

譬如平台是分层的,每一层为了数据安全都会做自己的回收站(延迟删除)功能,站在每一层独立去看都是合理的,但各种回收站累加在一起就会发现回收站占用比例有些高(尤其是对于频繁删除类型应用)。可以从整体运维的角度去看,对于各层回收站策略做评估。

另外我们还发现一个优化点,就是inode。我们可以计算下看看我们要不要用到这么多inode,按照PPT公式计算可能只需要原来的1.75%就够了,万台集群可以因此省下6PB的存储。

当然这里面实际适用inode大小还是要根据自己应用场景去评估。大家经常做数据运营,数据分析,其实它在很多地方都在那儿等着大家,有很多点可以去做,包括我们日常忽略的,司空见惯的,觉得不值一提的地方,大家可以细究一下,会发现那里有另外一番天地。

4.3 精细化运维在资源优化上的成果

还有一个是资源优化例子,大家知道资源调度器里有一个用户资源申请的值,和申请之后真正跑起来的实际消耗值,我们建立了一个用户实际消耗和用户资源申请的比例,理想值我们希望接近100%,这个指标能够说明调度模型的资源使用状态,有了这样的衡量指标之后,我们做进一步细化分解,看看怎么优化这个指标。

这个是实时计算里面作业的情况,每个作业我们会去看它的资源使用趋势,这上面红色的两条直线是作业里设的申请值,下面蓝色波动比较大的是这一周来资源使用的尖峰值,大家可以看到即使按照这一周作业使用物理资源峰值来看,离申请值也是很远的。

所以这里面还是有不少优化的事情可以做,包括提醒用户自己做优化,也可以在平台层面自动做优化,来达到节省成本的目的。因为一旦调度器认为可以申请的资源都分配出去了,哪怕这时平台物理水位非常低,它也不会调度更多的作业了,所以这件事情也是我们可以深度去做的。

5、如何摆脱苦逼运维的魔咒

5.1 转向运营或许是破解之道

我个人对于运维转型的一些理解和思考。运维转型最近被谈的比较多,有一个论调就是运维向运营转。

这个问题我是这么看的,传统运维更多关注的是平台稳定、安全,也就是非常传统的两个领域,更多关心的是平台是不是活着,这个平台没有出问题,没有挂掉,这是传统运维关心的事情,重点关键词活着。

对于运营来说,除了活着,还要看平台质量怎么样,用户用得好不好,这个平台本身它的效益怎么样,它的成本是不是还能进一步优化,用户感受怎么样,用户满意度怎么样。

而对运维来讲,包括运营,我们大部分都是跟垂直的具体产品或者平台绑定的。不可能完全脱离他们,去谈运维的价值。

所以运营是以一种更积极开放的态度,去看待我们所运维的对象,多看一点,不光看它的活着,还想想怎么能够帮助它和自己一起去成长和发展。

5.2 自动化在转型过程中的四个阶段

然后讲到转型逃不开自动化,我个人认为自动化可以分为四个阶段:

第一个阶段人肉时代

这时候人就是一切,你说了算,你说什么命令就是什么命令,这时候没有任何校验标准机制,就像交警纯人肉指挥交通一样,什么时候让你走就走,什么时候让你停你就停。

第二阶段工具时代

好比交警手里的指挥棒和哨子,这些工具提升了他的个人能力,比如哨子可以让更远的车辆听到他的指令,棒子可以在天气不好的时候让汽车看到他的指令。

这个阶段还是以我们人为主体,工具在能力上做了一定延伸和拓展,但是始终还是人为主,器为辅。还是人在决定这个操作要不要做,什么时候做,参数应该是什么。只是人做完决定后,可以由工具搞定具体落地执行,提升了执行效率,节约下来了时间。

但是离开了人还是什么也不是。所以这个时代,单兵作战能力增强了,但是人逐渐成为整个运维的瓶颈点,因为工具的能力是远远大于人的能力的,更多需求就堆在你手里的,你怎么编排和控制。你成为瓶颈点了,工具越多,人的瓶颈点就会凸显。

第三个阶段平台时代

这个阶段过渡到器为主,人为辅的阶段,还是以交通举例,这里面大家可以看到由很多工具沉淀变成了完整的交通疏导指挥平台,包括红绿灯,包括限速和车道划分等等,这一系列规则和工具,最终不是零散的在那里放着,而是通过一个有序组织变成一个固化的平台,通过这个平台,能够完成交警日常工作中交通疏导的事情。

对于我们运维也一样,我们怎么把我们的经验、想法和技能放到平台里,最终变化自助或者自动化运维平台,这样的时代才能称之为平台时代,就像我刚才前面说的变更平台一样。

我不知道大家有没有经历过,其实很多公司经历过,变更平台可能有很多不同的人开发过很多拨,第一拨可能是开发写的,第二拨可能是工具团队写的,第三拨可能是运维团队自己写的。

这里做一个变更平台并不难,难的是怎么把运维的想法和思考沉淀到平台里面去,怎么让平台有和你相当的能力,这时候它才能代替你日常的职责,所以它这里面的灵魂和思想很重要。

同样是做开发变更平台,开发考虑的是怎么快速高效的执行变更,那运维做的时候会有些什么更多的思考呢?

你会考虑是否有灰度功能,是不是应该先灰度发布一部分,然后有自动冒烟机制,冒烟过了我再引流,然后有没有快速回滚机制,这就是区别,为什么我们要自己去做,自己转型,我觉得别人很难理解我们,也很难救我们,所以要自己转型做自己想要的运维平台。

这里面大家多想想你平常怎么工作的,重要的是把你的能力进行平台化,而不仅仅是简单开发一个系统。 第四个阶段智慧时代

第一个时代是人解决问题,第二个时代是人借助工具更好的解决问题,第三个时代是让平台能像人一样解决问题,第四个时代是让平台超越人类能力去解决问题。这张图是阿里云栖大会上王博士发布城市大脑的照片。城市大脑是解决城市交通拥堵问题,这个问题已经突破人的能力极限,安排再多的交警到各路口执勤也搞不定这件事。

但城市大脑可以,它通过对每天的车流量预测数据,再加上其他的一些补充数据,包括实时红绿灯,每个探头采集到的实时流量等等,把这些数据进行综合判断,它就能够智慧的实时控制所有的交通信号灯,从而达到缓解城市拥堵的目标。

在这里其实一样的,当上升到一个智慧时代以后,平台能力就能够突破人的极限,做到一些人的能力以外的事情,譬如故障的预测、快速自恢复等等。这也是未来的方向——智能运维时代。

5.3 运维效率向运维价值转型

假如我们前面的自动化事情做得不错了,有时间了,该干点什么,原来有一句老话叫做“喝着咖啡干运维”,我个人认为这个观点从生活的角度来讲是不错的,但从工作和个人发展的角度来看还是太过于消极了。

当你达到这个阶段,如果你真这么去做的话,慢慢你可能有时间喝咖啡,但却没钱喝了,很有可能会被淘汰掉。我们应该转变思路,更多的去关注数据分析,可视化及运维平台的产品化。

当我们建立了前面说的自动化运维平台以后,可以更多去想一想如何通过数据分析,让我们运维平台更加智能,达到一个智慧运维的时代。利用计算机强大的计算能力,最终实现机器管理机器的目标。另一方面也可以借助数据分析和运营,帮助我们所运维的产品做改善,如性能、易用性、成本等等。

另外我们也要更多的去思考怎么把运维平台进一步产品化,使我们的运维能力可以输出,产生更大的价值。

这些目标都是可以实现的,当然有很多的事情需要去做,我们可以分阶段的,先从一些简单的事情做起,逐步深入。

6、最后的思考

最后用一张图来总结我对于运维转型的思考。运维应该始终以稳定性为基石,一旦脱离稳定性,其他一切都是扯淡,都是浮云。在稳定性基础之上,我们应该以更积极的运营思路来思考我们自身的发展和平台的发展,借助于数据分析和运维能力产品化这样两个翅膀,实现华丽的转型。运维的人生不止苟且,还有诗和远方!

文章转载自:http:///News/Industry/10052.html

第五篇:阿里云-安全与管理

安全与管理

云盾

云盾是阿里巴巴集团多年来安全技术研究积累的成果,结合阿里云计算平台强大的数据分析能力,为客户提供DDoS防护,主机入侵防护,以及漏洞检测、木马检测等一整套安全服务。

购买云服务器ECS时已自动开通云盾 我们的优势

免部署,免维护,即时开启 无需采购昂贵的设备,免部署 无需复杂配置、免维护

开通云服务器即开启云盾安全防护 多层防御体系

网络层提供流量清洗中心

主机层提供客户端防护功能

应用,数据层提供防火墙功能 海量数据分析 收集攻击行为数据 深入挖掘海量数据

分析判断安全趋势决定防护决策 产品功能

云盾帮您轻松应对各种攻击、安全漏洞问题,确保云服务稳定正常。 十年攻防,一朝成盾。 DDoS防护

提供四到七层的DDoS攻击防护,防护类型包括CC、SYN flood、UDP flood等所有DDoS攻击方式。

主机入侵防护

提供包括密码暴力破解、网站后门检测和处理、异地登录在内的反入侵服务。

安全体检

提供Web漏洞检测、网页木马检测、端口安全检测等安全检测服务。

WEB防火墙

提供WEB攻击防护防火墙,能有效拦截SQL注入,XSS跨站等类型的WEB攻击。

案例

北京乐汇天下科技有限公司 北京乐汇天下科技有限公司,是一家专注于手机网游产品研发和运营的公司,拥有业内顶尖的游戏设计人才,拥有充满激情的研发团队,更拥有健康成熟的游戏理念。 我们致力于通过数字娱乐方式提升人们的生活乐趣,为用户创造一流的娱乐产品和交流环境。 例如 游戏作品 口袋海贼王 游戏类型:角色扮演 在线人数:100000人

使用产品:云服务器、负载均衡、内容分发网络、云盾、云监控 开发语言:Java、PHP 开发引擎:Cocos2d-x

如下不熟构架图:

架构解读

我们的web端更新是走cdn更新,应用服务器端的更新是批量脚本更新我们采用了多种数据库相结合的形式,既能保证数据的安全性和很高的可分析性,又保证了高效的运行效率,起初重要的玩家数据用了从库被动备份,随着玩家数据的变大,我们不得不取消从库备份,以节约不必要的内存成本,后来改成了每日备份到数据备份机器。游戏并采用了单服单库架构,以把以外损失和玩家损失降到最低。 客户反馈

我们的web端更新是走cdn更新,应用服务器端的更新是批量脚本更新,我们采用了多种数据库相结合的形式,阿里云既能保证数据的安全性,又保证了高效的运行效率。

云监控

云监控CMS(cloud monitor system)是一个开放性的监控平台,可实时监控您的站点和服务器,并提供多种告警方式(短信,旺旺,邮件,回调接口)以保证及时预警,为您的站点和服务器的正常运行保驾护航 产品优势 开放性

分布式节点技术支持多IDC接入

开放API保障其他云产品和服务的灵活接入 开放的规则和数据接口允许用户自定义数据监控 网络优势

阿里云多IDC间内网数据传输,不占用客户公网资源骨干网络多线接入 多节点间的可靠、高效的数据传输 开放平台

支持对业务数据的通用统计,从各个角度反应服务的运行情况

基于云平台的无限数据存储,支持对历史数据的无限回溯,通过历史看未来 支持灵活的可用性统计 产品功能

实时监控您的站点和服务器,并提供多种告警方式以保证及时预警。 为您的站点和服务器的正常运行保驾护航 。 站点监控

提供对http、ping、dns、tcp、udp、smtp、pop、ftp等服务的可用性和响应时间的统计、监控、报警服务。

云服务监控

提供对ecs、rds、slb、cdn、ocs、oss等云服务的监控报警服务。 自定义监控

对用户开放自定义监控的服务,允许用户自定义个性化监控需求。

报警及联系人管理

提供对报警规则,报警联系人的统

一、批量管理服务。支持多报警方式:短信、邮件、旺旺、接口回调。 案例 煎蛋网

煎蛋以译介方式传播网络新鲜资讯,为了让中文网友了解其他国家的信息。煎蛋以高频度的持续更新获得数千万读者的支持,站内有各种奇怪的新闻及游戏、视频、图片等,用户讨论氛围热烈。成立以来总浏览量数亿,RSS订阅用户超过两百万 急需解决

之前在北京某BGP机房使用100MB共享带宽,页面载入很慢,经常因被限速而超载。另外机房没有流量保护,遭受一次小规模DDOS后就被该机房强制拔线。 客户反馈

之前在北京某BGP机房使用100MB共享带宽,页面载入很慢,经常因被限速而超载。另外机房没有流量保护,遭受一次小规模DDOS后就被该机房强制拔线。 应用服务

云引擎ACE云引擎AEC ACE(Aliyun Cloud Engine)是一款弹性、分布式的应用托管环境,支持Java、php多种语言环境。帮助开发者快速开发和部署服务端应用程序,并且简化了系统维护工作。搭载了丰富的分布式扩展服务,为应用程序提供强 产品优势

稳定ACE提供了安全、稳定、高效、经济的full stack应用托管平台 日夜坚守为您的应用保驾护航! 应用管理

Java和php应用的创建、代码上传、部署、重启、停止、启动、删除;支持多版本的管理,可以在历史版本之间切换部署 自动伸缩

应用运行过程中,ACE通过判断负载情况自动伸缩它所使用的资源,伸缩过程不影响应用对外服务,也无需用户干预

监控和日志查询

提供应用的性能分析数据,包括JVM的各项参数、网络流量等;提供运行日志的查询和下载

调试工具

提供离线开发和测试工具:ACE依赖SDK、本地模拟运行容器(仅Java应用)

案例 云员够

阿里云是双十

一、双十二电商大促IT保障神器分享到:

随着系统业务逻辑的复杂度提升,对硬件、软件、网络等各方面资源的需求也是更苛刻,能有效利用资源就是摆在我们面前需要解决的重要问题。通过阿里小二了解到该业务,并建立了与阿里云的业务合作。

目前主要问题有我们回馈注册用户举办的抽奖活动,用户使用量大,需要较高的实时性和承受大流量压力的能力。以前的这类活动经常出现请求无法及时响应而超时出错,所以我们后面的设计是在ECS上部署我们的项目,用阿里云数据库作为基础数据提供者,在活动期间,所有的请求均通过阿里云缓存直接与用户交换数据,这大大减轻了数据库服务器的压力,提高了系统实时性。

活动期间,大流量还是造成访问缓慢,我们立刻向阿里云升级ECS、数据库和缓存配置以提高整体性能,升级后问题得到解决。

搭配使用阿里云提供的产品和服务可谓黄金搭档,一直以来以其稳定、安全、便捷让我们能安心把时间用于处理业务逻辑上,面对双十

一、双十二等年终大促也毫无压力轻松应对!提供的控制台中有安全检查确保代码安全;有性能压力检测工具可轻松定位系统瓶颈;还有各种系统日志记录供分析;部署系统操作方便快捷!总的来说,阿里云产品用起来放心,操作起来顺心! 急需解决

随着系统业务逻辑的复杂度提升,对硬件、软件、网络等各方面资源的需求也是更苛刻,能有效利用资源就是摆在我们面前需要解决的重要问题。

客户反馈

阿里云产品用起来放心,操作起来顺心!

上一篇:安检人员岗位职责下一篇:爱情的本质属性是