运维工程师的项目经验

2023-05-03

第一篇：运维工程师的项目经验

办事处项目实施/运维工程师岗位职责

职责概述：

负责本区域办事处的系统实施安装、日常运行维护及相关培训工作的开展。对项目实施/运维主管负责，并直接向其汇报

主要职责

一、负责Linux/UNIX服务器的安装调试、配置以及施工;

二、负责对客户进行相关培训;

三、负责系统的运行维护工作;

四、负责Linux/UNIX服务器的日常维护、安全管理、性能优化;

五、负对服务Linux/UNIX器提供相关的技术支持;

六、对Oracle的设计、开发，对数据库进行优化、备份等;

七、负责解决客户疑问及投诉，排除系统故障;

八、完成领导交办临时任务。

第二篇：要做linux运维工程师的朋友

要做linux运维工程师的朋友，必须要掌握以下几个工具才行

linux运维工程师，对这方面有点心得，现在我说说要掌握哪方面的工具吧

说到工具，在行外可以说是技能，在行内我们一般称为工具，就是运维必须要掌握的工具。

我就大概列出这几方面，这样入门就基本没问题了。

linux系统如果是学习可以选用redhat或centos，特别是centos在企业中用得最多，当然还会有其它版本的，但学习者还是以这2个版本学习就行，因为这两个版本都是兄弟，没区别的，有空可以再研究一下SUSE，有些公司也喜欢用，例如我公司。。。。。工具如下：

1、linux系统基础，这个不用说了，是基础中的基础，连这个都不会就别干了，参考书籍，可以看鸟哥linux基础篇，至少要掌握这书60%内容，没必须全部掌握，但基本命令总得会吧

2、网络服务，服务有很多种，每间公司都会用到不同的，但基础的服务肯定要掌握，如FTP, DNS,SAMBA, 邮件, 这几个大概学一下就行，LAMP和LNMP是必须要熟练，我所指的不是光光会搭建，而是要很熟悉里面的相当配置才行，因为公司最关键的绝对是WEB服务器，所以nginx和apache要熟悉，特别是nginx一定要很熟悉才行，至少有些公司还会用tomcat，这个也最好学一下。其实网络服务方面不用太担心，一般公司的环境都已经搭建好，就算有新服务器或让你整改，公司会有相应的文档让你参照来弄，不会让你乱来的，但至少相关的配置一定要学熟，而且肯定是编译安装多，那些模块要熟悉一下他的作用，特别是PHP那些模块。

这面2点只是基础，也是必要条件，不能说是工具，下以才是真正的要掌握的工具。

3、shell脚本和另一个脚本语言，shell是运维人员必须具备的，不懂这个连入职都不行，至少也要写出一些系统管理脚本，最简单也得写个监控CPU，内存比率的脚本吧，这是最最最基本了，别以为会写那些猜数字和计算什么数的，这些没什么作用，只作学习意义，写系统脚本才是最有意义，而另一个脚本语言是可选的，一般是3P，即python, perl和php，php就不需要考虑了，除非你要做开发，我个人建议学python会比较好，难实现自动化运维，perl是文本处理很强大，反正这两个学一个就行了。

4、sed和awk工具，必须要掌握，在掌握这两个工具同时，还要掌握正则表达式，这个就痛苦了，正则是最难学的表达式，但结合到sed和awk中会很强大，在处理文本内容和过滤WEB内容时十分有用，不过在学shell的同时一般会经常结合用到的，所以学第3点就会顺便学第4点。

5、文本处理命令，sort , tr , cut, paste, uniq, tee等，必学，也是结合第3点时一并学习的。

6、数据库，首选mysql，别问我为什么不学sqlserver和oracle，因为linux用得最多绝对是mysql，增删改查必学，特别要学熟查，其它方面可能不太需要，因为运维人员使用最多还是查，哪些优化和开发语句不会让你弄的。

7、防火墙，不学不行，防火墙也算是个难点，说难不难，说易不易，最重要弄懂规则，如果学过CCNA的朋友可能会比较好学，因为iptables也有NAT表，原理是一样的，而FILTER表用得最多，反正不学就肯定不合格。

8、监控工具，十分十分重要，我个人建议，最好学这3个，cacti，nagios，zibbix，企业用得最多应该是nagios和 zibbix，反正都学吧，但nagios会有点难，因为会涉及到用脚本写自动监控，那个地方很难。

9、集群和热备，这个很重要，肯定要懂的，但到了公司就不会让你去弄，因为新手基本不让你碰，集群工具有很多，最好学是LVS，这是必学，最好也学学nginx集群，反向代理，还有热备，这个就更多工具能实现了，像我公司是自己开发热备工具的，mysql热备也要学，就是主从复制，这个别告诉我容易，其实不容易的，要学懂整个流程一点也不容易，只照着做根本没意思。

10、数据备份，不学不行，工具有很多，但至少要把RAID的原理弄懂，特别是企业最常用的1+0或0+1，自己做实验也要弄出来，备份工具有很多，如tar, dump, rsync等，最好多了解一下。算了，说到这10点已经够你受了，应该可以入门了，因为有些技术会比较难学，例如apache和nginx中还有些很重要的技术，如系统调优和服务优化，还有程序优化，这些在没接触工作前很难学习到的，所以先把这10点学了吧，估计要学熟至少3个月不止，就脚本那部分已经让你很吃力了，我建议是先学熟shell，等工作后再学另一门脚本语言，这样会比较好。

以上就是踏入linux运维工程师需要掌握的工具，其实还有很多工具要掌握的，但你在学习环境中是很难学到，最后我再提醒一下，这里所指的工具相当于技能，而不是像windows或ubuntu那些图形化工具，那些工具没用的，还有，学linux就别装图形界面，这样虚拟机就不用吃太多内存，而且绝对不建议在真机上装linux，根本达不到学习效果。

第三篇：Linux运维经验总结

一、线上操作规范

1、测试使用

当初学习Linux的使用，从基础到服务到集群，都是在虚拟机做的，虽然老师告诉我们跟真机没有什么差别，可是对真实环境的渴望日渐上升，不过虚拟机的各种快照却让我们养成了各种手贱的习惯，以致于拿到服务器操作权限时候，就迫不及待的想去试试，记得上班第一天，老大把root密码交给我，由于只能使用putty，我就想使用xshell，于是悄悄登录服务器尝试改为xshell+密钥登录，因为没有测试，也没有留一个ssh连接，所有重启sshd服务器之后，自己就被挡在服务器之外了，幸好当时我备份sshd_config文件，后来让机房人员cp过去就可以了，幸亏这是一家小公司，不然直接就被干了……庆幸当年运气比较好。

第二个例子是关于文件同步的，大家都知道rsync同步很快，可是他删除文件的速度大大超过了rm -rf,在rsync中有一个命令是，以某目录为准同步某文件(如果第一个目录是空的，那么结果可想而知)，源目录(有数据的)就会被删除，当初我就是因为误操作，以及缺乏测试，就目录写反了，关键是没有备份……生产环境数据被删了没备份，大家自己想后果吧，其重要性不言而喻。

1 / 8

2、 Enter前再三确认

关于rm -rf / var 这种错误，我相信手快的人，或者网速比较慢的时候，出现的几率相当大，当你发现执行完之后，你的心至少是凉了半截。

大家可能会说，我按了这么多次都没出过错，不用怕，我只想说当出现一次你就明白了，不要以为那些运维事故都是在别人身上，如果你不注意，下一个就是你。

3、切忌多人操作

我在的上一家公司，运维管理相当混乱，举一个最典型的例子吧，离职好几任的运维都有服务器root密码。

通常我们运维接到任务，都会进行简单查看如果无法解决，就请求他人帮忙，可是当问题焦头烂额的时候，客服主管(懂点linux)，网管，你上司一起调试一个服务器，当你各种百度,各种对照，完了发现，你的服务器配置文件，跟上次你修改不一样了，然后再改回来，然后再谷歌，兴冲冲发现问题，解决了，别人却告诉你，他也解决了，修改的是不同的参数……这个，我就真不知道哪个是问题真正的原因了，当然这还是好的，问题解决了，皆大欢喜，可是你遇到过你刚修改的文件，测试无效，再去修改发现文件又被修改的时候呢?真的很恼火，切忌多人操作。

4、先备份后操作

养成一个习惯，要修改数据时，先备份，比如.conf的配置文件。另外，修改配置文件时，建议注释原选项，然后再复制，修改

2 / 8

再者说，如果第一个例子中，有数据库备份，那rsync的误操作不久没事了吧，所以说丢数据库非一朝一夕，随便备份一个就不用那么惨。

二、涉及数据

1、慎用rm -rf 网上的例子很多，各种rm -rf /，各种删除主数据库，各种运维事故……一点小失误就会造成很大的损失。如果真需要删除，一定要谨慎。

2、备份大于一切

本来上面都有各种关于备份，但是我想把它划分在数据类再次强调，备份非常之重要哇，我记得我的老师说过一句话，涉及到数据何种的谨慎都不为过，我就职的公司有做第三方支付网站和网贷平台的，第三方支付是每两个小时完全备份一次，网贷平台是每20分钟备份一次，我不多说了，大家自己斟酌吧

3、稳定大于一切

其实不止是数据，在整个服务器环境，都是稳定大于一切，不求最快，但求最稳定，求可用性，所以未经测试，不要再服务器使用新的软件，比如nginx+php-fpm，生产环境中php各种挂啊，重启下就好了，或者换apache就好了。

4、保密大于一切

现在各种艳照门漫天飞，各种路由器后门，所以说，涉及到数据，不保密是不行的。

3 / 8

三、涉及安全

1、 ssh 更改默认端口(当然如果专业要黑你，扫描下就出来了)，禁止root登录，使用普通用户+key认证+sudo规则+ip地址+用户限制，使用hostdeny类似的防爆里破解软件(超过几次尝试直接拉黑)，筛选/etc/passwd中login的用户。

2、防火墙

防火墙生产环境一定要开，并且要遵循最小原则，drop所有，然后放行需要的服务端口。

3、精细权限和控制粒度

能使用普通用户启动的服务坚决不使用root，把各种服务权限控制到最低，控制粒度要精细。

4、入侵检测和日志监控

使用第三方软件，时刻检测系统关键文件以及各种服务配置文件的改动，比如,/etc/passwd,/etc/my.cnf，/etc/httpd/con/httpd.con等;使用集中化的日志监控体系，监控/var/log/secure，/etc/log/message，ftp上传下载文件等报警错误日志;另外针对端口扫描，也可以使用一些第三方软件，发现被扫描就直接拉入host.deny。这些信息对于系统被入侵后排错很有帮助。有人说过，一个公司在安全投入的成本跟他被安全攻击损失的成本成正比，安全是一个很大的话题，也是一个很基础的工作，把基础做好了，就能相当的提高系统安全性，其他的就是安全高手做的了

4 / 8

四、日常监控

1、系统运行监控

好多人踏入运维都是从监控做起，大的公司一般都有专业24小时监控运维。系统运行监控一般包括硬件占用率常见的有，内存，硬盘，cpu，网卡，os包括登录监控，系统关键文件监控定期的监控可以预测出硬件损坏的概率，并且给调优带来很实用的功能

2、服务运行监控

服务监控一般就是各种应用，web，db，lvs等，这一般都是监控一些指标在系统出现性能瓶颈的时候就能很快发现并解决。

3、日志监控

这里的日志监控跟安全的日志监控类似，但这里一般都是硬件，os，应用程序的报错和警报信息监控在系统稳定运行的时候确实没啥用，但是一旦出现问题，你又没做监控，就会很被动了

五、性能调优

1、深入了解运行机制

其实按一年多的运维经验来说，谈调优根本就是纸上谈兵，但是我只是想简单总结下，如果有更深入的了解，我会更新。在对软件进行优化之前，比如要深入了解一个软件的运行机制，比如nginx和apache，大家都说nginx快，那就必须知道nginx为什么快，利用什么原理，处理请求比apache，并且要能跟别人用浅显易懂的话说出

5 / 8

来，必要的时候还要能看懂源代码，否则一切以参数为调优对象的文档都是瞎谈。

2、调优框架以及先后

熟悉了底层运行机制，就要有调优的框架和先后顺序，比如数据库出现瓶颈，好多人直接就去更改数据库的配置文件，我的建议是，先根据瓶颈去分析，查看日志，写出来调优方向，然后再入手，并且数据库服务器调优应该是最后一步，最先的应该是硬件和操作系统，现在的数据库服务器都是在各种测试之后才会发布的适用于所有操作系统，不应该先从他入手。

3、每次只调一个参数

每次只调一个参数，这个相比大家都了解，调的多了，你就自己就迷糊了。

4、基准测试

判断调优是否有用，和测试一个新版本软件的稳定性和性能等方面，就必须要基准测试了，测试要涉及很多因素，测试是否接近业务真实需求这要看测试人的经验了，相关资料大家可以参考《高性能mysql》第三版相当的好，我的老师曾说过，没有放之四海皆准的参数，任何参数更改任何调优都必须符合业务场景，所以不要再谷歌什么什么调优了，对你的提升和业务环境的改善没有长久作用。

6 / 8

六、运维心态

1、控制心态

很多rm -rf /data都在下班的前几分钟，都在烦躁的高峰，那么你还不打算控制下你的心态么，有人说了，烦躁也要上班，可是你可以在烦躁的时候尽量避免处理关键数据环境越是有压力，越要冷静，不然会损失更多。

大多人都有rm -rf /data/mysql的经历，发现删除之后，那种心情你可以想象一下，可是如果没有备份，你急又有什么用，一般这种情况下，你就要冷静想下最坏打算了，对于mysql来说，删除了物理文件，一部分表还会存在内存中，所以断开业务，但是不要关闭mysql数据库，这对恢复很有帮助，并使用dd复制硬盘，然后你再进行恢复，当然了大多时候你就只能找数据恢复公司了。

试想一下，数据被删了，你各种操作，关闭数据库，然后修复，不但有可能覆盖文件，还找不到内存中的表了。

2、对数据负责

生产环境不是儿戏，数据库也不是儿戏，一定要对数据负责。不备份的后果是非常严重的。

3、追根究底

很多运维人员比较忙，遇到问题解决就不会再管了，记得去年一个客户的网站老是打不开，经过php代码报错发现是session和whos_online损坏，前任运维是通过repair修复的，我就也这样修复了，但是过了几个小时，又出现了反复三四次之后，我就去谷歌数

7 / 8

据库表莫名损坏原因：一是myisam的bug，二是mysqlbug，三是mysql在写入过程中被kill，最后发现是内存不够用，导致OOM kill了mysqld进程并且没有swap分区，后台监控内存是够用的，最后升级物理内存解决。

4、测试和生产环境

在重要操作之前一定要看自己所在的机器，尽量避免多开窗口。

8 / 8

第四篇：工程项目经验交流

1、遵循工程基本工作程序：

按法律法规及相关规定办事，遵循工程的基本工作程序是保证工程质量和安全的首要条件，避免先施工再发包、先施工再设计变更等违规行为的发生，避免为抢工程进度不按设计施工情况的发生，避免为降低工程成本而不按设计要求施工情况的发生，确保工程的合法合规和工程质量。在过程控制中，要严查相关工程资料，如立项、可研、招投标、合同、设计、施工、竣工验收等，确保工程按正常工作程序开展。

2、重视工程设计：

工程设计是整个工程的先导，设计质量决定了工程的质量、决定了工程的投资成本、决定了工程项目建设的安全性及项目运行的安全经济性，因此把好工程设计关是工程建设的重要方面，要在工程设计中使用安全可靠、技术先进的材料和工艺，提高工程建设的安全性和项目运行的安全经济性。

3、重视工程发包：

选择一个技术力量强、施工管理严谨的施工方是保障工程项目质量的重要保障，为此，严格按照工程管理要求，对工程项目进行公开招标，严把施工方质量关，选择资质符合、技术人员齐备、施工设备齐全、施工经验丰富的施工队伍，是确保工程质量的重要保障。在具体施工过程中，要加强施工管理，避免违法转包、分包情况的发生。

4、重视现场施工：

在施工现场，建设方应加强对施工方的管理，确保施工方人员到位(如五大员)，确保作业规范，不违规施工，避免不按设计施工、作业安全措施到位情况等情况的发生，及时对工程的隐蔽工程进行监督验收、协调解决设计与现场情况不符的情况，以确保工程质量和工程进度。

5、重视工程资料整理存档：

工程施工完毕，建设方应及时组织验收，并督促施工方移交工程资料，做好相关工程资料的整理和存档工作，确保工程的合法有据。

第五篇：漫谈运维—运维工程师

《谈网站或其他服务器运维》，这里只谈运维工程师所要做的细节工作，让人们知道运维工程师到底都在做些什么，至于上级所要做的，只是提一下，不做参考。

以下是个人观点，我说的只是我自己的想法，也是我发展的目标。你可以有异议，我们是来交流的。你对的我肯定会向你学习。因为我也在摸索。运维工程师至少要能做以下的工作：

1，网络工程师的工作

你至少要能配置CISCO 6509以下的设备，熟悉各种网络协议，否则网络出问题的时候你会傻掉。

2，系统工程师的工作

你至少要理解各种系统服务，在出问题的情况下要迅速解决问题，而不是等系统工程师来解决。

3，安全工程师的工作

我不要求你一定要会各种网络编程，但是在服务器收攻击的情况下，没有防火墙的情况下，做一些简单的处理工作。

4，存储工程师的工作

至少要熟悉各个厂商的设备，各种备份和还原的办法

5，测试工程师的工作

在新版本上线之前，你至少要协同测试工程师做测试工作，因为你是运维人员，不了解程序架构导致无法解决故障，你也有一份责任。

6，研发人员的工作

运维工具都需要自已开发，熟悉开发语言，需要有过实际开发经验，否则工作会非常痛苦，我深有体会。

7，英语

不想说了，我的最大痛苦就在这里

8，好的沟通者不出问题时候你可以打游戏睡觉，出问题的时候要能和项目人员沟通，快速解决问题，而不是推;我知道有很多人能推责任，你可以做替死鬼，但是离开这个工作你还能找到更好的;把责任推到别人身上的人，下次出问题的时候，绝对没人帮你。你要能和各个兄弟部门关系非常的密切，出了问题有兄弟帮你担责任;也要能非常扯皮，没事在会议上把别人都搞定。

9，库房管理员

数万台服务器让你来管理，任何丢失或者损坏都是不负责任和失职的表现。

10，运动员

不要回家就睡觉，有空还是运动下吧;在服务器down机的时候，机房恰巧就你一个人，机柜没有空间，你需要更换一台HP 585 4U的服务器，满配约80公斤的服务器，你怎么做?

11，责任心

这个我不想说什么，这是你的职业精神。

12，组织者

给你2个啥都不会的民工，再给你2000台服务器，要求你2天把服务器装完，你咋办?

13，1-7条中，你必须有一条非常精通，是这个行业的专家。否则过了32岁，没有公司要你。

大家看了肯定觉得这个人是神仙，但是这必须是你慢慢能做到的，至少是我6年来运维经验的一点总结。

因为现在的公司都在用招聘民工的钱招聘神仙，其次我也是想让各位看看，运维工程师要担负多少责任。

我去面试过的一些公司都说，你什么都会，什么都不精。我说对，正是需要我们这些什么都会的人领导什么都精的人。

我这句话没有贬低大牛的任何意思，只是当时一个临场的发挥。虽然说完就知道这个面试白来了，但是我还是想为广大的运维工程师出口气。

不怕千招会，就怕一招精。这仍旧是我给大家的建议。

最后给大家最后最大最重要的建议，做什么工作都可以，千万别做SA。我把SA的定义成：speediness answer而不是system admin。为什么?你可以想象一下哪些工作需要快速响应。网络工程师需要，机房网络骨干交换机故障，整个机房所有服务器无法连接，需要快速响应不?系统工程师需要，系统出问题了，要快速响应不?安全工程师需要，服务器被攻击了，要快速响应不?存储工程师需要，公司核心存储有问题了，要快速响应不?

你可以做研发，出了问题可以测试，可以想办法慢慢解决;你可以做DBA，出了问题可以推到网络工程师或者系统工程师身上，说不是DB连接问题;你可以做测试工程师，你说有问题这个东西就可以不上线„„在出问题的时候，倒霉的就是SA，所以不要再争论SA包含哪些工作，SA就是一个倒霉的快速响应者，你想，哪个SA 24小时不开手机?哪个SA 晚上可以舒服的睡觉或者安心的出去度假?走在路上一听到和自己手机短信铃声一样的，利马下意识的抓出自己的手机看看是不是服务器报警;晚上和老婆 XXOO00，一个电话过来，立马停下，抓出手机看流量图;包里放着笔记本，但是因为还要开机，太慢，拿着手机上putty ping或者telnet机器„„

这就是大家羡慕的SA ，你也不要抱怨自己做了SA，生活就是这样。所以不要再争论哪些xxx员应该归属于SA，系统管理员或是运维工程师，如果想做这行，就安生的当一个“快速响应者”，这是你的职业，也是你需要做到的。作为一个SA，你肯定经历过通宵好几天加班做事，你肯定经历过饭买来已经忘记了吃，你肯定经历过几天加班没睡觉，着个沙发坐下就失去知觉睡倒„„没有经历过不能说你不好，只能说你管理的机器太少。

我公司是每月发21天工资，某两月我一月发了44天工资一月发了47天工资，创全公司建司7年来加班记录„„项目做完自然也就落了个部门通告表扬，然后的结果就是健康情况急剧下滑，然后就是某天晚上在机房内加班一通宵，穿着短裤进机房，然后一个通宵被机柜下面的冷风吹了个关节炎„„这就是做SA的代价。

以下是一些实际经验，发给大家做参考，有任何问题可以mail我，answer3ai@gmail.com

有的东西是企业机密，我不能透露也不能给你相关文档。

一，架构设计

现在你要做的，就是设计你的服务器架构和网络架构。这要先看你的网站是做什么的，每日有多少的人数访问，例如，我打算站点初期每日有20000左右的访问量，和1000人左右的并发量。我可以用我的人数并发量1000×站点中每个页面的平均大小200k×每个访问用户可能要打开4个网页=800 000k=800M的网络流量(当然这个数字肯定是非常的过分，至于为啥，自己可以想下)

然后可以用测试环境用软件检测在你的真实环境下的服务器压力，比如在2000人在线的情况下，服务器的cpu占用多少，内存占用多少。

那么你可以得到你大致配置，其实市面上的标准服务器配置都足够你用了，比如现在的DELL 1950,HP DL360G5,IBM X???(忘记了)

等服务器，足够我跑一个这样简单的网站。其实说白了，双奔3都够，真的。当然你网站的流量比我要大的多，那你可以买的更好一点的服务器。或者负载均衡器。

网络架构

站点现在是一台独立服务器，未来采用的是分布式架构，比如bbs.hilinux.com是一台服务器，man.hilinux.com是一台服务器„„

mysql是一台服务器。这样你要算服务器要多少台，交换机要多少口，防火墙要买什么级别的。

哪些服务器可以放在一个防火墙下，哪些服务器不用防火墙保护，哪些服务器是内网服务器，

需要什么样的网络连接，最好是画出大致拓扑，方便你预算设备花费。

服务器交换机等设备选型和购买

说的简单点就是买什么机器，你可以和google一样开始，买几台pc作为你的网站服务器，也可以自己组装一台服务器

或者也可以和我一样，去挑选品牌服务器当然，现在你要看你服务器做什么的，

你可以亲自去电脑城看组装服务器，也可以打电话到IBM,HP,DELL的各地销售商让他们送服务器来测试，

当然你不要告诉他们你只买一台，那你就别指望测试了。我告诉供货商hilinux.com需要200台服务器，一个F5，10台CISCO 2960交换机，3个NETSREEN206防火墙，一个EMC CX500+满硬盘那么不到3天，hilinux.com所需要的4台测试服务器，就送来了„„当然，不要牛了这么多最后只买1台，那么你晚上走夜路会被人打的。

最后就是价钱问题了，这个你自己看着办吧。让你公司的财务或者采购出马砍价付钱就是了。当然，除了服务器的服务，你最好还是想想有利于自己的服务，比如人家公司可以帮你拆箱子了什么的。我做的最弱智的一件事情就是，来了400台服务器，50个交换机，8台EMC，我一个人花了一星期把箱子才全部拆完„„

机器选型的时候你也要为自己考虑，比如HP的ILO功能，可以让你远程BIOS级操作服务器，比如浪潮的自动资产管理等等，为自己管理服务器提供便利，否则机器10来台还好，100台还一般，我这里3万来台，我不死几百遍了。丢失一台服务器，几个月工钱就没了„„

二，IDC选择

首先要看你服务的地区是哪里，然后再去找当地的电信机房。毕竟，虽说全国已经互联了，但是各地的网速还是有差异的。

或者说有的IDC机房利用率高，虽然出口带宽大，但是利用率高的结果是导致你网速慢的原因之一。

我的做法是在全国各个机房的服务器用pingplus这个软件进行一周的的流量测试。可以看到平均丢包，最大延时等等。

当然，你也可以到你目标服务的地方，找个可以上网的地方进行网络测试，比如说网吧包个机器„„

好了，网络测试完了。那么你已经决定去哪个IDC了吧。

然后你就可以电话或者自己提着礼品登门拜访一下IDC服务商的老大了

当然，你也可以找代理服务商，因为他们拿到的价钱有时候比电信或者网通给你的价钱低，但是，关键还是一个服务，因为你毕竟服务器放在那，晚上关键着急没人给你重启，机器出了问题其实按个F1就可以解决的问题，服务商的值班人员不懂。你就只能打晚上的打飞机去机房维护吧。

提着东西拜访一下服务商老大是礼节性的东西，东西不在多而在精，这样你未来谈事情人家也给你绿色通道，做事情要好做很多。当然，我也不反对你空手去，你一次租个100个机柜+10G带宽，人家还是很优惠的。哈哈。大家都是混口饭吃，也不至于难为你什么。

最后你要知道现在的中国还是卖方市场，你给人家牛，那你买的产品只能是„„蒙牛然后是开始去参观机房

细心的检查一下空调数量，空调出厂和最后维护日期，网络布线类型和架构，是否可扩展，主备从电力等。

基本都是非常关键的东西，出问题了，人家可以给你更换一个新的，服务很好，但是你服务器挂一天的损失是多少，你可以自己掂量。

还有机柜电力，现在的机柜放置16台1U的服务器是正好，多了过于热，少了资源浪费;但是你发现人家只让你用10安培电力，过了要交钱买电;

或者不限制你用电，但是插线板只有10个，你还真买个托线板去转接?你要想想你一个托线板挂了，你服务器要挂几个?

最后，我的一个机房包间里140个机柜，2个空调，结果某天挂了一个空调，虽然6小时人家IDC商就给更换了一个空调机(这速度已经非常快了)，

结果我机器至少被热死了100台以上，机器是HP的，机器过热，HP会自动关机，而且会不让你启动。你崩溃不?注：不是给hp做广告哈。

三，服务器上架

好了，要是你买的服务器到了，你会发现你接到电话后，楼下一个N大的“擎天柱”集装箱车给你送服务器来„„(某次我收2000台服务器就是这样的阵势);在这里有个重大的提示，你们财务给厂商下单的时候，收货地址一定要写对。比如 XX路XX号XX大厦XX楼XX室，你写到xx号，送快递的会给你堆到院子里，你写到xx楼，送快递的会给你送到电梯口，你写到xx室，他们才会给你搬到室内。因为送货的都是服务器厂商找的，你因为这个事情去联系厂商修改送货地址，至少要多等N小时。而且他们视你的单子的数量和楼层，判断来多少搬运人员。而且，一定要把服务器搬到你指定的地方再签字收货，否则„„嘿嘿„„

我最霉气的是：来了20台机器(还好不多)，下着大雨人家给我往院子里一丢，让我自己搬上19楼，我没推车没啥的„„

你可以说，找电信的帮忙撒，废话，这个我还不知道。那我告诉你，我在某电信大楼工作时，从CCIE到机房主管到机房工作人员，全部是美女„„

虽然我在这个地方只干了5天活，我的同事们口水都有3尺长„„你还叫人家给你搬机器不? 你可以说，雇民工撒，我又不是没雇过，钱得你自己支付，公司不给你报销的话，爽不?

下面是拆箱子，面对着堆积如山的2000台服务器，我是连抬手的力气都拿不出来„„当时机房只有我们公司3个人+电信值班2个人„„

这时候，我的办法是„„我打电话找来了2队收废品的：

这么多箱子，除了机器和电源线留下，里头的导轨光盘等等你全部拿走，谁拆的多谁拿的多„„

最后按照我的要求帮忙搬到机柜上„„于是我们5个人是监工„„看人家拆箱子搬机器。

于是人家2队人找来了30多号人，一早上把2000台机器全部拆箱子完毕放到机柜上。

要是我们几个人拆，估计„„„„

最后再说个行价，服务器箱子一个价值5块钱甚至更多。你服务器到了，卖卖箱子请大家吃饭吧。别让扫地的阿姨拿走，几个无所谓，10来个箱子，够大伙儿吃顿烤肉了„„还有EMC的木箱子„„拿去养个小鸡小鸭的„„

42U机柜1U的服务器最好是16台。你就看着上吧。呵呵

四，安装系统和布线

好了，面对几千台服务器开始装系统，我不知道你会怎么想„„

全部是1U服务器有什么办法安装系统?(我们公司穷，买不起刀片;而且电信不配合，要是上刀片，电路你们自己拉线，价钱还是原来的价钱;最重要的„„我们公司以人为本，宁愿多养个人也不愿意买个好服务器让人失业)，而且不允许GHOST，因为你这是服务器，不是网吧„„GHOST出来的系统，我不知道谁用过，爽不。我自己是郁闷郁闷到了，莫名问题的时候，你就知道GHOST还是靠不住的。

其次，我们公司安全部要求：必须得一台一台安装，先安装光板的系统(比如没有SP的WIn2000)，然后手工打SP4补丁，不能网络打补丁。于是我们就光盘堆成山。最扯淡的，为了快，我做了一个补丁共享的服务器，所有的补丁CP的本地来打。结果忘记拔网线，导致人家说我们是插了网线打补丁，有中毒的危险，需要重装。我直接崩溃„„ 办法1，你可以1台1台慢慢装，反正这么多机器，你可以管公司要更多的时间。但是我们公司一般是机器到了，最多2-3天就要要，一向是那种计划不如变化快的没有计划没有进度管理的“小”公司，项目组拿着鸡毛当令箭，牛x哄哄的公司。郁闷!

这个时候前期的准备就比较重要了(我公司多用windows2003)，因为首先我要装一个光系统，再打驱动，再打补丁，再安装远程控制软件。一台机器装完大约要1小时多点。那么机器多了怎么办?光盘不够怎么办?等等问题就来了。

我的办法是，我一看TMD全部是DVD，IBM的机器直接佩combo，公司给我们发的全部是CD，娘的，典型的没有最慢只有更慢，出了问题闲你慢的领导班子。于是只好自己出钱买了DVD，用软件把RAID,网卡，显卡其他驱动做到光盘里，需要安装的软件也直接做成自动安装的方式，补丁也刻录到光盘里(我们要求补丁必须单打，不能安装集成补丁的ISO，shit)，这样弄，你只用把光盘往光驱里一丢，分区一分，就可以下一台机器了。然后等你在去关注这个机器的时候，已经可以设置IP插网线了。灵感来自番茄花园。吼吼。

当然这时候你最好是买个KVM,16口的KVM，一次准备16张光盘就可以用一套键盘鼠标操作16台机器。当然啦，KVM是可以级联的，我最牛一次一次一套键盘安装166台机器。郁闷的是，塞光盘塞死，插KVM线插死，配置IP配死，有时候还会弄错„„

办法2，你可以用NETKVM去远程安装，但是你插那些NETKVM的线路，2000个插下来，爽不?然后你继续扎KVM和网线的时候，看着和瀑布一样的网线和KVM线交错在一起。估计直接崩溃。远程KVM有的牛x的是可以分发ISO的，就是传说中的远程分发安装。可以自己买一个研究研究了，我们公司以人为本，从来不买这类高科技。

办法3，我犯贱时候发明的：我们的机器全部是RAID1，于是我安装一台raid1的机器，系统全部安装好，然后拔掉一个硬盘，插上一个新硬盘自动恢复镜像，基本10来分钟恢复好一个硬盘，插到机器上去。这样，还是比装系统来的快。当然啦，型号是一模一样的„„

办法4，HP的ILO2功能，实现远程分发。前提你得一台一台配置好BIOS里的ILO2。也是蛮痛苦的。IBM和DELL现在也都有这个功能，但是你在分发以前，还是得一台一台机器插上网线，配置好BIOS的IP，痛苦。然后把操作系统和机器的驱动程序和后续的软件全部做到一张DVD里，让他自动运行。然后所有的服务器远程运营这一个ISO,最好多弄几台，否则一台机器弄的慢死。

办法5，绝对最简单的办法!!!就是买机器前，让厂家给你在硬盘里灌好系统，和你买笔记本一样，打开是个安装完成需要你输入序列号的系统。但是弱点是后续的软件需要自己装。因为服务器厂商是不会帮你安装别的软件的。还有更多的办法，只是暂时没想到，大家也可以谈论自己的办法。互相交流嘛。(51CTO编辑注：其实现在已经有很多无人值守安装系统的管理软件，比如KickStart和现在流行的Cobbler，都是不错的批量安装工具，而且都是开源的。现在都追求自动化，希望越来越多的运维们将不必面对一台一台装机的困扰)

所以我喜欢linux，可以用N种办法安装系统。

windows就是个让IT人当装机男，挨踢人当民工。

好了系统装好了，电源线和网线连接完，和瀑布一样的。这时候还是尽量把他扎一下吧。

否则机器通风不畅，会导致热死。

简单办法就是电源线扎一边，网线扎一边。有钱的公司可以买个网线序号标，没钱就自己拿胶布标。

你可以随便扎，或者和给你老婆梳头一样，好好扎。哈哈

插交换机的时候，从上往下，从1-24往后，这样网络异常，数一下就知道了。

想来想去这里也没啥值得关注的地方。所以就几行带过。

五，资产统计

假如你的机器只有2000台反而好容易管理了，但是现在我要管理的全国IDC有31个，平均每个机房有不同品牌服务器1500台。

一共大约有45000台的样子(我的资产管理系统里的数字，不包含交换机，防火墙等)

这时候怎么办?

每季度和财务小MM一起出去旅游盘点IDC资产，幸福啊„„(我们财务小mm很PL的哦) 到了机房就是我一个人干活点资产，小mm带着大口罩，披着双层的放辐射服„„

可怜我们这些干活的，短裤背心，IDC里一呆就是好几个月(IDC办公室就在机房边上„„)，不知道精子被辐射杀死多少„„

1，必须有资产管理系统，虽然这个其实是个很简单的数据库，但是你可以把每一台机器的品牌，硬件信息，操作系统信息，购买年限，质保年限等，你非常关注的东西做一个详细记录，并配发同一的资产编号。比如我们的资产号，FWQ-123456 服务器-123456，这是一个总的资产号，这个服务器哪怕搬到美国，也是这1个资产，直到丢失，或者抛弃，都是这一个资产，永远不会变。

比如我现在的板凳就是一个资产号是：服务器-000010的一个4U服务器，配置是P2 300*2 256M内存 16G硬盘×4 购买时间是1999年10月，从中维修过1次，升级过1次，在哈尔滨机房-广州机房-河南机房-北京网通机房-上海公司内部测试机房-上海库房服役过。

有历史吧„„. 2，送到机房

看过我这个服务器去过的地方，羡慕不?见证我们公司的发展史。9年过去了，终于成了我的板凳„„

服务器在购买合同确定以后，就应该按照配置记录资产，并且在财务备案，资产编号一定和财务记录相同。这样这个服务器走到哪里，都有备案和记录。现在要把这个服务器送到某个机房去，搬着走吧„„汗

送到机房，我们要给服务器按照财务给的表格粘贴资产编号，选个顺眼的地方，不会磨损的地方。

一般是机器正面某个地方，然后是机器屁股后面某个地方，然后机器侧面把手的地方，粘贴3个，以防掉了就烦了。

然后在粘贴这个机器的应用资产号和IP标签：

应用资产号举例：FWQ-SH-XX-B31-WEBSERVER 意思是：服务器-上海-xx机房-B列31号机柜-web服务器

IP标签举例：外123.234.123.234内10.0.0.1。这2个标签你可以分开也可以在一张标签上写清楚。

并且在安装服务器的时候。把FWQ-SH-XX-B31-WEBSERVER-123-234 把这个作为你的HOSTS信息，windows里叫做计算机名

这样远程上来都非常清晰自己在哪个服务器上，出问题时候也非常容易找到这个机器，不要闲麻烦，一切的麻烦都是为了以后快速的解决down机问题而做的。当然啦，甚至在密码管理上你也可以用这个规则来设置密码，但是最好规则别让别人知道了„„

3，把这些信息全部录入你的资产管理系统

系统无非服务器名，IP信息，用途，机架位置，或者是否在使用一类的，我就不多讲了

4，资产系统软件交互，也可以说是监控系统。

企业可以开发一个软件，在装机的时候安装到服务器上。然后资产管理系统定时去取服务器上的信息，比如网络流量，CPU内存硬盘负载一类的东西，这样你的资产管理系统又变成了一个监控系统;

当然啦，你也可以在资产系统里集成一个远程桌面管理系统，自动载入用户名和密码，还有随机码，就可以登录系统。省的还得管理服务器密码。

然后用户的访问权限不同，看到的节面权限就不同。

比如说，监控人员没有登录权限，或者IDC人员没有登录权限一类。权限分配你自己研究好了。

5，还是IDC的工作。

话题继续回到我和财务小mm去盘点(你公司比较大的话，你可以多派几个人分开去各个地方„„)

小mm一看我们机房服务器黑压压的一片，铺天盖地的，直接无语。为啥，因为要拿着资产表一个一个核对，面对几千个机器，直接晕倒。

虽然按照资产管理系统里导出的信息，机柜号，IP号，机器从上到下的顺序都非常精确，但是你一个一个核对，还是慢。

怎么办?

库房管理的工作用上了，哈哈。你买服务器或者买笔记本电脑的时候有没有注意到箱子上的条码?

那个条码非常清楚的记录了这个机器的详细信息。所以黑莓手机或者NOKIA手机(别的我没用过)都有扫描条码的功能„„好像与主题无关„„

那么剩下的就简单了。

去买个这种条码标签的打印机，编辑成自己需要的条码，一个一个贴好，上面有你所有需要盘点的信息„„ 比如我们是从资产到机柜号到服务器名字到内外网IP都要盘点„„小崩溃

打印出来贴上去。然后买个扫描枪，和超市那种一样，不过你要买有存储功能的，否则你要端着笔记本去扫描，SB了。

然后我和财务mm本来需要一个人念号码一个人核对(你要直到在机房里大喊资产号，喊一天的结果是啥，自己想)，现在一个人拿一个扫描枪，按照规则一个一个扫描。完成后把数据导出后重新整理分析。直接和数据库核对(当然这个也需要你自己开发)，核对完成生成一张表。

表上写的非常清楚你哪个机架没有哪个机器，哪个机器不在特定的位置上，哪个机器缺少„„等等

这样比如说，机器位置不对扣5块钱工资，机器IP不对扣2块钱工资，或者„„反正扣到最后„„这月不给发工资了，还得倒贴点„„哈哈哈

六，监控架构

监控架构其实每个地方都有自己的做法，我也知道我的办法不是很先进，但是仍然拿出来和大家一起讨论

首先谈谈监控软件，一说起这个常用的东西MRTG,cacti一类的就都可以用了。只要稍微归类一下，流量展示看的还是很清楚的。

要是要监控服务一类的，那就只好启用大名鼎鼎的nagios,和一些牛x人基于这个做的一些别的商业软件。

或者就是自己做个脚本去定时探一下，不通了给你发邮件了啥的，你vim一下nagios的chack_xxx ，学习一下里头人家探测的办法，自己也能搞出来个啥东西，都还是很不错的了。

作为IDC工程师，我们所要关注的东西就是个流量了，我们要很清楚某台65下的某台35上每个口的应用，当遭受攻击或者流量异常的时候，一眼就能知道是怎么回事。我不相信你天天看着10M的流量，某天突然一下给你来个80M，你说这是正常事件吧。哪怕正常，你也找相关的人确认一下吧，一个100m口跑 80M,估计电信的人都来找你了。

每天看着这些流量图是很枯燥的事情，那么我们没事只能想办法让他自动报警给我们了，于是EMAIL报警，然后把他发送到一个有手机提示新邮件的邮箱，你手机就有了。MSN报警，还是不错的吧，手机报警一类的办法都是不错的。这样你你可以和我一样放心的去打网游了。这里只谈经验，不谈详细的技术，因为我一说我的系统架构地球人都知道我是哪个公司的了，虽然已经离职，但是咱也有个职业道德，谢谢。

当然了，有些公司是有网络监控部门的。但是我就一直在想这个问题，所有的数值都可以用短信报警，你随时都可以收到信息。用这个部门干啥，让一群可怜的家伙 8小时一动不动盯着屏幕，公司又在他们电脑上安装了抓屏软件，上班事件聊天上网就扣钱„„我估计他们每天最期望的事情也莫过于服务器挂了，可以给我们打个电话重启个服务器或者连到服务器上检查一下啥问题，重启个服务了啥的。当然了，这些兄弟最后的职业方向也只能是进入运维部门了，至少公司服务器宕机维护的流程性东西掌握的非常熟练了。但是这是用好几年时间换来的经验，太„„所以我是奉劝兄弟们有发现监控部门招聘人，就别去了吧。面前8台显示器，猛一看还以为是黑客帝国呐，结果仔细一看全tmd是流量图。常年对着8个显示器，那个辐射„„

我就不清楚设置个节点，出现问题告诉人，人去操作会死啊，非要让人和机器一样一动不动的盯着显示器，TMD，官僚。虽然我没经历过，但是想也能想到。做SA，最大的要点是懒，把一些需要人做的事情都自动化„„但是话说回来，我公司以人为本，人海战术嘛，可以理解。

上面的帖子位子已经满了，下来的帖子在这里写。

企业实际面对的一些问题

我大概通读了veyron 大侠的文章，认为系统架构方面的我绝对不如他。我就不在这里卖艺了，那么我卖企业都会实际面对的一些问题。

1，自动化，流程化你的信息管理

为什么要自动化，这年头流行办公自动化，你丫没事还拿着工单四处签字，老土了吧。

为什么要流程化，这念头流行流程管理，假如你公司没有一个固定的流程管理，出了事情，大家都不知道怎么做，各个部门的电话乱打，大家都一锅粥没有效率。所以，未雨绸缪，在没有出问题的时候，模拟出问题，多多准备，建立规范的流程，公司的每个人都要遵守，这样，流程化的管理+办公自动化，大家只用在电脑上翘翘键盘，点击确定，流程就发出去，一路审批，OK,流程发送到做事的人地方，也许这个做事的人在美国，也一样方便。

上面说的是一个原理和意思，用这样的理念去管理你的服务器应该如何去做?当然了，你假如只有10来台服务器，就不用考虑这个了„„. 首先服务器采购录入资产管理系统(详细见上面有写)，服务器的去向和调度都在管理系统里有提现。

这里说的是：如何去上架，维修，下架等流程控制

先说上架下架：服务器到机房以后，别人要用服务器怎么办?先可以到你的资产管理系统里，看你机房还有什么配置的机器多少台，然后让他们选择自己项目服务器的配置，数量。在流程管理系统中，把这些机器选中，生成一个表单，表单名字为xx项目上架需求，写清楚谁用，做什么，数量，哪个机房等。然后提交给他们部门领导，他们部门领导同意后，转给需要审批的领导，一层层下来，流转到我们部门领导，我们部门领导流转给部门机房员工，员工收到流程，检查上架下架服务器;如要上架，安装完系统后填写IP，机器名，机架等相关信息。如要下架，删除相关信息，提交给流程控制的人员，流程控制人员确认后，这个流程完成。届时，所有的人审批过的数据，经手人，数据库里都有，出现什么问题找相关责任人，一下就找到了，省的和某些XX部门JJYY。

维修也一样了，机器坏了，或者需要重装系统，按照上面的流程，一步步走一遍，就可以了。年底统计机房一天要干多少活，省的某些领导认为机房人TMD都在闲着。机房的人呢?没有流程不干活，否则白干。

在流程系统里重启服务器，重启服务器要是要流程，就太慢了，那么你可以做一个绿色通道，写清楚原因，重启哪个机器，直接提交给相关机房人员，在你的流程系统里绑定一个短信网关，机房人员可以收到需要重启服务器的短信。准确无误。

这样代替了无纸化办公，既有自己做的事情的每一个记录，又有相关人员管理，可以量化自己的工作，免得年终奖的时候xx人有说你干的少，发的少。你把记录拉出来对比对比就知道谁多谁少了。

2，如何升级你的服务器

服务器老了，或者需要加内存加硬盘，怎么升级。

虽然说是很简单换个CPU，加个内存，加个硬盘很简单。

但是，如何控制你的配件不丢失，确定的安装到机器上利用了呢?

简单，在服务器上做一个探测服务器配置的客户端，每天探测一次硬件配置发送到资产管理服务器上。

与资产管理系统的硬件配置做对比，出了问题就报错发一封邮件到机房工作人员，抄送流程控制人员一封就可以了。

至于的加内存的时候注意型号啥的问题就不说了，大家应该都没问题了要说的是，假如你一个机柜上放的机器比较多，比如4个6个机器一摞，恰巧坏了，恰巧一个人在机房，非得解决，怎么办?

简单，一个办法，但是还是需要你有力气，虽然有力学原理

比如有4台服务器，最下面的坏了，