写给自己的运维经验总结 - 51CTO博客
文章推薦指數: 80 %
写给自己的运维经验总结,2020已经过去一周了,这几天对这一年的运维工作做了一些总结,然后有一些思考,整理出来发一篇,希望2020年工作可以更轻松多 ...
写给自己的运维经验总结
关注
mb5ff980f81f3d8
赞
收藏
评论
分享
微博
QQ
微信
写给自己的运维经验总结
原创
mb5ff980f81f3d8
2021-03-1015:27:04
©著作权
文章标签
java
文章分类
Java
编程语言
©著作权归作者所有:来自51CTO博客作者mb5ff980f81f3d8的原创作品,请联系作者获取转载授权,否则将追究法律责任写给自己的运维经验总结https://blog.51cto.com/u_15080021/2654578
2020已经过去一周了,这几天对这一年的运维工作做了一些总结,然后有一些思考,整理出来发一篇,希望2020年工作可以更轻松多做计划墨菲定律其实是一种心理学效应,原文为:如果有两种或两种以上的方式去做某件事情,而其中一种选择方式将导致灾难,则必定有人会做出这种选择。
根本内容是:如果事情有变坏的可能,不管这种可能性有多小,它总会发生在运维工作中,这种情况很多,晚上做网络割接,心里一定会想,千万别出问题,结果网络切断了服务器需要重启,一定会担心会不会起不来,结果就会起不来担心网站挂掉,总会在半夜的时候挂掉……运维工作中,很多这种情况,总会有“意向到的意外”,所以需要有更多的plan很多公众号写文章说使用某某监控某某架构不做救火运维,扯犊子呢,我就没见过不救火的运维运维工作要保证可用性,所以很多意想到的可能性很小的事情,也需要提前做好计划来应对,这也是运维工作中要做的应急响应计划一定有原因运维工作中,很多时候会有很奇怪的故障或者问题出现一个脚本从这个服务器复制到另外一个服务器就不能执行了一份配置,在配置一样的两台服务器,却有一台不能用上一秒还在检查的故障,突然自己好了……很多人在群里会这样问,觉得很神奇,反复对比两个环境,一模一样,其中一个就是不能运行,其实神奇,是因为你对这个东西不了解,你没有找到关键的地方,既然不能运行,肯定还是有不一样的地方你可以去strace查看它的执行过程,你可以去抓包查看每个数据包对比,总能找到问题的关键,找问题的过程,是你熟悉这个知识的过程,找出问题的结果,是你对这个故障的一个宝贵经验,所以一定要去探索问题最根本的原因,即便最后你查不到最根本的原因多做尝试运维这个工作,就是个技术工人,技术高的就是高级运维,有自己技术创新的就是运维专家,初入门的,跟着师傅的,就是搬砖运维初级技术工人,要成为专家,就是要不断的去做相应的工作,积累经验,经验积累到一定程度,就可以是专家,很多人遇到问题喜欢群里、知乎、知识星球这些地方去问,比如监控用zabbix好还是Prometheus好,还是open-falcon更好,系统用CentOS好用还是Ubuntu好用,k8s好用还是k3s更适合你为什么不自己去搭建,去测试,抛开每个人的业务情况、系统配置不说,群里的人说的你就相信吗?有多少文技术文章是抄来抄去,错误都不改的。
现在有虚拟机、有按量付费的公有云,花十几块钱、花一些时间把你想要了解的东西,搭建一遍,你会在这个过程中得到比你在微信群里得到的一个不一定对你来说正确的答案更多的东西你想了解的东西也好,你维护别人的环境也好,处理故障也好,多去实践、尝试你的想法,在这个过程中,你会这个东西有更深入的了解,对你的技术提升有很大的帮助别人说的不一定是对的接上一个问题,你不去尝试,直接从搜索引擎或群里获得一个结果,对于运维这种环境复杂的情况来说,别人的结果是在别人的业务和配置情况下的一个结果,虽然很多情况下,我们都可以参考别人的配置、别人的脚本,改个参数就可以用,但只适合参考,很多时候,你去测试别人的配置,发现在你的环境下竟然是完全不同的结果参考别人的,只是在自己解决问题,没有思路的时候,去找到一个方向,但是不要固化的认为别人这么配置就可以用,就得这么配置才是对的,你按这种方式配置了,你一定是搞错了程序为什么会有bug,就是因为开发的人没有想到这个问题,所以不管是官方的文档,还是有经验的人给你说的经验,你都只能当作一个参考,更重要的是去实践,勇于怀疑,并去探索验证了解每个配置的意义运维工作,基本就是用命令工具和中间件工具去支持和维护服务正常运行,天天在和命令打交道、天天安装配置各种中间件,每个命令每个中间件,每个开源工具都有自己的一套“说明书”,对每个参数都有详细的解释在使用前尽可能去了解、学习并实践每个参数的意义,或者说作用,对你的工作效率或者说做出的运维工作会有很大的不同比如Dockerfile中,ADD和COPY,你要不了解的话,会觉得,都是往容器里面加文件,无所谓,那你觉得人家开发设计的时候,为啥要设置两个参数呢,他闲的没事干,玩呢?你发现你COPY构建的镜像比别人ADD构建的镜像要大,因为你COPY把压缩包放进去,还需要RUN去解压,而ADD直接解压了当你去下载个包,然后再通过COPY复制进去的时候,人家早就通过ADD加载链接的方式直接打包进去了,当然这里更推荐再打包的时候用curl或wget去下载远程文件所以说,要尽量去了解更多配置项和参数的作用或意义,很大程度上能提高你的效率思路很重要运维过程中,经常遇到各种各样,摸不着头脑的问题,而且很多时候,你所看到的问题,并不是你所看到出现问题的这个中间件或者工具引起的,报错日志也不会给到直接的错误原因,这个时候你去排查问题,就是看你思路的时候你需要根据你的经验及知识,去理清思路,根据自己的思路去检查、排错、尝试,而不是像无头苍蝇一样,胡乱的尝试,很多人根据别人的建议胡乱尝试,最后把系统重要组件卸载,服务器挂掉,这种例子很常见他能知道你什么情况吗,他能比你更了解你的环境吗,你需要有自己的思路,自己去思考问题可能的原因,否则你连搜索引擎你都不会用比如你的网站,使用nginx前后端分离,请求的时候,提示跨域,你去搜索引擎怎么搜?”nginx跨域如何配置“,搜出来一堆,然后你按照别人的配置,在nginx配置文件中添加了add_header,允许所有跨域请求,结果发现request_header中根本都没加上这个header,然后你开始查”nginx跨域配置不生效“,结果别人各种方法,加在http里面,加在server里面,加在location里面,你跟着尝试了一遍,发现仍然没有效果,最后你才发现,你的静态资源加了CDN,CDN那边没做跨域处理你要自己先脑子里有个你自己系统的拓扑图,你可以脑子里,也可以画出来,然后你感觉哪里会引起目前的问题,你去解决,不是跟着别人的思路去尝试持续关注新技术我是做互联网运维的,不是传统的运维(那种机房看监控的),对于互联网的快速发展,大家是有目共睹的,各种开源项目不断涌现,各种新的开发语言应接不暇,好多人调侃说,学不动了,是真的学不动了,新出一个东西,有些人还没听说,就已经过时了,这就是互联网速度但是,不要做井底之蛙,我的建议是持续关注新技术,不管是开发的也好、产品相关也好、网络相关等等,现在信息时代,获取信息很方便,你可以每天上下班的时间,去订阅一些公众号,把一些娱乐的新闻换成这些技术公众号,你可以不去详细学习每个出来的新技术,但是你要知道有这些新的技术,为啥?这又接上面一个话题了,思路,为什么出个故障,别人定位问题很快,你半天定位不到问题,别人处理问题的时候花样百出,你只能花式百度,关注各种新技术,能让你的视野更开阔,定位问题的时候,能够更全面的去思考,而不是仅限于你自己管理的那个中间件上面新的技术,一定是为解决就得痛点而诞生的,所以,当你不断得关注新的技术的时候,你会发现很多你之前遇到的问题,你可能花了好长时间,费了很大的成本才解决的问题,别人一个命令就搞定了比如我之前搭建ffmpeg去处理图片,大家都知道,CentOS系统的源码库的项目都很旧,更新没有ubuntu那么快,这也是为什么服务器都选CentOS系统,选Ubuntu少的原因,因为旧的相对来说要稳定一些,在CentOS7还好,ffmpeg已经可以yum装到2.8的版本吧,大概,但是CentOS6的话yum只能到0.6的版本,很多格式不支持,怎么搞,编译安装,最开始我用了半周的时间去搞这个,因为他要的以来太多了,以来版本还不能又差,但是现在怎么样,我写个dockerfile,用alpine系统,把最新的4.x的ffmpeg装进去,然后dockerrun一条命令我就可以剪辑音视频所以,你可以不去学习每个新的技术,但一定要关注新的技术新技术不要急于上生产接着上面一个话题,你要持续关注新的技术,但是在生产环境不要急于引入新技术,为什么?你看政府单位,为什么系统还在用winxp、win7,是win10不好用吗,还是他们没钱换,都不是,是稳定,更换风险系数高互联网时代,我们都讲快速交付,很多项目,都是demo的时候就交付使用了,然后边使用,边迭代,但是,这有个问题就是,增加了软件或者项目的不确定和不可控性,不说那么高端的东西,就说我们用的很多开源工具,很多刚上线觉得很好的工具,你觉得应该上到线上,提高工作效率,没几天,你发现,别人开发了同类型的项目,是大厂开发的,比这个要更好,你怎么办,天天换吗?有大厂开源了个项目,你觉得应该没问题,大厂的项目,后期很多又很多人维护,很多人使用,Tengine中间都一度不更新了,你觉得还有什么是不可能的吗?况且,觉得你有能力作为开源项目的第一批踩坑者吗?你有能力,你觉得公司有成本陪你踩坑吗?在网上没有任何别人经验可以借鉴的情况下,你能处理你用于生产环境的这个新技术的故障吗?不是不可以上生产环境,是需要等别人坑踩实了,你在上,你可以在测试环境去学习,去了解,不要再给自己找不必要的麻烦,你可以问问你自己,是不是很多时候的加班,都是自找的,明明之前的项目架构很稳定,非要改个中间件,引发了一系列问题,加了一个月班,还被老板骂,下班健个身不好吗?极简主义不管是做架构、是做优化、写脚本、写管理后台、做服务器管理,最好极简化为什么要极简化呢,因为复杂的架构或脚本,会让运维处理故障更加困难最近DevOps很火,带动Jenkins很火,自动化构建发布,于是很多运维就开始着手把自己的项目进行一个改造,本身就是小公司,原本就2台服务器,一台web,一台数据库,项目用git直接发布,也很省事然后通过gitlab+jenkins一通改造之后,服务器成本加了两台不说,还搭了好几个加班,jenkins他又不熟悉,每次发布出问题,都要等他处理半天,有时候拖延了发布时间,最终还是用git发布上去有时候架构简单点也是好事,不一定非要复杂,运维工作中,最重要的是实用,实用才是王道当然该要添加优化的时候,还是要添加,但是不要盲目,比如你想session存redis,本身项目也不大,那你单redis节点就够了,redis也够稳定,也不会经常掉线,你完全没必要去搭建个redissentinel模式再一个极简就是,服务器上不要放太多乱七八糟的东西,很多人备份会在web目录下存放打好的tar包,不说你占用资源,备份的时候备份文件大不说,从安全角度,你这是”开源“了啊,你是怕别人不知道你写了多少bug吗?数据最重要对于一个公司来说,数据是最重要的东西,所以数据库是重中之重从两个方面来说:数据的安全性和数据的可用性作为运维人员,这两个问题是一定需要去考虑的,数据的安全性来说,可能不光涉及到运维的环境,及安全运维的防护工作,还涉及到开发的代码安全,需要做代码安全的审计,但从运维的角度来讲,需要通过一些常见能做的手段去保障数据的安全,当然是根据业务及成本考量的,不能说你就一个几千块的网站,上个几十万的防火墙,这肯定没必要单从运维来说,要做到运维规范,配置规范,异常请求日志检测及告警、权限最小化、web数据库分离,数据库安全模式等常见方式,根据不同的业务情况有所不同,更多的可以关注公众号,加好友探讨数据的可用性,是运维日常工作中接触更多的,解决方案就是备份,备份的方式很多种,快照、脚本备份、异地备份、实时备份、热备、冷备等等,根据自己的需要选择备份有个问题就是,要确保备份的可用性,所以要经常定期去做数据可用性检查,用测试环境或预生产环境,去测试数据的可用性还有一个就是运维操作的可恢复,很多运维命令是危险的,比如rm-rf,echo>,drop等,没有人是不犯错的,所以,除了敲下回车键的等待1s,做个检查外,最好的方式就是操作前的备份,对于心里没底的事情,更是要谨慎操作,因为有些时候,你的一个回车,是一个公司不能承担的最后以上就是今年的一些总结吧,可能写的不是那么好,但是都是一些谏言,与各位运维朋友共勉吧,2020,早点实现运维自动化
赞
收藏
评论
分享
微博
QQ
微信
举报
上一篇:Nginx域名解析流程,源码分析
下一篇:Nginx调试必备
举报文章
请选择举报类型
内容侵权
涉嫌营销
内容抄袭
违法信息
其他
具体原因
包含不真实信息
涉及个人隐私
原文链接(必填)
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M
取消
确认
已经收到您得举报信息,我们会尽快审核
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
全部评论
(0)
最热
最新
相关文章
IT运维整体解决方案(经典)
IT运维整体解决方案(PPT)
运维
微信
微信公众号
桌面运维工程师工作方法
XX集团公司桌面运维工程师工作记录
运维
故障定位
故障排除
#Word文档导入#
什么是敏捷型的运维组织,金融企业真的需要吗?
在上次,我们分析了ITIL4之后,运维管理层面该如何发力,提到由于ITIL4所提倡的建设重心从流程建设转到了价值流和价值链,企业不仅需要一个强大的工具,还需要敏捷的运维管理来适应工具的迭代(点击查看详情...
运维
组织架构
敏捷运维
运维基础——Zabbix设置Redis监控
下载模板下载链接:http://pan.baidu.com/s/1pLlFTsZ密码:nfp7zabbi
redis
运维
templates
web
sed
Ansible自动化运维笔记
Ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具的优点.♥文章声明♥该系列文章部分文字描述,整理于以下文献,化繁为简.《鸟哥的Linux私房菜(基础学习篇第三版)》-作者:鸟哥《Linux就该...
Ansible自动化工具
linux
bash
计划任务
一张图带你认识建恒信安运维堡垒机
在数字化转型成为企业信息化浪潮的今天,庞大的数字化信息架构,复杂的技术人员构成,使企业信息安全运维管理面临了更严峻的挑战。
而堡垒机产品作为企业信息安全管理的关键,因能够为用户提供更为安全的运维与审计...
堡垒机
运维
运维管理
堡垒
运维审计
运维(24)-运维技能知识图谱
文章目录01引言02运维划分03运维技能图谱01引言最近因工作需要,需要参与运维的工作,接下来需要做的就是快速补充运维的知识。
首先,需要知
运维
网络运维
服务器
如何做好IT项目的运维管理?
IT管理和运维工作涵盖了各行业的各岗位中,如何提高工作效率,规避风险,更好的做好IT管理和运维工作,已经成为一个不断探索和研究的新兴课题。
小编认为,应从两个层面加强和完善IT管理和运维工作,可以改善IT运维...
运维
运维管理
数据
桌面运维总结与心得
本文是工作内容的总结与回顾,希望对大家能有所帮助。
总结与心得师万物博客到此便告一段落了,博文成果如下表所示:序号分类名称数量1Apachehttpd基础42ApacheTomcat基础113Windows基础364Windows浏览器115Windows...
运维
#yyds干货盘点#
企业应用运维管理指标体系
导读:为了提升运维的投入产出比并提升运维侧对业务侧的价值创造属性,企业的运维部门需要构建一套运维管理指标体
中间件
数据库
大数据
java
数据分析
容器云运维实战——Docker与Kubernetes集群
ISBN:978-7-121-33906-6作者:黄靖钧 冯立灿页数:376页阅读时间:2021-06-10推荐指数:★从实际出
运维
docker
kubernets
容器云
调度算法
2022年企业应用运维管理指标体系白皮书
IT运维对企业发展数字化业务、实现数字化转型具有重要意义。
为了提升运维的投入产出比,并提升运维侧对业务侧的价值创造属性,企业的运
运维
大数据
python
人工智能
java
【腾讯出品】运维自动化新玩法——标准运维企业应用案例分享
标准运维是一套通过成熟稳定的任务调度引擎,把多系统间的工作整合到一个流程,助力运维实现跨系统调度自动化的SaaS。
作为蓝鲸体系中兼顾运维操作和运维流程的标准化、自动化的利器,标准运维通过几大功能点去实现它...
运维
腾讯蓝鲸
蓝鲸
自动化运维
DevOps」闲聊我心中的运维开发
在我入职上家公司的运维部之前,我所以为的运维工程师只是修修电脑,拉拉网线,布布机器。
诸不知,运维所涉及的知识面、专业点非常广,对从业人员素质也要求非常高,...原本准备写篇前端眼中的运维开发,恰巧前组长…
后端
运维
开发工程师
运维工程
如何做好Linux运维
运维是一个很大的领域,包括的面也比较广.就拿运维调度管理系统来说说吧我们在平时的运维过程中能够看到很多复杂的运维场景,比如说.
运维
nginx
虚拟化
运维、监控、AIOps的几个重要观点
监控是整个运维乃至整个产品生命周期中最重要的一环,通过配置合理的告警机制,采集准确的监控指标,来提前或者尽早发现问题,解决问题,进而保证产品的稳定,提升用户的体验。
『分布式实验室』特约记者艾尔斯兰...
数据
运维
Nightingale
Prometheus
ITOM之迈向智能化运维的第二步:自动化运维
(这份金融行业的《运维体系指南》,我们研究了两年(附资料下载))运维部门作为企业科技部门的一部分,在信息化时代的今天,所承受的压力日益渐增。
传统的运维模式越来越难以适应业务和IT架构的扩张,运维...
自动化运维
运维
基础架构
Kubernetes、K8s运维架构师实战集训营【中高级,最新第6期】
Kubernetes、K8s运维架构师实战集训营【中高级,最新第6期】网盘地址:https://pan.baidu.com/s/17QrFGxtyk59Stlbq6ug6lA提取码:hsbd 备用地址(腾讯微云):https://share.weiyun.com/ip0oBGbz提取码:wn...
运维架构
k8s
运维基础——Zabbix添加磁盘空间监控
1.Configuration-Templates-Createtemplate2.输入Templatename:diskspace50Gb3.点击Items(0)-Createitem4.选择Triggers(0)-CreatetriggersExpression`{diskspace50Gb:vfs.fs.size[/data,free].last...
运维
磁盘
mb5ff980f81f3d8
关注
私信
近期评论
VulnHub-[DC-1-7]-系列通关手册
本文不错,值得学习
StepbyStepToCreateaK8SCluster
现在工作中用到了,挺不错的
this关键字在JAVA和JS中的异同
哎呦,不错哦
mysql入门语句(一)
非常简单实用!
设计模式--观察者模式
干货满满,很详细.评论占个坑
近期文章
1.filter高级应用
2.[.NET]一个获取随机数的新方式
3.控制台快递系统-面向过程
4.极简SpringBoot指南-Chapter05-SpringBoot中的AOP面向切面编程简介
5.MVC页面重定向'页面跳转
热评好文
控制台快递系统-面向过程
filter高级应用
MVC页面重定向'页面跳转
极简SpringBoot指南-Chapter05-SpringBoot中的AOP面向切面编程简介
[.NET]一个获取随机数的新方式
七日热门
Java-introductionofJava
Java入门_Java概述_Java的特点
JAVA基础——JavaSynchronized
Java-InterviewforJava01
java(01)__Java基础
[Java]Java泛型
[Java]JAVAIO操作
JavaAnnotation,Java注解
Java基础-初识Java
java基础-走进java
相关标签
全部
eclipse开发经验总结
hadoop经验总结
hbase优化经验总结
javascript经验总结
javaweb项目经验总结
java培训经验总结
java经验总结
java项目经验总结
linux运维日常经验总结
nginx运维经验总结
签到领勋章
返回顶部
51CTO博客
首页
关注
热榜
订阅专栏
学堂
精培
开源社区
CTO训练营
51CTO
班级博客
登录注册
手机随时阅读
新人专享大礼包¥24
写文章
搜索历史
清空
热门搜索
查看【
】的结果
Copyright©2005-202251CTO.COM
版权所有京ICP证060544号
关于我们
官方博客
意见反馈
了解我们
全部文章
在线客服
网站地图
热门标签
友情链接
开源基础软件社区
51CTO学堂
51CTO
延伸文章資訊
- 1写给自己的运维经验总结 - 51CTO博客
写给自己的运维经验总结,2020已经过去一周了,这几天对这一年的运维工作做了一些总结,然后有一些思考,整理出来发一篇,希望2020年工作可以更轻松多 ...
- 2运维全球最大游戏网站过程中积累的SRE经验 - gists · GitHub
作者Ian Miell 通过本文探讨了自己在全球最大在线游戏网站的站点可靠性运维工作中积累的经验。本文最初发布于Ian Miell 的博客,经原作者授权由InfoQ 中文站翻译并分享 ...
- 3运维经理的运维经验总结 - 阿里云开发者社区
运维工作技术不是最重要的,因为这个职位现学现用也来得及,所以工作态度/为人和经验是最重要的。 服务器日志. 对服务器建立日志,所有服务器的所有操作都要有记录,并且写 ...
- 4运维工程师不得不看的经验教训和注意事项 - DockOne.io
运维工程师不得不看的经验教训和注意事项. 一、线上操作规范. 测试使用. 当初学习Linux的使用,从基础到服务到集群, ...
- 5没有实际工作经验,如何面试linux.运维工程师? - Boss直聘
没有实际工作经验,如何面试linux.运维工程师? 热门回答:每年都会有一大批Linux 运维工程师,是刚刚从培训机构培训出来的,他们都有几个鲜明的特点: 1.