什么是SRE(站点可靠性工程)? - Red Hat

文章推薦指數: 80 %
投票人數:10人

站点可靠性工程(SRE)是IT 运维的软件工程方案。

SRE 团队使用软件作为工具,来管理系统、解决问题并实现运维任务自动化。

SRE 执行的任务以前通常由运维团队手动 ... Skiptocontent 精选链接 控制台 服务支持 开发人员 合作伙伴 Redhat.com 开始试用 产品 解决方案 服务和支持 资源 红帽与开源 MoreRedHat 控制台 服务支持 开发人员 合作伙伴 Redhat.com 开始试用 Enteryourkeywords 联系我们 简体中文 选择语言 简体中文EnglishFrançaisDeutschItaliano日本語한국어PortuguêsEspañol Account 登录 登录您可以使用红帽帐户访问您的会员个人资料和偏好设置以及下列服务,具体决取决于您的客户状态: 客户门户 合作伙伴中心 用户管理 认证中心 立即注册尚未注册?下面是您应该进行注册的一些理由:从一个位置浏览知识库文章、管理支持案例和订阅、下载更新以及执行其他操作。

查看组织内的用户,以及编辑他们的帐户信息、偏好设置和权限。

管理您的红帽认证,查看考试历史记录,以及下载认证相关徽标和文档。

编辑您的个人资料和偏好设置您可以使用红帽帐户访问您的会员个人资料、偏好设置以及其他服务,具体决取决于您的客户状态。

出于安全考虑,如果您在公共计算机上通过红帽服务进行培训或测试,完成后务必退出登录。

退出 Account 登录 Jumptosection Jumptosection 站点可靠性工程(SRE)是IT运维的软件工程方案。

SRE团队使用软件作为工具,来管理系统、解决问题并实现运维任务自动化。

SRE执行的任务以前通常由运维团队手动执行,或者交给使用软件和自动化来解决问题和管理生产系统的工程师或运维团队来执行。

 在创建可扩展和高度可靠的软件系统时,SRE是宝贵的实践。

它可帮助您通过代码管理大型系统,对于管理成千上万台机器的系统管理员来说,代码更具可扩展性和可持续性。

 站点可靠性工程的概念由Google工程团队的BenTreynorSloss第一个提出。

 SRE可以帮助团队在发布新功能和确保用户可靠性之间找到平衡。

标准化和自动化是SRE模型的两大重要部分。

站点可靠性工程师应始终致力于增强和自动化运维任务。

这样一来,SRE就能帮助提高现有系统的可靠性,同时优化体量逐渐庞大的系统。

 SRE支持团队从传统IT运维方案迁移至云原生方案。

站点可靠性工程师是一个独特的岗位,要么必须是有运维经验的软件开发人员;要么必须是有软件开发技能的系统管理员或的IT运维人员。

 SRE团队负责部署、配置和监控代码,以及生产服务的可用性、延迟、变更管理、应急响应和容量管理。

站点可靠性工程可帮助团队确定可以要启动哪些新功能,以及在何时根据服务水平协议(SLA)并利用服务水平指标(SLI)和服务水平目标(SLO)定义系统所需的可靠性。

 SLI是针对提供的服务水平的特定方面所定义的测量指标。

关键SLI包括请求延迟性、可用性、错误率和系统吞吐量。

SLO基于根据SLI而指定的服务水平的目标值或范围。

然后,根据认定为可接受的停机时间确定所需系统可靠性的SLO。

这个停机时间称为误差量,即出错和中断的最大允许阈值。

 SRE并不是要实现100%可靠性,而是针对故障做好计划并妥善应对。

 开发团队在发布新功能时允许出现这一定量的误差。

利用SLO和误差量,开发团队可确定产品或服务是否能够在可用误差量的基础上启动。

如果某个服务在运行时处于误差量以内,则开发团队可在任何时间发布它,但是,如果系统当前有太多错误或停机时间超过误差量的允许范围,则必须使错误数减少至误差量以内后才能发布。

   开发团队可执行自动化运维测试以验证可靠性。

 站点可靠性工程师的时间要均衡分配给运维任务和项目工作。

根据Google的SRE最佳实践,站点可靠性工程师最多只能将一半的时间花在运维上,所以应该监控确保不会超过这个时间。

 剩余的时间应专注于开发任务上,比如创建新功能,扩展系统,以及实施自动化。

额外的运维工作和表现欠佳的服务应重新指定给开发团队,而不是让站点可靠性工程师将太多时间花在应用或服务的运维上。

 自动化是站点可靠性工程师的重要工作部分。

如果他们要反复处理一个问题,就会努力实现解决方案自动化。

这也有助于控制运维工作在他们工作中所占的比例。

 保持运维和开发工作之间的平衡是SRE的重要组成部分。

 DevOps是指对企业文化、业务自动化和平台设计等方面进行全方位变革,从而实现迅捷、优质的服务交付,提升企业价值和响应能力。

SRE可视为DevOps的实施。

和DevOps一样,SRE也与团队文化和关系密切相连。

SRE和DevOps都致力于搭建开发团队和运维团队之间的互通桥梁,以便加快交付服务。

 DevOps和SRE实践都可以实现更快的应用开发生命周期、改进的服务质量和可靠性,以及缩短的IT应用开发时间等优势。

但SRE有所不同的是,它依赖于开发团队中的站点可靠性工程师,这些工程师也要有解决通信和工作流程问题的运维背景。

站点可靠性工程师本身要求职责重叠,兼具开发团队和运维团队的技能。

 DevOps团队的开发人员常常疲于处理运维任务,需要拥有更专业运维技能,而SRE就能派上用场。

 在代码和新功能方面,DevOps专注于有效通过开发流程,而SRE专注于通过创建新功能来平衡站点可靠性。

 基于容器技术、Kubernetes和微服务的现代化应用平台是落实DevOps实践的关键所在,可帮助企业交付安全的创新软件服务。

了解如何通过Kubernetes平台实施DevOps访问"红帽开发人员",了解更多关于DevOps的信息SRE在应用的整个生命周期中,都要确保日常运维任务自动化和标准化。

Linux®容器可为您的团队提供云原生开发所需的底层技术。

容器支持集开发、交付、集成和自动化于一体的统一环境。

而Kubernetes是实现Linux容器操作自动化的现代方法。

Kubernetes可帮助您轻松高效地管理在公共云、私有云或混合云中运行Linux容器的集群。

选择好合适的平台后,您就可以充分利用已经实施的文化和流程变革。

红帽®OpenShift®是支持SRE计划的企业就绪型Kubernetes平台。

免费试用红帽OpenShift 如果您想要充分发挥出DevOps的敏捷性和响应力,则必须在应用的整个生命周期内兼顾IT安全性。

CI/CD可让持续自动化和持续监控贯穿于应用的整个生命周期(从集成和测试阶段,到交付和部署)。

DevOps工程师身怀独特的技能和专业知识,可以在组织内实现协作、创新和文化转变。

  产品在红帽专家的指导下参与高强度、富有针对性的驻留培训。

帮助您的团队借助敏捷开发方法和开源工具,快速、高效解决当前业务难题。

红帽的战略顾问将从大局出发,以战略性视角审视企业发展,分析您当前面临的业务挑战,并提供全面、低成本、高效益的解决方案,帮助您轻松应对各项挑战。

相关文章了解DevOps在红帽OpenShift上开展云原生CI/CD什么是部署自动化?什么是DevOps自动化?什么是DevOps工程师?什么是CI/CD管道?什么是敏捷方法?什么是应用生命周期管理(ALM)?什么是蓝绿部署?什么是CI/CD?什么是持续交付?什么是DevSecOps?什么是GitOps?什么是SRE(站点可靠性工程)?相关资源重新思考数字化转型:新数据检视2020年文化和流程变革要务通过红帽Ansible自动化平台简化CI/CD流程分析文章理解亚太地区在数字化转型方面的成功案例研究红帽Ansible自动化帮助SureScripts加速完成DevOps检查清单利用IT自动化成功实施DevSecOps的5种方法 免费订阅我们的RedHatShares通讯邮件继续了解



請為這篇文章評分?