SRE

SRE

我在Uber创立SRE团队的故事

ylzhang 发表了文章 • 0 个评论 • 3331 次浏览 • 2022-06-18 20:27 • 来自相关话题


【编者的话】SRE是指Site Reliability Engineer(网站可靠性工程师)。他是软件工程师和系统管理员的结合,SRE工程师需要掌握很多知识:算法、数据结构、编程能力、网络编程、分布式系统、可扩展架构、故障排除等。Uber在早期意识到SRE的重...
查看更多

从零开始搭建SRE

ylzhang 发表了文章 • 0 个评论 • 14225 次浏览 • 2022-03-28 09:03 • 来自相关话题


【编者的话】Google在10年前创造了SRE这个工种。SRE,Site Reliability Engineering的缩写。其中site是指Website,可以翻译为网站可靠性工程。几年前资深Google SRE Chris Jones等人联合撰写了《Go...
查看更多

技术团队如何追求高效能

阿娇 发表了文章 • 0 个评论 • 2112 次浏览 • 2021-12-05 19:31 • 来自相关话题


对于一个技术团队来说,高效能是最大的追求,因为这样团队和产品才更有可能成功,技术不会成为绊脚石。

有些人希望通过优秀的组织结构,或者通过完备的流程,或者寄希望于管理法术,再或者找到一个牛逼的架构,可实际上并没有银弹。

看完了《高效能团队模式》这本书,给了自...
查看更多

SRE 到底是什么?

玻璃樽 发表了文章 • 0 个评论 • 3409 次浏览 • 2021-11-22 10:57 • 来自相关话题


有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。

SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
查看更多

探索SRE是如何推进好大夫在线技术债务改造的

Andy_Lee 发表了文章 • 0 个评论 • 3323 次浏览 • 2021-10-09 15:17 • 来自相关话题


你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?

如何保障网站的高可用是行业内的痛点,...
查看更多

SRE 的 7 个基本工具

大卫 发表了文章 • 0 个评论 • 2374 次浏览 • 2021-08-19 10:35 • 来自相关话题


掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。

SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
查看更多

通过产品运营驱动SRE落地

玻璃樽 发表了文章 • 0 个评论 • 3419 次浏览 • 2021-05-27 15:21 • 来自相关话题


这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?

去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
查看更多

SRE:“正确做事”的法门

新牛哥 发表了文章 • 0 个评论 • 3445 次浏览 • 2021-03-14 20:55 • 来自相关话题


【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。

本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
查看更多

谈谈对 SRE 的理解

玻璃樽 发表了文章 • 0 个评论 • 4043 次浏览 • 2021-01-22 22:45 • 来自相关话题


前言

在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。

基于过往的技术研发和稳定性保障...
查看更多

网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)

megrez 发表了文章 • 0 个评论 • 4782 次浏览 • 2020-11-15 21:48 • 来自相关话题



使用3R原则来设计一个可靠的应用程序。
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
查看更多

我在Uber创立SRE团队的故事

ylzhang 发表了文章 • 0 个评论 • 3331 次浏览 • 2022-06-18 20:27 • 来自相关话题


【编者的话】SRE是指Site Reliability Engineer(网站可靠性工程师)。他是软件工程师和系统管理员的结合,SRE工程师需要掌握很多知识:算法、数据结构、编程能力、网络编程、分布式系统、可扩展架构、故障排除等。Uber在早期意识到SRE的重...
查看更多

从零开始搭建SRE

ylzhang 发表了文章 • 0 个评论 • 14225 次浏览 • 2022-03-28 09:03 • 来自相关话题


【编者的话】Google在10年前创造了SRE这个工种。SRE,Site Reliability Engineering的缩写。其中site是指Website,可以翻译为网站可靠性工程。几年前资深Google SRE Chris Jones等人联合撰写了《Go...
查看更多

SRE 到底是什么?

玻璃樽 发表了文章 • 0 个评论 • 3409 次浏览 • 2021-11-22 10:57 • 来自相关话题


有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。

SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
查看更多

探索SRE是如何推进好大夫在线技术债务改造的

Andy_Lee 发表了文章 • 0 个评论 • 3323 次浏览 • 2021-10-09 15:17 • 来自相关话题


你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?

如何保障网站的高可用是行业内的痛点,...
查看更多

SRE 的 7 个基本工具

大卫 发表了文章 • 0 个评论 • 2374 次浏览 • 2021-08-19 10:35 • 来自相关话题


掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。

SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
查看更多

通过产品运营驱动SRE落地

玻璃樽 发表了文章 • 0 个评论 • 3419 次浏览 • 2021-05-27 15:21 • 来自相关话题


这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?

去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
查看更多

SRE:“正确做事”的法门

新牛哥 发表了文章 • 0 个评论 • 3445 次浏览 • 2021-03-14 20:55 • 来自相关话题


【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。

本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
查看更多

谈谈对 SRE 的理解

玻璃樽 发表了文章 • 0 个评论 • 4043 次浏览 • 2021-01-22 22:45 • 来自相关话题


前言

在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。

基于过往的技术研发和稳定性保障...
查看更多

网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)

megrez 发表了文章 • 0 个评论 • 4782 次浏览 • 2020-11-15 21:48 • 来自相关话题



使用3R原则来设计一个可靠的应用程序。
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
查看更多

一文帮你理解整个SRE运维体系

翔宇 发表了文章 • 0 个评论 • 5862 次浏览 • 2020-08-26 21:11 • 来自相关话题


SRE运维体系的构建和工作职责划分。

可观测性系统

在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:
  • 指标监控:即各种指标监控,比如...
查看更多

我在Uber创立SRE团队的故事

ylzhang 发表了文章 • 0 个评论 • 3331 次浏览 • 2022-06-18 20:27 • 来自相关话题


【编者的话】SRE是指Site Reliability Engineer(网站可靠性工程师)。他是软件工程师和系统管理员的结合,SRE工程师需要掌握很多知识:算法、数据结构、编程能力、网络编程、分布式系统、可扩展架构、故障排除等。Uber在早期意识到SRE的重...
查看更多

从零开始搭建SRE

ylzhang 发表了文章 • 0 个评论 • 14225 次浏览 • 2022-03-28 09:03 • 来自相关话题


【编者的话】Google在10年前创造了SRE这个工种。SRE,Site Reliability Engineering的缩写。其中site是指Website,可以翻译为网站可靠性工程。几年前资深Google SRE Chris Jones等人联合撰写了《Go...
查看更多

技术团队如何追求高效能

阿娇 发表了文章 • 0 个评论 • 2112 次浏览 • 2021-12-05 19:31 • 来自相关话题


对于一个技术团队来说,高效能是最大的追求,因为这样团队和产品才更有可能成功,技术不会成为绊脚石。

有些人希望通过优秀的组织结构,或者通过完备的流程,或者寄希望于管理法术,再或者找到一个牛逼的架构,可实际上并没有银弹。

看完了《高效能团队模式》这本书,给了自...
查看更多

SRE 到底是什么?

玻璃樽 发表了文章 • 0 个评论 • 3409 次浏览 • 2021-11-22 10:57 • 来自相关话题


有很多人问过我,想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下。

SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的...
查看更多

探索SRE是如何推进好大夫在线技术债务改造的

Andy_Lee 发表了文章 • 0 个评论 • 3323 次浏览 • 2021-10-09 15:17 • 来自相关话题


你是否正面临着产品迭代在不断提速(催进度、要deadline)的同时,服务产线BUG/故障也在变多、有大量用户投诉要响应,每天都要花大把时间去处理突发情况、去救火,而无法把主要精力都投入到正常项目中的糟糕的工作状态?

如何保障网站的高可用是行业内的痛点,...
查看更多

SRE 的 7 个基本工具

大卫 发表了文章 • 0 个评论 • 2374 次浏览 • 2021-08-19 10:35 • 来自相关话题


掌握可靠性核心概念是成为 SRE 的第一步。但是您还需要工具来将这些概念付诸实践。

SRE 需要哪些类型的工具来完成他们的工作?每个类别中最好的工具是什么?本文通过讨论 SRE 在构建工具箱时应该考虑什么来回答这些问题。它介绍了 SRE 可以利用的关键工具类...
查看更多

通过产品运营驱动SRE落地

玻璃樽 发表了文章 • 0 个评论 • 3419 次浏览 • 2021-05-27 15:21 • 来自相关话题


这几年SRE越来越火,几乎成了保障可用性的“银弹”,Google SRE已经是目前稳定性领域的最佳实践,SRE也成为稳定性的代名词。SRE这么厉害,那么我们应该如何在企业落地SRE呢?

去年在极客时间学习了赵成老师的《SRE实战手册》课程受益匪浅,做好系...
查看更多

SRE:“正确做事”的法门

新牛哥 发表了文章 • 0 个评论 • 3445 次浏览 • 2021-03-14 20:55 • 来自相关话题


【编者的话】本文是作者多年SRE实践的经验总结,阐明了为什么要选择SRE及SRE的目标,并从六个角度指明如何实践SRE:合作和沟通、人员团队结构、工具和平台、版本工程学、监控、事后回顾。

本文是我对SRE实践的介绍,这些实践来自于我组建过的不同SRE团队,这...
查看更多

谈谈对 SRE 的理解

玻璃樽 发表了文章 • 0 个评论 • 4043 次浏览 • 2021-01-22 22:45 • 来自相关话题


前言

在技术工作中,对于产品/基础技术研发和 SRE 两种角色,通常会有基于「是否侧重编码」的理解。对于产品研发转做 SRE ,经常会产生是否要「脱离编码工作」的看法,或者认为是否要「偏离对产品/基础技术的推进」。

基于过往的技术研发和稳定性保障...
查看更多

网站可靠性工程中的3R:Resiliency(弹性)、Recovery(恢复性)和Reliability(可靠性)

megrez 发表了文章 • 0 个评论 • 4782 次浏览 • 2020-11-15 21:48 • 来自相关话题



使用3R原则来设计一个可靠的应用程序。
在我作为Capital One的弹性和网站可靠性工程(SRE)架构师的工作中,弹性、恢复和可靠性的概念对于架构成熟的应用程序至关重要。每个概念都建立在另一个概念的基础上,通过不同的视角提供体系结构考量的框架,...
查看更多