站点可靠性工程师的深度工作

深度工作是指在不受干扰的情况下专注于认知任务,例如自动化、提高可观察性、解决难题和流程改进。这对于提高工作意义感、促进心流状态和创造价值至关重要。对于 sre(站点可靠性工程师)来说,自动化、建立即时访问系统、规划项目和划分时间段等策略可以

深度工作是指在不受干扰的情况下专注于认知任务,例如自动化、提高可观察性、解决难题和流程改进。这对于提高工作意义感、促进心流状态和创造价值至关重要。对于 sre(站点可靠性工程师)来说,自动化、建立即时访问系统、规划项目和划分时间段等策略可以帮助他们减少浅层工作,从而腾出更多时间进行深度工作。这些策略通过促进专注、减少随机性和提供学习时间,有助于创造一个有利于产生影响和工作满意度的环境。

站点可靠性工程师的深度工作

什么是深度工作?

我们先来看看什么是深度工作。深度工作的概念是由卡尔·纽波特在他的著作《深度工作:在分心的世界中专注成功的规则》中提出的。在书中,卡尔·纽波特将深度工作定义为不受干扰地专注于一项需要认知的任务。与深度工作相反的是浅层工作,卡尔·纽波特将其定义为可以在分心时完成的后勤类任务,例如易于复制的工作协调和沟通任务。 

深度工作为何重要?

首先,深度工作是有意义的,让人感到满足的。根据盖洛普最近的一项调查,美国员工敬业度创下了历史新低,原因是他们对组织的了解程度和满意度较低。深度工作可以帮助解决这个问题。

其次,深度工作可以为心流状态铺平道路。研究发现,心流状态可以带来幸福。  

最后,深度工作是有回报的。从事需要认知的工作会给团队和组织带来价值,而这反过来又会为从事深度工作的个人带来晋升和经济奖励。正如卡尔·纽波特所说,“深度生活才是美好的生活。”

现在,让我们看一下对 SRE 具有认知要求的一些活动、可以被视为浅层活动的活动,以及 SRE 团队可以采用的一些策略,以在 SRE 团队内部促进深度工作。

对于 SRE 来说,哪些任务需要较高的认知要求?

以下是 SRE 团队可以执行的一些认知要求高的任务,以对组织产生更大的影响:

1、自动化和构建服务:开发良好的自动化以消除繁琐工作、提高管理基础设施的效率并降低成本是一项需要认知的任务。为后端团队开发的代码库做出贡献对 SRE 来说也是一个很好的机会,并且是一项需要认知的任务。

2、提高可观察性:站点可靠性工程师的另一项认知要求高的任务是提高系统的可观察性。这可以通过设计和创建可用的仪表板、调整警报以提高信噪比、检测代码库以发出有用的指标等来实现。

3、调试和解决影响生产系统的难题:在时间压力下解决影响生产系统可用性的难题是另一项需要认知能力的任务。  

4、改进流程:改进变更管理流程、事件管理流程等流程以提高团队的整体效率,改进 SLO 可能是另一项需要认知能力的任务。

5、改进文档:编写好的文档可能会产生影响,但需要集中精力才能完成。好的文档包括可用的故障排除指南、标准操作程序、架构图等。

6、学习新的技术技能:持续学习是做好 SRE 工作的关键。学习新的技术技能并跟上生成式 AI 等最新技术趋势也需要一定的认知能力。

SRE 在进行深度工作时面临哪些挑战?

以下是 SRE 在运营业务时需要执行的一些浅显任务,这些任务使他们很难进行深度工作:

1. 部署和升级

这些是业务必不可少的活动,但本质上往往是重复性的。根据团队内部的自动化水平,SRE 会花费一些时间在这些活动上。

2. 回答其他工程师的问题

通过来自其他团队的随机问题对 SRE 团队成员进行随机化可能会有所帮助,因为 SRE 团队往往对生产系统和基础设施有更深入的了解。

3. 生产访问请求

在许多团队中,只有 SRE 团队才能访问生产系统,以维护生产环境的稳定性。后端工程和数据工程团队等团队成员可能会中断 SRE 以从生产系统获取信息,用于各种目的,例如调试问题等。

4. 由于值班和生产问题而导致的随机化

SRE 往往对生产系统有全面的了解,即使 SRE 不在值班轮岗中,也经常会被拖入各种值班问题中。这会占用他们处理重要项目的时间。

5. 会议

开会会产生很多开销。对于 SRE 角色来说,有时很多人会加入试图解决问题的电话会议,这些电话会议往往会很长,很多工程师在很长一段时间内只是充当旁观者。

6. 回复电子邮件并回复团队/Slack 聊天

这是知识经济中大多数工作人员的常见活动,SRE 也不能幸免。回复电子邮件和聊天会不断打乱 SRE 的时间,并分散他们对重要工作的注意力。

SRE 可以采用哪些策略来促进深度工作?

现在让我们看一下 SRE 团队可以采用的一些策略,以最大限度地减少花在浅层工作上的时间并将这些时间花在深度工作上:

1.投资自动化

SRE 团队应优先投入时间进行自动化,以消除繁琐的工作并减轻部署、升级等各种活动的运营负担。创建具有内置自动验证的强大持续集成和持续部署管道将减少在这些活动上花费的时间。目标应该是为开发团队提供必要的工具,以便他们能够通过升级和部署进行自助服务。SRE 团队管理层应规划项目,以便为此类项目分配适当的资源。

2. 建立即时访问系统

具有适当审计跟踪和批准流程的即时访问系统可以帮助 SRE 团队以外的人员获得对生产环境的适当访问权限,从而帮助 SRE 团队不必花时间为其他人提供影子访问权限,而可以专注于深度工作。

3. 积极规划项目

SRE 团队可以实施适当的项目管理来优先执行重要工作,例如提高关键生产服务的可观察性。

4. 与研发和后端工程团队共享待命负载

与后端工程团队共享值班负载,同时让 SRE 团队专注于改进工具和文档,并培训其他人如何有效地处理值班问题也会有所帮助。

5. 遵循高效的值班轮换和事件管理流程

按照高效的值班轮换制,即当周只有负责值班的工程师处理大部分值班问题,这样其他工程师就可以专注于专门的项目,并使团队的其他成员能够进行深度工作。拥有清晰易懂的故障排除指南将有助于实现这一目的。

6. 划分时间段,专注于重要项目

从个人层面来说,SRE 团队的各成员可以在日历上留出时间专注于重要项目,以避免随机化。  

7. 提供持续学习的时间和资源

为 SRE 团队成员提供学习和探索新技术的时间,以及实施这些技术来解决可靠性问题的自由,这是促进学习的好方法。此外,提供在线学习服务和书籍订阅也是一个好主意。

8. 允许 SRE 从事他们选择的项目

允许 SRE 团队成员从事他们选择的项目将是鼓励他们进行深度工作的好方法。例如,编写最终用户使用的功能、试验新技术以及在不同的团队中工作都是实现这一想法的一些方法。众所周知,谷歌允许所有员工将 20% 的时间花在他们选择的项目上。实施这样的政策将是鼓励深度工作的好方法。 

结论

通过遵循本文讨论的策略,站点可靠性工程师可以致力于进行深度工作并获得快乐、满意和有意义的工作,同时对组织产生更大的影响。

以上就是站点可靠性工程师的深度工作的详细内容,更多请关注叮当号网其它相关文章!

文章来自互联网,只做分享使用。发布者:周斌,转转请注明出处:https://www.dingdanghao.com/article/569929.html

(0)
上一篇 2024-06-04
下一篇 2024-06-04

相关推荐

联系我们

在线咨询: QQ交谈

邮件:442814395@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信公众号