适读人群 :《SRE写真》适合需要时常应对网站崩溃问题并有志于提升公司软件稳定性的软件发者、始从事网站可靠性工程师工作的起步者阅读。 √ 作者长期服务于对服务中断非常敏感的大型互联网公司,总结出一套久经考验的方法论,专用于监控现代Web服务、设置警报、评估针对生产事件的响应机制,以及短时间内恢复网站宕机事故。 √ 除了别出心裁增设SRE面试一章,精华内容还包括监控灾难性故障向团队发出紧急宕机警报分析生产事件应对策略构建属于自己的自动化测试工具或相关软件预测瓶颈以改善用户体验。
售 价:¥
纸质售价:¥58.80购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
书名页
内容简介
版权页
推荐序1
推荐序2
推荐序3
前言
1 简介
SRE简史
SRE是什么
关于这本书
以SRE作为新项目的框架
小结
2 监控
为什么要监控
检测应用程序
度量什么
SLI、SLO和错误预算简介
收集和保存监控数据
轮询应用程序
推送应用程序
展示监控信息
任意查询
图表
仪表板
聊天机器人
管理和维护监控数据
沟通
他们知道有监控吗
小结
参考资料
3 事故响应
什么是事故
什么是事故响应
警报
什么时候发起警报
怎么发出警报
向谁发出警报
随时待命
沟通
事故指挥系统
在哪里沟通
恢复系统
警报解除
小结
4 事后回顾
什么是事后回顾
为什么写事后回顾报告
何时写事后回顾报告
开展事故分析
如何写事后回顾报告
总结
影响
时间
根本原因
行动项
附录
停止事后指责
举行事后回顾会议
分析以往的事后回顾报告
MTTR与MTBF
警报疲劳
讨论过去的服务中断
小结
参考资料
5 测试和发布
测试
测试内容
发布
何时发布
回滚
自动化
持续
小结
6 容量规划
企业财务简介
为什么需要规划
风险管理与期望管理
定义一个规划
当前的容量是多少
何时达到容量极限
应该如何更改容量
执行规划
架构——性能变化的根源
技术作为利润中心和采购
小结
7 构建工具
寻找项目
定义项目
RDD
设计文档
项目计划
例子
回顾会与站会
工作分配
构建项目
关于编写代码的建议
关注点分离
长期工作
笔记本
文档与维护项目
小结
8 用户体验
设计和用户体验简介
现实世界的交互设计
用户测试
挑选一种体验
设计测试
寻找要测试的人
开发者体验
工具经验
绩效预算
安全性
身份认证
授权
风险概况
网络钓鱼
ACM道德准则
小结
参考资料
9 网络基础
互联网
发送一个HTTP请求
DNS
以太网和TCP/IP
HTTP
curl与wget
网络监控工具
netstat
nc
tcpdump
小结
参考资料
10 Linux 和云基础
Linux基础
一切皆是文件
进程是什么
syscalls
构建自己的工具
云基础
虚拟机
容器
负载均衡
自动伸缩
存储
队列与发布/订阅
伸缩单元
架构面试示例
小结
参考资料
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜