HackerNews

Cloudflare 再次爆发故障 DownDetector 网站亦受到影响

作者: 内容转载日期: 2019-07-03 分类: 安全快讯暂无评论

受互联网基础设施服务提供商 Cloudflare 故障影响，目前已有许多网站遭遇了宕机，最明显的就是在访问时提示 502 网关错误。此前，Cloudflare 已经汇报 Discord、OKCupid、Peloten、Feedly 和 CoinDesk 等网站服务离线。但最讽刺的，莫过于通常用于检查 Web 服务中断的 DownDetector 站点也受到了影响。（截图 via TheVerge） Cloudflare 首席执行官 Matthew Prince 在某条推特底下表示，本轮宕机事件并非黑客攻击所引发，而是服务器超载了。他写到：“由于 CPU 使用量激增，导致主系统和备份系统出现了崩溃”。受本轮宕机事件影响，加密货币交易所 CoinDesk 显示了不正确的报价，错误地将比特币价格压低到了 26 美元（BTC 在今年 6 月份飙到了 10000 美元以上）。 Prince 后来在 Cloudflare 博客文章中解释称，CPU 峰值使用率超载是由于软件部署的不良导致的。该公司预计网站受影响的时间在 30 分钟左右，但在执行回滚操作后已陆续重新上线。不过，与 6 月 24 日发生的宕机事件不同，那一次 Prince 声称是 Verizon 的网络问题才导致了故障的发生。（稿源：cnBeta，封面源自网络。）

亚马逊宕机原因查明：员工误操作致 AWS 云平台移除大量站点

作者: DOTA2-FOX 日期: 2017-03-04 分类: 推荐阅读暂无评论

几天前，亚马逊 Web 服务遭遇了一场部分停摆的尴尬，许多互联网站点都受这波故障的影响而离线。而根据亚马逊刚刚发布的详情报告，事情可能需要归咎于某个员工从 S3 子系统中，向一台远程服务器输入了一个“常规命令”。不幸的是，员工输入了一个比预想的要大得多的数字。命令影响到了另外两个 S3 子系统上的服务器，而后者分管着全区的存储和元数据 —— 事情就此变得一发而不可收拾。报告解释到：一名 S3 团队的授权成员，用一个既定的脚本执行了一个命令。他原本是想将（通过 S3 计费处理的）一小部分服务器从某个 S3 子系统中移除，却不慎输入了一个不正确的指令，结果移除了一大票比预期更大数量的服务器。无意中删除的服务器位于两个其它 S3 子系统中，其中一个是索引子系统，管理者元数据和全区所有 S3 对象的定位信息。稿源：cnBeta；封面源自网络