Cloudflare全球“死机”因配置错软件更新 专家教用户两招自保

撰文: 李慧妍
出版:更新:

昨晚(2日)近10时,本港有多个网站出现“死机”,包括连登讨论区、高登讨论区,及立场新闻、《东方日报》网页等,均显示“502 Bad Gateway”讯息。约半小时才陆续恢复运作。
提供DDoS缓解服务与DNS服务的美国互联网服务公司Cloudflare,于本港时间今日(3日)凌晨4时,详细指出“死机”是定期作软件更新时,出现一个配置错误所造成的意外,并再半小时内修复,澄清并非遭到黑客攻击。
信息安全专家庞博文建议,各论坛网站应使用至少两间服务供应商,设置两层防御来抵挡攻击;及透过更改DNS伺服器,短暂恢复运作,其后再转回Cloudflare的DNS伺服器,以避免同类“死机”事件发生。

本港昨晚(2日)出现大规模网站“死机”,包括连登讨论区、高登讨论区、立场新闻等。(资料图片)

昨晚9时50分起,本港多个使用Cloudflare域名代理服务的网站无法无法登入,出现“502 Bad Gateway”的讯息。

互联网大规模瘫痪,本港网民无法浏览有关网站,不少人即怀疑是黑客攻击,及传出是Cloudflare的伺服器受攻击而“死机”。其后Cloudflare行政总裁Matthew Prince在社交网站Twitter贴文,指所有服务受到影响,但并非受网络攻击。

Cloudflare CEO Matthew Prince 称,未有证据显示是次影响与网络攻击有关。(Twitter)

一个错误致发生前所未见CPU衰竭事件

经调查后,Cloudflare于本港时间今日(3日)约凌晨4时,透过网志详细交代事故报告,指在世界协调时间(UTC)7月2日下午1时42分(约本港时间晚上9时42分),网站作定期更新网页应用程式防火墙(Web Application Firewall, WAF)的规则时,以用来改善在面对网络攻击时封锁JavaScript的能力,会先在模拟模式中测试,确定无误再部署至生产环境。

Cloudflare指,由于WAF规则为一次性全球部署,而非渐进式。当中一个规则所含的正规表示式,导致其全球伺服器的CPU使用率飙升至100%,令使用其代理的网站出现502错误,亦令Cloudflare的流量最高曾下跌82%,导致全球大“死机”。Cloudflare形容情况是“前所未见的CPU衰竭事件。”(an

unprecedented CPU exhaustion event)

其后Cloudflare决定将受影响的WAF规则集还原并测试,至本港时间晚上10时09分,流量恢复正常。Cloudflare坦言测试程序不足,会检视部署程序等,避免同类事件再发生。

Cloudflare于本港时间今日(3日)约凌晨4时,透过网志详细交代事故报告.(Cloudflare网页截图)

使用该服务的网站出现502错误状况,持续约27分钟。信息安全专家庞博文认为,Cloudflare能于短时间内解决问题,证明危机处理能力很高,并笑称同类情况在行内时有发生。由于Cloudflare属零售式服务,任何网站只需花费数十至数百美金就可使用,“主要是论坛、讨论区及网页等大众化服务在使用,所以牠们一旦出现技术事故,就会大规模出事。”而政府、金融业及基础建设等网络,则会使用专门服务。

他建议网站用户不应只用一间服务供应商来抵挡攻击,设置两层防御有备无患;此外,当遇上同类事故,用户可在路由器上设置,更改DNS伺服器,以即时恢复运作,待Cloudflare的DNS伺服器恢复正常才转回使用。

他又形容,Digital Attack Map网站显示的攻击线路图属“日日都这么壮观”,为全球性、恒常状态,“昨日见到的攻击是流量攻击。而且典型的DDoS攻击(分散式阻挡服务攻击),是以大量‘丧尸’电脑作密集式流量攻击。当电脑用家的安全意识不足,出现保安系统漏洞,就会很早成为‘丧尸’电脑。”而黑客若是针对性、有目标攻击网站,则会采用流量攻击及软件层攻击的混合式。