云服务器租用发生故障的概率低的原因是什么？行业新闻

云服务器租用发生故障的概率低的原因是什么？

发布时间：2019-09-17 点击数：1940

大家知道云服务器租用使用过程中硬件故障是很少发生的，可以说云服务器发生故障的概率要比传统服务器的低，那么云服务器租用发生故障的概率低的原因是什么？
影响云主机故障率的主要因素有：
l服务器硬件质量
l宿主机内核
l虚拟化层（KVM+QEMU 或 Xen）
lLinux 内核（承载业务程序）
影响物理机故障率的主要因素有：
·服务器硬件质量
·Linux 内核（承载业务程序）
从上面的对比看，云主机比物理机故障率貌似要高，因为虚拟化层和宿主机内核非常复杂，引入额外的故障率。这是直觉，而且很有道理：
AWS 去年就因为虚拟化层内核的安全漏洞大规模重启了物理机，多数 AWS 用户受影响。虚拟化层和宿主机内核的 BUG 也会同样造成宕机及重启。
那为什么还说云主机故障率可以低于物理机呢？
备注：这里我是从终端用户的角度看的，“从厂商购买的”物理机，来对比「从云平台购买的」云主机。

原因在于：简单来说，云平台厂商往往管理几万几十万台物理服务器，并有比较专业的基础运维团队和内核团队，可以在故障率上做大量的工作，以达成这样的效果：

云服务器很少发生故障的原因

1.虚拟化层和宿主机内核的故障率接近 0。这两层是内核，通过内核优化来达到；
2.服务器硬件质量可以不断提升；
3.承载业务程序的 Linux 内核，云平台可以帮助用户进行维护。并解决 BUG，修复安全漏洞等。
有人会说，我自己购买的物理机也能做上述优化，效果比云主机更好。真的是这样的么？现实情况是：
绝大部分公司管理的服务器数量不多，不足以建立相应的团队；同时因为服务器数量少（比如不到万台），做软硬件优化的环境不理想。

下面就上述要点展开。

虚拟化层和宿主机内核的故障率如何降低？

这主要通过自主掌控虚拟化层和宿主机内核，这整套内核来实现。

1. 自主维护Linux内核

商业 Linux 发行版（如 RHEL6.X）的内核其实有不少 BUG，因为内核太庞大、太复杂，BUG 修之不尽而且不断涌现，只要内核有人在改动，更多的 BUG 就还在路上。
但我们自己维护的 Linux 内核，我们可以迅速修复并应用进实际环境，不像商业 Linux 要等待较长的发布周期。
我们还可以预先研究别人犯过的错误，把更新补丁打入现在的内核；还可以屏蔽不必要的特性和改动避免 BUG 的引入。
简单讲，自主维护内核很灵活，最终质量不低于商业 Linux 发行版。国内有海量服务器的公司如腾讯和阿里都运行自主维护的 Linux 内核。

2. 免重启热补丁技术

这是指通过二进制指令修改的方式修改 Linux 内核达到修复的目的。
结合自主维护 Linux 内核，如果发现了 BUG 并制作修复补丁后，可以免重启应用到生产环境的 Linux 内核里。
这点目前主流 Linux 厂商不提供。但云平台厂商可以自己做。

3. 热迁移技术

特殊情况下的热迁移，可规避尚未完全定位的内核问题。
这三点的综合效果，使得某些云厂商，因为内核原因造成的宕机低到可以忽略。几万台服务器半年可以减少到一两次。
可能有些早期用户应该比较有感觉，几年软件宕机不少，给客户推送的故障报告不时就和内核有关，但经过一年半载的工作后，现在几乎没有了。

服务器硬件质量如何提升？

服务器硬件故障率的影响因素有厂商品牌、机型、服务器运行时间、以及部件型号的故障率。
这里的工作需要海量服务器来做，比如上万台才有意义，而几百上千台意义不大。
这里有一张图，体现我们可以主动采取部分措施。

1. 服务器故障率和厂商机型关系密切

我们可以监控各厂商机型的故障率，主动下架比较差的，从而提升总体质量。
一般来说，小厂的服务器故障率会高一些，但大厂即使 DELL、联想的个别机型也会有较高故障率。
这主要和机型设计和生产质量管控有关，就不阐述了。我们能做的是选择故障率低的厂商和机型。

2. 服务器运行时间久了，故障率会随之提升

对于云平台厂商，可以监控这一切故障发生前的征兆，并主动采取措施，通过热迁移手段避免云主机受影响。

3. 硬件宕机和部件缺陷关系很大

我们的统计发现，部件种类里，硬盘故障故障率最高，其次内存硬件、RAID 卡等。
对于硬盘故障，可以通过 RAID 方式规避。对于内存硬件，可以通过内存故障隔离等内核手段，大幅度减少其硬件故障造成的宕机及影响。
总的来讲，通过上述这些工作，云平台厂商可以让服务器硬件故障率逐步降低。其实，可以做的更多，篇幅原因就不讲了。而这样的工作，对于没有海量环境的公司是很难做的，效果也不佳。
另外，云平台厂商可以替用户修复云主机内核的 BUG 和安全漏洞，降低内核故障率。
我们在这方面做了一些工作，内核版本会及时更新，关键漏洞会提供免重启热补丁修复包。
观点总结
简要总结一下本文的主要观点：
1.云主机相比物理机，虚拟化层和宿主机内核的额外复杂性及故障率可以被优化至接近 0 即可以忽略。
2.服务器硬件故障，云平台可以不断降低其故障率，主要手段通过内核隔离硬件故障、热迁移规避故障隐患，以及监控故障率并主动下架不良厂商机型等。
上述这些工作都需要非常专业的运维团队和内核团队才能实施，如果没有足够大的服务器数量是很难开展的。

而大型云厂商往往管理几万、几十万服务器，因此具备这样的条件。也因此，云主机故障率能低于物理机（当然，如果什么都不做，云主机故障率一定是高于物理机的）。

看完想必大家知道原因了吧，上述文章由全网数据小编分享，全网数据专业提供深圳服务器租用，深圳服务器托管，深圳主机租用，云服务器租用等服务，欢迎咨询客服了解详情。

上一篇：网站服务器托管能否稳定运行的关键在于运维

下一篇：云主机的安全该从你那些方面进行保护？