DMIT Inc - NOC工作日志 658

尊敬的{$client_name},

由于一个OSD未能恢复，以及时间上的数据差异；有13/512（2.5390625%）的PG无法恢复。

我们很遗憾地通知你，某些Ceph PG对象的丢失可能会阻止你的虚拟机的文件系统在系统启动时挂载硬盘。

虽然这个问题可以手动解决，但在这个地方解决超过2000个虚拟机不属于我们非管理服务的范围。然而，我们想提供一个补偿方案，以示歉意。

==== 补偿包====
DMIT将提供一份更详细的故障报告，与此同时，我们将把您的服务期延长30天，并将您的虚拟机的传输容量永久性地增加一倍。(对于UNMETERED计划，我们也会将您的带宽增加一倍。)
====补偿包====

为了解决这个问题，我们将需要采取以下步骤。

1. DMIT将停止所有实例。
2. 客户端尝试逐一启动它们。
3. 如果不能进入系统:
a) 实例不能启动：重新安装系统，你的驱动器的主要（也许是头）对象已经永久丢失；需要重建。
b) 实例可以启动，但系统挂起: 文件系统失败；需要手动修复或重建。

请接受我们对造成的任何不便的歉意。在我们努力解决这个问题时，我们感谢您的耐心和理解。

在所有这些之后，DMIT将首先发布30天的服务延期。然后，增加一倍的资源。这不需要票据。

所有这些之后，故障报告就会准备好。

Best regards,
DMIT NOC

[该文本已通过邮件正式发送]

4.25K viewsAustin C., edited 00:43

DMIT Inc - NOC工作日志

DMIT Inc - NOC工作日志 pinned «尊敬的{$client_name}, 由于一个OSD未能恢复，以及时间上的数据差异；有13/512（2.5390625%）的PG无法恢复。我们很遗憾地通知你，某些Ceph PG对象的丢失可能会阻止你的虚拟机的文件系统在系统启动时挂载硬盘。虽然这个问题可以手动解决，但在这个地方解决超过2000个虚拟机不属于我们非管理服务的范围。然而，我们想提供一个补偿方案，以示歉意。 ==== 补偿包==== DMIT将提供一份更详细的故障报告，与此同时，我们将把您的服务期延长30天，并将您的虚拟机的传输容量永…»

00:43

DMIT Inc - NOC工作日志

最初的总结。

~3月1日
在3月1日左右，DMIT圣何塞收到大量的虚拟机订单。(几乎是当时已经存在VM数量的两倍)。

~3月3日
DMIT已经注意到资源的紧张，并立即停止接受新的订单。
内存资源被释放到上个月新购买的两个新节点。
当时的可用存储资源已经低于30%。

~3月6日
3月6日，我们将OSD的set-full-ratio从90%提高到95%，以防止IO中断。

但这仍然不足以解决问题，我们在3月3日已经订购了足够数量的P5510 P5520 7.68TB。
联邦快递预计在3月7日交货，我们原定在3月8日安装这些固态硬盘。

由于加州的天气，交货时间被推迟到3月9日，我们计划在3月10日立即安装这些固态硬盘，以缓解压力。

~3月8日
3月8日晚，我们完成了网络维护，导致1x OSD重新启动。
同样由于OSD过载，BlueStore没有足够的空间来分配4% log空间，导致OSD拒绝启动。这仍然只导致了IO性能的降低。

~3月9日
由于持续的写入，在3月9日上午，另一个OSD触发了故障并导致回填，这引起了连锁反应，导致第三个OSD被写满，然后无法启动。这最终导致了目前的状况。

我们立即安排到3月9日的现场安装，但这仍然造成一些PG的丢失。

===技术说明
- 圣何塞使用的是DMIT的最新技术栈。我们不知道bluestore会使用总SSD的4%作为log。我们认为应该把它包括在data中。一旦数据使用了所有的空间，日志就不能在启动时分配。这就导致了失败。
- 圣何塞没有像以前那样有那么多的虚拟机增加率，双倍的订单给了我们有限的时间来升级。

===管理说明
- 一旦资源超过60%，DMIT将准备对地点进行升级。
- 如果我们没有能力立即将资源保持在80%以下，DMIT将拒绝该订单。

5.49K viewsAustin C., edited 01:23

DMIT Inc - NOC工作日志

请您将服务保持有效直至我们完成赔偿交付。～预计完成时间为2周

4.9K viewsAustin C., edited 04:47

DMIT Inc - NOC工作日志

补偿包中的双倍流量（不计量服务的双倍带宽）已被交付。

4.58K viewsAustin C., 03:31

DMIT Inc - NOC工作日志

补偿包中的双倍流量（不计量服务的双倍带宽）已被交付。

请注意：如果你选择升级或停止付费，（双倍传输/双倍带宽）将被删除。

我们建议保留它，如果你需要更多，可以订购新的服务。

4.92K viewsAustin C., 03:33

DMIT Inc - NOC工作日志

SJC的快照功能已开启；同时快照数量升级将在稍后开放

4.75K viewsAustin C., 19:25

DMIT Inc - NOC工作日志

本周末 (即美国东部时间的 3 月 17 - 19 日)，将对 SJC 的两个节点进行内存升级。届时这两个节点将会短暂下线并在完成后重新启动。

3.98K viewsSenra, edited 18:32

DMIT Inc - NOC工作日志

请您将服务保持有效直至我们完成赔偿交付。～预计完成时间为2周

为方便会计与账簿统计，我们将在4月1日东海岸时间统一延长时间。
请您确保服务在 4月1日 0 点（UTC时间），4月1日 8点（中国标准时间）时是有效的。

3.66K viewsAustin C., edited 21:23

DMIT Inc - NOC工作日志

本周末 (即美国东部时间的 3 月 17 - 19 日)，将对 SJC 的两个节点进行内存升级。届时这两个节点将会短暂下线并在完成后重新启动。

已完成；

SJC 存储资源仅使用36%；

3.69K viewsAustin C., 23:53

DMIT Inc - NOC工作日志

bash <(curl -s http://154.17.1.227/vmupgrade.sh)

建议：仅在 SJC 环境下使用。
该链接仅短时间内有效，另外 SJC 模板已经内置所有修改，重建 VM 有同样的效果。

该脚本作用：
1. 针对 SJC 的延迟、配置带宽、最小VM 内存进行了 tcp buffer size, window size 的内核优化；可一定程度上提升单位内带宽。
2. 开启 1G swap 以减少 OOM 的可能性；
3. 开启 kernel panic 自动重启；
4. 增加 watchdog（仅对非Ubuntu具有直接效果）。

使用改脚本后，建议不对 sysctl.conf 进行覆写。

关于第一点：
因为 SJC 与中国之间的延迟较高，由于 TCP 特性，带宽会遇到瓶颈。
主要受 TCP Buffer Size 和 Collapse 影响。

虽然 TCP Collapse 参数调整并不受 Linux Kernel 的官方支持，但是 Cloudflare 提供了以下补丁，如果您能熟练使用 Linux，并能接受风险，则可以尝试此补丁以获取最大限度的带宽提升。
github.com/cloudflare/linux/blob/master/patches/0014-add-a-sysctl-to-enable-disable-tcp_collapse-logic.patch

关于第二点：
OOM 通常由于你的软件申请超量内存且内核无法释放导致。
OOM 会导致您的 VM 长期占用满载磁盘读取；
如果长时间未解决，我们会对您的 VM 进行磁盘限速。
SWAP 虽然会占用您少量磁盘 IO，但是可以避免系统崩溃。
通过 sysctl.conf 调整更高的 swap 比例只会降低您的 VM 性能以及效能。特别是您在运行隧道程序时。

关于第三点：
Kernel Panic 会导致 CPU 100% 满载；
如果长时间未解决，我们会对您的 VM 进行 CPU 限速。

关于第四点：
由于 Ubuntu 默认内核屏蔽了 watchdog。
因为每个客户可能使用了不同的内核，我们并不提供直接脚本。
我们已经将此修改内置到模板中，如有需求可以直接重建。

三、四：
通过 kernel panic 自动重启的参数以及 watchdog 的配合。
可以让你的 VM 在大部分情况下处于健康状态，避免我们因您的系统异常对您的 VM 进行 CPU QOS 或者 IO QOS。
但这仍避免不了一个问题：你的 VM 磁盘没有可以启动的系统/系统损坏导致卡死在寻找启动设备或者 Grub/Initramfs 状态。
我们会通过定期任务检测，并找到无系统 VM 并关机，如遇到此情况请自行开机并通过 VNC 检查状况。

GitHub

linux/patches/0014-add-a-sysctl-to-enable-disable-tcp_collapse-logic.patch at master · cloudflare/linux

Cloudflare Linux Kernel Patches. Contribute to cloudflare/linux development by creating an account on GitHub.

5.18K viewsSenra, edited 06:37

DMIT Inc - NOC工作日志

DMIT Inc - NOC工作日志 pinned «bash <(curl -s http://154.17.1.227/vmupgrade.sh) 建议：仅在 SJC 环境下使用。该链接仅短时间内有效，另外 SJC 模板已经内置所有修改，重建 VM 有同样的效果。该脚本作用： 1. 针对 SJC 的延迟、配置带宽、最小VM 内存进行了 tcp buffer size, window size 的内核优化；可一定程度上提升单位内带宽。 2. 开启 1G swap 以减少 OOM 的可能性； 3. 开启 kernel panic 自动重启； 4. 增加…»

06:38

DMIT Inc - NOC工作日志

关于快照功能：
快照适用于客户需要进行试验性操作，在此之前对磁盘进行快照以防操作毁坏文件系统。
当事件发生时可以快速回滚。
快照是立刻镜像在磁盘镜像所在存储系统的。他不具备备份功能。

如果您寻求的是资料备份，则您需要备份功能。
DMIT正在SJC部署试验性快照式备份系统；且允许客户下载磁盘。
根据之前的消息，该功能会存在于 DMIT.com 中。

4.58K viewsAustin C., 21:09

2025/07/14 01:27:38
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>