一次阿里云 SSH 抽风的真实排查记录

——记录一次“什么都没改,但服务器自己好了”的云服务器小事故

背景

正在服务器上写MAGPIE —— 超分辨率的实用工具 – Yuki的个人博客

写到一半,突然发现阿里云服务器 SSH 连不上了

  • 浏览器能上网
  • 服务器 IP 能 ping 通
  • ssh root@IP 卡住没反应


现象描述

1. SSH 卡死但不报错

ssh root@8.xxx.xxx.xxx

命令能执行,但终端没有任何输出,光标一直停着。


2. Ping 正常,进一步确认不是本地问题

ping 8.xxx.xxx.xxx

结果 0% 丢包,延迟正常。

至此可以排除:

  • 本地网络问题
  • 阿里云公网完全中断
  • IP 写错

尝试控制台 VNC 登录

既然 SSH 不行,只能用 阿里云控制台的 VNC 远程连接

VNC 能直接进入服务器的本地控制台,相当于“插了键盘和显示器”。

进入后确认:能看到 login: 提示

之后大傻椿直接附体,在login填了密码。。。
再次吐槽阿里云奇葩VNC,我没法在输错密码的情况下重新登陆,只能重启。

AI第一反应:是不是磁盘满

于是登录后第一条命令是:

df -h

结果:

  • 所有分区 Use% 都在 15% 以下

事情开始变得诡异

在我:

  • 没有修改任何配置
  • 没有重启 sshd
  • 只是看了一眼磁盘使用率

之后,我在本地 再次尝试 SSH


居然直接连上了。


结论:阿里云害我忙活了半天

你什么都没改,但它会自己好。


这次事故的经验总结

SSH 卡死 可能是因为磁盘爆了

遇到 SSH 卡住但不报错时,优先顺序应该是:

  1. ping
  2. ssh -v
  3. 控制台 VNC
  4. 看磁盘 df -h

学会用 VNC

特别是ssh爆了


顺便清理下日志

  • 限制 systemd 日志大小(防止磁盘被写满)
  • 定期清理 apt / docker 缓存
  • 记住 VNC 登录路径
  • 写下这篇记录(给未来的磁盘爆了的时候)

写在最后

百岁老人(22岁程序员)的智慧
此作者没有提供个人介绍。
最后更新于 2026-02-12