一次阿里云 SSH 抽风的真实排查记录
——记录一次“什么都没改,但服务器自己好了”的云服务器小事故
背景
正在服务器上写MAGPIE —— 超分辨率的实用工具 – Yuki的个人博客,
写到一半,突然发现阿里云服务器 SSH 连不上了。
- 浏览器能上网
- 服务器 IP 能 ping 通
- 但
ssh root@IP卡住没反应
现象描述
1. SSH 卡死但不报错
ssh root@8.xxx.xxx.xxx
命令能执行,但终端没有任何输出,光标一直停着。
2. Ping 正常,进一步确认不是本地问题
ping 8.xxx.xxx.xxx
结果 0% 丢包,延迟正常。
至此可以排除:
- 本地网络问题
- 阿里云公网完全中断
- IP 写错
尝试控制台 VNC 登录
既然 SSH 不行,只能用 阿里云控制台的 VNC 远程连接。
VNC 能直接进入服务器的本地控制台,相当于“插了键盘和显示器”。
进入后确认:能看到 login: 提示
之后大傻椿直接附体,在login填了密码。。。
再次吐槽阿里云奇葩VNC,我没法在输错密码的情况下重新登陆,只能重启。
AI第一反应:是不是磁盘满
于是登录后第一条命令是:
df -h
结果:
- 所有分区 Use% 都在 15% 以下
事情开始变得诡异
在我:
- 没有修改任何配置
- 没有重启 sshd
- 只是看了一眼磁盘使用率
之后,我在本地 再次尝试 SSH:
居然直接连上了。
结论:阿里云害我忙活了半天
你什么都没改,但它会自己好。
这次事故的经验总结
SSH 卡死 可能是因为磁盘爆了
遇到 SSH 卡住但不报错时,优先顺序应该是:
pingssh -v- 控制台 VNC
- 看磁盘
df -h
学会用 VNC
特别是ssh爆了
顺便清理下日志
- 限制 systemd 日志大小(防止磁盘被写满)
- 定期清理 apt / docker 缓存
- 记住 VNC 登录路径
- 写下这篇记录(给未来的磁盘爆了的时候)
写在最后


Comments NOTHING