目录
- 原理速记
- ssh-copy-id —— 一键分发公钥
- ssh-agent —— 私钥只解锁一次
- 小团队高频变更?上 SSH CA
- 最小实验环境
- FAQ
- 结语
目录
目录
Prometheus 全链路监控实战: Nginx QPS、ComfyUI 存活、GPU 指标,到 Docker-VPN 网段踩坑记录
一篇给团队新人看的「一把梭」笔记:
• 打开 Nginx 详细指标(QPS / P99 / 5xx)
• 用 Blackbox 监控 ComfyUI 是否挂掉
• GPU 机器指标怎么进 Prometheus
• Docker-Compose + VPN 网段冲突到底怎么解决
• 最后把冗长的 Prometheus YAML 缩成 1/2能抄就抄,能跑就行。
Nginx 是一款高性能 Web 服务器和反向代理工具,非常适合搭建多实例服务,统一管理外部访问端口与权限。本文记录完整的安装、配置 SSL/Basic Auth、实例化端口转发以及日志调试全流程,希望对需要集中运维或微服务网关的同学有所助益。
使用 Linux 流量控制(ifb+tc)实现 Host 上下行带宽管理实录
为实现对 Host 的上下行速度控制,需要借助 Linux 流量控制相关工具。Linux 流量控制包含三个部分:流量分类、流量标记、流量策略。
我主要参考了 ArchWiki Advanced traffic control。资料中提到需要禁用 TCP 分段卸载(TSO)——否则它会绕过 tc 去节省 CPU(实际上是“负优化”)。不过,由于我本身用 ifb + tbf 提前处理了流量,这个问题表面上看并未暴露,但为保险起见,我依然把每个 host 的 tso 都关掉了。(参考:SUSE 关于 TSO 关闭说明)
公司新到一批 8 卡 48 GB RTX 4090 服务器,用于深度学习任务的多租户调度。本文记录从系统安装、磁盘分区、GPU 直通到虚拟机克隆全过程中踩过的坑与解决方案,以备后查,也希望能给同样需求的同学一些参考。