保持SSH隧道活跃:一个实用的Bash监控脚本
引言
如果您正在使用AWS DocumentDB或任何位于堡垒主机后面的云托管服务等远程资源,您可能正在使用SSH隧道来安全地访问它们。虽然设置SSH隧道很简单,但保持其活跃状态并监控其状态可能会有些棘手。
今天,我分享一个我编写的轻量级Bash脚本来设置和监控SSH隧道。它简单、可移植,并为您提供隧道状态的实时反馈。
💡 使用场景
想象一下:您有一个只能通过堡垒主机访问的AWS DocumentDB集群。您想要:
将本地端口(例如27088)转发到远程DocumentDB端口(27017)。
自动监控SSH隧道是否断开。
获得简单的分钟级状态更新。
如果脚本或终端被终止,干净地清理SSH进程。
🧩 脚本代码
以下是完整的脚本:
- #!/bin/bash
- KEY="my-bastion-host-key-pair.pem"
- USER="ec2-user"
- HOST="ec2-YYY-YYY-YYY-YYY.compute-1.amazonaws.com"
- REMOTE_HOST="docdb-dima-1.cluster-xxxxxxxxxxxx.us-east-1.docdb.amazonaws.com"
- LOCAL_PORT=27088
- REMOTE_PORT=27017
- START_TIME=$(date +%s)
- # 在后台启动SSH隧道
- ssh -i "$KEY" \
- -o ServerAliveInterval=60 \
- -o ServerAliveCountMax=3 \
- -L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
- ${USER}@${HOST} -N &
- SSH_PID=$!
- # 如果脚本被终止,清理的陷阱
- trap "kill $SSH_PID 2>/dev/null" EXIT
- # 监控循环
- while kill -0 $SSH_PID 2>/dev/null; do
- NOW=$(date +%s)
- ELAPSED_MIN=$(( (NOW - START_TIME) / 60 ))
- printf "\r⏱️ SSH隧道已活跃 %d 分钟..." "$ELAPSED_MIN"
- sleep 60
- done
- printf "\n❌ SSH隧道在 %d 分钟后断开连接。\n" "$ELAPSED_MIN"
🔍 工作原理
让我们分解一下:
SSH隧道设置:使用ssh -L通过堡垒主机将localhost:27088转发到远程DocumentDB端点。
保活选项:
ServerAliveInterval=60:每60秒发送一个保活数据包。
ServerAliveCountMax=3:如果错过三个保活信号,连接被认为已死亡。
后台进程:SSH隧道在后台运行。
监控循环:每分钟检查SSH进程是否仍然活跃,使用kill -0 $SSH_PID。
清理陷阱:如果脚本被中断(Ctrl+C或被杀死),它会清理SSH进程以避免僵尸隧道。
✅ 何时使用此脚本
在堡垒主机后面的服务进行开发。
需要快速本地连接到远程数据库。
想要在不使用重型工具的情况下了解隧道运行时间。
避免使用autossh或systemd等工具进行更简单的设置。
🧹 最终想法
这个脚本可能看起来很简单,但它在我长时间开发或迁移会话期间节省了无数小时来思考"我的隧道还活着吗?"
🛠️ 脚本详细解析
配置变量
- KEY="my-bastion-host-key-pair.pem" # SSH私钥文件路径
- USER="ec2-user" # 堡垒主机用户名
- HOST="ec2-YYY-YYY-YYY-YYY.compute-1.amazonaws.com" # 堡垒主机地址
- REMOTE_HOST="docdb-dima-1.cluster-xxxxxxxxxxxx.us-east-1.docdb.amazonaws.com" # 目标主机
- LOCAL_PORT=27088 # 本地端口
- REMOTE_PORT=27017 # 远程端口
SSH连接参数
- ssh -i "$KEY" \ # 使用指定的私钥
- -o ServerAliveInterval=60 \ # 每60秒发送保活信号
- -o ServerAliveCountMax=3 \ # 最多允许3次保活失败
- -L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \ # 端口转发
- ${USER}@${HOST} -N & # 不执行远程命令,后台运行
进程监控
- SSH_PID=$! # 获取SSH进程ID
- trap "kill $SSH_PID 2>/dev/null" EXIT # 设置退出时清理进程的陷阱
- while kill -0 $SSH_PID 2>/dev/null; do # 检查进程是否存活
- # 计算运行时间并显示状态
- done
🔧 高级功能扩展
1. 自动重连功能
- #!/bin/bash
- KEY="my-bastion-host-key-pair.pem"
- USER="ec2-user"
- HOST="ec2-YYY-YYY-YYY-YYY.compute-1.amazonaws.com"
- REMOTE_HOST="docdb-dima-1.cluster-xxxxxxxxxxxx.us-east-1.docdb.amazonaws.com"
- LOCAL_PORT=27088
- REMOTE_PORT=27017
- MAX_RETRIES=5
- RETRY_DELAY=30
- function start_tunnel() {
- ssh -i "$KEY" \
- -o ServerAliveInterval=60 \
- -o ServerAliveCountMax=3 \
- -o ConnectTimeout=10 \
- -L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
- ${USER}@${HOST} -N &
- return $!
- }
- function monitor_tunnel() {
- local pid=$1
- local retry_count=0
- while [ $retry_count -lt $MAX_RETRIES ]; do
- if kill -0 $pid 2>/dev/null; then
- printf "\r⏱️ SSH隧道活跃中... (重试次数: %d)" "$retry_count"
- sleep 60
- else
- printf "\n❌ SSH隧道断开,尝试重连...\n"
- kill $pid 2>/dev/null
- sleep $RETRY_DELAY
- start_tunnel
- pid=$!
- retry_count=$((retry_count + 1))
- fi
- done
- printf "\n❌ 达到最大重试次数,停止重连。\n"
- }
- # 启动初始隧道
- start_tunnel
- SSH_PID=$!
- trap "kill $SSH_PID 2>/dev/null; exit" EXIT
- # 开始监控
- monitor_tunnel $SSH_PID
2. 日志记录功能
- #!/bin/bash
- # 添加日志功能
- LOG_FILE="/tmp/ssh_tunnel.log"
- function log_message() {
- echo "$(date '+%Y-%m-%d %H:%M:%S') - $1" | tee -a "$LOG_FILE"
- }
- function start_tunnel() {
- log_message "启动SSH隧道..."
- ssh -i "$KEY" \
- -o ServerAliveInterval=60 \
- -o ServerAliveCountMax=3 \
- -L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
- ${USER}@${HOST} -N &
- SSH_PID=$!
- log_message "SSH隧道已启动,PID: $SSH_PID"
- return $SSH_PID
- }
- # 在监控循环中添加日志
- while kill -0 $SSH_PID 2>/dev/null; do
- NOW=$(date +%s)
- ELAPSED_MIN=$(( (NOW - START_TIME) / 60 ))
- printf "\r⏱️ SSH隧道已活跃 %d 分钟..." "$ELAPSED_MIN"
- sleep 60
- done
- log_message "SSH隧道断开连接"
3. 健康检查功能
- #!/bin/bash
- # 添加健康检查
- function check_tunnel_health() {
- # 检查本地端口是否可访问
- if nc -z localhost $LOCAL_PORT 2>/dev/null; then
- return 0
- else
- return 1
- fi
- }
- function monitor_tunnel() {
- local pid=$1
- while kill -0 $pid 2>/dev/null; do
- NOW=$(date +%s)
- ELAPSED_MIN=$(( (NOW - START_TIME) / 60 ))
- # 执行健康检查
- if check_tunnel_health; then
- printf "\r⏱️ SSH隧道健康运行 %d 分钟..." "$ELAPSED_MIN"
- else
- printf "\r⚠️ SSH隧道可能有问题 %d 分钟..." "$ELAPSED_MIN"
- fi
- sleep 60
- done
- }
📊 使用示例
基本使用
- # 1. 保存脚本为 tunnel_monitor.sh
- chmod +x tunnel_monitor.sh
- # 2. 修改配置变量
- vim tunnel_monitor.sh
- # 3. 运行脚本
- ./tunnel_monitor.sh
后台运行
- # 在后台运行并保存PID
- nohup ./tunnel_monitor.sh > tunnel.log 2>&1 &
- echo $! > tunnel.pid
- # 检查状态
- ps -p $(cat tunnel.pid)
- # 停止隧道
- kill $(cat tunnel.pid)
系统服务集成
- # /etc/systemd/system/ssh-tunnel.service
- [Unit]
- Description=SSH Tunnel Monitor
- After=network.target
- [Service]
- Type=simple
- User=your-user
- ExecStart=/path/to/tunnel_monitor.sh
- Restart=always
- RestartSec=10
- [Install]
- WantedBy=multi-user.target
🔍 故障排除
常见问题
权限问题
- # 确保SSH密钥权限正确
- chmod 600 my-bastion-host-key-pair.pem
端口冲突
- # 检查端口是否被占用
- netstat -tlnp | grep :27088
- lsof -i :27088
连接超时
- # 增加连接超时时间
- ssh -o ConnectTimeout=30 -o ServerAliveInterval=60 ...
调试模式
- #!/bin/bash
- # 添加调试信息
- set -x # 启用调试模式
- # 在SSH命令中添加详细输出
- ssh -v -i "$KEY" \
- -o ServerAliveInterval=60 \
- -o ServerAliveCountMax=3 \
- -L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
- ${USER}@${HOST} -N &
🎯 最佳实践
1. 安全性考虑
- # 使用环境变量存储敏感信息
- export SSH_KEY_PATH="/path/to/key.pem"
- export SSH_USER="ec2-user"
- export SSH_HOST="your-bastion-host"
- # 在脚本中使用
- ssh -i "$SSH_KEY_PATH" -o UserKnownHostsFile=/dev/null ...
2. 资源管理
- # 限制SSH连接数量
- ssh -o ControlMaster=no -o ControlPath=none ...
- # 设置合理的超时时间
- ssh -o ConnectTimeout=10 -o ServerAliveInterval=60 ...
3. 监控集成
- # 集成到监控系统
- function send_alert() {
- local message="$1"
- # 发送到Slack、邮件或其他通知系统
- curl -X POST -H 'Content-type: application/json' \
- --data "{\"text\":\"$message\"}" \
- https://hooks.slack.com/services/YOUR/WEBHOOK/URL
- }
🚀 性能优化
1. 减少资源使用
- # 使用更高效的监控间隔
- sleep 30 # 而不是60秒
- # 优化SSH参数
- ssh -o Compression=yes -o TCPKeepAlive=yes ...
2. 并发处理
- # 支持多个隧道
- declare -A tunnel_pids
- function start_multiple_tunnels() {
- local tunnels=(
- "27088:docdb1:27017"
- "27089:docdb2:27017"
- "27090:redis:6379"
- )
- for tunnel in "${tunnels[@]}"; do
- IFS=':' read -r local_port remote_host remote_port <<< "$tunnel"
- start_single_tunnel $local_port $remote_host $remote_port
- done
- }
📈 监控指标
1. 连接统计
- # 记录连接统计
- function log_stats() {
- local uptime=$1
- local retry_count=$2
- echo "隧道统计:" >> tunnel_stats.log
- echo " 运行时间: ${uptime}分钟" >> tunnel_stats.log
- echo " 重试次数: ${retry_count}" >> tunnel_stats.log
- echo " 时间戳: $(date)" >> tunnel_stats.log
- echo "---" >> tunnel_stats.log
- }
2. 性能监控
- # 监控网络延迟
- function check_latency() {
- local latency=$(ping -c 1 $HOST | grep "time=" | cut -d "=" -f4)
- echo "延迟: $latency"
- }
🎉 总结
这个SSH隧道监控脚本虽然简单,但非常实用。它提供了:
✅ 自动隧道监控
✅ 实时状态反馈
✅ 优雅的进程清理
✅ 可扩展的架构
✅ 易于集成到现有系统
对于需要稳定SSH隧道连接的开发者和运维人员来说,这是一个非常有价值的工具。
