探客时代

引言

如果您正在使用AWS DocumentDB或任何位于堡垒主机后面的云托管服务等远程资源，您可能正在使用SSH隧道来安全地访问它们。虽然设置SSH隧道很简单，但保持其活跃状态并监控其状态可能会有些棘手。

今天，我分享一个我编写的轻量级Bash脚本来设置和监控SSH隧道。它简单、可移植，并为您提供隧道状态的实时反馈。

💡 使用场景

想象一下：您有一个只能通过堡垒主机访问的AWS DocumentDB集群。您想要：

将本地端口（例如27088）转发到远程DocumentDB端口（27017）。

自动监控SSH隧道是否断开。

获得简单的分钟级状态更新。

如果脚本或终端被终止，干净地清理SSH进程。

🧩 脚本代码

以下是完整的脚本：

#!/bin/bash
KEY="my-bastion-host-key-pair.pem"
USER="ec2-user"
HOST="ec2-YYY-YYY-YYY-YYY.compute-1.amazonaws.com"
REMOTE_HOST="docdb-dima-1.cluster-xxxxxxxxxxxx.us-east-1.docdb.amazonaws.com"
LOCAL_PORT=27088
REMOTE_PORT=27017
START_TIME=$(date +%s)
# 在后台启动SSH隧道
ssh -i "$KEY" \
-o ServerAliveInterval=60 \
-o ServerAliveCountMax=3 \
-L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
${USER}@${HOST} -N &
SSH_PID=$!
# 如果脚本被终止，清理的陷阱
trap "kill $SSH_PID 2>/dev/null" EXIT
# 监控循环
while kill -0 $SSH_PID 2>/dev/null; do
NOW=$(date +%s)
ELAPSED_MIN=$(( (NOW - START_TIME) / 60 ))
printf "\r⏱️ SSH隧道已活跃 %d 分钟..." "$ELAPSED_MIN"
sleep 60
done
printf "\n❌ SSH隧道在 %d 分钟后断开连接。\n" "$ELAPSED_MIN"

🔍 工作原理

让我们分解一下：

SSH隧道设置：使用ssh -L通过堡垒主机将localhost:27088转发到远程DocumentDB端点。

保活选项：

ServerAliveInterval=60：每60秒发送一个保活数据包。

ServerAliveCountMax=3：如果错过三个保活信号，连接被认为已死亡。

后台进程：SSH隧道在后台运行。

监控循环：每分钟检查SSH进程是否仍然活跃，使用kill -0 $SSH_PID。

清理陷阱：如果脚本被中断（Ctrl+C或被杀死），它会清理SSH进程以避免僵尸隧道。

✅ 何时使用此脚本

在堡垒主机后面的服务进行开发。

需要快速本地连接到远程数据库。

想要在不使用重型工具的情况下了解隧道运行时间。

避免使用autossh或systemd等工具进行更简单的设置。

🧹 最终想法

这个脚本可能看起来很简单，但它在我长时间开发或迁移会话期间节省了无数小时来思考"我的隧道还活着吗？"

🛠️ 脚本详细解析

配置变量

KEY="my-bastion-host-key-pair.pem" # SSH私钥文件路径
USER="ec2-user" # 堡垒主机用户名
HOST="ec2-YYY-YYY-YYY-YYY.compute-1.amazonaws.com" # 堡垒主机地址
REMOTE_HOST="docdb-dima-1.cluster-xxxxxxxxxxxx.us-east-1.docdb.amazonaws.com" # 目标主机
LOCAL_PORT=27088 # 本地端口
REMOTE_PORT=27017 # 远程端口

SSH连接参数

ssh -i "$KEY" \ # 使用指定的私钥
-o ServerAliveInterval=60 \ # 每60秒发送保活信号
-o ServerAliveCountMax=3 \ # 最多允许3次保活失败
-L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \ # 端口转发
${USER}@${HOST} -N & # 不执行远程命令，后台运行

进程监控

SSH_PID=$! # 获取SSH进程ID
trap "kill $SSH_PID 2>/dev/null" EXIT # 设置退出时清理进程的陷阱
while kill -0 $SSH_PID 2>/dev/null; do # 检查进程是否存活
# 计算运行时间并显示状态
done

🔧 高级功能扩展

1. 自动重连功能

#!/bin/bash
KEY="my-bastion-host-key-pair.pem"
USER="ec2-user"
HOST="ec2-YYY-YYY-YYY-YYY.compute-1.amazonaws.com"
REMOTE_HOST="docdb-dima-1.cluster-xxxxxxxxxxxx.us-east-1.docdb.amazonaws.com"
LOCAL_PORT=27088
REMOTE_PORT=27017
MAX_RETRIES=5
RETRY_DELAY=30
function start_tunnel() {
ssh -i "$KEY" \
-o ServerAliveInterval=60 \
-o ServerAliveCountMax=3 \
-o ConnectTimeout=10 \
-L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
${USER}@${HOST} -N &
return $!
}
function monitor_tunnel() {
local pid=$1
local retry_count=0
while [ $retry_count -lt $MAX_RETRIES ]; do
if kill -0 $pid 2>/dev/null; then
printf "\r⏱️ SSH隧道活跃中... (重试次数: %d)" "$retry_count"
sleep 60
else
printf "\n❌ SSH隧道断开，尝试重连...\n"
kill $pid 2>/dev/null
sleep $RETRY_DELAY
start_tunnel
pid=$!
retry_count=$((retry_count + 1))
fi
done
printf "\n❌ 达到最大重试次数，停止重连。\n"
}
# 启动初始隧道
start_tunnel
SSH_PID=$!
trap "kill $SSH_PID 2>/dev/null; exit" EXIT
# 开始监控
monitor_tunnel $SSH_PID

2. 日志记录功能

#!/bin/bash
# 添加日志功能
LOG_FILE="/tmp/ssh_tunnel.log"
function log_message() {
echo "$(date '+%Y-%m-%d %H:%M:%S') - $1" | tee -a "$LOG_FILE"
}
function start_tunnel() {
log_message "启动SSH隧道..."
ssh -i "$KEY" \
-o ServerAliveInterval=60 \
-o ServerAliveCountMax=3 \
-L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
${USER}@${HOST} -N &
SSH_PID=$!
log_message "SSH隧道已启动，PID: $SSH_PID"
return $SSH_PID
}
# 在监控循环中添加日志
while kill -0 $SSH_PID 2>/dev/null; do
NOW=$(date +%s)
ELAPSED_MIN=$(( (NOW - START_TIME) / 60 ))
printf "\r⏱️ SSH隧道已活跃 %d 分钟..." "$ELAPSED_MIN"
sleep 60
done
log_message "SSH隧道断开连接"

3. 健康检查功能

#!/bin/bash
# 添加健康检查
function check_tunnel_health() {
# 检查本地端口是否可访问
if nc -z localhost $LOCAL_PORT 2>/dev/null; then
return 0
else
return 1
fi
}
function monitor_tunnel() {
local pid=$1
while kill -0 $pid 2>/dev/null; do
NOW=$(date +%s)
ELAPSED_MIN=$(( (NOW - START_TIME) / 60 ))
# 执行健康检查
if check_tunnel_health; then
printf "\r⏱️ SSH隧道健康运行 %d 分钟..." "$ELAPSED_MIN"
else
printf "\r⚠️ SSH隧道可能有问题 %d 分钟..." "$ELAPSED_MIN"
fi
sleep 60
done
}

📊 使用示例

基本使用

# 1. 保存脚本为 tunnel_monitor.sh
chmod +x tunnel_monitor.sh
# 2. 修改配置变量
vim tunnel_monitor.sh
# 3. 运行脚本
./tunnel_monitor.sh

后台运行

# 在后台运行并保存PID
nohup ./tunnel_monitor.sh > tunnel.log 2>&1 &
echo $! > tunnel.pid
# 检查状态
ps -p $(cat tunnel.pid)
# 停止隧道
kill $(cat tunnel.pid)

系统服务集成

# /etc/systemd/system/ssh-tunnel.service
[Unit]
Description=SSH Tunnel Monitor
After=network.target
[Service]
Type=simple
User=your-user
ExecStart=/path/to/tunnel_monitor.sh
Restart=always
RestartSec=10
[Install]
WantedBy=multi-user.target

🔍 故障排除

常见问题

权限问题

# 确保SSH密钥权限正确
chmod 600 my-bastion-host-key-pair.pem

端口冲突

# 检查端口是否被占用
netstat -tlnp | grep :27088
lsof -i :27088

连接超时

# 增加连接超时时间
ssh -o ConnectTimeout=30 -o ServerAliveInterval=60 ...

调试模式

#!/bin/bash
# 添加调试信息
set -x # 启用调试模式
# 在SSH命令中添加详细输出
ssh -v -i "$KEY" \
-o ServerAliveInterval=60 \
-o ServerAliveCountMax=3 \
-L ${LOCAL_PORT}:${REMOTE_HOST}:${REMOTE_PORT} \
${USER}@${HOST} -N &

🎯 最佳实践

1. 安全性考虑

# 使用环境变量存储敏感信息
export SSH_KEY_PATH="/path/to/key.pem"
export SSH_USER="ec2-user"
export SSH_HOST="your-bastion-host"
# 在脚本中使用
ssh -i "$SSH_KEY_PATH" -o UserKnownHostsFile=/dev/null ...

2. 资源管理

# 限制SSH连接数量
ssh -o ControlMaster=no -o ControlPath=none ...
# 设置合理的超时时间
ssh -o ConnectTimeout=10 -o ServerAliveInterval=60 ...

3. 监控集成

# 集成到监控系统
function send_alert() {
local message="$1"
# 发送到Slack、邮件或其他通知系统
curl -X POST -H 'Content-type: application/json' \
--data "{\"text\":\"$message\"}" \
https://hooks.slack.com/services/YOUR/WEBHOOK/URL
}

🚀 性能优化

1. 减少资源使用

# 使用更高效的监控间隔
sleep 30 # 而不是60秒
# 优化SSH参数
ssh -o Compression=yes -o TCPKeepAlive=yes ...

2. 并发处理

# 支持多个隧道
declare -A tunnel_pids
function start_multiple_tunnels() {
local tunnels=(
"27088:docdb1:27017"
"27089:docdb2:27017"
"27090:redis:6379"
)
for tunnel in "${tunnels[@]}"; do
IFS=':' read -r local_port remote_host remote_port <<< "$tunnel"
start_single_tunnel $local_port $remote_host $remote_port
done
}

📈 监控指标

1. 连接统计

# 记录连接统计
function log_stats() {
local uptime=$1
local retry_count=$2
echo "隧道统计:" >> tunnel_stats.log
echo " 运行时间: ${uptime}分钟" >> tunnel_stats.log
echo " 重试次数: ${retry_count}" >> tunnel_stats.log
echo " 时间戳: $(date)" >> tunnel_stats.log
echo "---" >> tunnel_stats.log
}

2. 性能监控

# 监控网络延迟
function check_latency() {
local latency=$(ping -c 1 $HOST | grep "time=" | cut -d "=" -f4)
echo "延迟: $latency"
}

🎉 总结

这个SSH隧道监控脚本虽然简单，但非常实用。它提供了：

✅ 自动隧道监控

✅ 实时状态反馈

✅ 优雅的进程清理

✅ 可扩展的架构

✅ 易于集成到现有系统

对于需要稳定SSH隧道连接的开发者和运维人员来说，这是一个非常有价值的工具。

探客时代

保持SSH隧道活跃：一个实用的Bash监控脚本