Skip to content

第3章 第一次使用

作者

谭策 — 独立开发者 | AIOps 领域探索者

IT Online 微信公众号

许可证

MPL-2.0 © 谭策

本章导读

本章学习目标

完成本章学习后,你将能够:

  • ✅ 使用默认账号登录系统
  • ✅ 理解系统的整体界面布局
  • ✅ 添加第一台服务器
  • ✅ 查看和配置 Agent
  • ✅ 创建并执行第一个工作流
  • ✅ 查看任务执行结果和报告
  • ✅ 体验告警中心和 AI Copilot

前置知识要求

  • ✅ 第1章:了解项目是什么
  • ✅ 第2章:项目已成功部署并运行
  • ✅ 能使用浏览器和基本的网页操作

预计学习时间

45-60 分钟


3.1 登录系统

3.1.1 访问登录页面

打开浏览器,访问以下地址:

Docker 部署: http://localhost:8080
本地开发:    http://localhost:5173

你会看到一个精美的登录页面:

┌─────────────────────────────────────────────────────┐
│                                                     │
│            ░░░░░  粒子背景动画  ░░░░░               │
│                                                     │
│         ┌─────────────────────────────┐            │
│         │   🤖 ITOps Agent Platform   │            │
│         │                             │            │
│         │   用户名: [____________]    │            │
│         │   密  码: [____________]    │            │
│         │                             │            │
│         │   [        登录        ]    │            │
│         │                             │            │
│         │   默认账号: admin / admin   │            │
│         └─────────────────────────────┘            │
│                                                     │
└─────────────────────────────────────────────────────┘

3.1.2 输入默认账号

在登录表单中输入:

字段输入值
用户名admin
密码admin

💡 提示:如果你使用一键脚本部署,脚本可能会在终端显示一个随机生成的初始密码。请使用那个密码登录。

点击 登录 按钮。

3.1.3 首次登录强制修改密码

如果是首次登录,系统会要求你修改密码:

┌─────────────────────────────────────────────────────┐
│          ⚠️ 首次登录,请修改初始密码                  │
│                                                     │
│          当前密码: [____________]                    │
│          新密码:   [____________]                    │
│          确认密码: [____________]                    │
│                                                     │
│          [        确认修改        ]                  │
│                                                     │
│          密码要求:至少 6 位字符                      │
└─────────────────────────────────────────────────────┘

为什么强制改密码? 这是重要的安全措施。默认密码是公开的,如果不修改,任何人都能登录你的系统。


3.2 认识系统界面

登录成功后,你会看到系统的主界面。让我们先来认识一下界面布局:

┌──────────────────────────────────────────────────────────────┐
│  🤖 ITOps Agent                           admin [退出] [🌙]  │ ← 顶栏
├────────────┬─────────────────────────────────────────────────┤
│            │                                                 │
│  📊 仪表盘  │                                                 │
│  🖥️ 服务器  │              页面内容区域                        │
│  🤖 Agent  │                                                 │
│  🔗 工作流  │              这里显示当前页面的                   │
│  ▶️ 任务    │              具体内容和操作界面                   │
│  🚨 告警   │                                                 │
│  💻 终端   │                                                 │
│  📚 知识库  │                                                 │
│  📝 报告   │                                                 │
│  📋 审计   │                                                 │
│  ⚙️ 设置   │                                                 │
│            │                                                 │
│  ← 侧边栏   │                                                 │
└────────────┴─────────────────────────────────────────────────┘

界面组件说明

组件位置功能
顶栏顶部显示系统名称、当前用户、退出登录、主题切换
侧边栏左侧导航菜单,点击跳转到不同页面
内容区中间当前页面的具体内容
折叠按钮侧边栏顶部点击可折叠/展开侧边栏

导航菜单说明

菜单说明对应功能
📊 仪表盘系统概览查看服务器、告警、任务等统计信息
🖥️ 服务器服务器管理添加、编辑、删除被管理的服务器
🤖 AgentAgent 管理查看和配置 AI Agent
🔗 工作流工作流编排创建和编辑自动化工作流
▶️ 任务任务执行查看任务执行历史和结果
🚨 告警告警中心查看和管理告警信息
💻 终端Web SSH在浏览器中连接远程服务器
📚 知识库知识管理管理运维知识条目
📝 报告报告中心查看工作流执行报告
📋 审计审计日志查看所有操作记录
⚙️ 设置系统设置系统配置和用户管理

💡 提示:侧边栏菜单可以根据你的权限显示不同内容。管理员看到所有菜单,普通用户可能只看到部分菜单。


3.3 仪表盘 — 系统总览

点击侧边栏的 📊 仪表盘,进入系统主页面。

3.3.1 概览卡片

仪表盘顶部显示几个关键指标卡片:

┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│   🖥️ 服务器   │ │   🚨 告警    │ │   ▶️ 任务    │ │   🤖 Agent  │
│              │ │              │ │              │ │              │
│      0       │ │      0       │ │      0       │ │      9       │
│              │ │              │ │              │ │              │
└──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘

卡片说明

  • 服务器:已添加的服务器总数
  • 告警:当前活跃告警数量
  • 任务:已执行的任务总数
  • Agent:可用的 Agent 数量(预设 9 个)

3.3.2 统计图表

仪表盘下方显示可视化图表:

  • 告警趋势图:最近 7 天的告警数量变化(折线图)
  • 任务执行统计:按状态分类的任务数量(柱状图)
  • 服务器状态分布:在线/离线服务器占比(饼图)

💡 第一次使用:由于是全新系统,这些数据都是 0。随着你添加服务器和执行任务,这些图表会越来越丰富。


3.4 添加第一台服务器

现在让我们来添加第一台被管理的服务器。这是使用系统的第一个实际操作!

3.4.1 进入服务器管理页面

点击侧边栏的 🖥️ 服务器,进入服务器管理页面。

3.4.2 添加服务器

点击页面右上角的 "添加服务器" 按钮,弹出添加表单:

┌─────────────────────────────────────────────┐
│          添加服务器                          │
│                                             │
│  服务器名称: [ My-First-Server _______]      │
│  主机地址:   [ 192.168.1.100 ________]      │
│  SSH 端口:   [ 22 _________________]        │
│  SSH 用户名: [ root _______________]        │
│  认证方式:   (●) 密码  ( ) 密钥             │
│  密码:       [ ••••••••___________]        │
│  描述:       [ 测试服务器 ________]        │
│  标签:       [ 测试, 开发 _______]         │
│                                             │
│          [ 取消 ]    [ 确认添加 ]           │
└─────────────────────────────────────────────┘

3.4.3 字段说明

字段说明示例值是否必填
服务器名称给服务器起的名字Web-Server-01✅ 必填
主机地址服务器的 IP 地址或域名192.168.1.100✅ 必填
SSH 端口SSH 服务端口,默认 2222可选
SSH 用户名登录服务器的用户名rootubuntu✅ 必填
认证方式密码 或 SSH 密钥密码✅ 必填
密码/密钥认证凭据(会自动加密存储)your-password✅ 必填
描述服务器的用途说明生产 Web 服务器可选
标签逗号分隔的标签生产, Web, 华东可选

🔒 安全提示:你输入的密码会使用 AES-256-GCM 加密后存储到数据库。即使数据库文件被泄露,攻击者也无法直接获取密码。

3.4.4 测试连接

添加服务器后,可以点击 "测试连接" 按钮验证是否能成功 SSH 连接到服务器:

测试连接中...

├─ 正在连接到 192.168.1.100:22...
├─ 认证成功!
├─ 操作系统: Ubuntu 22.04 LTS
├─ CPU: 4 cores
├─ 内存: 8192 MB
└─ ✅ 连接成功!

3.4.5 服务器列表

添加成功后,服务器会出现在列表中:

┌──────────────────────────────────────────────────────────────────┐
│  服务器列表                    [+ 添加服务器] [📥 导入] [📤 导出] │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌────────────────────────────────────────────────────────┐     │
│  │  🖥️ My-First-Server                                   │     │
│  │  ───────────────────────────────────────────────────── │     │
│  │  地址: 192.168.1.100:22        状态: 🟢 在线           │     │
│  │  用户: root                    系统: Ubuntu 22.04      │     │
│  │  CPU: 4 核      内存: 8 GB     磁盘: 100 GB            │     │
│  │  标签: [测试] [开发]                                    │     │
│  │  ───────────────────────────────────────────────────── │     │
│  │  [🔗 连接] [✏️ 编辑] [🗑️ 删除] [📋 合规检查]           │     │
│  └────────────────────────────────────────────────────────┘     │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

3.4.6 使用 Web SSH 终端连接服务器

点击服务器卡片上的 🔗 连接 按钮,或直接点击侧边栏的 💻 终端,进入 Web SSH 终端页面。

选择你刚才添加的服务器,点击连接:

┌─────────────────────────────────────────────────────────────┐
│  SSH 终端 - My-First-Server (192.168.1.100)        [🔴 断开] │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  Welcome to Ubuntu 22.04.3 LTS (GNU/Linux 5.15.0 x86_64)   │
│                                                             │
│  Last login: Mon May 27 10:30:00 2026                       │
│                                                             │
│  root@my-first-server:~$ ls -la                             │
│  total 28                                                   │
│  drwx------  4 root root 4096 May 27 10:00 .               │
│  drwxr-xr-x 20 root root 4096 May 27 09:00 ..              │
│  -rw-r--r--  1 root root 3106 May 27 09:00 .bashrc         │
│  -rw-r--r--  1 root root  161 May 27 09:00 .profile        │
│                                                             │
│  root@my-first-server:~$ df -h                              │
│  Filesystem      Size  Used Avail Use% Mounted on           │
│  /dev/sda1       100G   25G   75G  25% /                    │
│  tmpfs           3.9G     0  3.9G   0% /dev/shm             │
│                                                             │
│  root@my-first-server:~$ █                                  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

你可以像在本地终端一样操作

  • 输入命令后按回车执行
  • 使用上下箭头键翻看历史命令
  • 使用 Tab 键自动补全命令
  • 使用 Ctrl+C 中断当前命令

3.5 查看 Agent

点击侧边栏的 🤖 Agent,进入 Agent 管理页面。

3.5.1 预设 Agent 列表

系统已经预置了 9 个 Agent:

┌──────────────────────────────────────────────────────────────────┐
│  Agent 列表                        [+ 创建 Agent]                │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐           │
│  │ 🚨       │ │ 🔍       │ │ 📋       │ │ 🔎       │           │
│  │ 告警处理  │ │ 故障诊断  │ │ 日志分析  │ │ 系统巡检  │           │
│  │          │ │          │ │          │ │          │           │
│  │ 分析告警  │ │ 定位根因  │ │ 分析日志  │ │ 检查健康  │           │
│  └──────────┘ └──────────┘ └──────────┘ └──────────┘           │
│                                                                  │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐           │
│  │ 🔄       │ │ 📝       │ │ ✅       │ │ 💻       │           │
│  │ 变更执行  │ │ 文档生成  │ │ 合规检查  │ │ 命令执行  │           │
│  │          │ │          │ │          │ │          │           │
│  │ 安全变更  │ │ 生成报告  │ │ 合规审计  │ │ 远程操作  │           │
│  └──────────┘ └──────────┘ └──────────┘ └──────────┘           │
│                                                                  │
│  ┌──────────┐                                                    │
│  │ 🤖       │                                                    │
│  │ 自动巡检  │                                                    │
│  │          │                                                    │
│  │ 定时巡检  │                                                    │
│  └──────────┘                                                    │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

3.5.2 查看 Agent 详情

点击任意 Agent 卡片,可以查看其详细配置:

┌─────────────────────────────────────────────┐
│  🚨 告警处理 Agent                           │
│                                             │
│  描述: 分析接收到的告警信息,评估严重程度,  │
│       提供处理建议。                         │
│                                             │
│  模型: doubao-4o                            │
│  温度: 0.7                                  │
│                                             │
│  系统提示词:                                │
│  ┌───────────────────────────────────────┐  │
│  │ 你是一个专业的运维告警处理专家。       │  │
│  │ 你的职责是:                           │  │
│  │ 1. 分析告警信息的严重程度              │  │
│  │ 2. 判断是否需要立即处理                │  │
│  │ 3. 提供具体的处理建议                  │  │
│  │ 4. 如果有相关知识,结合知识给出答案    │  │
│  └───────────────────────────────────────┘  │
│                                             │
│  [▶️ 测试] [✏️ 编辑] [📋 执行历史]          │
└─────────────────────────────────────────────┘

关键字段说明

字段说明
系统提示词定义 Agent 的行为和能力,相当于"角色设定"
模型使用的 AI 模型(豆包、OpenAI 等)
温度控制输出的随机性(0=确定性强,1=创意性强)

3.5.3 测试 Agent

点击 ▶️ 测试 按钮,可以测试 Agent 的响应:

┌─────────────────────────────────────────────┐
│  测试 Agent                                  │
│                                             │
│  输入: 服务器 CPU 使用率达到 95% 该怎么办?   │
│                                             │
│  [发送]                                     │
│                                             │
│  ───────────────────────────────────────── │
│                                             │
│  Agent 回复:                                │
│  CPU 使用率达到 95%属于严重告警,建议:       │
│  1. 立即检查是否有异常进程占用 CPU           │
│  2. 使用 top 命令查看具体进程                │
│  3. 如果是正常业务负载,考虑扩容             │
│  4. 如果是异常进程,考虑终止并排查原因        │
│                                             │
└─────────────────────────────────────────────┘

3.6 创建工作流

工作流是项目的核心功能。让我们来创建第一个工作流!

3.6.1 进入工作流页面

点击侧边栏的 🔗 工作流,进入工作流管理页面。

3.6.2 预设工作流模板

系统已经预置了 6 个工作流模板:

工作流名称说明节点数
告警处理流程接收告警 → 分析 → 诊断 → 修复4
系统巡检流程巡检所有服务器 → 生成报告2
日志分析流程收集日志 → 分析 → 生成报告3
变更执行流程变更检查 → 执行变更 → 验证3
合规检查流程执行合规检查 → 生成报告2
故障诊断流程收集信息 → 分析 → 定位根因 → 提供方案4

3.6.3 创建自定义工作流

点击 "+ 创建工作流" 按钮,进入工作流编辑器。

┌─────────────────────────────────────────────────────────────┐
│  创建工作流                                      [💾 保存]    │
├──────────────┬──────────────────────────────────────────────┤
│              │                                              │
│  节点库       │              画布区域                         │
│              │                                              │
│  ┌────────┐  │                                              │
│  │ 🤖     │  │    拖拽节点到这里                               │
│  │ Agent  │  │                                              │
│  │ 节点   │──┼───▶  ┌──────────┐      ┌──────────┐          │
│  └────────┘  │      │ Agent 1  │─────▶│ Agent 2  │          │
│              │      └──────────┘      └──────────┘          │
│  ┌────────┐  │                                              │
│  │ ⚡     │  │                                              │
│  │ 条件   │  │                                              │
│  │ 节点   │  │                                              │
│  └────────┘  │                                              │
│              │                                              │
├──────────────┴──────────────────────────────────────────────┤
│  工作流名称: [ 我的第一个工作流 _______ ]                     │
│  描述:       [ 用于测试的工作流 _______ ]                     │
└─────────────────────────────────────────────────────────────┘

3.6.4 使用预设工作流

为了快速体验,我们直接使用预设的"系统巡检流程":

  1. 在工作流列表中找到 系统巡检流程
  2. 点击卡片进入详情页
  3. 点击 ▶️ 执行 按钮
┌─────────────────────────────────────────────┐
│  执行工作流                                  │
│                                             │
│  工作流: 系统巡检流程                        │
│                                             │
│  选择服务器:                                 │
│  ☑️ My-First-Server (192.168.1.100)         │
│                                             │
│  执行上下文 (可选):                          │
│  ┌───────────────────────────────────────┐  │
│  │ 请检查服务器的健康状态,               │  │
│  │ 包括 CPU、内存、磁盘使用情况。         │  │
│  └───────────────────────────────────────┘  │
│                                             │
│          [ 取消 ]    [ 确认执行 ]           │
└─────────────────────────────────────────────┘

选择你之前添加的服务器,点击 确认执行

3.6.5 查看执行进度

执行开始后,系统会通过 WebSocket 实时推送执行进度:

┌─────────────────────────────────────────────────────────────┐
│  任务执行中...                                  [⏸️ 暂停]     │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌──────────┐      ┌──────────┐                            │
│  │ 📋 步骤1 │ ───▶ │ 🤖 步骤2 │                            │
│  │ 收集信息  │      │ 分析巡检  │                            │
│  │ ✅ 完成  │      │ ⏳ 执行中 │                            │
│  └──────────┘      └──────────┘                            │
│                                                             │
│  ───────────────────────────────────────────────────────   │
│                                                             │
│  实时日志:                                                  │
│  [10:30:00] 任务开始执行                                    │
│  [10:30:01] 节点1 (收集信息) 开始执行                       │
│  [10:30:02] 正在连接服务器 My-First-Server...              │
│  [10:30:03] 服务器连接成功                                  │
│  [10:30:04] 正在收集系统信息...                             │
│  [10:30:05] CPU: 45%  内存: 62%  磁盘: 25%                │
│  [10:30:06] 节点1 (收集信息) 执行完成                       │
│  [10:30:06] 节点2 (分析巡检) 开始执行                       │
│  [10:30:07] 正在调用 AI Agent 分析...                      │
│  [10:30:15] Agent 分析完成                                  │
│  [10:30:16] 节点2 (分析巡检) 执行完成                       │
│  [10:30:16] 任务执行完成!                                  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

3.7 查看任务和报告

3.7.1 查看任务列表

点击侧边栏的 ▶️ 任务,进入任务管理页面。

┌──────────────────────────────────────────────────────────────────┐
│  任务列表                                                        │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌────────────────────────────────────────────────────────┐     │
│  │  任务 #1                                                │     │
│  │  ───────────────────────────────────────────────────── │     │
│  │  工作流: 系统巡检流程                                    │     │
│  │  状态: ✅ 完成                                          │     │
│  │  开始时间: 2026-05-27 10:30:00                         │     │
│  │  结束时间: 2026-05-27 10:30:16                         │     │
│  │  耗时: 16 秒                                           │     │
│  │  ───────────────────────────────────────────────────── │     │
│  │  [👁️ 查看] [📝 报告] [🔄 重新执行]                     │     │
│  └────────────────────────────────────────────────────────┘     │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

3.7.2 查看任务详情

点击 👁️ 查看,可以看到任务的完整执行过程,包括每个节点的输入输出。

3.7.3 查看报告

点击 📝 报告,查看自动生成的 Markdown 格式执行报告:

markdown
# 工作流执行报告

## 基本信息
- 工作流名称: 系统巡检流程
- 执行时间: 2026-05-27 10:30:00
- 执行状态: ✅ 完成
- 总耗时: 16 秒
- 执行服务器: My-First-Server (192.168.1.100)

## 执行详情

### 节点 1: 收集系统信息
- 状态: ✅ 完成
- 耗时: 5 秒
- 结果:
  - CPU 使用率: 45%
  - 内存使用率: 62% (已用 5.1GB / 总共 8GB)
  - 磁盘使用率: 25% (已用 25GB / 总共 100GB)
  - 操作系统: Ubuntu 22.04 LTS
  - 运行时间: 15 天

### 节点 2: 分析巡检结果
- 状态: ✅ 完成
- 耗时: 9 秒
- 分析结果:
  服务器整体健康状态良好。
  - CPU 使用率正常(45% < 80% 阈值)
  - 内存使用率偏高(62% > 60% 阈值),建议关注
  - 磁盘使用率正常(25% < 80% 阈值)

## 总结
服务器运行正常,内存使用率稍高,建议定期检查。

3.8 体验告警中心

3.8.1 查看告警列表

点击侧边栏的 🚨 告警,进入告警中心。

┌──────────────────────────────────────────────────────────────────┐
│  告警列表                                                        │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  当前没有告警。                                                   │
│  告警将通过 Webhook 从监控系统自动接收。                          │
│                                                                  │
│  Webhook 地址: http://your-server:3001/api/webhooks/alerts       │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

3.8.2 手动创建告警(用于测试)

虽然告警通常由监控系统自动推送,但我们可以手动模拟:

bash
# 使用 curl 模拟 Prometheus 告警
curl -X POST http://localhost:3001/api/webhooks/alerts/prometheus \
  -H "Content-Type: application/json" \
  -d '{
    "alerts": [{
      "status": "firing",
      "labels": {
        "alertname": "HighCPUUsage",
        "instance": "192.168.1.100:9100",
        "severity": "critical"
      },
      "annotations": {
        "summary": "CPU usage is above 90%",
        "description": "CPU usage has been above 90% for 5 minutes"
      }
    }]
  }'

收到告警后,刷新告警中心页面:

┌──────────────────────────────────────────────────────────────────┐
│  告警列表                                                        │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌────────────────────────────────────────────────────────┐     │
│  │  🔴 HighCPUUsage                                        │     │
│  │  ───────────────────────────────────────────────────── │     │
│  │  来源: Prometheus          严重程度: Critical           │     │
│  │  状态: 🆕 新建                                           │     │
│  │  CPU usage has been above 90% for 5 minutes            │     │
│  │  时间: 2026-05-27 10:35:00                             │     │
│  │  ───────────────────────────────────────────────────── │     │
│  │  [👁️ 查看] [✅ 确认] [🔗 触发工作流]                    │     │
│  └────────────────────────────────────────────────────────┘     │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

3.8.3 告警触发工作流

点击 🔗 触发工作流,可以选择一个工作流来自动处理这个告警:

选择工作流:
☑️ 告警处理流程
☐ 故障诊断流程
☐ 系统巡检流程

[ 确认触发 ]

选择后,系统会自动执行选定的工作流来处理告警。


3.9 体验 AI Copilot

3.9.1 打开 Copilot

在页面右下角,你会看到一个聊天气泡图标 💬。点击它,打开 AI Copilot 对话框:

┌─────────────────────────────────────────────┐
│  🤖 AI Copilot                       [✕]    │
├─────────────────────────────────────────────┤
│                                             │
│  AI: 你好!我是 ITOps Agent 智能助手。       │
│      有什么可以帮你的吗?                    │
│                                             │
│  💡 你可以问我:                              │
│  • 当前系统有什么告警?                      │
│  • 帮我分析一下服务器状态                    │
│  • 有什么需要处理的任务?                    │
│                                             │
├─────────────────────────────────────────────┤
│  [ 输入你的问题...                    ] [发送]│
└─────────────────────────────────────────────┘

3.9.2 与 Copilot 对话

试着问几个问题:

问题 1:查看系统状态

你: 当前系统状态如何?

AI Copilot: 当前系统状态概览:

📊 服务器: 1 台(1 台在线)
🚨 告警: 1 个活跃告警(HighCPUUsage - Critical)
📋 任务: 1 个已完成
🤖 Agent: 9 个可用

需要我帮你处理那个 Critical 级别的告警吗?

问题 2:处理告警

你: 帮我处理 CPU 告警

AI Copilot: 好的,让我来分析一下...

根据告警信息,服务器 192.168.1.100 的 CPU 使用率
超过 90% 已持续 5 分钟。

建议操作步骤:
1. 通过 Web SSH 终端登录服务器
2. 执行 top 命令查看占用 CPU 最高的进程
3. 如果是异常进程,可以执行 kill 命令终止
4. 如果是正常业务负载,考虑扩容或优化

要我帮你创建一个故障诊断工作流来自动分析吗?

问题 3:一般运维问题

你: Linux 服务器磁盘满了怎么办?

AI Copilot: 磁盘空间不足的排查和处理步骤:

1. 查看磁盘使用情况
   df -h

2. 查找大文件
   du -sh /* | sort -rh | head -20

3. 清理常见的大文件目录
   - 清理日志: rm -rf /var/log/*.gz
   - 清理临时文件: rm -rf /tmp/*
   - 清理包管理器缓存: apt-get clean

4. 查找并删除不必要的大文件
   find / -type f -size +100M -exec ls -lh {} \;

需要我帮你在具体服务器上执行这些操作吗?

3.10 体验知识库

3.10.1 查看知识库

点击侧边栏的 📚 知识库,进入知识管理页面。

系统已经预置了 22 条运维知识,例如:

标题分类
CPU 使用率过高的排查步骤性能问题
内存泄漏的诊断方法性能问题
磁盘空间不足的解决方案存储问题
网络连接超时排查网络问题
Linux 常用运维命令基础知识
Docker 容器管理指南容器技术
Nginx 配置最佳实践Web 服务

3.10.2 添加新知识

点击 "+ 添加知识" 按钮:

┌─────────────────────────────────────────────┐
│  添加知识                                    │
│                                             │
│  标题:    [ CPU 使用率过高排查指南 _______]  │
│  分类:    [ 性能问题 _________________]    │
│  标签:    [ CPU, 性能, 排查 ___________]    │
│                                             │
│  内容:                                      │
│  ┌───────────────────────────────────────┐  │
│  │ ## 问题描述                           │  │
│  │ 服务器 CPU 使用率持续超过 80%          │
│  │                                       │  │
│  │ ## 排查步骤                           │  │
│  │ 1. 使用 top 命令查看进程              │  │
│  │ 2. 使用 vmstat 查看系统状态           │  │
│  │ 3. 检查是否有定时任务                │  │
│  │ ...                                   │  │
│  └───────────────────────────────────────┘  │
│                                             │
│          [ 取消 ]    [ 保存 ]               │
└─────────────────────────────────────────────┘

3.10.3 知识如何被使用

当你添加知识后,AI Agent 在执行任务时会自动检索相关知识:

用户触发工作流


Agent 执行任务

    ├── 1. 理解任务内容

    ├── 2. 检索知识库
    │       ├── 关键词匹配
    │       ├── 语义相关度评分
    │       └── 返回 Top 3 相关知识

    ├── 3. 注入上下文
    │       └── 将知识作为 System Prompt 的一部分

    └── 4. 调用 LLM 生成回答
            └── 回答基于检索到的知识,更准确

3.11 查看审计日志

3.11.1 进入审计日志

点击侧边栏的 📋 审计,进入审计日志页面。

3.11.2 查看操作记录

系统记录了所有重要操作:

┌──────────────────────────────────────────────────────────────────┐
│  审计日志                                                        │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  时间           │ 用户   │ 操作          │ 详情                    │
│  ──────────────┼────────┼──────────────┼──────────────────────── │
│  10:35:00      │ admin  │ 登录         │ IP: 127.0.0.1           │
│  10:36:00      │ admin  │ 添加服务器    │ My-First-Server         │
│  10:37:00      │ admin  │ SSH 连接     │ My-First-Server         │
│  10:38:00      │ admin  │ 执行工作流    │ 系统巡检流程             │
│  10:39:00      │ system │ 接收告警     │ HighCPUUsage             │
│  10:40:00      │ admin  │ 确认告警     │ HighCPUUsage             │
│  10:41:00      │ admin  │ 修改密码     │ 用户: admin              │
│                                                                  │
│  [📤 导出 JSON]                                                  │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

审计日志的作用

  • 🔍 追溯:出了问题可以查到是谁做的
  • 🛡️ 安全:发现异常操作可以及时响应
  • 📊 审计:合规检查时提供操作证据

3.12 完整的业务流程回顾

让我们回顾一下刚才走过的完整业务流程:

恭喜!你已经走完了 ITOps Agent Platform 的核心功能!🎉


本章小结

核心知识点回顾

  • ✅ 使用 admin/admin 默认账号登录系统
  • ✅ 首次登录必须修改密码
  • ✅ 系统界面由顶栏、侧边栏和内容区组成
  • ✅ 侧边栏有 11 个主要功能模块
  • ✅ 添加服务器需要提供 IP、端口、用户名、密码
  • ✅ 服务器密码使用 AES-256-GCM 加密存储
  • ✅ Web SSH 终端可以在浏览器中操作远程服务器
  • ✅ 系统预置 9 个 Agent 和 6 个工作流模板
  • ✅ 工作流支持拖拽式可视化编排
  • ✅ 任务执行过程通过 WebSocket 实时推送进度
  • ✅ 工作流完成后自动生成 Markdown 格式报告
  • ✅ 告警可通过 Webhook 从监控系统接收
  • ✅ AI Copilot 是对话式运维助手
  • ✅ 知识库支持 22 条预设知识 + 自定义添加
  • ✅ 审计日志记录所有重要操作

常见误区提醒

误区正确理解
"必须先添加服务器才能使用"可以先浏览界面、查看 Agent,但执行工作流需要服务器
"告警只能从监控系统接收"也可以通过 API 手动创建告警用于测试
"Agent 需要自己训练"预置 Agent 已经配置好系统提示词,开箱即用
"工作流必须手动执行"可以通过定时任务自动执行

本章练习

基础练习

  1. 界面熟悉:依次点击侧边栏的每个菜单项,记住每个页面的功能
  2. 添加服务器:尝试添加第二台服务器(可以是虚构的 IP)
  3. 执行工作流:选择一个预设工作流并执行
  4. 使用 Web SSH:如果有真实服务器,尝试通过 Web SSH 连接
  5. 与 Copilot 对话:至少与 AI Copilot 进行 3 轮对话

进阶练习

  1. 创建自定义工作流

    • 创建一个新的工作流
    • 添加 2-3 个 Agent 节点
    • 连接节点并保存
    • 执行并查看结果
  2. 添加知识库条目

    • 添加一条你自己的运维知识
    • 然后在 Copilot 对话中测试知识检索
  3. 模拟告警处理

    • 使用 curl 发送一个模拟告警
    • 查看告警是否正确接收
    • 触发工作流处理告警

思考题

  1. 如果公司有 100 台服务器,你会如何分组管理?
  2. 你觉得哪个 Agent 最有用?为什么?
  3. 如果你要创建一个自定义 Agent,你希望它做什么?

延伸阅读

官方文档

技术学习

概念理解


📖 下一章预告:第4章《技术栈入门》—— 我们将深入学习项目使用的各项技术!即使你没有编程经验,也能轻松理解 React、Express、TypeScript、Docker 等核心技术的原理。

基于 MPL-2.0 许可证发布