OpsAgent:为 Kubernetes 运维注入 AI 智能

多模型对话、智能诊断、可视化执行,一站式运维助手

核心功能

智能分析命令

一键理解复杂 Kubernetes 操作的意图与影响。

多模型对话支持

支持 OpenAI、阿里通义等多种大语言模型。

命令可视化结果

图表化展示资源状态与执行结果,更直观。

多集群支持

统一控制和管理多个 Kubernetes 集群。

用户权限与审计

保障操作安全可追溯 (功能规划中)。

上下文感知

能够理解对话上下文,提供连贯的运维支持。

交互演示

直观展示 OpsAgent 如何解决常见的 K8s 运维问题。

场景:Pod 启动失败

用户输入:"我的 Pod 'web-app-7f... ' 为什么一直 Pending?"

OpsAgent 分析后可能回复:

  1. 检查 Pod 事件:kubectl describe pod web-app-7f...
  2. 查看节点资源是否充足:kubectl describe node [node-name]
  3. 检查相关的 PVC 状态 (如果有关联):kubectl get pvc [pvc-name]

AI 会进一步解释可能的原因,如资源不足、调度失败、镜像拉取错误等。

OpsAgent 交互演示

技术架构

OpsAgent 系统架构图

OpsAgent 系统架构图

主要技术栈

前端: React + Tailwind CSS (此原型未使用)

后端: Go (Gin) + Kubernetes Go Client (client-go)

AI 集成: 可插拔设计,支持 OpenAI, 谷歌 Gemini, 阿里通义千问等 LLM

核心库: Cobra (CLI), Viper (配置)

部署: Docker & Kubernetes

发展历程 & 更新日志 (Timeline)

~ Late 2023 / Early 2024 (v2.0.0)

项目启动 & 核心 LLM 集成

OpsAgent (原 k8s-agent) 项目初始化,目标是构建基于 LLM 的 K8s 集群管理与运维助手。早期版本使用 OpenAI Assistant API 实现基本问答。

Ref: 7cfacdd (init)
Q1 2024

引入 Function Calling & 多模型支持

架构升级,支持 Function Calling,允许 LLM 调用 kubectl 等工具。为降低成本和提高灵活性,适配了阿里的通义千问 (Qwen) 模型。

Ref: fe0b78c (Qwen support)
Q1/Q2 2024 (Pre-v0.1.0)

功能增强 & 审计日志

持续迭代,增强 Kubernetes 上下文处理、工具调用能力,并增加了初步的审计日志系统及数据库检查功能。

Ref: fdf6a42 (Execute logic), 8e4af38, 525116f (Audit)
Q2 2024 (v0.0.9)

引入 RAG 提升准确性

集成 RAG (Retrieval-Augmented Generation) 能力,结合业务知识库,显著减少 LLM 幻觉,提高特定场景下的回复准确度。更新了相关 API 和文档。

Ref: 83eb6cf, 3b0a9a4 (RAG), a104c56 (Context API)
Mid 2024 (v0.1.0)

代码重构 & 稳定性提升

进行了一轮代码重构,优化 Prompt 设计,修复了中间结果处理等关键 Bug,发布 v0.1.0 版本,提升系统稳定性。

Ref: be99157 (prompt), eb02f5b (fix), ba77fc6 (Execute history)
Mid/Late 2024

高级 Agent 设计 & Dify 集成

设计了更高级的 OpsAgent 架构和多轮对话方案。接入 Dify 平台进行 Chatflow 调用和可观测性分析,优化性能。

Ref: d2d3c2c (OpsAgent design)
Late 2024 (v2.0.5)

部署优化 & 持续修复

增加了 K8s 部署配置,并修复了相关的部署问题和运行时 Bug,如 observation 处理等。

Ref: 619bd51 (k8s deploy), 222f2e2 (deploy fix), b9e2f3a (obs fix)
至今 (Today)

持续迭代中

项目持续活跃开发中,关注 Roadmap 中的新功能和优化点。欢迎社区反馈和贡献!

*注:时间节点为大致估计,具体功能和修复请参考 GitHub Commit 历史

未来规划 (Roadmap)

我们致力于持续改进 OpsAgent,以下是近期规划的重点方向:

跨集群分析

增强对跨多个 Kubernetes 集群关联问题的诊断和分析能力。

动态集群管理

支持在运行时动态添加、移除和管理 K8s 集群连接。

记忆能力优化

改进长期对话记忆机制,减少上下文理解中的幻觉问题。

/

日志与监控集成

接入常见的日志(如 Loki, EFK)和监控(如 Prometheus)系统,提供更丰富的查询分析手段。

模型兼容性 & 性能

持续扩展支持的 LLM 模型,并不断优化系统响应速度和资源消耗。

插件与扩展

探索插件化架构,允许社区贡献更多工具和能力。(远期)

我们欢迎社区的建议和贡献,共同打造更强大的 OpsAgent!

定制开发服务

针对企业特定需求提供专业的定制开发服务

多集群管理增强

  • 跨集群资源统一管理
  • 集群监控指标聚合
  • 多集群调度策略定制
  • 统一认证和权限管理

MCP 功能定制

  • 自定义 MCP 插件开发
  • 多云管理平台集成
  • 资源编排功能定制
  • 自动化运维流程

工具链集成

  • CI/CD 工具链整合
  • 监控告警系统对接
  • 日志分析平台集成
  • 安全扫描工具接入

个性化功能

  • 自定义数据大盘
  • 专属运维流程定制
  • 企业级权限管理
  • 私有化部署支持

定制服务优势

专业技术团队支持
源码级功能定制
持续技术支持
商业级SLA保障

定制开发咨询

如果您有特定的需求或想了解更多信息,请通过以下方式联系我们:

微信咨询:扫描下方二维码 微信咨询

准备好提升 K8s 运维效率了吗?