01 / 16
技术图谱 · 2026.04 · CLI × AI Agent
万物皆可
CLI
GUI将死,CLI才是一切
Agent时代的交互革命
CLI-Anything ⭐15K OpenCLI ⭐2.3K Agent × Skill
来源:微信公众号两篇连载
向上滑动
02 / 16
核心命题
为什么
CLI正在赢?

GUI本质上是一个翻译层
人类花了40年给计算机套上图形界面,是因为人类不擅长记命令。
Agent不需要图形界面

CLI天生就是Agent的母语:文本输入、结构化输出、可组合、可发现、确定性强
就像USB统一了硬件接口,CLI正在成为Agent世界的通用插口。
// 印证趋势
Claude Code = CLI Codex = CLI OpenClaw = CLI Qodercli = CLI
03 / 16
本质对比
GUI vs CLI
GUI · 给人类的翻译层
  • 按钮、拖滑块、填表单 = 视觉语言
  • Agent需要"学外语"才能使用
  • 截图+点击,脆弱、低效
CLI · Agent的母语
  • 命令即意图,直接调用底层
  • --json 结构化输出,天然可解析
  • --help 自我发现能力,无需提前配置

人类花40年套上GUI外衣
Agent来了,它不需要这层翻译

04 / 16
项目一
CLI-Anything
HKUDS · 香港大学 ⭐ 15,000
给任意桌面软件自动生成CLI接口,让AI Agent能直接用命令行操控 GIMP、Blender、Audacity、LibreOffice……
15K
GitHub Stars
1508
测试全通过
9+
已支持软件
# 一条命令生成完整CLI
$ /cli-anything:cli-anything ./gimp
# --json 输出 · --help 自发现
05 / 16
原理
7步全自动生成
01
扫描源码,把GUI操作映射到底层API
02
设计命令结构与状态模型
03
Python Click 框架生成CLI
04
自动写测试(1508个全通过)
05
自动写文档
06
打包安装到系统PATH
07
Agent即可直接调用
Claude Code OpenClaw Cursor Windsurf
06 / 16
架构
Skill + CLI
组合拳
Skill = 知识(怎么干)

一份简短的SKILL.md(几百tokens),告诉Agent该调哪些命令、参数怎么传、结果怎么解析。

CLI = 接口(用什么干)

命令行直接调用软件底层,结构化输出,可组合,确定性强。

// vs MCP

MCP把所有工具定义塞进context(臃肿)。CLI+Skill只读几百token → 轻量、稳定、可组合。

07 / 16
项目二
OpenCLI
更野的一步 ⭐ 2,300(数天内)
不只是桌面软件,连网站、Electron应用,它都能CLI化。
// 覆盖的平台
B站 知乎 小红书 微信 飞书 Twitter/X Reddit YouTube Cursor Notion Discord

复用Chrome已登录账号 → 零配置
密码凭据从不离开浏览器 ✓

08 / 16
技术原理
Chrome Bridge
架构
CLI命令
↓ 发送
本地Daemon (localhost:19825,闲5分钟自退)
↓ WebSocket
Chrome扩展(Browser Bridge)
↓ DOM操作
网页 / Electron应用
↓ 返回
JSON / YAML / Markdown 结构化输出
// Electron突破

通过 Chrome DevTools Protocol(CDP) 直连Electron内核,每应用固定端口:Cursor=9222 · ChatGPT=9224 · Notion=9230

09 / 16
专为Agent设计
3个AI专属命令
explore

给它一个URL,自动发现网站有哪些API可调用。真实打开浏览器、点击、观察网络请求,记录所有端点。

动态探索 ≠ 静态扫描
synthesize

拿到explore结果,自动生成对应CLI适配器。不用写一行代码。

零代码生成
cascade

自动探测认证策略,从公开API→Cookie→拦截网络请求,共5级递进。

5级认证穿透
10 / 16
对比
两条路线
覆盖万物
CLI-Anything · 逆向工程师
  • 从源码出发,扫描GUI映射底层API
  • 有开源代码的桌面软件
  • GIMP / Blender / OBS / LibreOffice…
VS
OpenCLI · 老练用户
  • 从浏览器出发,不需要源码
  • 网站 + 所有Electron应用
  • B站 / 知乎 / Notion / 微信 / 飞书…

两者合体 → 覆盖:万物皆可CLI ✓

11 / 16
覆盖版图
80+命令
30+站点
// 中国内容平台
B站 知乎 小红书 微信 飞书 雪球 BOSS直聘 网易云 微信读书 超星学习通
// 全球平台
Twitter/X Reddit YouTube Discord GitHub
// Electron桌面
Cursor Notion VS Code Slack Discord ChatGPT Figma桌面
$ opencli bilibili hot -f json | jq '.[]'
$ opencli zhihu hot -f yaml
$ opencli twitter bookmarks -f md
12 / 16
架构对比
三种Agent
接入方式
Skill+CLI
MCP
GUI自动化
Context
极低
稳定性
脆弱
可组合
覆盖
全覆盖
有API
理论全
配置

结论:Skill+CLI 是当前Agent自动化最优架构

13 / 16
未解之题
权限边界
是真正的问题

CLI解决了Agent"能不能干"的问题。
"该不该干""谁说了算",才刚刚浮出水面。

OpenCLI 的双刃剑

复用浏览器登录态 → Agent权限 = 你的账号权限
你能发弹幕,Agent也能。你能删数据,Agent也能。

优点:零配置即开即用 风险:权限无边界
// 下一战场

Agent自治权限系统(谁授权?范围多大?可撤销?)将成为Agent基础设施的核心议题。

14 / 16
CEO视角
千图网/
内容平台机会
01
素材工具CLI化

Photoshop / Illustrator等创意工具有CLI-Anything适配潜力。验证:Agent能否通过CLI直接处理素材,实现"指令生成设计稿"。

优先级:高 ↑
02
千图网API必须开放

OpenCLI覆盖B站、知乎、小红书——创意内容竞品全部可被Agent调用。如果千图网自身没有CLI/API接口,对AI Agent等于不存在。

战略动作 ⚡
03
成为内容生态标准插口

千图网API开放 → 成为AI Agent跨平台内容编排链路中的素材/设计标准CLI插口

生态机会
15 / 16
CEO行动清单
我应该
做什么?
P0
开放千图网素材搜索/下载API,让AI Agent可以调用。对Agent不可见=不存在。
P1
探索CLI-Anything适配创意工具,验证"指令→设计稿"工作流可行性。
P2
关注权限边界议题,早期参与Agent权限规范制定,内容平台有话语权。
P3
用Skill+CLI架构替代部分MCP集成,降低内部自动化token成本。

CLI时代的竞争门槛:
谁先成为Agent可调用的接口,
谁就先占据下一个十年的流量入口

16 / 16
结语

人类花了40年给计算机加上GUI这层翻译层。
现在Agent来了,它不需要这层翻译。
整个软件行业,正在把那件给人类穿的外衣,一件一件脱掉
而Agent,终于可以穿自己的衣服了。

CLI-Anything
桌面软件 → CLI
OpenCLI
网站+Electron → CLI

万物皆可CLI

Agent时代的标准插口

// 参考来源
CLI-Anything: github.com/HKUDS/CLI-Anything
OpenCLI: github.com/jackwener/opencli
微信公众号两篇连载 · 2026.04.04