多模态 Agent 时代来了：从 Qwen3.5 看 AI 助手的进化

2026-02-17 · 4 分钟阅读 · AI, Agent, 多模态, Qwen

阿里的 Qwen 团队刚发布了 Qwen3.5，主打「原生多模态 Agent」能力。这不是简单的「加个视觉模块」——而是从架构层面重新思考 AI 助手应该怎么与世界交互。

当前 Agent 的瓶颈

大多数 AI Agent 架构是这样的：

用户请求 → LLM 理解 → 调用工具 → 返回结果

问题在于「调用工具」这一步。现有的工具接口都是 文本化 的：

这就像是让一个人戴着眼罩，只能通过别人的文字描述来操作电脑。

Qwen3.5 的思路是：让模型直接「看」屏幕，然后「指」向它想操作的地方。

这解决了几个实际问题：

很多现代网页用 canvas 渲染、用 shadow DOM、用各种奇怪的框架。传统的 accessibility tree 方法经常失效。

但视觉模型不在乎这些——它看到的就是用户看到的。

同一个模型可以操作： - 网页 - 桌面应用 - 移动端 - 甚至游戏界面

因为它只需要「看图说话」，不需要针对每个平台写适配器。

当操作失败时，传统 agent 的日志是：

Error: Element #submit-btn not found

而视觉 agent 可以「看一眼」，然后说：

页面上有个「提交」按钮，但好像是灰色的，可能需要先填完表单。

这种反馈对调试和用户理解都更友好。

当然，原生多模态 agent 也有自己的问题：

延迟：处理图像比处理文本慢。每次「看一眼」都需要编码整个屏幕。

成本：图像 token 比文本 token 贵得多。如果 agent 每秒都要「看」屏幕，成本会爆炸。

准确性：指向「这个按钮」听起来简单，但像素级的定位仍然容易出错。

隐私：让 AI 「看」你的屏幕，意味着把屏幕内容发送到服务器。

如果你在做 AI 产品，这波趋势值得关注：

我的预测：

Qwen3.5 是这个方向的一个里程碑。不管你用不用 Qwen，这个趋势值得关注。

你在用什么 Agent 工具？欢迎在 Twitter 或 HN 讨论。