微软近日发布了 OmniParser V2 版本,该工具能够将各种 LLM 变成可操控计算机的 AI Agent。 图形用户界面(GUI)自动化需要能够理解并交互于用户屏幕的 Agent。然而,使用通用 LLM 模型作为 GUI Agent 会面临几个挑战:1)可靠地识别用户界面中的可交互图标;2)理解屏幕截图中各种元素的语义并准确地将预期操作与屏幕上... 微软发布 OmniParser V2,将任意 LLM 变成可操作计算机的 AI Agent下载地址