字节版operator也来啦~!(让agent操作电脑)。全开源,下载就能装,打开就能用~ 还能把VLM部署在本地免api🥹
UI-TARS Desktop: A GUI Agent Application Based on UI-TARS (Vision-Language Model)
🧐 UI-TARS Desktop 是一款基于 UI-TARS(视觉语言模型)的图形用户界面(GUI)代理应用,允许用户通过自然语言控制计算机,并支持跨平台操作。
➡️链接:
github.com✨重点
● 🤖 自然语言控制:UI-TARS Desktop 采用先进的视觉语言模型技术,实现了通过自然语言控制计算机的功能,支持语音命令和视觉识别等多模态输入。
● 🖥️ 屏幕截图与视觉识别:该应用支持屏幕截图与视觉识别,用户可以通过图像处理与分析来实现更复杂的任务操作。
● 🎯 精准的鼠标与键盘控制:提供精确的鼠标与键盘模拟控制,用户可以通过简单的语言指令操作计算机界面。
● 💻 跨平台支持:支持 Windows 和 macOS 操作系统,满足不同平台用户的需求。
● 🔄 实时反馈:应用提供实时的状态反馈,用户可以清楚看到执行过程和结果。
● 🔐 本地处理,保证隐私安全:所有的数据处理都在本地完成,确保用户的隐私和安全。
● 📑 部署与使用:提供本地和云端部署选项。用户可以通过 HuggingFace 或 vLLM 部署自己的模型,实现快速的推理和应用部署。
● 🌐 简易安装:支持简单的安装过程,macOS 用户只需将应用拖动到“应用程序”文件夹,Windows 用户同样可以快速启动应用。
● 📂 支持的硬件与系统要求:需要 Node.js 版本 20 及以上,支持的操作系统为 Windows 10/11 和 macOS 10.15 及以上。
● 🚀 开源与社区支持:UI-TARS Desktop 在 GitHub 上开源,采用 Apache 2.0 许可证,社区活跃,欢迎开发者贡献代码和提供反馈。