关于人工智能操作电脑,这个之前也已经做了,方法是让gemini给出目标交互元素的坐标,然后让ai输出坐标去点击,然后再把截图信息发送给ai让ai进行下一步的操作...如图中所示,创建账号按钮上的红色圆点就是视觉模型给出的坐标点的标记...
实现ai操作电脑没有难度,有多种方案,现在感觉比较好的是视觉,但是问题在于,找不到场景,一个简单的任务,ai要搞很久,并且还容易出错...现在的gui本身是为了鼠标设计的,并不是为了ai设计的。
这么说来,也许接下来交互界面就是要综合人类和ai进行设计,既能让人类利于理解和互动,也能让ai较好的理解和互动,这样才能很好的实现人机两个模型的协同,并且,当然是生成式的。