即刻App年轻人的同好社区
下载
App内打开
罗锴
3年前
GPT-4 官方案例:自2012年以来,Be My Eyes一直在为超过2.5亿盲人或视力低下的人群创建技术。这家丹麦初创企业将需要帮助的盲人或视力低下者与志愿者联系起来,协助他们完成诸如辨认产品或导航机场等数百项日常生活任务。

凭借GPT-4*的新型视觉输入功能,Be My Eyes开始开发一个由GPT-4驱动的虚拟志愿者™(Virtual Volunteer™),该应用程序可以生成与人类志愿者相同水平的上下文和理解能力。

“在我们获得访问权限的短时间内,我们看到了任何图像转文本物体识别工具所无法比拟的性能,” Be My Eyes 的首席执行官迈克尔·巴克利说道。“对于全球可访问性来说,这意义深远。在不久的将来,盲人和低视力社区将不仅利用这些工具进行各种视觉解释需求,还可以更加独立地生活。”

当有人发送一张冰箱里面的内容图片时,GPT-4 技术不仅可以识别和命名其中包含的物品,并且还可以推断和分析你可以用这些食材做出什么菜肴。然后你就可以要求它提供一个好的食谱。这样的场景案例几乎是无限制的。“改变游戏规则”,巴克利说。“最终用户想要或需要什么东西时,他们都可以重新提示该工具以获取更多实用、有益和有帮助信息。”

在二月初,该公司开始向一小群员工进行基于GPT的助手测试;结果非常积极,这个功能将在几周内交到用户手中。“我们的社区有着难以置信的潜力,”巴克利说。“我们的测试人员,包括露西·爱德华兹(Lucy Edwards),已经喜欢上了它。”

Be My Eyes 的首席技术官杰斯珀·赫维林·亨里克森解释说,GPT-4和其他语言和机器学习模型之间的区别在于其具备对话能力,并提供更高程度的分析能力。他说:“基本图像识别应用程序只告诉你眼前是什么。它们无法进行讨论来理解面条是否有正确种类的配料或者地上物体不仅仅是一个球而已, 还可能会造成绊倒危险——并传达这些信息。”

公司已经有一个案例,其中一位用户能够在铁路系统中导航——这对于视力正常的人来说也是一项难以完成的任务——不仅可以获取地图上自己所处位置的详细信息,还能获得逐点指示如何安全到达目的地。然而,穿越复杂的物理世界只是故事的一半。对于盲人来说,理解屏幕上显示内容可能会更加困难。大多数现代操作系统都嵌入了屏幕阅读器,按行、按段读取网页或桌面应用程序中每个单词。图片作为网络通信的核心可能会更糟。

亨利克森表示,他们现在能够向GPT-4展示网页,并通过深度学习算法建立关系以理解网页中“重要”的部分,在无数训练小时后知道该读取或总结哪些部分。这不仅可以简化在线阅读新闻等任务,还使需要视觉辅助支持的人们可以访问网络上最混乱页面之一:购物和电子商务网站。 GPT-4 能够像视力正常者自然扫描它们那样概括搜索结果——不必阅读每个微小细节而是跳转至重要数据点之间,并帮助那些需要视觉支持做出正确实时购买决策。

巴克利表示:“这对人类来说是一个极好发展机遇”,但同时也代表着巨大商业机会。”
26

来自圈子

圈子图片

AI探索站

101242人已经加入