即刻App年轻人的同好社区
下载
App内打开
Szhans
7月前
👓 GPT-4V 开启了AI 多模态时代

越来越多人拿到 ChatGPT 新的多模态能力,让我们先望梅止渴, 看看海外玩家们如何探索出的大批新场景和应用案例;相信你也和我一样能意识到, GPT-4V 正在推动世界进入全新的阶段。

无论你是学生、父母、老师、医生、程序员、设计师、创作者、工程师、编剧,还是传统农业和制造业领域,相信都能在以下场景找到启发。

👩‍🏫 教学场景。 Peteryang 演示了一个教育场景:他使用ChatGPT 的图像识别和分析能力,他和孩子讨论了人体结构,从大脑到心脏的精确说明令人振奋。 提示词只有一句:“我现在一年级。给我解释一下。” 这代表着学生将进入前所未有 1:1 的个性化指导时代。(图 1)

🅿️ 停车场景。面对眼花撩乱的停车指示牌,Peter 还请 GPT-V智能识别并推理分析了一下具体的可行性,「请一句话告诉我:“现在周三下午4点, 我能在这停车吗?” 结果秒出~ (图 2)

🥬 饮食健康。 Mckay Wrigley 测试了 GPT-4V 作为健康管理工具的能力,智能分析了图片中所有的蔬菜水果「转换」成了基于热量、蛋白、 脂肪的结构化数据, Json 格式便于后续编程处理。(图 3)

🎬 故事脚本分析。Mckay Wrigley 还让 GPT-V 分析了《盗梦空间》的设计图标,发现ChatGPT 对图表的结构和流程、各个部分的位置有着深入的理解,并能够连贯、智能地将其拼凑在一起。(图 4)

🧩 图片对照。 Andrew Morgan 发现 GPT-V 非常擅长对比图片差异。「找不同」功能看起来微不足道,但是想一想库存管理、取证扫描、甚至制造业等生产场景,他认为视觉智能的应用前景不可估量。(图 5)

📚 学术研究。 教授 Ethon Mollick 让 GPT-4V 识别了一个手稿,识别率惊人的高。他认为对于许多学术领域来说,这可能会是一件大事,特别是因为 AI 还可以对文本进行「推理」。(图 6)

🏠 室内设计。Pietro Schirano 请 GPT-4V 给出了改进建议,结合自定义说明将其进行了个性化建议中,从颜色到触感(图 7)。Pietro 感到难以置信!

📷 摄影技巧。Pietro 还尝试GPT-4V 对指定的摄影作品给建议,其专业建议的推理能力令人大开眼界。 参数设置建议,如图8。

🔭 如果你对GPT-4V带来的广泛经济变革想要深入研究兴趣,这篇《LMM的黎明:与GPT-4V(ision)的初步探索》论文有着深入原理、行业应用层面的讨论(图9)。 Enjoy~arxiv.org

当然,在这些令人振奋的演示背后 ,AI 教育专业人士也不断提醒 「演示是一回事,实际使用是另一回事」。AI模型还会犯错,值得我们保持批判性思考,不断在日常生活和工作流持续探索。

欢迎来到AI 多模态的新时代~
11118

来自圈子

圈子图片

AI探索站

66760人已经加入