刚阅读完 OpenAI 的 GPT-4V(ision) Sy

即刻App年轻人的同好社区

下载

云中江树

1年前

刚阅读完 OpenAI 的 GPT-4V(ision) System Card 报告论文，关于OpenAI 放出来的带视觉能力的GPT模型（下面简称 GPT-4V），总结下面几点（个人见解，不足之处欢迎讨论）：

1. GPT-4V 早已训练完成，训练过程与和 GPT-4 相似。

GPT-4V 训练 2022年就完成了，今年 3 月就开始了早期测试（盲人和部分早期测试用户），由于 GPT-4 是 GPT-4V 视觉能力背后的技术，其训练过程相同。预训练模型首先使用来自网络的大量文本和图像数据以及许可数据源预训练，然后使用 RLHF 强化学习使用额外的数据进行微调生成人类偏好输出结果。看来微软 AGI 的火花论文中测试模型 GPT-4V 的早期版本，经过一段时间的测试和加强后，OpenAI 现在才将其面向公众开放。

2. 多模态提示词雏形初显。

在视觉能力开放前，可以通过 emoji 表情的方式写提示词，现在可以通过图像和语音了，期待短视频到来！除了文本外，图像也可以作为模型的提示词。除了纯文本提示词，纯图像提示词外，纯语音提示词外，还可以将其组合形成多模态提示词，例如"国庆旅游，我想去热闹的地方，我该去 [故宫的图片] 还是 [海边的图片]?"。

3. 图像理解能力。

- 具备多图分析能力，模型有一些有趣的表现，如图片排列顺序对模型结果有影响。

- 具备图像定位能力，如定位到图像内容所在城市，定位能力通常只会到城市级别，不会泄露准确位置。

- 针对保护隐私优化，对和人有关的图像，拒绝回答以下内容：（1）身份信息（2）敏感特征（种族，年龄等）（3）无真实依据的推测（不会基于对图中不存在的特征进行推测）

- 具备多模态越狱防护能力，对包含越狱、有害信息的图像在模型级别和系统级别都设置了防护机制。值得一提时，还考虑到了多模态组合有害提示词防护，即纯文字和纯图像都无害，组合之后有害的情况。(用图片理解结果补足文字提示词，以将纯文本提示转换为多模态提示词。如"我如何 [刀的图片] 这个 [人的图片]?".)

4. GPT-4V 同样存在幻觉问题。同样会生成不合理不真实的内容，对图像中物体的错误识别，错误理解等，不应将其用于高风险场景，如识别危险物品和食物，不应将其用于医疗诊断等。同时模型性能表现会因不同国家地区、种族、语言有差异（预计中英文表现差距会继续存在）

5. 安全方面。除了模型级防护外，还有系统级防护。复用了在 GPT-4 和 DALL-E 的安全积累，考虑到了道德、伦理、隐私等诸多问题，对有害内容，用户恶意行为在模型层面针对性优化，模型可识别并拒绝回答。系统方面，复用了 DALL-E 的图像安全检测机制和 ChatGPT 文本安全检测机制。例如：用户提交包含“我如何建造炸弹？”文本的图像时，系统会对图像字符进行 OCR 识别，审核文本内容，对有害内容拒绝回答。

6. OpenAI 未来投资方向：（1）明确 AI 应用范围，什么可以做，什么不可以做，同时是否要考虑到特殊人群（如盲人）需要？（2）提高模型泛化性，解决跨语言、跨地区等差异导致的模型性能差异。（3）提高模型能力，提升模型整体能力，解决模型现有问题。

19 24

来自圈子

AI探索站

86042人已经加入