用这张缺乏文字标注的信息可视化地图（图1）测试了各个LLM的多模态交互输入和理解能力（AI眼镜的使用场景）：

第一梯队（图2。完全正确）：Gemini 2.0、Grok 2、Kiwi

第二梯队（图3。部分正确）：Claude 3.5 Sonnet、豆包、Deepseek V3、腾讯混元

第三梯队（图4。彻底失败）：Llama 3.1、ChatGPT 4o/o1

🔨空间Web@PICO-OS。Ex：Web开发引擎@字节，JS黑客&前端架构@上线了/Flipboard/豆瓣/土豆，2D元宇宙阿尔法城主程

来自圈子

AI探索站