早上看见一个消息说Claude 3.5 Opus早已经训练完成并且运作良好,但Anthropic选择暂不发布3.5 Opus,而是用它来生成合成数据训练 Sonnet 3.5。这样sonnet在推理成本不变的情况下水平得到提升,相比直接发布3.5 opus是更优的选择。消息还未得到证实。(下附报告原文)
这种AI套娃训练如果成立,模型之间可能形成复杂的“知识生态系统”,高级模型作为“导师”训练更初级的模型,而这些初级模型在特定领域发展后,又能反哺高级模型,形成一种自我循环的智能升级体系。
我自己曾经试验过用大模型评估其他大模型,得到的结果是不错的,能够比较有效的反映出模型间的能力差异。这种'理解同类'的能力很有趣,或许意味着模型间能协同的地方会很多。