之前的判断正确,大模型竞技场(lmarena.ai)里出现的 big-engine-test 模型的就是谷歌家的新模型,整体上跃居第一,但控制了生成风格之后,就落到第四位了,不如OpenAI的4o,o1,以及 sonnet3.5。
style controll 就是控制生成答案的风格,例如生成长度,markdown 格式等。
这个也容易理解,我们对答案质量的判断会受答案形式影响,会觉得内容更多、格式更好看的质量更高。
其实生成的速度也会影响我们对质量的判断,但官方还没有对这个因素进行控制,还是采用流式输出的方式。