试了下用市面上所有的推理模型具体分析一份合同的违约责任和可能产生的违约成本,里面设计了多个违约条款的抵扣。
表现可以分为 3 档:
第一档 Google aistuido 的 gemini 2.0 flash thinking,没有遗漏和计算错误的地方。
第二档 Grok think 和 DeepSeek r1 都遗漏了抵扣条款,但是都能把其他的费用计算清楚。
第三档 o1/o3-mini,表现最不好,虽然提到了抵扣,但完全不会从合同里面提取具体金额代入进行计算…
sonnet-3.7 无法分析扫描的 pdf 文件,遗憾退赛。
gemini 收了费但是还是不支持文件,远不如自家免费的 aistudio