我做了一个有点反工程师直觉的小实验。
把同一个出生时间——立春前 03:18——丢给 7 个主流大模型,让它们排八字。结果它们给出了 5 个完全不同的命盘。
最有意思的是,错的不是「解释」,是第一步排盘。
具体到数据,节气当天前后 4 小时内,7 个 AI 的排盘正确率分布是:
DeepSeek-V3 约 30%
豆包 约 35%
Gemini 2.5 Flash 约 40%
Kimi 约 45%
文心一言 约 50%
Claude Sonnet 4.5 约 60%
ChatGPT-5 约 65%
最差的七成以上会算错。最好的也只到六成五。
这是个很典型的 LLM 精确计算失败案例。错误集中在三处:
1. 真太阳时校正(AI 几乎不主动问出生地经度)
2. 节气精确时刻(训练数据里立春是「日」不是「时」)
3. 子时换日(早子时晚子时处理不一致)
我把这套对照测试整理成了一个公开的测试样例库,定位是「用传统历法任务测试大模型在确定性计算上的边界」,而不是命理工具。
如果你也觉得这个题目有意思,欢迎丢边界样例给我。特别是这几类:
- 出生时间在节气前后 30 分钟内
- 出生地经度偏离 120°E 较远(新疆、东北)
- 时间在 23:00-01:00 之间
我会把验证过的样例加进公开 benchmark。
测试集和工程实现在 ming-yun.com,知乎完整版(5500 字)在我的知乎专栏「八字算法研究日志」。
#AI工作流 #大语言模型 #算法工程
#独立开发的日常