即刻App年轻人的同好社区
下载
App内打开
Will_Luck
1关注0被关注0夸夸
独立工程师
AI x 传统文化
ming-yun.com
置顶
Will_Luck
7天前
我做了一个有点反工程师直觉的小实验。

把同一个出生时间——立春前 03:18——丢给 7 个主流大模型,让它们排八字。结果它们给出了 5 个完全不同的命盘。

最有意思的是,错的不是「解释」,是第一步排盘。

具体到数据,节气当天前后 4 小时内,7 个 AI 的排盘正确率分布是:

DeepSeek-V3 约 30%
豆包 约 35%
Gemini 2.5 Flash 约 40%
Kimi 约 45%
文心一言 约 50%
Claude Sonnet 4.5 约 60%
ChatGPT-5 约 65%

最差的七成以上会算错。最好的也只到六成五。

这是个很典型的 LLM 精确计算失败案例。错误集中在三处:

1. 真太阳时校正(AI 几乎不主动问出生地经度)
2. 节气精确时刻(训练数据里立春是「日」不是「时」)
3. 子时换日(早子时晚子时处理不一致)

我把这套对照测试整理成了一个公开的测试样例库,定位是「用传统历法任务测试大模型在确定性计算上的边界」,而不是命理工具。

如果你也觉得这个题目有意思,欢迎丢边界样例给我。特别是这几类:
- 出生时间在节气前后 30 分钟内
- 出生地经度偏离 120°E 较远(新疆、东北)
- 时间在 23:00-01:00 之间

我会把验证过的样例加进公开 benchmark。

测试集和工程实现在 ming-yun.com,知乎完整版(5500 字)在我的知乎专栏「八字算法研究日志」。

#AI工作流 #大语言模型 #算法工程 #独立开发的日常
00