Will_Luck的个人主页

即刻App年轻人的同好社区

下载

App内打开

Will_Luck

1关注0被关注0夸夸

独立工程师
AI x 传统文化
ming-yun.com

置顶

Will_Luck

2月前

我做了一个有点反工程师直觉的小实验。

把同一个出生时间——立春前 03:18——丢给 7 个主流大模型，让它们排八字。结果它们给出了 5 个完全不同的命盘。

最有意思的是，错的不是「解释」，是第一步排盘。

具体到数据，节气当天前后 4 小时内，7 个 AI 的排盘正确率分布是：

DeepSeek-V3 约 30%
豆包约 35%
Gemini 2.5 Flash 约 40%
Kimi 约 45%
文心一言约 50%
Claude Sonnet 4.5 约 60%
ChatGPT-5 约 65%

最差的七成以上会算错。最好的也只到六成五。

这是个很典型的 LLM 精确计算失败案例。错误集中在三处：

1. 真太阳时校正（AI 几乎不主动问出生地经度）
2. 节气精确时刻（训练数据里立春是「日」不是「时」）
3. 子时换日（早子时晚子时处理不一致）

我把这套对照测试整理成了一个公开的测试样例库，定位是「用传统历法任务测试大模型在确定性计算上的边界」，而不是命理工具。

如果你也觉得这个题目有意思，欢迎丢边界样例给我。特别是这几类：
- 出生时间在节气前后 30 分钟内
- 出生地经度偏离 120°E 较远（新疆、东北）
- 时间在 23:00-01:00 之间

我会把验证过的样例加进公开 benchmark。

测试集和工程实现在 ming-yun.com，知乎完整版（5500 字）在我的知乎专栏「八字算法研究日志」。

#AI工作流 #大语言模型 #算法工程 #独立开发的日常

1 00