Node.js 进程被 native code 偶发性杀死,stderr log 除了 sigabort 外毫无端倪,用最原始的请求对账方式查了一晚上,终于在三台机器上找到了相同规律,最后发现是 schedule 任务里 rocketmq 的 c++ addon 存在 use-after-free 问题。
又涨了几个痛苦经验:1)请求对账不能只看 nginx日志,定时任务也要看;2)不能只看进程挂掉前 2s 的日志,至少往回拨 20s;3)那些单测不够多社区使用量不够大的 c++ 包千万不要往业务仓库里引。
感觉这事儿,应该让 AI 去查,明天试试把权限开给 AI,看看能不能走通 AI Ops,🥹