前几天 OpenRouter 有个 Elephant 免费匿

即刻App年轻人的同好社区

下载

AGENT橘

3月前

前几天 OpenRouter 有个 Elephant 免费匿名模型冲到了趋势榜第一，周榜第8名。
今天蚂蚁的百灵大模型团队认领了Elephant，官方名字叫Ling-2.6-flash。

Ling-2.6-flash，是一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。这个模型主打"Token 效率（Token Efficiency）"，在"智能表现"与"输出成本"之间取得了更优平衡。
100B 左右的模型，同在榜单的还有英伟达的Nemotron 3 Super（120B）。我拿Elephant和英伟达的Nemotron 3 Super做了一轮对比测试。跑下来发现，这个模型确实像一个专注干活、不爱说话的工程师。

具体来说，这个模型有三个特点：
1. 省钱。同一个 React 搜索组件，Elephant 用 511 token，Nemotron 用 685。Python 多 bug 修复，469 vs 492。结构化数据提取，221 vs 298。每个任务都省 20% 到 25%。同样的活，会用更少的字干完。
2. 干净。我让两个模型都严格返回 JSON，Nemotron 在 200 token 限制内，reasoning 直接把配额吃光了，输出是 None。给到 500 token 才勉强返回。而 Elephant 只用了 19 个 token 就吐出了合法 JSON。
3. 服从。 React 组件直接给代码，debug 直接说问题给方案，不像 Nemotron 会加 docstring、type hints、注释解释。对 Agent 来说不需要模型"教你"，需要它执行。

测下来，这个模型的短板也有，毕竟是个参数不大的模型。让它写一个圣杯布局，1500 token 写不完，还在铺垫 CSS reset 和响应式。让它简洁，不太听，似乎是模型专注高效干活，对这类长度控制指令的遵循不太够。
总之，从测试数据看，它像是一个专门为 Agent 工作流优化的模型。省 token、输出可预测、服从性强，这三个东西恰好是 Agent 场景的刚需。
看了下指标，模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等Agent 相关基准上达到同尺寸 SOTA 水平。

最近 Agent 爆发之后，模型的算力越来越紧张，各种抢购都抢不到，已经影响了 Agent 的普及。Agent 的普及，除了算力提升之外，也需要模型的 Token 效率提升。
目前这个模型的能力还有不小的提升空间。但看到有人在高效输出方面探索，还是值得鼓励一下的。

14 03

来自圈子

AI探索站

116519人已经加入