即刻App年轻人的同好社区
下载
App内打开
AGENT橘
2月前
前几天 OpenRouter 有个 Elephant 免费匿名模型冲到了趋势榜第一,周榜第8名。
今天蚂蚁的百灵大模型团队认领了Elephant,官方名字叫Ling-2.6-flash。

Ling-2.6-flash,是一款总参数量 104B、激活参数 7.4B Instruct 模型。这个模型主打"Token 效率(Token Efficiency)",在"智能表现"与"输出成本"之间取得了更优平衡。
100B 左右的模型,同在榜单的还有英伟达的Nemotron 3 Super(120B)。我拿Elephant和英伟达的Nemotron 3 Super做了一轮对比测试。跑下来发现,这个模型确实像一个专注干活、不爱说话的工程师。

具体来说,这个模型有三个特点:
1. 省钱。 同一个 React 搜索组件,Elephant 511 token,Nemotron 685。Python bug 修复,469 vs 492。结构化数据提取,221 vs 298。每个任务都省 20% 25%。同样的活,会用更少的字干完。
2. 干净。 我让两个模型都严格返回 JSON,Nemotron 200 token 限制内,reasoning 直接把配额吃光了,输出是 None。给到 500 token 才勉强返回。而 Elephant 只用了 19 token 就吐出了合法 JSON。
3. 服从。 React 组件直接给代码,debug 直接说问题给方案,不像 Nemotron 会加 docstring、type hints、注释解释。对 Agent 来说不需要模型"教你",需要它执行。

测下来,这个模型的短板也有,毕竟是个参数不大的模型。让它写一个圣杯布局,1500 token 写不完,还在铺垫 CSS reset 和响应式。让它简洁,不太听,似乎是模型专注高效干活,对这类长度控制指令的遵循不太够。
总之,从测试数据看,它像是一个专门为 Agent 工作流优化的模型。省 token、输出可预测、服从性强,这三个东西恰好是 Agent 场景的刚需。
看了下指标,模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等Agent 相关基准上达到同尺寸 SOTA 水平。

最近 Agent 爆发之后,模型的算力越来越紧张,各种抢购都抢不到,已经影响了 Agent 的普及。Agent 的普及,除了算力提升之外,也需要模型的 Token 效率提升。
目前这个模型的能力还有不小的提升空间。但看到有人在高效输出方面探索,还是值得鼓励一下的。
03

来自圈子

圈子图片

AI探索站

113602人已经加入