即刻App年轻人的同好社区
下载
App内打开
Max_means_best
1k关注3k被关注3夸夸
海本辍学创业
ex创业公司、模型公司、VC、AI媒体
分享AI深度insights
小红书 3️⃣万粉AI博主,50 万获赞
置顶
Max_means_best
2年前
“我喜欢看到欣欣向荣的世界”
​国内已经有很多创业者社群了,但 builder的社群比较少
有时候,不考虑盈利,纯粹做一个喜欢的事情也是挺不错的

————Hackathon Weekly 北京01场纪念
138
Max_means_best
3天前
🤔专家模式可能是V3.2吧 //@AugustR: 试了下其他几家,Gemini 是都ok,豆包是要专家模式才行,DeepSeek反而是快速模式可以,专家模式不行

Max_means_best: 刚刚Anthropic发布了Claude Opus 4.7 这是继Opus 4.6之后的重要升级 新模型在高级软件工程任务上表现显著提升 它能严谨、一致地处理复杂的长程任务 精确遵循指令并在汇报结果前 主动设计验证方案 特别是在最困难的编程任务上进步明显 同时视觉能力大幅增强 支持更高分辨率图片处理 在完成专业任务时更有品味和创意 能产出更高质量的界面、幻灯片和文档 虽然整体能力不如最强大的模型Mythos Preview 但在多项基准测试上都优于Opus 4.6 Opus 4.7在遵循指令方面有显著提升 这意味着用之前的prompt会产生意外结果 之前的模型会宽松解读指令或跳过部分内容 而Opus 4.7会严格按字面执行 用户应相应调整prompt和harness(要改prompt了 Opus 4.7对图片可接受像素是之前模型的三倍多 这开启了大量依赖精细视觉细节的多模态应用 读取密集截图的计算机使用Agent 从复杂图表提取数据 需要像素级精确参考的工作 内部测试显示Opus 4.7是更有效的金融分析师 能产出严谨的分析和模型 更专业的演示文稿 跨任务更紧密的整合 Opus4.7在 [GDPval-AA]上也是最先进的 这是评估金融、法律等领域经济价值知识工作的第三方评测 Opus 4.7更擅长使用基于文件系统的记忆 它能在长程、多会话工作中记住重要笔记 并利用它们推进到新任务 从而减少前期上下文需求 Opus 4.7是Opus 4.6的直接升级 但有两个变化值得提前规划 因为它们会影响token使用 首先Opus 4.7使用更新的分词器 改进了文本处理方式 代价是相同输入可能映射到更多 token 根据内容类型大约1.0–1.35倍 其次Opus 4.7在更高effort级别会思考更多 特别是在Agent场景的后续轮次 这提高了难题上的可靠性 但也意味着产生更多输出token(翻译:更贵了 用户可以通过多种方式控制token使用 使用effort参数、调整任务预算 或提示模型更简洁 Opus 4.7今天起在所有Claude产品、 API上线 定价与 Opus 4.6相同: 每百万输入token5美元 每百万输出token25美元 开发者可通过Claude API 使用claude-opus-4-7 PS:实测强了很多,但是好贵啊。。。

00
Max_means_best
3天前
没事了,依旧洗车走着去

Max_means_best: 刚刚Anthropic发布了Claude Opus 4.7 这是继Opus 4.6之后的重要升级 新模型在高级软件工程任务上表现显著提升 它能严谨、一致地处理复杂的长程任务 精确遵循指令并在汇报结果前 主动设计验证方案 特别是在最困难的编程任务上进步明显 同时视觉能力大幅增强 支持更高分辨率图片处理 在完成专业任务时更有品味和创意 能产出更高质量的界面、幻灯片和文档 虽然整体能力不如最强大的模型Mythos Preview 但在多项基准测试上都优于Opus 4.6 Opus 4.7在遵循指令方面有显著提升 这意味着用之前的prompt会产生意外结果 之前的模型会宽松解读指令或跳过部分内容 而Opus 4.7会严格按字面执行 用户应相应调整prompt和harness(要改prompt了 Opus 4.7对图片可接受像素是之前模型的三倍多 这开启了大量依赖精细视觉细节的多模态应用 读取密集截图的计算机使用Agent 从复杂图表提取数据 需要像素级精确参考的工作 内部测试显示Opus 4.7是更有效的金融分析师 能产出严谨的分析和模型 更专业的演示文稿 跨任务更紧密的整合 Opus4.7在 [GDPval-AA]上也是最先进的 这是评估金融、法律等领域经济价值知识工作的第三方评测 Opus 4.7更擅长使用基于文件系统的记忆 它能在长程、多会话工作中记住重要笔记 并利用它们推进到新任务 从而减少前期上下文需求 Opus 4.7是Opus 4.6的直接升级 但有两个变化值得提前规划 因为它们会影响token使用 首先Opus 4.7使用更新的分词器 改进了文本处理方式 代价是相同输入可能映射到更多 token 根据内容类型大约1.0–1.35倍 其次Opus 4.7在更高effort级别会思考更多 特别是在Agent场景的后续轮次 这提高了难题上的可靠性 但也意味着产生更多输出token(翻译:更贵了 用户可以通过多种方式控制token使用 使用effort参数、调整任务预算 或提示模型更简洁 Opus 4.7今天起在所有Claude产品、 API上线 定价与 Opus 4.6相同: 每百万输入token5美元 每百万输出token25美元 开发者可通过Claude API 使用claude-opus-4-7 PS:实测强了很多,但是好贵啊。。。

30
Max_means_best
3天前
刚刚Anthropic发布了Claude Opus 4.7

这是继Opus 4.6之后的重要升级
新模型在高级软件工程任务上表现显著提升

它能严谨、一致地处理复杂的长程任务
精确遵循指令并在汇报结果前
主动设计验证方案
特别是在最困难的编程任务上进步明显

同时视觉能力大幅增强
支持更高分辨率图片处理
在完成专业任务时更有品味和创意
能产出更高质量的界面、幻灯片和文档
虽然整体能力不如最强大的模型Mythos Preview
但在多项基准测试上都优于Opus 4.6

Opus 4.7在遵循指令方面有显著提升
这意味着用之前的prompt会产生意外结果
之前的模型会宽松解读指令或跳过部分内容
而Opus 4.7会严格按字面执行
用户应相应调整prompt和harness(要改prompt了

Opus 4.7对图片可接受像素是之前模型的三倍多
这开启了大量依赖精细视觉细节的多模态应用
读取密集截图的计算机使用Agent
从复杂图表提取数据
需要像素级精确参考的工作

内部测试显示Opus 4.7是更有效的金融分析师
能产出严谨的分析和模型
更专业的演示文稿
跨任务更紧密的整合
Opus4.7在 [GDPval-AA]上也是最先进的
这是评估金融、法律等领域经济价值知识工作的第三方评测

Opus 4.7更擅长使用基于文件系统的记忆
它能在长程、多会话工作中记住重要笔记
并利用它们推进到新任务
从而减少前期上下文需求

Opus 4.7是Opus 4.6的直接升级
但有两个变化值得提前规划
因为它们会影响token使用
首先Opus 4.7使用更新的分词器
改进了文本处理方式
代价是相同输入可能映射到更多 token
根据内容类型大约1.0–1.35倍
其次Opus 4.7在更高effort级别会思考更多
特别是在Agent场景的后续轮次
这提高了难题上的可靠性
但也意味着产生更多输出token(翻译:更贵了

用户可以通过多种方式控制token使用
使用effort参数、调整任务预算
或提示模型更简洁

Opus 4.7今天起在所有Claude产品、 API上线
定价与 Opus 4.6相同:
每百万输入token5美元
每百万输出token25美元
开发者可通过Claude API 使用claude-opus-4-7

PS:实测强了很多,但是好贵啊。。。
33
Max_means_best
4天前
测试方法⬇️

方式一:在 Chatbot Arena 随机匹配(需要运气)
打开 lmarena.ai
进入 Battle 模式(图像生成对战)
多次刷新匹配,系统会匿名分配模型——有一定概率碰上 duct-tape-2
方式二:在 ChatGPT 图像生成中随机触发
有大量用户在 X 上反馈,当在 ChatGPT 中用 Images 功能生成复杂图像(包含大量文字、UI 界面或产品图)时,会被随机切换到新版模型(duct-tape-2),输出质量明显高于 GPT Image 1。这个完全靠系统 A/B 测试分配,无法主动选择。

Max_means_best: 震撼了…….你能看出来这是AI生的图吗?? 今天群友们都在玩一个新的生图模型 据说是GPT-image-2 我看了下这效果太吓人了😧 根本看不出来这是AI生的图 比上一代GPT-image模型要强太多了 这个模型还没出来 目前在LMArena和ChatGPT里 都可能刷到这个模型 如果体验到了可以把图片放到评论区✌️ 温馨提示 这条笔记里的前四张图都是AI生成的 你看图五里群友震惊的程度( 太夸张了 OpenAI这是憋了个大的???

01
Max_means_best
4天前
震撼了…….你能看出来这是AI生的图吗??

今天群友们都在玩一个新的生图模型
据说是GPT-image-2

我看了下这效果太吓人了😧
根本看不出来这是AI生的图
比上一代GPT-image模型要强太多了

这个模型还没出来
目前在LMArena和ChatGPT里
都可能刷到这个模型
如果体验到了可以把图片放到评论区✌️

温馨提示
这条笔记里的前四张图都是AI生成的
你看图五里群友震惊的程度(

太夸张了
OpenAI这是憋了个大的???
1615
Max_means_best
9天前
早知道选女生了,15万排队了

可厉儿: 我们控制了让男用户排队靠后(

00
Max_means_best
12天前
胜负手是GTM
10
Max_means_best
12天前
我说怎么离岸人民币炸了呢......
原来是过路费用人民币结算啊😧
00
Max_means_best
16天前
Anthropic正式宣布封杀OpenClaw了.....

就在刚刚
全体Claude的订阅用户
收到了一封来自Anthropic官方的邮件(图2️⃣

邮件内容是⬇️
从太平洋时间 4 4 日起
用户将无法再使用Claude订阅额度
访问包括OpenClaw在内的第三方产品😧

Openclaw之父Peter Steinberger
在社媒上很难过的表示(图3️⃣
我和Dave Morin尽力去说服Anthropic
最终只是成功将此事推迟了一周
时间点真是巧合
他们先是将一些流行的功能复制到他们的封闭框架中
然后又将开源软件拒之门外😅

关于这次变动A➗也给了补偿⬇️
给予用户当前月套餐对应额度的积分补偿🙄
想要全额退款也行
下一封邮件里有退款链接

当然禁止使用Claude的订阅套餐
不等于不允许用户在第三方里调用Claude
想继续用要么购买额外的使用包
要么自备Claude的API按量付费

对此Claude Code负责人Boris出来解释了原因(图4️⃣
我们一直在努力应对 Claude 需求的增长
而我们的订阅服务
本来就不是为第三方工具的使用模式设计的
算力是我们需要审慎管理的资源
我们要优先保障使用自家产品和API的客户[再见R]

其实就是之前相当于是用Claude订阅的密钥
在别的产品里用(比如Openclaw
因为是订阅套餐
所以用量限制很小(比API划算很多🤣
就导致一个200刀的Max套餐
用户可以一直用一直用一直用
强如Anthropic也要被薅秃了🫤

但这不是A➗你这样做的理由
凭啥变啊?
你看国内大模型厂
人家都是老用户执行老政策
新用户执行新政策
哪有这样的新老用户都砍的
真不当人啊A➗f
21
Max_means_best
18天前
突发!!Deepseek开始了新一轮灰度测试!!!!

就在刚刚,群友发现DeepSeek开启了新一轮的灰度测试
本次灰测有两个大的变化
1️⃣代码能力(SVG)
群友让他画一个常用的猴子骑车SVG
并对比了常用K2.5给的结果(图2️⃣
可以看到效果明显好于之前的效果

2️⃣思考质量和多轮搜索
新版DeepSeek的多轮搜索能力得到了大幅的提升
这里我让他搜了下阿里今天刚发的Qwen3.6-Plus
可以看到他进行了多次搜索(图3️⃣
分段整理了Qwen3.6-Plus的不同信息
然后汇总了一个报告给我

并且还有就是在思考时的质量和效果都有了大量的提升
例如群友让他修改生成的SVG
新版本DeepSeek能在思考时分步修改(图4️⃣
还是有很强提升的

考虑到之前有DS成员表示V4有个很大的版本
这个应该是V4的大参数版本
如果这次测试没有大问题的话
那应该清明节前(明天)就能上线了

狠狠期待一波
应该会是开源最强的Coding模型了!!
64