即刻App年轻人的同好社区
下载
App内打开
Nothing_8
78关注244被关注1夸夸
Nothing_8
14天前
Nothing_8
17天前
因为Cherry Studio不支持参数生图,所以做了个demo,支持连续对话+生图+比例尺寸修改。

要求key支持 /v1beta/models/gemini-3-pro-image-preview:generateContent 请求方式。

建议使用低额度临时key,虽然请求全由用户发起,但我也无法保证vercel+vibe的安全性。

demo地址:gemini-3-pro-image-preview-demo-r39.vercel.app

Github地址:github.com

如果想自己开发类似的API应用,这里给出官方比较全的文档(找文档找了半天):ai.google.dev

图1是运行界面截图,图2是4K图生成结果(可能会被压缩)
00
Nothing_8
18天前
我给老板画饼子,老板冲我甩鞭子。🤧
00
Nothing_8
19天前
gemini目前的生态和agent,确实让gemini3这个拉跨到不行的上下文糟蹋了。
00
Nothing_8
21天前
体验了一下,opus4.5的规划交互能力有明显提升,能明显感觉到交互tool的调用非常积极,plan模式体验很好。
代码能力一般,不出彩,感觉像不降智的sonnet 4.5,不如codex-max。
00
Nothing_8
21天前
Claude Code新功能,我的个人理解:
1.MCP搜索改进了,改进的方式是再套一层,刚开始不加载了,用的时候走MCP search工具,先搜索可用MCP,再给你返回来调用。
优点:每次开始不用吃大量的上下文了
缺点:你猜降智的时候目标MCP能不能被命中

2.编程式工具更新:读取文件的话选择不直接一个一个读取。转而写一个Python脚本去读取,读取完成后返回给MCP
这是我某个结合Minimax-M2项目的方案,没想到有官方实现了,挺好,直接毛走。

3.工具使用示例:可以为工具提供参数例子了(z...zod?)

鉴定为function calling 复辟

Introducing advanced tool use on the Claude Developer Platform

00
Nothing_8
23天前
20
Nothing_8
26天前
体验了一下gemini3 pro image preview:

1. 目前API费用还是相对较高(中转站大概能降低到5毛1次)
2. 出图是类似funciton calling的形式,也就意味着如果AI认为你的文字内容不足以出图的话,它就纯文字回复你了,但费用还是生图的费用,这点有点拉跨。
3. 如果模型认为你的文字内容不足以出图的话他会给你提供多种设计方案你可以自己去选,这点我觉的很不错。
4. 虽然标称完美中文显示,但测试期间发现还是无法对清晰度做太高要求,有时候还是会糊。
5. 我认为最大的优势是自然语言的理解,确实是听人话听的最流畅的一个模型。
6. 如果想出比较好的图,可能需要对画布的设计有非常详细的描述,不然图有时候看着元素还是比较空。

测试场景为目前参与的自媒体横向,截图的prompt一般为:“请你帮我基于文案内容生成自媒体视频封面图” + 文案内容文字版

我觉的很强,值得关注。

------------

插播一下:gpt-5.1-codex-max xhigh模型,目前在我心中就是9月的Opus。
1. 指哪打哪能力非常强,之前几个组合尝试解决的BUG一致搞不利索,今天俩小时全部秒了。
2. 项目理解深度很强,不会像其他模型一样翻文件翻多了就迷糊。
3. 前端能力没变化,还是普通。
4. 费用高,但是和claude code比起来性价比还是高了(我CC一天至少120,CodeX一个月120好像都富裕)。
5. 规划能力不足,你让它办事可以,但是让它写规划的话比较差。
6. 能感觉到明显的强英文环境注入,可能也是保证效果的一环。
7. 速度很快。
8. CLI载体CodeX还是那么烂,只能当作启动器用。插件的话目前也没更新。
16
Nothing_8
26天前
gemini3 pro image preview已出,支持自然语言支持思考。
下面是刚发的生图效果
00