即刻App年轻人的同好社区
下载
App内打开
歸藏
557关注21k被关注43夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
12:17
Gemini 的产品和研发负责人录了个视频

讨论了一下关于关于优秀编码模型的理念以及 Vibe Coding 的影响,以及编程语言的未来

很多见解挺好的,说明 Gemini 的代码能力进步还是有方法的

视频:youtu.be

总结了一些我觉得重要的内容:

📌 谷歌 Gemini 团队的编码模型训练方法论

🎯 Gemini 早期编程目标及其局限性

1️⃣ 竞技编程(Competitive programming):尽管像OpenAI等公司在评估模型编程能力方面做了很好的工作(如human eval),但竞技编程的能力并不一定等同于一个强大的团队成员所需要的技能,因此这与开发者最终的需求有所偏差

2️⃣ LMS(Language Model Systems):这也不是日常开发工作的真实写照

3️⃣ 代码补全(Code completion):这虽然更具生产力,但其应用空间有限,不足以体现模型现在和未来能够实现的所有功能。

Danny Tarlo认为,前两个目标并不能真正反映开发者的实际工作,而第三个目标则不够宏大。

仅仅关注竞技编程是不够的,因为它无法涵盖软件开发人员日常工作中的更广泛能力需求。竞技编程通常是在一个"非常自给自足的环境中"工作,从零开始构建相对简短的解决方案。然而,软件开发人员日常工作涉及处理大型代码库中的错误报告,这些错误可能分散在"代码库中一百个不同的位置"。因此,模型需要的能力集远大于竞技编程所包含的。

💡 Gemini 编程优化当前关注的"核心要素":

1️⃣ 数据与方法论:Danny强调,一个优秀的编程模型主要取决于"数据和方法论",太鸡贼了最重要的内容一笔带过。

2️⃣ 代码库上下文的重要性(Repo Context):代码库上下文是如此重要。模型不仅要处理代码补全,更要支持"多文件编辑,比只给你几行代码更大的更改"。目标是让模型能够帮助开发者在代码库的上下文中进行需要一小时完成的复杂工作。

3️⃣ "Vibe Coding"与专业开发者:他们也看到"Vibe Coding"的兴起。这指的是那些不一定是专业程序员,或者只有少量编程经验的人,利用工具扩展他们使用编程的能力。Andre Karpathy关于"live coding"的推文进一步普及了这个概念。团队的最大愿望是赋能那些不具备专业编程技能的人,让他们能够自己完成一些基本的事情。

🔥 代码就是一切

• 代码作为通识能力:代码能力的提升也能反哺Gemini的其他能力。有些问题可能起初不是一个编程问题,但可以将其转化为代码问题来解决,例如帮助学生解决数学应用题,或者在代码空间中进行推理。

• "代码就是一切"的愿景:"代码就是一切"。举例说,用户询问报税技巧等自然语言问题,其核心需求其实可以通过生成一个"最基本的报税计算"来解决,即便用户没有明确要求"编写一个迷你Quickbook"。

📊 评估(Evals)与挑战:

• 真实世界价值:团队的目标是"理解、预测并押注真实世界的价值将走向何方"。要专注于"这个领域的核心基本挑战,这些挑战对于真实世界的价值是有用的"。

• 评估的实用性:最能反映真实情况的评估是"在AB测试中发布一些东西,看看真实世界会发生什么"。这不切实际,因为不能指望一个新模型在创业公司运行一年来评估其成功。他们需要寻找实用的替代指标。

• 泛化性挑战:编程模型的最大挑战在于,需要构建"能够同时适用于所有用例的能力"。用户使用代码模型的方式多种多样,模型需要能够泛化到所有这些不同的使用场景。

🗂️ 面对处理越来越复杂的代码库(如百万行代码的monorepo)的问题,有两种主要策略:

1️⃣ 长上下文能力:让模型能够将整个代码库作为上下文来处理,并在一个步骤中解决问题。

2️⃣ Agentic编码(Agentic Coding):模型像人一样工作,通过代码搜索、查看文件层级、跳转阅读代码等方式,自主地解决问题。

🎯 Gemini 团队在编程优化上的短期目标:

• 解决2.5 Pro版本中"工具调用功能"的可靠性问题,特别是在代码上下文和Agentic模型进行代码编辑方面
• 细致调整用户交互,确保用户体验更流畅
• 改进模型在特定用例类别上的表现

✨ 模型在风格上的表现也至关重要,例如在生成网页UI时,除了功能正确,还需要美观和符合专业标准。Connie提到,有时即使模型犯了两次错误,但如果它表现得"有点调皮",说"第三次会成功"或"这真的很难,我们再试一次",这反而能让用户"原谅Gemini",并建立信任。她强调,"这种风格,比如语气、个性,不一定是你在编码中认为关键的东西,但它在人们接受这些模型的方式中却很重要"。

🌐 为何选择通用模型而非代码专用模型:

• 超越代码的知识需求:代码模型需要"世界知识",而不仅仅是代码本身。例如,一个"Taylor Swift排名应用"就需要对世界有一定了解,而不仅仅是代码。

• 开发流程的复杂性:代码意味着"软件开发过程的越来越多部分",并需要连接到各种不同的信息,其中一些是代码特定的,一些则不是。

• 通用模型的优势:"将所有这些都看作是相互关联的,我们都在为模型的通用能力而共同努力,我们将努力找到最佳方式让一切协同工作,拥有一个真正优秀的通用模型,这对我来说是一个很好的方向"。事实证明,这种方法成功地构建了一个出色的编程模型,同时在其他方面也表现出色。
08
歸藏
11:04
Gemini 即将更新 Deep Think 的功能

通过提供额外计算能力来处理更具挑战性的问题

在数学相关任务中,Deep Think 比常规版 Gemini 2.5 Pro 性能提升达 15%

同时 UI 也发生了变化
33
歸藏
10:56
还剩下的几小龙都开始走开源路线了?

月之暗面昨晚也开源了一个 Kimi-Dev-72B 模型

主要优化代码方向

SWE-bench Verified 测试中得分 60.4%,超过其他开源模型

这里下载:huggingface.co/moonshotai/Kimi-Dev-72B
54
歸藏
1天前
MiniMax 开源混合架构推理模型 M1

- 模型采用 MoE 与 lightning attention 相结合架构
- 模型大小为456B ,单 token 激活参数为 45.9 B
- M1 原生支持 100 万 token 的上下文长度
- 包含 40K 和 80K 思维预算两个推理模型

基准测试成绩非常高,等明天试试

模型下载:huggingface.co
02
歸藏
2天前
几周前就知道了 MiniMax 出了一个通用 Agent 产品

试了一下,他们可能做出了一个比 Lovable 还强大的多大 Vibe Coding 产品

自主查找网页中需要的信息重新进行整理,不只是文本,图片也会,找不到也可以生成,完全不需要复杂的资料准备,直接生成就能用

这里有所有的提示词和演示网页地址:mp.weixin.qq.com

下面是几个测试例子🌰:

先让他用 MiniMax 自己的音频生成能力和谷歌地图 MCP 搞一个旅游景点介绍网站。
基本上所有的信息都帮你搞好放在网页里面了
我回去看了一下步骤,发现搜索的图片结果质量都非常高,Agent 还会自己对图片进行挑选。
音频生成也调用 MiniMax 自家的 MCP 搞定了,而且切换景点就会自动播放。
他居然会利用 browser use 工具对网页进行测试!
会挨个点击所有的网页功能,然后他发现了地图的问题,就换成了按钮跳转的方式,非常智能。

知名艺术家的初见与告别网页生成

我发现他🐂🍺的图片检索和嵌入能力之后就想对他进行一个更加复杂的考验。
让他帮忙生成一个关于知名艺术家初见与告别的网页,里面会展示一些知名艺术家早期艺术作品和晚年的对比,方便大家看到这些艺术家的成长轨迹。
第一次我把提示词写错了写成了一个艺术家,所以他就只选了一个艺术家。
结果好死不死选了梵高,梵高的艺术生涯非常短暂,不太好体现时间带给他的沉淀和变化。
但是整个网页的排版和视觉真的非常高级,而且还有数字跳动的动画。
作品对比这里更是全面,上面是时间,下面是对应的两个时间点的两幅作品,除了介绍文字之外还有作品的颜色色值,另外还有艺术特征提炼。
下面数据可视化这里先是用曲线图介绍了每一年梵高的创作数量,然后又用卡片展示了梵高每个艺术转折点,还有对应的标签,对于了解他的生平非常有帮助。

攻壳机动队的诞生和影响网页生成

由于这里的对比比较少,于是我把上面提示词中的“一个”改成了“多个”重新生成了一个网页。
这次的视觉表现整个更顶了,这个首图的字体和渐变蒙版,简洁中又有细节。
而且可以看一下按钮的动效是加了缓动的颜色改变和投影出现的非常自然,投影还是弥散阴影。
还有下面引导鼠标滚动的那个动画,鼠标图标的滚动部分除了是主题色的渐变外还有动画,太精致了。
在艺术品展示这里它采用了,两级页面的模式,而且找到的艺术品图片和内容都是能对上的。
光这一点就已经吊打很多所谓的 AI 编程 Agents 了,吹这吹那,结果都没办法把图片自动放到网页里。

最后想整个大的,完全让他自己搜索数据和内容对攻壳机动队这个对后世赛博朋克风格影响很深远的电影进行分析和介绍。
生成之后他这个封面图照的很好,而且下面还有已抵达幻景市的文案,相当应景。
英文标题选了非常有赛博朋克风格的字体。
然后他先是介绍了作品的创作背景,两个非常天才的创作者电影导演押井守和漫画作者士郎正宗,这个时候的英文标题字体就更加为页面增加了一些赛博氛围。
之后分析了作品的核心主题,主要是奠定了赛博朋克高科技、低生活的作品核心,以及对人类意识的讨论。
可以说非常专业了他找的作品分析文案做参考的时候找的也很好。
之后讨论了电影带来的视觉表现理念革新,在技术上和视觉上都有。
数据这里的表现就更顶了,展示形式和图表选择都非常准确,像一个非常老练的设计师。
先是将核心数据卡片化展示,之后用折线图对比不同作品的 IMDB 评分和豆瓣评分,之后用圆点展示发布时间和评分的关系,最后用卡片展示作品的商业成就。
最后用文化价值拔高和总结,整个网页不管是从一个报告看还是从一个网页设计看都无可挑剔。

目前这个产品支持免费试用,强烈建议你去试试,看看在内容检索、生成和编码上都很强之后结合起来的产品有多强大。
01:39
313
歸藏
2天前
近期另一个爆火的 AI 视频品类#ai创造营# #ai编程#

一些日常不好实现的 ASMR 视频,比如切割各种玻璃金属材质的水果

搞了一套提示词实现了一下,需要用到 Veo 3 的文生视频

提示词:

ASMR video of slicing a glass strawberry: From an extreme macro viewpoint, a flawlessly transparent, hyper-detailed glass strawberry sits on a warmly lit wooden cutting board.

The camera gently pushes in and out, capturing iridescent highlights and rainbow refractions dancing across its surface. Angles alternate between overhead and 45-degree side shots, freezing the exact moment the knife meets the brittle “fruit” and revealing delicate internal striations.

Each slow, deliberate cut releases a crisp ding—the fragile chime of shattering glass—followed by the soft clatter of tiny shards and the low, resonant scrape of steel against wood, layering a rich ASMR soundscape in an otherwise hushed room.

Composition follows the rule of thirds, with the strawberry anchored at a golden-ratio point; the background melts into a dreamy bokeh of warm light and floating dust motes. Overall, the palette is clear and serene, immersing viewers in the mesmerizing textures of glass fracturing and the intimate, crystalline sound of every slice.
00:32
210
歸藏
2天前
Labubu 视频搭配小米艺术锁屏效果真好,还会耳朵会遮住文字
00:06
62
歸藏
3天前
好像最近这种拉布布动态壁纸很火,跑了一个
00:05
2517
歸藏
3天前
Lovable 的一个小技巧

可以在输入框上传图片之后让他将图片放在生成网页的指定位置

给Lovable写的网页把图片都换成正确的了

网页主要介绍了几个艺术家在生涯早期和临终前的画作对比:first-farewell-tapestry.lovable.app
00:15
22
歸藏
3天前
Lovable 这个比赛挺成功啊

项目创建和提示词使用量都非常高

截至目前:

Anthropic表现最活跃:在提示词使用、项目创建和提交数量上都领先

OpenAI速度最快:虽然使用量不是最高,但每次编辑只需47秒,比Anthropic快了近一倍

Gemini使用量偏低:各项数量指标都明显低于其他两家
14