一只生蚝A.H.的个人主页

即刻App年轻人的同好社区

下载

App内打开

一只生蚝A.H.

26关注26被关注1夸夸

关注生产力发展，喜欢琢磨技术，会点摄影，懂点法律

一只生蚝A.H.

10月前

昨天开始Deepseek R1以及其蒸馏模型在Coze国内版上线了，这下手搓智能体就很方便了，没编程基础也能快速上手。今天尝试在上面复现一下openai的deep research，实现自主思考自主检索，效果貌似还不错，欢迎来体验

扣子-AI 智能体开发平台

2 00

一只生蚝A.H.

11月前

感觉r1已经比大部份创业消费者更懂创业了🤣

5 01

一只生蚝A.H.

11月前

deepseek r1论文出来了，r1 zero的实验展示直接用正确结果进行奖励就可以让模型自己探索出分步思考、反思等方法。有“正确结果”的工作理论上都可以考虑用AI代替了🤣

2 00

一只生蚝A.H.

1年前

模型本身没有经过这种思维方法的训练，prompt写得再好，效果也不会有质的改变。就像你工作本来做得好好的，你老板突然让你用一套完全没接触过的方法或者工具去做，不管老板说得多么天花乱坠，你大概率想的是怎么敷衍过去

一泽Eze: 🤨 神级 Prompt 其实没那么神（刚好算是个合适的话题，蹭蹭热度哈哈）早上看到卡兹克写的《17 岁高中生写了个神级 Prompt》，说是 claude 用了后，甚至能像素级复刻 Flappy Bird（视觉效果简直无敌），心想还能这样？ —————— 💬 我也对比测试了，先说结论： 1. 不少人觉得“神”，其实是 Claude 3.5 sonnet new 神。全球顶级大模型，你不用这段 Prompt 依然也可以生成神级回复 2. 我没法用“神” prompt 复刻出像素级高仿的 flappy bird，神 Prompt 吹的有点过了 👉 你可以再想想，用了以后感觉生成质量好了，到底是： 1. 你对生成结果本身没有预期，对此本身就不了解，只是玩玩而已？ 2. 你没用过几次 claude 3.5 sonnet new ，所以不知道裸 claude 本身就已经这么强了？ ❓要不，选些你所专业的领域任务，先想好你要什么结果，再试试呢？ 🔬以下是我的测试结果： P1 是文中的宣传效果，P2 是我神 Prompt 实际测试效果，P3 是不用神 Prompt 的直接提示效果事实证明，不需要额外提示词，Claude 已经足以完美实现游戏机制的复刻。但对复杂视觉元素的设计，不是一段提示词能解决的。文章应该是进行了选择性宣传。实际想实现这个效果，大概率是需要单独把设计资源链接告诉 AI，让它进行引用的。 —————— 不过，对于普通用户来说，如果把这个 prompt 预置在 chatbot 中，确实能在简单场景中是可以用更少的 input ，获得更“好”更长的输出，主要适合： 1. 在用户不熟悉的领域给予思考启发 2. 帮助用户做一些没那么高标准要求的事情不过说实话，这种场景下，你让 AI “针对 xx，再 step by step 反思优化一下”，也能满足预期了 —————— 鼓励大模型进行 CoT 思考确实能获得不一样的输出效果，这是一个很实用的技巧。但目前不存在能够让大模型成为全能专家的通用型 CoT 提示。如果说，“我觉得这 Prompt 真是神了”，大概率是因为用户本身也不熟悉该任务领域，对生成的结果没有自己的高预期标准。

0 00

一只生蚝A.H.

1年前

借着AlphaGo核心作者Julian Schrittwieser跳槽的热度，回顾下AlphaGeometry这篇研究，可能预示着一个往后几年普通人在大模型领域能参与的巨大机会。

通过合成数据从零训练的0.15b LLM，结合慢思考系统，在奥数几何领域达到人类金牌水平。

这意味着什么？0.15b模型，在一台家用电脑就可以训练，在一台手机上就能部署。奥数金牌水平的智力，可以胜任多少工作？

当然，也有难点，比如生成质量的评估、大规模高质量数据合成、慢思考系统设计。AlphaGeometry所面对的数学几何问题可以通过符号推理快速验证和生成数据，算是比较容易做的领域。

因此全领域的ASI难做，但专有领域的专家模型系统还是相对容易做的，甚至普通人都能参与。很多专门领域的工作也是有现成的评判标准的，甚至有些领域还有现成的大量数据可以作为种子进行大量数据合成。

所以普通人想做专有领域的专家模型系统需要什么？

不需要训练超大模型的算力和工程能力，甚至不需要很懂算法，能用明白现成的基础设施就行，反而是对行业工作的深刻理解以及获取行业相关数据资源可能更加重要。

AlphaGeometry: An Olympiad-level AI system for geometry

1 00

一只生蚝A.H.

1年前

kimi的最新的“探索版”多步搜索+选取可靠信息源+反思基本上实现了我一年前对AI搜索的期待。

但三天体验下来，感觉模型能力还是不够。模型还不能很好地自己判断该用什么语言去搜索、该怎么计划好搜索、最终输出的结果高度依赖于搜索结果而没有充足的逻辑判断、自动反思触发几率很小。

当然，如果有不需要太多复杂逻辑判断的，需要多步大量搜索搜集信息的场景，把搜索思路写在提示词里让kimi去搜集信息，还是非常香的，一下获取两百多个网页的信息并分析汇总好是很科幻的能力