即刻App年轻人的同好社区
下载
App内打开
大烤箱
139关注6被关注1夸夸
(demo中)
大烤箱
9天前
24年底,用Cursor被惊喜到,在内部分享预测时了一把类manus产品,比较巧过完年就出现了

25年中,尝试了Browser Use,判断国庆后一定会出Mobile Use,这是大未来,算是agent元年的标志性事件,“冲突”有时候能说明很多事!

说明判断还算OK,那再盲目预测下26年~

手机ai会继续发酵,大家会像卷thinking一样卷设备的操作,手机操作只是一个起点,是另一种“具身智能”。

但这不重要,重要的是!

明年我们或许能看到真的 Agent 2 Agent(不是说技术那个,是商业上)。我的GUI agent访问美团的Agent来下单

其次,也是平台向Agent收费的起点,小米Ai、豆包Ai无所谓,按Pv向平台交费就行了
00
大烤箱
4月前
留痕暴论下

豆包这类产品未来一年有机会接近接近百度DAU,但会在两年内快速回退

不是豆包做的不好,而是AI渗入操作系统后会对当前没有用户资产沉淀(账号粉丝、社交关系、知识沉淀…)的APP带来巨大冲击
20
大烤箱
4月前
拉着小团队肝产品 结果被智谱一波抢了高地 尬住了 文案要重写

好歹思路验证的没错 接下来就拼场景吧
00
大烤箱
1年前
如何降低与AI对话的成本?
问了周边一圈普通用户(没有任何互联网背景),普遍懒得打字,恨不得能用两个字搜索到的内容绝对不会问一句完整的…而且对话下来好像“提问”本身也有很高的门槛,就大家根本懒得组织一个问题…
00
大烤箱
2年前
Open AI RAG效果显著提升 个人仿照测试

不是1:1仿照,只是思路,具体如下:
1. 用coze海外,但注意coze有点bug(复杂workflow 会无中生有),所以最好分开测试RAG召回和推理
2. 先用GPT做问题转写(prompt大致思路是按照所需的角色推理用户问题的context),转写尽量和准备好的知识库数据格式一致
3. 拿到转写后的生成内容(约束下字数)
4. 把转写后的内容用workflow单测试召回,可以选择sementic knowledge逻辑(semantic在我测试的领域比hybrid好)
5. 这时你可以开始和原问题直接做检索的结果和阈值进行对比了

测试结论(20个领域疑难问题测试,5万字知识库):
1. 碾压Hyde hybrid和reranking(用的Bge倒排)
2. 知识库越大效果和reranking比越强烈
3. 阈值0.7,建议可以舍弃了,会召回很多无效不相关内容,懒得算了,有效召回粗算不超过30%,和bge reranking差不多了…
4. 阈值0.8,原本只有3个能召回,现在可以做到20个全部召回且合理,有效召回100%(乐观评价)
5. 阈值0.9,有效召回还能做到90%左右,但是如果会丢失一些弱关联的召回(取决于你的场景需求)

所以,结构化转写+ 背景补充,用semantic,然后阈值卡在0.8-0.9区间,对大型知识库来说有显著提升
00
大烤箱
2年前
如果!在线的大模型全都免费了,那在个人手机或电脑上部署的意义还有多大?

这不是和之前“上云”“在线”的互联网思路反其道了…嗐浪费手机性能,没想明白图啥
00
大烤箱
2年前
垂直AI工具产品的痛苦,获客过来,草草体验,然后诟病准确不行,深度不行,而忽略了本身的效率优势

换个思路,或者还需要大厂教育市场吧,我们慢慢打磨产品和技术。等待用户心智。
00
大烤箱
2年前
【整理些杂绪,也刷下存在】

搞大模型产品的“妥协式”演进[裂开]:
1. 设想交付完美结果…
2. 不行就交付部分结果…
3. 再不行就交付多个参考性结果…

外围手段弥补模型问题[晕]:
1. 为了让模型稳定输出,陷入不断“pipeline雕花”来增强一点效果;

2. 然后通过改变交互做用户的预期管理…

用户的信心被消磨(用户也包括老板)[委屈]:
1. 短期surprise的效果很快就会被输出不稳定给消耗掉…

2. 效果不行的时候,效率是个伪命题…

行业别只炫技,照顾下真的用户吧[可怜]:
1. 希望模型厂商能够在达到GPT4后卷卷性能,快点再快点,便宜再便宜点,这样可以搞更复杂的pipeline或者输入更多来保证输出效果…

2. 大厂继续砸钱教育用户认知,“更靠谱的知识参考”,而不是去PR参数和牛逼的Agent…让大家先习惯新一代的“智能”的感受…毕竟Agent这事儿目前教育起来太消耗用户耐心了(感受到的是一个傻不拉几的Agent)
02
大烤箱
2年前
AI+垂直行业+销售,帮助专业技能服务者做主动touch,不知道能不能带来额外转化
00
大烤箱
2年前
大佬们,xdm! 帮帮孩子吧

RAG检索到的结果关联度看起来可以,但实际却和问题不是一回事儿(检索阈值0.7),给到LLM后,LLM会基于检索到的内容对“问题”强答,导致“一定程度”的答非所问...

求教了~
00