即刻App
年轻人的同好社区
下载
App内打开
TonicZhang
232
关注
245
被关注
1
夸夸
👧工科女,北大硕,金融二级🐱
❤️关注科技、商业新趋势
✌️在金融投研领域实践AI
TonicZhang
2月前
关于9.11和9.8大小的问题,真的是心态决定观点。RL的特征,以及token分词的问题,恰好是应用价值的击球区之一。
1
0
0
TonicZhang
3月前
如果一段时光,喜忧参半,丰富饱满,愤怒加持无力有余,应该怎么去整理
1
0
0
TonicZhang
6月前
基于过往的知识产出抽象Mind,形成有认知的媒介,再向外链接最新的news形成结论,同时反向迭代Mind。逻辑上是合理的,但是实操过程中深深地感受到了人比机器低碳。除此之外,end to end的魔力就像信仰一样,让你不断质疑任何白盒化workflow的架构都有可能瞬间击破。太难受了。
1
1
0
TonicZhang
6月前
很认同!实践下来,不断拆解的任务是通过类似使用tool的方式去拓展能力,同时去减少幻觉和不稳定的问题,但workflow定义规划本身也损耗了很多信息,且这样的方式很难穷尽,对性能的挑战也很大。
Diiiii: 对 agent 的一个暴论:现有 (multi) agent workflow 的模式没有太大价值。Agent 今年(在以吴恩达老师为首的各类大佬的吹捧下)热度很高,但现有的这些所谓的 (multi) agent workflow,本质上是把一个大任务拆分成很多个子任务,每个子任务都有明确的 input 和 output,自己定义一些变量和接口,把这些子任务串起来。这种方式很像是早期的自动驾驶,把感知和规控分开解,或者是上一代的语音助手,把语音转文字、LLM、语音合成这些工作流串起来。 终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow,速度慢先不说,最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量,本质上都是把信息降维到人能理解的维度,这是以高维信息的损失为代价的。每多一层 workflow,损失的信息就多了一次。面对简单问题时, (multi) agent workflow 或许是可行的,但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构,搭配高精地图,能够在凤凰城和三藩市勉强把本地 L4 跑通,但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。 因此,现有的 (multi) agent workflow方式注定只是一个中间状态,类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题,需要靠基础模型的进化。当模型能力足够强之后,应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具,或者采用某些步骤,但应该不需要人为去把 workflow 拆出来。 Agent 的概念依旧重要,但应该回归它更加 native 的定义,即每一个 Agent 应该是独立的智能体,拥有自己的 memory, planning, tool use 等能力,能够端到端地解决问题,而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车,而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。
1
0
0
TonicZhang
6月前
“眼耳口”齐备,多模态的能力完整的融合在demo中,实时顺畅的语音交流,情感与认知能力自然呈现。免费、低价、快速,tc-pmf的平衡也不用等太久。说是初版的her不为过,也完全可以打开进一步软硬件想象的大门。苹果的合作聊得顺畅吗,非常期待。
https://openai.com/index/hello-gpt-4o/
2
0
0
TonicZhang
7月前
EMO效果确实不错诶
00:14
3
0
0
TonicZhang
7月前
EMO还会开源么
我用Wav2Lip实现了Pika和阿里EMO的唇形同步
3
0
0
TonicZhang
7月前
EMO刚试玩,后台估计就崩了…
2
0
0
TonicZhang
7月前
剪辑产品也慢慢引发更多的关注,围绕着创作工具和创作上手门槛和效果的变化挺值得追踪,这个场景能带来的爆发能量很大
LTX-AI剪辑产品发布 电影新时代还未降临
0
0
0
TonicZhang
8月前
Dreamina测评来了,有些case表现还意外的好。从单秒生成成本来看,Dreamina、Pika和Runway费用分别是0.55元/秒、0.33元/秒、0.21元/秒。Dreamina收费还是偏高的。
国内版“Sora”,字节旗下的Dreamina开启内测
2
0
0