提琴向海的个人主页

即刻App年轻人的同好社区

下载

App内打开

提琴向海

18关注957被关注0夸夸

BAT AIGC产品经理/
分享行业心得/

提琴向海

5月前

部署了一下腾讯的dit生图模型试了下。结果生成第一张图就惊呆我了😆

12 10

提琴向海

6月前

让Kimi的api助手回答月之暗面和OpenAI哪个更先进，Kimi的回答还是很诚实的，夸夸😋

4 20

提琴向海

6月前

coze的workflow真的很好用，建议每个综合能力强一些的pm都去试试

互联网小牛马: dify内测了两周的workflow今天终于上云了，coze的api也“恰巧”在今天放出来。这是一个新的信号，代表着： 1.几个人组小团队能做的事儿进一步变多，低代码/无代码能搞定越来越多的场景。 2.很多大中型企业过往一年做的agent架构/rag/搜索引擎，等等工作的价值被逐渐蚕食 3.比中间件堆工程量，谁也堆不过字节这类大企业。大家都想卖水，你能卖的过字节这种大自然的搬运工吗？ 4.竞争又回到了场景，产品，数据，内容，应用层百花齐放可能是H2的一个共识。 5.别卖水了，还是想想怎么真正的淘淘金吧

4 10

提琴向海

7月前

一个在海淀教书的老师跟我说，他们高中学生上课已经要学习用ChatGPT了，只能说海淀的教育真的是遥遥领先啊哈哈哈。但为啥选择的是文心一言呢🤔

38 2011

提琴向海

7月前

最近跟一些一线专门做ai的资深猎头朋友深度聊了聊，分享几个大家可能会感兴趣的关键信息。

1.假设去年大模型招聘热度如果是50分的话，今年上半年是70分，今年下半年会是150分。因为，各家中大厂的基础建设和模型的建设已经完成，会着重发力应用侧，所以业务层招聘的需求会很大。

2目前对于大厂成熟模型部门的算法的招聘需求依然超过其他岗位比如产品等，因为当下算法工程师的经验认知很值钱，比如数据的配比和训练参数的调整，可以让业务少踩很多坑，省下很多实实在在的钱。

3.当前很多公司招的高p都只是为了做个金手铐提前锁定人才，这个是战略层的指标，其实并没有想清楚要做什么，如果这个高p有自己想做的内容和想法，那就是最好。比如说，招一些有agent经验的人才，但其实自己的场景中并不需要用到agent。

4.现在涨幅还挺可观的，接受50%、60%甚至是100%的涨幅。但大多数公司的耐心是2年，如果2年内做不出关键成绩，就会开始manage out。

27 2119

提琴向海

7月前

1.动手胜过一切
在市场上，在岸上看6个月和在水里泡6个月，体感是完全不一样的。你需要的不仅仅是思考的积累，更需要的是在实践中不断学习和进步。每一次的产品迭代，每一次的用户反馈，都是你提升自己的认知宝贵机会。就像是在游戏中不断升级，你的能力和视野都会随之飞跃。

2.认清现实，稳步前行
在追求梦想的路上，我们需要保持清醒的头脑。AI技术的发展有其自身的规律，创业者需要理解这些规律，顺应潮流而不是盲目跟风。就像是在丛林中行走，你需要知道哪里是安全的路径，哪里是陷阱和障碍。

3.从成为“汤姆猫”，到超越“汤姆猫”
当你的产品开始受到市场的认可，你将面临新的选择：是继续在原有的基础上进行优化，还是勇敢地走出舒适区，探索新的领域？超越“汤姆猫”，意味着你要不断创新，不断挑战自己，最终成为巨头。

4.把握AI的脉搏
AI技术的发展就像是一股强大的浪潮，它将推动着你不断前进。Scaling Law作为AI时代的摩尔定律，预示着技术的不断进步和成本的降低。把握这一趋势，就像是乘风破浪，你将能够更快地到达成功的彼岸。

AI应用之路：质疑汤姆猫，成为汤姆猫，超越汤姆猫

8 02

提琴向海

7月前

之前我们CTO说过这么一个理论：人类接收信息带宽最大的器官是眼睛，人类输出信息带宽最大的器官是嘴巴，所以根据第一性原理，AI原生的人机交互范式是人类看着机器屏幕来说出目标指令。

在讨论人机交互（Human-Computer Interaction, HCI）的时候，考虑人类用户的信息的接收和输出能力是大家都会关注的因素。眼睛确实是人类接收信息的主要器官，具有高效的信息接收和处理能力，所以我们可以一目十行，这就是为什么上个时代中图形用户界面（Graphical User Interface, GUI）成为了主流的计算机交互方式。

同样，嘴巴是人类输出信息的一个高效通道，在当前人与人之间的沟通场景中，面对面对话交流的效率永远是效率最高且最普遍的。和图形界面交互需要我们学习和适应不一样，人类天生就擅长通过谈话来交流信息。

所以在大模型时代，随着多项关键AI技术的突破和进步，人机交互的范式可能会被加速发生改变。

1.NLP：随着大语言模型的发展，硬件更能懂用户想要啥。即使是复杂或含糊的表达，也能快速完成用户的需求和指令，腾讯的一项研究已经证明了这个路径是可行的，未来动动嘴就能买一张电影票和买外卖；

2.ASR：上个时代的语音识别不准且仅限于文本，现在的技术不但能识别语音文本内容，还能区分近场（发声距离3m以内）、远场（发声距离3m以外）、声纹（用户的声音特征）、情绪、多人同时发声同步识别等等。这些会直接影响到用户体验的流畅度和自然度，甚至一些历史妥协产物，例如唤醒词（嘿Siri）会消失，无需唤醒直接下达指令。

3.TTS：语音合成的发展历程是从“非人”到“拟人”，再到“超人”的。过去可能TTS只能发出机械的、没有情感的合成声，但是现在TTS技术已经来到了一个超自然拟人的阶段。未来甚至可能会到达一个超过人类的水平，比如生成超过正常人能发出的声线和气口。当前阶段TTS的突破已经出现了一些经验的feature，比如GPT4和豆包的打电话功足以证明人们对语音对话交互的喜爱。

13 46

提琴向海

7月前

最近很多人有个观点是24年是AI应用的爆发年。举出来的理由大都是拿pc互联网，移动互联网去做对比。

但连Sam自己都觉得GPT4完成不了什么现实的工作，所以还是等等GPT5再说吧。

长期主义，少折腾，保持身体健康，等到时机来临再all in。

奥特曼专访：关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切

7 36

提琴向海

7月前

为什么文心一言被豆包超过了？

最近字节豆包的下载量、日活、留存已超文心一言。
但百度的同学一提到这就说豆包的模型不如文心。
当然我是认可模型层面豆包是不如文心的，
那为什么从数据层面上看文心的数据不如豆包呢。

人际沟通有个法则叫麦拉宾55-38-7法则。

人际沟通中他人对你的第一印象主要来源于三个方面：
55%来源于外表、打扮；
38%来源于说话的语气、情绪、口吻；
7%才是说话的内容。

对应到chatbot产品上，则是：
外表=产品交互设计、易用性；
语气=TTS的自然度、情绪、对话文字的口吻；
内容=大模型生成的文字。

不可否认，文心一言的模型确实要比豆包强，
但这也仅仅只占了用户体验7%，
而占用户体验大头的交互设计、TTS、口语化程度却远不如豆包。

因此，百度的同学是不是该反思自己的数据为什么不如别人？
而不是天天把模型当成遮羞布安慰自己没有完全输。

88 3219

提琴向海

8月前

很有意思的观点：弱小而非强大的机器人，才能激发人们的善意，从而跟人建立信任关系。

一个只会放屁的笨蛋机器人，在日本卖疯了

10 20