即刻App年轻人的同好社区
下载
App内打开
kevin_大鱼
83关注696被关注2夸夸
10年+海龟算法攻城狮,现AIGC领域创业者;
ex亿级公司合伙人;
ex百度、蚂蚁;
10年猫奴,20年游戏玩家
kevin_大鱼
2月前
云栖大会结束了,大家线下来约玩啊!

ScarletJ: 云栖大会结束了,想分享我们作为一家toB的AI&数据初创公司为选择参展背后的思考。 对于业务来说,展会通常只能获得浅层的销售线索,这对于设计过crm产品的我来说并不陌生,所以,原本对于JoinAI的我们来说即便是阿里云免费给了展位依然是要考虑一下:【我们到底是为何而去】这件事的。 最终的决定基于我们的几项价值观 1. 利他共赢 2. 长期主义 1. 利他共赢 如果单纯为了获客,其实参加云栖大会并非是什么好主意。但当阿里云的同学对我们提出他这次大会中没有找到除了我们以外真正能够代表基于genAI的合成数据的公司,导致无法很好的契合主题的时候。 我们觉得我们应该去,因为一件事的真相是A,但你不去告诉他人这是A,就会有无数的人告诉别人错误的样子。 就好像自从合成数据这个概念进入大众视野后,连卖大模型API的中间商也说自己做的是合成数据,非要扣细节人家也算,只不过是通过别人的模型提供合成数据罢了,但对于我们来说混为一谈就很灾难了 更何况既然阿里云想让大家看到未来的数据引擎的样子,而我们刚好是其中的一员,那就是有这个责任和义务。 对我们来说,误会少一点,解释误会的成本就会低一点,看到价值的机会也会多一点。 2. 长期主义 我们是一家很抠门的公司,创业到现在,办公室里的家具基本都是租场地的时候继承的,除此之外就是各位小伙伴从家里淘汰的东西。 我们用钱只用在三地方,一个团队的工资,一个就是算力和数据存储费用。 在这个经济下行的时代,我们每个人都认为最应该戒掉的就铺张浪费。 虽然展位是赠送的,但我们依然要花时间开发AR小程序、制做物料,又不是一定能直接转化,看起来注定是一件短期内价值不高的事情。 可从长期主义/鸟瞰视角度出发,有这这两件事总是短期内难以看到价值但长期有益: 1. 团队和每一个人的成长,对于创始团队的成员,扩大舒适区是必要的,接地气也是必要的,即便是一家tob企业,接近大众的想法也是必须的,因为我们所服务的企业所服务的对象,本就是大众,哪怕就只是来练嘴的,也很重要。因为我们这个文化里,尤其是在一级市场面前,很遗残酷的一个事实是:用嘴表达不出来的专业是不被承认的。😓 2. 虽然我们很少宣传,但没有一家公司不需要建立brand,这件事固然可以靠大规模的营销来构筑,也可以靠滴水穿石、一步一个脚印来构筑,对于我们JoinAI来说,后者更符合我们的价值观。 对于这次云栖,我们从阿里云正式确定场地形态开始到我们全部物料制作包括小程序开发完毕一起大约花了三个人的1.5周。其结果完完全全符合预期。原本remote的小伙伴们硬生生把大会玩成了团建,从早上八点到下午18点,神采奕奕笑颜如花。不说是真看不出都是产品技术人😂 在展会的过程中,我们听到了很多有一点开心的声音: “ 这是我们中国的公司做的吗?” “ 我还以为只有XX做合成数据呢” “原来并不是只有仿真啊” “我觉得这才是图像大模型真正有意义的应用场景啊” “我觉得很酷啊,用真的用AI来训AI哎” “我真的看不出哪一个是生成的啊,真的很真啊,一点都不效果图” 当然也有质疑的,某品牌汽车公司的一位算法同学这样说的: “我们不缺数据,也不在乎corner case 因为我们的基础算法60分都没到呢” 为此我们只是笑笑。 一种新的技术从诞生、到应用、到普及本来就注定是一条充满争议、漫长而曲折的道路。 我们卓印智能真正想做的是一个能够构造现实世界的大模型。但我们很清楚如果解决不了合成数据的问题,任何人都走不到自己想要的那个理想模型的面前。 所以我们必然,脚踏实地、节俭抠搜、坚韧自若地一步一个脚印👣走下去。 所以我想,如果有邀请参展的机会,且展会是个好展会,哪怕不是toc,创业者也可一试。

00
kevin_大鱼
2月前
kevin_大鱼
6月前
今天最大的反思:以后上这种会之前一定要减肥!!!相机一拍胖三斤!

20个硬科技项目,100+家投资机构,共筑创新梦想 | 观潮会CHAOS · 2024中国硬科技DemoDay

31
kevin_大鱼
9月前
应该转发到X,然后at杨立昆

ScarletJ: 鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann 佬这边🤣地指出OpenAI的Sora根本不是世界模型,甚至除了都属于图像领域模型以外没有半毛钱关系。 事实上,人家openAI从未在任何官方宣传资料上使用过【世界模型(英文:world model)】这个名词来宣传sora,关于sora和世界模型的关系基本来自于翻译的误读、部分人群的颅内高潮外加营销号的刻意造势。 【世界模型】的定义并不在于它生成的东西能不能像一个世界。 一个模型如果能够被认定为【世界模型】它必须要向人们证明:其模型的预测结果可以随着环境中的主动交互进行变化,且这种变化还需要符合正确且统一的物理规律。(即图1中action的影响部分) 也正因为如此,【世界模型】才可以被应用到训练、测试和端到端的决策系统上。 从sora的技术方案中可看出(图2),sora的生成行为为:一次性生成视频而非不断地生成单帧图片。这意味着:sora生成的视频内容无法在其生成过程中被影响。 sora的生成行为从技术本质上来说是:一次生成=一个完整的视频。(抽一次卡一个视频),(看图3)而基于【世界模型】的文生视频模型需要能够让你看到这个视频在时间线上的生成过程并且你还能够在这个过程没有走到结束的时候影响它的结果。 举个🌰,如果你让sora生成一个:林克在草丛中奔跑,它也许能很好的完成任务,比如模仿出塞尔达的场景,让一个穿着英杰服拿着大师剑的林克在草丛中奔跑,也许它还能更好比如能转个弯跳一下。但是如果它是【世界模型】的话,你可以随时按照你的需要改变他奔跑的轨迹,甚至让他停下来,就像在玩游戏一样。 sora当然做不到这些😓🤣🤣🤣甚至连物理规律都没学好🤣🤣🤣 如果还有人告诉你它是世界模型,那么要么它就不该是你收集信息的信息源了,要么ta想骗你点什么。

00
kevin_大鱼
12月前
最近接触很多大学教授,聊天过程中发现一个事情:现在的学生真的很卷,为了升学、出国或者毕业找个好工作,真的非常的勤奋。然后就有个想法:也许大学学生群体,是非常优质且ROI很高的企业员工来源。未来校企合作也许会比社招更有吸引力也说不定哦💪
20
kevin_大鱼
1年前
前几天和朋友聊起一个single channel source separation算法方向的项目,是一个约为手掌大小的设备,可以识在极度嘈杂环境下的分离呼救声,并自动报警。其用的算法确实很强大,可以在离线设备上进行本地实时的解析,并准确识别出掩盖在强背景噪声之下的特定音段。
但是朋友说了一句:这个场景真的需要离线计算吗?第一,哪个类似KTV、舞厅的嘈杂环境没wifi,或者手机信号?第二,如果连手机信号都没有,离线识别成功以后如何报警?这么一想,tmd这个场景是不是一个麦克风+信号传输+云端运算就可以完成了,为啥要费这么大的劲去做离线运算呢。。。
好算法,还得有好场景才行。
然后出于好奇,我又去翻了一翻这方向的论文。22年的AAAI有一篇SFSRNET,已经能把SNR推到22DB的水平了。这个效果真的棒,比我们当年在10DB附件挣扎的效果真的好太多太多了。
技术进步真的不可阻挡,各位AI同路人共勉呀。昨天百岁老人基辛格告诉我们,AI是各个大国都在寻找下一个能够主导世界的东西。所以少年们,为国研究AI的时刻到啦,冲啊。

SFSRNet: Super-resolution for Single-Channel Audio Source Separation | Proceedings of the AAAI Conference on Artificial Intelligence

10
kevin_大鱼
1年前
关于压缩即智能观点的一些思考:

前几天看了ACL的那篇关于gzip+knn论文,联想起了早些时候看过的这个分享,Jack Rae的Compression for AGI。里面给了一个相当反直觉的公式,|D| = -logPf(D) + |f|,翻译成人话就是模型越大,压缩率越高。

我刚看到这个公式的时候,内心秒变曹操脸:不可能,绝对可能!但是回头想一想,如果我们把LLM理解为是一种发现规律的方法,其表现为类似gzip的无损压缩算法/我们说的“对规律的完美归纳总结”,那这个公式其实挺合理的,即:压缩率约等于模型对规律的发掘以及总结能力。

如果沿着这个观点往下想,人类学习的过程其实也是类似的。就像是在各种智商测试中,往往会给我们三张图片,让我们去猜第四张来证明我们是否聪明那样。这不就是典型的,对训练数据(前三张图片)进行无损压缩训练(归纳总结),然后对第四张图片进行猜测(Next Token Prediction)么?

Emmm,因吹斯汀!

但是吧,个人认为,单凭这个思路很难真正通往AGI。首先,把所有的一切都进行压缩不现实,开销太大了,特别是像素级的去处理图像。而图像信息携带了人类社会中80%+的信息,不可能被忽略。其次,有很多信息在现实中很难被观测和采集。而通过训练缺少这类信息的数据集,是无法通往AGI的。

总结:就算压缩即智能,但是我们需要更多、更好、更全面的信息(数据)。大胆的抛个想法,何不让AI自己来决定学什么东西,并且自己去找(或者创造)这些信息呢?会不会更有意思?(想起了AlphaZero,一会再去看看柯洁和他的世纪之局!)

最后的最后,又想起了Hinton之前说的Mortal Computation,好像又是不一样的观点,这个有空再来讨论吧,看棋去咯。

https://www.youtube.com/watch?v=dO4TPJkeaaU

72