即刻App
年轻人的同好社区
下载
App内打开
校招人-社招魂
407
关注
38
被关注
0
夸夸
产品运营向前冲!
置顶
校招人-社招魂
1年前
求助:目前在做小程序,想模仿instafest,
www.instafest.app
需要获得像网易云等平台的api,得到用户的听歌记录,但是官方的弄不到,前端开发也没试出来,请问即友们还有啥办法,或建议吗?
6
2
1
校招人-社招魂
18天前
ai歌单我们也在做,对比豆包app上效果最好的,并且具体的实现还猜不出来,歌曲名可能有纯llm生成的,有去汽水音乐里搜索的,btw听说小米这里用的也是豆包的大模型能力~
南淮说书人: 戴了几天ola friend,佩戴体验整体不错,戴几个小时耳朵也不觉得夹,同时佩戴眼镜也不影响,作为开放式耳机算是体验舒适。唯一的问题是戴一会儿就觉得有点松动,担心会掉下来,一扶又容易误触暂停和播放。 至于它主打的一个陪伴在耳边的AI朋友,语音确实自然流畅,有停顿,有掩饰尴尬的笑声,接近真人交流。 周末旅游戴着出门,走着或者骑车在路上,都很容易随时随地提问。比起掏出手机,打开App,点到对应的功能页面,再开始打字,这种轻松张口提问就有回应的交互方式确实拉进了距离。除了在人多喧闹的地方收音容易被别人的声音打断,其他地方使用还算方便。 我重点试了问导航,问周边店铺和景点推荐。在咖啡店点咖啡,看见卡片上的介绍,随口问咖啡豆日晒和水洗的区别,康普茶的历史,这些信息豆包大模型的回答都有模有样,简短有趣,偶尔还有“那个景点超好逛”,“那你可算来对地方了”类似的点评,配合元气满满的女声,情绪价值给满了。但店铺信息质量比起大众点评还是差太多,实时效不够,还容易幻觉成其他店。 走在路上,随口提问“这个玄武门有什么历史”,“附近有什么值得一吃的小店”,都有不错的回答。 没有问题的时候,就让它帮我推荐歌曲,“我现在走在夜间的湖畔,有什么适合此时氛围的音乐”,“我想听英文歌”,“五月天阿信和一个日本乐队合唱过一首歌,你帮我找找”,这些它的回答都不错,甚至有时候有“你也是五迷老师吗”这样让人惊喜的回答,比小米汽车车载大模型点歌交互聪明太多。 用下来觉得比较适合送喜欢独自出门旅行的朋友,期待一波降价。
0
0
0
校招人-社招魂
1月前
www.ycombinator.com
yc24的一个团队,就是结合多模态大模型来做视频管理的
评论尸: 有没有什么好用的个人视频素材管理方案啊? 我来具体说下困难: 我有运动相机,也有 Pocket 2,但始终没用起来,甚至手机录像功能也很少用。没用起来的原因是,我发现即便是不做视频博主,普通人拍完视频也要做较重的剪辑。 比如,你出去旅游,拍了一堆视频片段。如果你在回来之后把它剪成一个近乎能发到 B 站的视频,那你大概率这辈子都不会再浏览这些视频素材了。因为过一段时间,你连每段视频在哪里拍的,为什么拍都难以判断了。 典型的智能相册功能,对视频的支持也比较弱,比如我能在 Google Photos 里搜索拍过的所有草原照片,但包含草原的视频不在其列。 这进一步让普通人拍的视频变成了只占硬盘空间,没有任何用的废片。 这个问题,现在有什么我不知道的解决方案吗?或者说,有没有哪位开发者在做这方面的需求吗? 我觉得这个市场需求可能还是有一些的。
2
0
0
校招人-社招魂
2月前
以色列电影黎巴嫩的海报,看到挺感慨的;之前抖音上还刷到一个电报转载的视频,是俄乌战争中,士兵开坦克穿梭于向日葵间,联想到电报的老板也被抓了…和平难得啊
兔撕鸡大老爷: 黎巴嫩真主党拆解了几个没爆炸的BP机(因长期断电没在事件当天爆炸),它与寻常BP机不一样,内置了1-3克PETN高爆炸药,以及数百颗金属小球(爆炸时能产生片伤和极强穿透力)。 以色列(摩萨德)当天发出一段特定频率的无线电信号,使BP器提示收到“讯息”,约两秒后发生爆炸,致使携带者/围观者观看BP机时,被金属小球射穿眼球。 黎巴嫩眼科专家埃利亚斯·瓦拉克:“我一晚上摘除的坏死眼球,数量比我之前整个职业生涯摘除的还要多。” 该国有很多医生像瓦拉克一样24小时连续工作。 外科医生埃利亚斯·贾尔德:“我治疗的大多数人都是年轻男性,但也治疗了一些妇女和儿童。伤者大多看起来像平民。来到医院的伤者大多受了重伤,很多人已经双目失明”。 9.17-9.18日,黎巴嫩BP机、对讲机、民用电子设备连环爆炸事件,已造成37人死亡,4000多人受伤,比死亡更可怕的是,许多人直接从青壮劳动力变成其家庭中的累赘。 Ps:信源来自al Jazeera(卡塔尔的半岛电视台)驻黎巴嫩记者,实际装载炸药克数为1-3克,材料为PETN高爆炸药,电池包附近有金属球。英文图示的是20格令,约1.3克,BP机整体是100克。
0
0
0
校招人-社招魂
2月前
今天发抖音,选bgm时就在想,未来可以结合多模态大模型来理解视频,搭配音乐甚至生成音乐;现在推荐算法对视频本身的理解不够。
可以用spotify的api,或等suno这些开放api了,再结合gemini等多模态的api来做个Demo
成荫: 推荐系统如何结合大模型,这个话题很有意思。尝试从产品角度回答一下。没想到写起来刹不住车,有上千字,全贴在这里,大家自取~ 推荐可以理解为一种匹配,把内容和用户匹配起来。在匹配时候,要理解双方分别是什么。即:内容理解和用户理解。 不要小瞧内容理解,特别是在视频领域。文本内容的理解相对容易,因为信息都是文字,可以相对容易的刻画一篇文章在讲什么。但在视频领域,内容理解一下就复杂起来,因为信息更多存在于图面中。现在短视频平台上很多视频,只有背景音乐,没有文字描述,怎么把这个视频的信息刻画出来,是一件有挑战的事情。比如一个视频是小姐姐在跳舞,这个小姐姐穿了什么在跳舞,在跳什么舞,跳的好不好,在哪里跳,这些要素都会显著影响一个视频的特点和受众。视频的类型又很多,颜值、音乐、舞蹈、历史、财经、科技、科普、法律、医疗等等等等,每类内容,都是生活里的一个缩影。因为我们只生活在自己小世界的局部,我们可能意识不到,大千世界各种要素叠加在一起,量级至少是百万级的。 我们知道,当前推荐系统非常依赖于协同过滤,它的主要思想是把和你有相似偏好的人的内容,推荐给你。这种相似偏好,纯粹是内容ID上的相似度,不是特征上的相似度。不知道大家有没有思考过,为什么推荐系统走了这样一条有点绕的路径?它为什么不直接把你喜欢的内容推荐给你?答案其实是,它不知道这个内容是什么,它不知道前面例子的视频是小姐姐在随便扭扭还是认真在跳拉丁舞。或许你会疑惑,即使没有大模型,现在的小模型也能识别小姐姐、小姐姐衣服的类型、跳的舞种。没错,现在的模型已经能在单点任务上做到80分了。但前提是,需要大量的人工标注样本,喂给小模型,小模型才能做到。但小模型最大的问题是,无法泛化,所以每个特征都要单独做标注、训练。上百个特征的人工标注成本,对抖音这样的平台还能承担,但百万级呢,成本和效率是完全打不住的。 好,接着大模型这个明星闪耀出场了。大模型带来的最大变量是,它有了通用性,这种通用在于,它像一个百科全书,知道人生活的方方面面。大模型能看出来,“这个视频里,有个人,这个人是个小姐姐,小姐姐长着黄棕色头发,蓝色眼睛,看着像是个欧洲人,她穿着一条黄色长裙,在跳拉丁舞,她在一个广场上,广场后面是巴黎圣母院。天空很蓝,漂浮着棉花一样的白云。过了一会儿,慢慢有路人围观过来....” 。前面这段简单的描述,对人来说一眼便知,看起来稀疏平常,但这里面的很多要素,要很多小模型才能做到,现在仅仅一个大模型,有很大希望就能做到了。这种改变是巨大的,它会把内容理解提升到一个崭新的高度。 如果模型能充分地理解内容,现在推荐的交互形态,很可能会发生变化。一个可能的变化是,你可以自定义你的推荐流。比如你很关注AI,你可以定义告诉平台,“我想看AI方面的最新进展,只要相对可靠真实的,不要标题党”。自定义频道,它可以让你从被动接受推荐系统模糊猜测、众多干扰信息中的推荐流中解放出来,只看你关心的内容。至于自定义频道和当前的搜索、推荐、关注的关系,有机会再展开讨论。 接着到下一个关键点上:用户理解。“微信调 LLM API 读你实时聊天记录判断你目前的关注点给你做相关内容的推荐”,这个想法很好,在不考虑隐私问题的前提下。这里我们先不考虑隐私问题,单纯从产品角度讨论下。用户理解可以拆分成两个层面:一是人的社会经历和性格特质,二是人对经历的反应,这其中又包含长期偏好和短期反应。 先说第一点,社会经历比较好理解,比如我是一个女性(那么我很可能对女性向内容感兴趣),在北京工作,在互联网公司上班,是一名基层打工人(我可能对互联网打工、社畜生活内容感兴趣),我有个男朋友,正在谈婚论嫁(我可能对两性关系内容感兴趣)等等。性格特质也无需多言,由先天基因和后天经历共同塑造。这两个对于现在的推荐系统来讲,都是非常难以明确刻画的,因为缺少信息。 第二大点,人对经历的反应,是人在经历过种种事情后,形成的生活态度、情绪反应,分为短期和长期。长期偏好,包括喜欢什么样的对象、买东西时追求性价比还是享受高消费的快感、喜欢什么运动等等。短期反应,比如今天要聊绩效了,内心很忐忑或者很有信心。在内容领域,用户对内容的偏好,既有长期偏好也有短期兴趣,可以通过与推荐系统的交互逐渐反映出来。但存在一个问题是,只有逐渐的调教推荐系统,系统才会知道。 这里的问题点在于,当用户对某类内容开始感兴趣时,一定是先在生活中发生了什么变化,经历了什么事情。比如我找男友时,我需要的是怎么找到合适的男友这类内容,等我找到男友时,我就不需要前面的内容了,我开始想看如何和对象融洽相处这样的内容。所以微信聊天记录非常有用,因为只要是生活中的大事,一般肯定会在微信里跟朋友提到,而且是发生之后很快会跟朋友分享。微信聊天记录人经历了什么事情,对这些事情有什么反应,是一个人「生活变化的缩影」。注意这里,关键是“变化”。 然而,我们知道,我们并不会什么事都在微信里说。在海边看到大海,在林间听到鸟鸣,在餐厅尝完一顿美食,在花园里闻花香,在家里抚摸宠物猫猫...我们所看到的、听到的、尝到的、闻到的、触摸到的,要比微信里提到的事情丰富太多。按照「记录经历」的角度推演,有什么能记录这一切吗?之前很多的VR智能眼镜,算是提供了一种实时记录 看和听 的途径,还没有把味觉、嗅觉、触觉,补充完整。除了这些经历,还有我们的反应。如果我们用「语言」表达了自己的感受,那一个能方便佩戴、实时记录五官感受和语言的设备,几乎就知道我们的全部了。就相当于有一个“Her”,跟着我们一起经历着一切。 还没有结束。我们都曾经历无言的时刻,那些语言无法表达了我们感受的时刻。人的大脑有860亿个神经元,平均每个神经元有3000个连接,时时刻刻都在产生无数脑电波。人类的语言把这些脑电波凝练表达了出来,实现了人与人之间基本的沟通。我们有时候会不知道自己在想什么,其实更多是在说:不知道该怎么用语言表达所想的。用计算机术语来讲,可能「语言是人类脑电波的Transformer」。真正地理解一个人,应该是去理解它的脑电波。如何理解脑电波,很重要的方式是用脑机接口了。我第一次想到这里的时候,不得不佩服马斯克重金投入脑机接口公司,又是一个多么从第一性原理出发的决定。 好了,这次到这里就结束了。没想到开写之后,竟牵扯出这么多内容。关于推荐系统,如果你还有什么话题想讨论,欢迎在评论区留言!最近打算输出一下,也算是对做推荐产品以来收获的总结。
0
0
0
校招人-社招魂
4月前
可惜开幕式没有daft punk,听说是婉拒了邀请
Harder, Better, Faster, Stronger
0
0
0
校招人-社招魂
4月前
哈哈,这幕听说是致敬新浪潮电影
兔撕鸡大老爷: 实在是LvGBT奥运会开幕式…
0
0
0
校招人-社招魂
5月前
@此间ZY
老师看看哈哈,图训新玩法+1,猜动漫图
歸藏: Reddit 上的一个玩法,用 SD 实时重绘谷歌街景的场景。 把世界上任何地方的地标变成动漫风格。 用的 canny controlNet 模型,toyxyz的网络摄像头 ComfyUI插件捕捉屏幕内容。 原贴地址:https://www.reddit.com/r/StableDiffusion/comments/1dkg8aq/google_maps_to_anime_just_started_learning_sd/
0
0
0
校招人-社招魂
7月前
0
0
0
校招人-社招魂
7月前
演出的VJ行业,很多视频都是LOOP循环的,同样利好SORA
@Anti-General
老师
歸藏: 之前很多电音节的类似背景动画是 3D 做的,jboogx 用 Animatediff 为 Coachella 音乐节做了类似的动画。 他还分享了自己使用的工作流,利用两个 IPAdapter 和一个 Alpha 遮罩来分离主体和背景,这样你就可以完全控制这两个部分,而且它们不会相互绑定。 工作流下载:https://civitai.com/models/350524/jboogx-and-the-machine-learners-animatelcm-subject-and-background-isolation-via-invertmask-vid2vid-highresfix
1
1
0
校招人-社招魂
8月前
寒气来了~
1
0
0