即刻App
年轻人的同好社区
下载
App内打开
北邻
242
关注
828
被关注
0
夸夸
📚 我好你也好
北邻
1天前
看看海外金融机构(JPM、GS、UBS、MS、Jefferies和BofA)对中国AI代理"Manus"的分析评价。
0
0
0
北邻
4天前
从 DeepSeek 1 的 MoE,到 QwQ-32B ,是不是可以理解为:
人类不能做到通才,一个人在各个领域都是专家,所以要分很多领域的专家。
但是AI不用,一个 AI 就可以是各个领域的专家。
哪一种更intuitive?
3
0
0
北邻
5天前
使用 cursor+claude 3.7 做原型设计
一种是可以简单说什么产品,不展开描述
另一种是可以展开了细说
比如附图这种,空间很大
毕竟进入了全 coding 的领域,可能就差想不到了。
1
0
1
北邻
6天前
生成代码的能力Claude 3.5 已经足够了。
Claude 3.7 的生成能力有提升,但是有限。
看到很多视觉设计图审美提上了不少,这个更多和这方面的训练数据增加,以及奖励规则有关。
ai coding 下一个关键点是有效的长上下文的理解,可以支持更复杂的代码库。
1
0
0
北邻
6天前
Claude 3.7 是混合推理模型
从名字上是符合常识的,类似整个系统1 和系统 2——在一个大脑中。
不过目前 Claude 3.7 还不能自动进行系统 1 和系统 2 的切换。
既然是符合常识的,想做到极致,期待看到 DeepSeek 的效果。
1
0
0
北邻
9天前
重新看 deepseek 过往的论文,最大的感受就是见路不走。
说一个最早的 deepseek llm,复现 llama 过程--与大多数团队不同,deepseek 在摸索路背后的科学, 甚至 scaling law 的公式都自己搞了一遍。
袁进辉: DeepSeek 官方披露大规模部署成本和收益,又一次颠覆了很多人认知。现在很多供应商还做不到这个水平,主要是V3/R1架构和其它主流模型差别太大了,由大量小Expert 组成,导致瞄准其它主流模型结构开发的系统都不再有效,必须按照DeepSeek报告描述的方法才能达到最好的效率,而开发这样的系统难度很高,需要时间,幸好这周DeepSeek五连发已经把主要模块开源出来了,降低了社区复现的难度。这些成果充分体现了DeepSeek团队第一性原理的思考方式和强悍的意志,他们应该是首先是基于某些原因(?)想到了用这样的模型结构,然后发现这样的结构无论是训练还是推理,要做好都有非常大的工程挑战,不过这些问题在他们工程团队来说并不是搞不定的,关键是花那么大力气做完是否有大的收益呢,在最终结果出来前,谁也说不准,他们还是赌了,结果是赌对了。也可能是反过来的,基于系统的出发点设计了这样一个全新的模型结构。
2
0
0
北邻
10天前
deepseek 开源周的内容,甚至超越谷歌当年发表mapreduce,bigtable,集群调度论文的意义。这三个催生了开源 hadoop 的生态,加速了互联网/移动互联网的发展,是大数据的整个根基。
deepseek 的开源直接给出代码,更加彻底。
8
0
0
北邻
12天前
独与天地精神往来
魏亚辉: 人们总倾向于重大的事情去找眼中有经验的人去请教,实际上这可能是最大的误区。跟打仗一样,最重要的转折性判断都是来自于自己的灵性感知,在自己抓到关键因素之前跟人讨论是毫无意义的,并且会泯灭个人的灵光。人是万物之灵长,每个人都有灵光和灵性,正是这个灵光铸造了完全不同的每个人,创造出巨大无比的卓越贡献。关键的判断不能依靠别人,必须依靠自己的直觉,越是重大的事情越是这样。 请教别人在非个人关键时刻是很重要的,可以少走弯路,但属于个人的关键时刻就只有自己的判断才能指向最适合自己的位置,其他的都是弯路或者错路,这也是每个人都不同每个人都精彩的基础原因。
0
0
0
北邻
15天前
有趣
ksze.github.io
1
0
0
北邻
19天前
震惊
没想到开源被用来做这样的用途
4
3
1