即刻App年轻人的同好社区
下载
App内打开
四楼
82关注1k被关注8夸夸
信息摄入爱好者
做过媒体
对表达有兴趣没信心
有缘的话会在动态广场碰到我
置顶
四楼
3年前
来都来了,走过路过不要错过:
70
四楼
11:09
Bon Iver发新专了,pitchfork写了乐评。本来我是在网易云shuffle到的,但网易云的链接不好看,才出来google,搜到了pitchfork——确实提供了一些信息增量,这样听音乐的方式是不错嘛

Bon Iver: SABLE, EP

10
四楼
10:17
今年看到最好的仿写:我自不肯休
00
四楼
2天前
年下确实是很有活力很热情,聪明一点就更是加分。但在面对生活大事件时,就算能力特别优秀能帮上忙,心态上也无法理解。

生活经历上的差异,对脑回路对塑造,不是热情和活力能找平的
30
四楼
2天前
四楼
3天前
今天打开电脑时爆发出一声巨大的哀叹:怎么又要攒工分文,到底有什么好写的
01
四楼
5天前
呜呜 真的很热闹的样子,非沪打工人泪目😢
50
四楼
6天前
我的月亮
00
四楼
6天前
单方面宣布没有模型能在我手里活过三轮(吧)

主要由于(该死的)工作需求,自从大模型们卷推理能力之后,经常找不到测试方法——做高考数学?咱也不会啊。
这两天从游法里获得了灵感,捣鼓出了一套终极测试。
创意来自游戏的法则第三季首轮主竞赛的游戏水果商店。这是一套需要不同玩家之间进行博弈和心理战的游戏。每个人对自己手中的水果进行出价,价低者得。
对于模型而言,基本所有方面都可以一次性考察:语义理解、交叉计算、上下文记忆、推理和规划。综艺里更复杂,我简化了一点。具体的assignment和出价,都可以直接编个Python跑一下(顺便测代码能力了)。
目前测过GPT4o,o1preview,Claude,Gemini,kimi,智谱,海螺。这个游戏有一个特点:第一轮一旦出错,后面就不用算了,因而Gemini 智谱 kimi 4o都是第一轮直接挂,海螺白卷。
Claude和o1preview都比较稳,claude两轮里都没有错过,但卡了限额没有测第三轮。o1preview则是能准确改正,但到第三轮最后的总价还是扑街了。苹果上周发的研究报告还是很写实的:离了真题库之后,模型不具备真正意义上的推理计算能力。

最好玩的推理规划这一关没有走到。如果claude第三轮还存活,可以抽掉一个出价,让模型扮演并且给出收益最大化的bid。如果这样还存活,就抽掉两个出价,模型演一个,自己演一个,这是最有意思的地方。

这个游戏本身也很适合人多的时候当桌游玩,如果对自己跟朋友们的感情有信心的话😊
01
四楼
7天前
Power is all about position,但老中男对于享用权力有自己的打开方式:明文规则是瞧不上的,权力就体现在,下位者得通过察言观色,主动自我形塑成让上位者满意的样子。教你做事是在教你做具体的事吗,那是在教你怎么好好服务。
没有哪个四五十岁的老中男能不受这种DNA驱使。我现在理解了,「猜你喜欢」背后是一种非常中式的哲学,张一鸣是真正的文化出海,深不可测。
11
四楼
8天前
总体上我确实是个无趣的人,无趣as in没有时下社交网络里流行的“灵气”,只有一些廿世纪首个十年残存的印辙。在渡过第一阶段的自我探索之后,旧印辙更深,离可爱更远。

当然我也很喜欢那种灵气和机巧,也知道这样的面貌更受欢迎,所以日常里出于社交需求,只能给出一些假装的可爱。被人揭穿的时候我还挺生气的:真当我愿意彩衣娱亲呐,还不是因为大部分人对寡淡和无趣的承受能力,都比自己想象的低。

出来上网,对真诚可以有所期待,但别太走火入魔了。几个菜啊,就喝成这样了。
30