即刻App年轻人的同好社区
下载
App内打开
Stefy.eth
272关注4k被关注7夸夸
🍅東京驻在|返厂维修中
👣米兰/东京/上海/北京
⚽️Interista/Mourinho
🗡金庸/101空降师
置顶
Stefy.eth
18天前
等球的时候,第一次用手机剪了一个vlog
这是我在日本的120天
2880小时
10368000秒

“明年保了寿命,谁说一定有伴侣和东京”
01:24
162
Stefy.eth
2天前
🤖️今天的hacker news第2个热点非常有意思:)值得大家一看:

LMSYS Org这个组织最近开放了Chatbot 领域的“混聊大内斗”,并每周都公开排行榜。

⚔️竞技模式:他们把所有授予他们API接口的模型放到一块,每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言,而不是预定义的对话集合。在每次对话结束后,旁观的用户、开发者等等可以对两个参与对话的模型进行投票,以表达他们对这两个模型表现的偏好。

投票是匿名的,每个用户只能对同一对话投一次票。投票结果被用来计算 Elo 评分,Elo 评分越高的模型被认为是更强大的语言模型。

图一:4月24日至5月24日之间的投票结果,投票人数27k(清华大学的开放式双语对话语言模型排16,这个排行榜仅限于授权给这个团队API权限的模型里)。

图二:所有非平局 A B 战斗中,模型 A 获胜比例

—————————
排行榜的下半部分团队着重提了他们重点观察的Google PaLM 2模型,我总结了一下大概这么几个点:

1)总体情况还可:在过去的两周里,PaLM 2 与其他 16 个聊天机器人进行了约 1.8k 次匿名对战,目前在排行榜上排名第 6。除了 Vicuna-13B(Vicuna Elo 分数比 PaLM 2 12 分,即 Vicuna 1054 vs. PaLM 2 1042,根据 ELO 分数来看几乎是虚拟平局)之外,它在所有开源聊天机器人中排名最高。

2)遇强则强,遇弱则弱,好似某个红衣球队,名字我不提:PaLM 2 在与前 4 名选手(即 GPT-4、Claude-v1、ChatGPT、Claude-instant-v1)对战时表现更好,与 Vicuna 的对战中赢得了 53% 的比赛,但在与实力较弱的选手对战时表现较差。

3)觉悟较高:PaLM 2 似乎受到的监管比其他模型更为严格。在许多用户对话中,当用户提问 PaLM 2 不确定或不适合回答的问题时,PaLM 2 比其他模型更可能选择不回应。下面这个数据made my day:在所有成对对战中,PaLM 2 由于拒绝回答而输掉了 20.9% 的对战,并且由于拒绝回答而输给不属于前四名(GPT-4,Claude-v1,ChatGPT,Claude-instant-v1)的聊天机器人 30.8% 的对战。

4)孩子还在成长中:目前提供的 PaLM 2 的多语言能力有限,且提供的 PaLM 2 的推理能力不尽如人意
(团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的 Elo 分数,如图 3 所示。结果在非英语排行榜上,PaLM 2 排名第 16)

——————————
团队补充的观察

1)Small Moders更具有竞争力:团队观察到一些较小的模型,包括 vicuna-7B mpt-7b-chat,在排行榜上取得了高分。与参数翻倍的较大模型相比,这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。

而对于更复杂的推理任务或智力问答上,较大的模型仍可能表现更好。因此,在预训练和微调阶段策划时,高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。
514
Stefy.eth
3天前
现在蹲在马路边,整个人都在发抖。

喜欢了10年的球员刚刚不仅给我的post点了赞,
还私信特意表示了感谢,告诉我他仍记得7年前米兰基地外的那次偶然的对谈。

开心到已经可以心安理得接受主队是欧冠亚军。
171
Stefy.eth
3天前
🍞在福冈巡演的几日,The Roots是我的午间食堂:

比起风特别大的ama dacotan,我更喜欢这家由一对夫妻经营的社区面包店-The Roots。店主极其热衷于探索各式各样的配菜调理面包,导致每次进店总能发现新惊喜,随即犹豫不决今日的to buy list,但又怕影响后面的顾客于是总是买满满一袋回家塞冰柜。

店里的传统欧包占比都比较少,大部分是调理与吐司和果子面包。每周二是这家社区店的贝果日。

-------
前段时间身体不佳,推迟了日本喜欢店铺/故事系列的播客上线。喜欢的店铺和故事实在太多,也有些实在是太心尖上舍不得放出,挑挑拣拣总算有了一个目录,目前已经录到一半了,大家等等我呀!🙇
53
Stefy.eth
4天前
看到米哈游的文章,又想到了21年年初clubhouse最开始蔓延开来的一一个夜晚:有攥着手机打着哈欠却一刻也舍不得睡觉的兴奋;也有捧着已经火烫的手机想要群发给周遭朋友一起来共享房间的急迫;还有感受到双方温柔和坦诚时红了眼的百感交集。

第一个房间,也是对聊刚刚开始的那个夜晚,我听了整整一个通宵。那一晚,这里的很多伙伴也应该和我同在这个值得被打上聚光灯的现场。2年多过去了,我还记得微博上对这个房间的一些评价:

“70年来最平和真诚的交流”
“超出预期的乌托邦”
“每一个从里边出来的人都洋溢着文明的笑容”

这些夜晚是三年里头为数不多觉得“互联网时刻真的太好了”的一些时刻。
65
Stefy.eth
5天前
最近丧的时刻实在太多了,在尽力做一些能为大家带来笑颜的事儿。

于是和信介(日本第14回CD大賞受赏者)前几天敲定了时间,我们大概会在这个秋天(10月)一起来到上海,在随机的某个公园里免费为上海的朋友带来一场音乐会(正如视频中的演绎一般)。已经拟了一串想要邀请前来坐在草坪vip席的即友名单。

希望能在秋天的上海街头,遇到大家!
02:56
152
Stefy.eth
5天前
在有众多手把手教学你如何训练自己AI歌手帖子的即刻,贴上孙燕姿的回应,可能远比微博合适的多:

“讽刺的是,人类无法超越它已指日可待。没有人可以接触到如此大量的信息并做出恰当的抉择或犯下恰当的错误(OK,也许我领先一步了)。这种新技术将能够大量炮制每个人所需的一切。无论你多么小众、多么反常或者精神多么错乱,都可能有专门为你创建的独特内容。你并不特别,你已经是可预测的,而且不幸你也是可定制的。

此刻,我觉得自己就像一个在吃爆米花、坐在电影院最好的位置上的人。(顺便说一句:当前情况下,很可能没有任何技术能预测出作为我本人是什么感受,直到这篇文章出现在网络上)。就像在看那部改变了我们很多人生活的电影《瞬息全宇宙》,只不过在这种情况下,我不认为爱的理念可以挽救局面。

在这无边无际的存在之海中,凡事皆有可能,凡事皆无所谓,我认为思想纯净、做自己,已然足够。”
1533
Stefy.eth
6天前
📰最近在冲刺7月的日语考,相较以往缩短了新闻阅读时间,调整后的习惯:

来源:Buzzing News,会关注的几个领域如下(快速扫描,精读部分感兴趣内容)

1)Hacker News热门(前两排)
2)国外新闻头条+全球突发(Top 10)
3)Reddit 热门+Reddit热门提问(看到Top 10)
4)精神粮食(扫描标题,感兴趣内容放到有较长碎片时间时阅读)
5)中国话题(感兴趣深度)
6)Product Hunt(扫一眼标题,感兴趣传送门进入)

彭博社、经济学人基本扫一眼

来源2: Ground News

1)特别碎片化时间(地铁、喝咖啡)会在Ground APP里扫描一眼地图(图一)看看世界各地发生什么,是我最近很喜欢的一个产品
2)头条新闻(精)
3)Local新闻(浅读)
4)错过的盲点新闻(精)

-----------------------
Buzzing News传送门:www.buzzing.cc
Ground News写过比较详细的:m.okjike.com
15
Stefy.eth
8天前
在上海的一个个线下空间和City Walk中和很多新老朋友开启了多个small talk。这些连结大多不被限制不被拘束不被定义,和东京的流动方式截然不同。能见到大家真好!

上海,下次见啦!
110
Stefy.eth
9天前
上海Bella Napoli的提拉米苏是我在国内目前吃过唯一能和锡耶纳(起源地)媲美的。可以一试朋友们。
83
Stefy.eth
9天前
一些割裂感
51