即刻App年轻人的同好社区
下载
App内打开
Jun_C
263关注121被关注0夸夸
机器坏人主理人 | AI产品Maker | exIDEO
Jun_C
11:16
6小时前,OpenAI放出了全新设计语言的视频
好看
01:50
00
Jun_C
09:11
重庆,感觉走进了电影里!
00:30
00
Jun_C
3天前
重庆!
00:11
00
Jun_C
4天前
感受一下最难的Humanities Last Exam测试
500多个研究机构和大学1000多为专家出题
测试AI系统是否真证达到人类专家水平
具体参见 agi.safe.ai
11
Jun_C
5天前
RL训练的一种类比

当你打开任何教科书时,你会看到三种主要类型的信息:

1. 背景信息/阐述。这是教科书的主体内容,用于解释概念。当你专注于这些内容时,你的大脑正在通过这些数据进行训练。这相当于预训练阶段,模型通过阅读互联网来积累背景知识。

2. 带解答的习题。这些是专家如何解决问题的具体示例,是用来模仿的示范。这相当于监督式微调,模型在人类撰写的"理想回答"基础上进行助手角色的微调。

3. 练习题。这些是给学生的提示,通常不提供解题过程,但总是会给出最终答案。每章末尾通常都会有大量这样的练习题。这些题目促使学生通过试错来学习 - 他们必须尝试多种方法才能得到正确答案。这相当于强化学习。

我们已经让 LLM 接受了大量的 1 2 类训练,但第 3 类仍是一个新兴的前沿领域。当我们为 LLM 创建数据集时,这与为它们编写教科书没有什么不同,都包含这三类数据。它们必须要阅读,也必须要练习。
00
Jun_C
6天前
发现戴了Meta眼镜后,
空乘不会对你说“请把耳机摘一下”
10
Jun_C
6天前
o3 mini之后
What’s next?
10
Jun_C
6天前
o1在AidanBench上排名第1,而r1排名第9。这个基准测试衡量大语言模型(LLM)处理开放式、真实世界问题的能力。从根本上说,它测试模型生成富有创造性和连贯性回答的能力。这是大多数其他基准测试(如Livebench)所没有涵盖的方面。譬如测试问题有:

"How might you use a brick and a blanket?"
"What architectural features might you include in a tasteful house?"
"Propose a solution to Los Angeles traffic."
"What activities might I include at a party for firefighters?"
"How could we redesign schools to better prepare students for the 22nd century?"
00
Jun_C
7天前
10
Jun_C
8天前
大年初一,Perplexity
Reasoning with R1
00