Google 重磅： PaLM-E 来了，562B、多模态，

即刻App年轻人的同好社区

下载

Szhans

2年前

Google 重磅： PaLM-E 来了，562B、多模态，打破生物和非生物界限的一大步!

受到New Bing 和ChatGPT强劲冲击的谷歌，今天放出了重磅消息。

老规矩，这则爆炸新闻依然照顾非专业人士的阅读体验。如果你还没有了解过多模态，这个核心概念。
（强烈推荐优先阅读，这里一篇极简的科普《像大脑一样学习的多模态》m.okjike.com）

🆚 先快速对比讨论， PaLM-E 和 ChatGPT 有什么异同：

- PaLM-E 是5620亿参数的嵌入式语言模型，而ChatGPT是1750亿参数的通用语言模型。
- PaLM-E 可以处理多模态数据，例如声音、图像、文本等，而ChatGPT主要处理文本数据。
- PaLM-E 能够在边缘设备（手机、摄像头等不依赖云）上高效运行，而ChatGPT需要云端计算资源。

🫣 多模态为什么很神奇？

我对多模态的思想给出一个参考的比喻，即它是机器学习进一步地模拟大脑，希望机器像生物一样拥有多感官来整合对世界的认知。

具体来说，PaLM-E 是输入端的数据训练有了维度上的突破，它可以把连续性的、多维度的观察数据（状态、视觉还有各种探测器）注入模型。全称是 Pathways Lauguage Model，其中E 代表Embody（具身认知）。

因此， Palm- E 是一个多模态的、 5620 亿参数、通用、具身认知的通才——横跨机器人、视觉和语言的LLM。

🤖 第一案例：家用机器人的厨房场景

（在随附视频 25秒，左上位置，你看到了厨房的机器人）

你直接想象，你把它买回家！让它自己也通过视觉和语音等方式捕捉来完善整个环境和物件信息，完全个性化、定制化的学习。

任务是这样：帮我把抽屉里的薯片拿过来！

- 首先，它自己先走抽屉附近
- 然后，打开了最上面第一个抽屉
- 接着把绿色包装的薯片取了出来。
- 它戴着薯片走向你面前。（ Fin）

🟩 第二个案例：认知学习，排列组合不同形状和颜色物件

（在随附视频 25秒，右上位置，桌面工作站）

任务是这样：根据颜色分类，并将其放置桌角。

步骤就不描述了，你很容易想象成为一个万能分类能手，有点像儿童早期认知世界那样的话，通过不断探索各式各样的物件的属性，慢慢成为人类社会的一份子。

我们想象家庭和工业场景的有认知学习的对话机器人，清洁助手也好、厨房助手、衣柜整理小助手也好，无处不在。

官方🔗 有更多视频和论文说明，推荐观赏。palm-e.github.io

相信你已经大致感受到了 PaLM-E 的神奇、无限想象空间。可以说， PaLM-E 诞生，机器不仅有了 ChatGPT 的辅助创作和认知学习能力，还有了多维度感官学习的能力，它必将为进一步打破生物和非生物的边界，迈出了一大步。更多消息，持续跟进中。

🌄「重点不在于我们在山坡上攀登到了什么高度，而在于山峰自身正在被那些巨大但不可见的陆块碰撞的力量推得更高。」

00:42

273 46199

来自圈子

AI探索站

86039人已经加入