👁️ 视界大开：Meta SAM 2 重新解码未知世界

即刻App年轻人的同好社区

下载

Szhans

7月前

👁️ 视界大开：Meta SAM 2 重新解码未知世界

Meta AI 去年推出开源 SAM 后引发了业界热烈关注和广泛应用 [1]。SAM 代表Segment Anthing Model ，一种极为灵活的基于Prompt 对视觉对象进行分割的模型。

SAM 2 不仅是技术升级，更是视觉AI的范式转变。它将专业级图像分割能力进一步民主化，使得复杂的视觉分析任务变得触手可及，应用领域极为广泛。

（首发于即刻，未经授权不可转载）

🎬 从模型能力和应用场景看，关键特色在于：

- 通用性。 SAM 2 可以对任何视频或图像中的任何对象进行分割，即使是它以前从未见过的对象和视觉域也不例外，从而实现了无需定制适配的各种场景拓展性。

- 首先最基本的应用场景是视频编辑和特效。因为智能分割带来了对象的自动识别和跟踪，意味着你可针对颗粒级对象进行特效应用。它也支持和其他大模型联动和协作。

- 流畅性。SAM 2的流式架构允许它逐帧处理视频，使其特别适合流式处理。这种影响是深远的，不仅简化视频创作的剪辑流程，在自动驾驶、科学研究和机器人等领域都将拥有强大分析能力。

- 技术民主化。在SAM 诞生之前，为特定图像任务创建精确的对象分割模型需要技术专家进行高度专业化的工作，他们要访问人工智能训练基础设施和大量精心注释的域内数据。例如，从显微镜捕获的移动的细胞图像、医学领域的皮肤癌检测等。

- SAM 将彻底改变了这些领域的工作模式，现在通过几个点击和提示词技术将其应用于各种真实世界的图像分割场景，而且开箱即用。
- 在混合现实方面，各种创新体验也很快会被释放。例如，在实时直播的体育赛事中选择对象，跟踪具体人物并监测相关数据。

🔗 现在就可以直观感受SAM 2 ，官网地址：

sam2.metademolab.com （在Demo视频点几下鼠标,就能发现其神奇魔力）

🌊 SAM 2 正在解锁视觉智能的无限可能

- 过去一年中，SAM 在很多学科领域产生了深刻影响、医学影像、细胞分析、环保研究、海洋科学的珊瑚礁分析、用于救灾的卫星图像分析等。

- 以海洋废弃物研究为例，通过研究1868幅声纳图像（声波在水中传播来探测海底和物体的秽土图像）的海洋废弃物数据集，解决噪声大、分辨率低和形状复杂等挑战（见评论区）。 SAM 一代在提示和微调后，DICE 评估指标从7.24%提升到40.27%分子；在完全微调模型下在分数高达88%。[2]

- 以分析细胞成像实验研究为例，细胞分割是生物学图像分析的关键任务，它能帮助科学家们从复杂的细胞图像中提取有用的信息。现有方法只能在特定领域出色，无法泛化。通过CellSAM和提示工程，可以引导模型生成精确的细胞掩膜，处理各种不同类型的细胞图像，而不局限于特定领域。这将获得对关键现象的机制性见解，例如细菌细胞壁的机制行为、细胞信号通路中的信息传递、免疫细胞行为的异质性以及发育的形态动力学等，对生物医药意义重大。

- SAM 之所以能做到广泛的价值，是因为模型能够学习图像中物体的一般概念。当然，在视频中持续稳定识别视频中的物体会更加复杂，难以分割——它要求了解实体在空间和时间的相对位置，以应对物体本身的变形、遮挡、光照变化以及其他因素都会在帧与帧之间发生的剧烈变化。

- SAM 2 在架构上突破了一代的设计，SAM 2 可以通过点击（正或负）、边界框或掩码来定义给定帧中的对象范围。轻量级掩码解码器会接收当前帧的图像嵌入和编码提示，以输出该帧的分割掩码。在视频设置中，SAM 2 将此掩码预测传播到所有视频帧，生成一个小掩码。然后，可在任何后续帧中迭代添加提示，以完善小掩码预测。并通过引入记忆机制和模块来准确预测遮罩。

- 抛开技术细节来说， SAM 2 统一了图像和视频，将图像视为单帧视频，大幅提升精确度，并在视频对象基准上全面表现出色。性能也快了6倍，使用 SAM 2 进行推理时，每秒约有 44 帧，感觉极具实时性。

- 最重要的一点，从数据集到模型， SAM 2 是开源的，在Apache 2.0 许可下共享代码和模型权重，任何人都可以使用构建自己的需要。

未来它将如何帮助更多人运用 AI 重新发现未知世界？这个问题令人兴奋不已。

📖 注释和参考：

[1] Meta 首次推出SAM m.okjike.com

[2] 当SAM 遇上声纳图像 arxiv.org

[3] CellSAM：细胞分割的基础模型 www.researchgate.net

01:20

19 16

来自圈子

AI探索站

86041人已经加入