即刻App年轻人的同好社区
下载
App内打开
Szhans
2年前
「我花了四年时间画得像拉斐尔一样,但用一生的时间,才能像孩子一样画画。」——毕加索

Meta AI发布全新模型:为原初的想象赋予生命力

即使你没深度接触过认知学、发展心理学和语言学等,亲身多接触过一些儿童绘画,也会意识到儿童绘画具有神奇的活力、多样性和想象力。 常常妙不可言~

而毕加索的传世名句并非空穴来风, 皮亚杰(发展心理学的开山之父)曾提出了Pre-logical (前逻辑)这个概念来表征儿童的直观思维模式(即在语言和抽象思维完善之前, 孩子们使用了基于感觉和知觉进行思考)这反映在他们的想象力爆棚的绘画中,热情洋溢的表达欲里。

皮亚杰层深刻的指出必须以孩子为中心展开认知世界的活动, 鼓励其创造、表达和顺应儿童发展的关键期特性。 这显然是AI 新时代,重新反思教育变革的关键话题。

🎨 简言之, 通过孩子们的绘画, 我们才能真正有机会洞察人类的想象力和创造力的神奇机制。为此Meta AI 开发了一种算法,自动为儿童绘制的人物形象制作动画,对这些描绘中固有的差异具有鲁棒性,使用过程简洁明了,项目开源,人人可以接入。

在以下官方介绍中,你能发现这个模型的重要意义。这些几个关键思想始终贯穿其中: 通过开源,将模型可解释性和数据集,推动各个领域共同研究创造力有关核心命题。

🧒 通过图画分析和理解人类的想象力

Meta 创建了一个人工智能系统研究演示,通过动画轻松地将艺术品带入生活,现在我们将动画代码与近18万张有注释的儿童绘画的新颖数据集一起发布,以帮助所有研究着和创作者进一步创新。据我们所知,这是第一个以这种艺术品为特征的带注释的数据集。

绘画是人们快速捕捉人物、场景或想法的一种几乎普世创造力表现首发。 其他人类观察者来说,绘画的内容或意义往往是明确的,但抽象或非现实的外观会使在现实生活中的物体图像上训练的人工智能模型无法理解。要教人工智能识别某人可能画出的所有不同方式的人像,将需要一个来自新晋艺术家的大型草图数据集。有了我们今天开源的新数据集(在本研究论文中详细描述),研究人员和从业人员可以建立工具,更容易和准确地分析业余绘画的内容。而这可以开启新的数字-物理混合体验,如新形式的讲故事和艺术中更大的可及性。

2021年底发布我们的动画图画演示时,Meta 邀请人们选择加入到一个野外业余图画的数据集中:

来自世界各地的320多万人访问了该网站,总共有670万张图片被上传到该演示。这些图画是由参与者创建、拍摄并以去身份化的方式与Meta分享。然后,人类审查员过滤了人们选择与我们的研究团队分享的图像子集。

在发布非专业绘画数据集之前,我们进行了几级过滤,以确保高水平的质量,并实施了隐私保护措施,这些在我们的研究论文中都有详细描述。

虽然我们的演示只允许一组有限的动作,但动画绘画演示的许多用户提供了反馈,要求提供更多的功能,如多个角色、额外的动作、微笑、眨眼和凝视的线索。带有舞蹈人物的GIF(见上文)是在开放源代码和数据集的基础上为其他创造性和教育性目的进行扩展的一个例子。有了这些资源,其他研究人员可以对我们分析和增强业余绘画的方法进行补充,以扩大原有的演示功能。

人物画的范围和任何人的想象力一样广泛。你如何训练一个模型在这种变化的情况下表现良好?一种方法是使用有注释的图画来训练新模型。然而,这种图纸很难找到训练神经网络所需的数量。另一种方法是合成图纸。这也是有问题的。生成方法需要大量的样本数据来学习,而风格转移方法(例如,创建照片的 "彩色铅笔 "渲染)可能无法捕捉到绘图与照片不同的所有细微差别。此外,以合成方式创建数据可能无法捕捉到在业余绘画的野外照片中实际看到的所有相关的干扰性变化来源,如纸张折痕、被擦掉的线条、光线刺眼和阴影。

我们将从一张人物画中生成动画的任务结构化为一系列的子任务:人物检测、分割、姿势估计和动画。

在有人使用我们的演示上传图画后,他们可以选择调整检测到的边界框、分割面具和关节位置,并选择一个动作来制作动画。

我们的系统结合了在真实世界物体的照片上训练的再利用的计算机视觉模型。由于绘画领域,包括儿童的绘画,在外观上有很大的不同,我们使用业余绘画数据集对模型进行了微调。

有了这个数据集和动画代码,我们相信业余绘画领域能够以其表现力和可获得的可能性激发新一代的创作者。我们希望它们能成为其他有兴趣探索其工作的潜在应用的研究人员的资产。

📖 我们是如何收集绘画数据集的

对于那些针对任何使用纸笔画的工具或算法的人工智能社区来说,这个数据集因其规模和野生性质而与众不同:它反映了现实世界的条件(例如,模糊、硬阴影、皱褶的表面和背景元素),而这些在数字画和高分辨率扫描中是不存在的。除了图像之外,该数据集还包括边界框的注释、分割面具和关节位置--这些特征可以为模型提供更多的方法来识别或动画化绘制的人物。

以下是我们如何建立数据集的。作为演示的一部分,人们可以选择让我们保留他们上传的图像和注释,以包括在我们正在进行的研究中。作为研究人员,我们尊重个人对分享他们的数据持谨慎态度的权利,而且我们希望人们能够以任何一种方式将他们的画做成动画。数据收集过程的设计也考虑到了安全问题。这样做,我们的目的是尽可能地减少数据被滥用的可能性。

我们还对提交的图片进行了过滤,以确保它们显示的是业余绘画,并符合我们负责任地收集研究数据的标准。我们分两步进行了这种细化。首先,我们使用了一种自我监督的聚类方法来识别和过滤域外的图像,如真实人物的照片。其次,一个签约机构对剩余的图像进行人工审查,以确保它们符合我们的标准。审查人员被要求检查图像是否是纸上的自由画,至少有一个全身的人形。他们还检查以确保图像不包含受知识产权保护的字符或任何私人或粗俗的内容。由于审查人员主要是讲英语的人,含有非英语单词的图片被排除在外,理由是它们可能含有不适当的内容。

💡 激发创造力,有更多的方法来分析和动画化图纸

按照我们的开放科学方法,我们分享动画管道代码和这个数据集,希望其他从业者--包括人工智能研究人员和更广泛的研究社区成员--能对它感兴趣。

绘画是一种自然的、富有表现力的方式,世界上大多数人都可以使用。我们希望我们的工作将使其他研究人员更容易探索专门为使用人工智能补充人类创造力而定制的工具和技术。
论文: A Method for Animating Children's Drawings of the Human Figure arxiv.org
Github 开源地址:github.com (伴随“一种儿童人物图画动画的方法”的代码)
互动 Demo: sketch.metademolab.com (要使用该演示,需要上传你孩子的绘画图像。为了使用演示,你不需要一个Facebook账户,Meta 不收集任何可以识别你或你孩子的信息)

后记:

每次介绍Meta AI的优质模型, 都替他们捏把汗,大公司病挺重,阐述方式和细节都不Sexy ;不过,根据我有限的观察, Meta AI 对心理学和认知学这块理解深远的,对开源和业界的贡献不容小觑。 在上次 SAM (分割图像的物件)模型发布中, 以及在之前的LLaMA 全面开源的动作中都能看到, 它们将大量研究和投入转换成了业界整体的进步力量。

相信它不仅能在诸神之战中占有一席之地,其对学术界和商业可持续发展都有深远推动;从这个意义上说,我们值得增加一些理性乐观的理由: AI 世界大概率是非零和、去中心的、小数据化的。
00:09
520

来自圈子

圈子图片

AI探索站

77896人已经加入