当前位置:首页 > 投融资 > 产业 > 科技前沿 > 正文

Google发布带有AIST++的人工智能,可以利用不同的音乐生成3D舞蹈

来源:人工智能研究所 发布时间: 2021-10-08 17:15:59 编辑:夕歌

导读:在ICCV 2021 上发表的“ AI Choreographer: Music-Conditioned 3D Dance Generation with AIST++ ”中,Google提出了一种 全注意力跨模态Transformer (FACT) 模型可以模仿和理解舞蹈动作,甚至可以增强一个人的编舞能力。

舞蹈是几乎在所有文化中都能找到的通用语言,也是当今许多人用来在当代媒体平台上表达自己的一种方式。通过组合与音乐节拍一致的运动模式来提升跳舞的能力是人类行为的一个基本方面。然而,舞蹈是一种需要练习的艺术形式。事实上,通常需要专业的训练来为舞者配备丰富的舞蹈动作,以创造富有表现力的编舞。虽然这个过程对人们来说很困难,但对于机器学习 (ML) 模型来说更具挑战性,因为该任务需要能够生成具有高运动学复杂性的连续运动,同时捕捉运动与运动之间的非线性关系

在ICCV 2021 上发表的“ AI Choreographer: Music-Conditioned 3D Dance Generation with AIST++ ”中,Google提出了一种 全注意力跨模态Transformer (FACT) 模型可以模仿和理解舞蹈动作,甚至可以增强一个人的编舞能力。与模型一起,Google发布了一个大规模的多模态 3D 舞蹈动作数据集AIST++,其中包含 1408 个序列中 5.2 小时的 3D 舞蹈动作,涵盖 10 种舞蹈类型,每种类型都包括具有已知相机姿势的多视图视频。通过对 AIST++ 的广泛用户研究,Google发现 FACT 模型在定性和定量上都优于最近的最先进方法。

Google提出了一种新颖的全注意力跨模态转换器 (FACT) 网络,该网络可以生成以音乐为条件的逼真 3D 舞蹈动作(右)和新的 3D 舞蹈数据集AIST++(左)。

Google从现有的AIST 舞蹈视频数据库生成建议的 3D 运动数据集——一组带有音乐伴奏的舞蹈视频,但没有任何 3D 信息。AIST 包含 10 种舞蹈流派:Old School(Break、Pop、Lock和Waack)和New School(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz和Ballet Jazz)。虽然它包含舞者的多视图视频,但这些摄像机没有经过校准。

Google根据广泛使用的SMPL 3D 模型使用的参数恢复了相机校准参数和 3D 人体运动。生成的数据库 AIST++ 这是一个大规模的 3D 人类舞蹈动作数据集,其中包含与音乐搭配的各种 3D 动作。每个框架都包含大量注释:

9个相机内参和外参视图;

17 个COCO 格式的2D 和 3D 人体关节位置;

24 个 SMPL 姿势参数以及全局缩放和平移。

动作均匀分布在所有 10 种舞蹈类型中,涵盖每分钟节拍 ( BPM ) 的各种音乐节奏。每种舞蹈类型都包含 85% 的基本动作和 15% 的高级动作(更长的编舞由舞者自由设计)。

AIST++ 数据集还包含多视图同步图像数据,使其可用于其他研究方向,例如 2D/3D 姿态估计。据Google所知,AIST++ 是最大的 3D 人类舞蹈数据集,包含 1408 个序列、30 个主题和 10 个舞蹈流派,并具有基本和高级编舞。

AIST++ 数据集中的 3D 舞蹈序列示例。 左:来自AIST 舞蹈视频数据库的舞蹈视频的三个视图。右:在 3D 网格(顶部)和骨架(底部)中可视化的重建 3D 运动。

因为 AIST 是一个教学数据库,所以它记录了多个舞者按照相同的编舞为不同的音乐以不同的 BPM,这是舞蹈中的常见做法。由于模型需要学习音频和运动之间的一对多映射,因此这在跨模态序列到序列生成中提出了独特的挑战。Google在 AIST++ 上仔细构建了不重叠的训练和测试子集,以确保在子集之间既不共享编排也不共享音乐。

Full Attention Cross-Modal Transformer (FACT) 模型

使用此数据,Google训练 FACT 模型以从音乐生成 3D 舞蹈。该模型首先使用单独的运动和音频转换器对种子运动和音频输入进行编码。然后将嵌入连接起来并发送到跨模态转换器,该转换器学习两种模态之间的对应关系并生成N 个未来的运动序列。然后使用这些序列以自我监督的方式训练模型。所有三个变压器都是端到端共同学习的。在测试时,Google将此模型应用于自回归框架,其中预测的运动作为下一代步骤的输入。因此,FACT 模型能够逐帧生成长距离舞蹈动作。

FACT 网络接收音乐作品 (Y) 和 2 秒的种子运动序列 (X),然后生成与输入音乐相关的长期未来运动。

FACT 涉及三个关键设计选择,这些选择对于从音乐中产生逼真的 3D 舞蹈动作至关重要。

所有转换器都使用全注意掩码,它比典型的因果模型更具表现力,因为内部令牌可以访问所有输入。

Google训练模型来预测当前输入之外的N 个未来,而不仅仅是下一个动作。这鼓励网络更多地关注时间上下文,并有助于防止模型在几个生成步骤后运动冻结或发散。

Google早期融合了两个嵌入(运动和音频),并采用了一个深的 12 层跨模态转换器模块,这对于训练一个真正关注输入音乐的模型至关重要。

Google根据三个指标评估性能

运动质量:Google计算了AIST++ 测试集中的真实舞蹈运动序列与 40 个模型生成的运动序列之间的Frechet 起始距离(FID),每个序列具有 1200 帧(20 秒)。Google将基于几何和动力学特征的 FID 分别表示为 FID g和 FID k。

生成多样性:与之前的工作类似,为了评估模型生成潜水员舞蹈动作的能力,Google计算了 AIST++ 测试集上 40 个生成动作的特征空间中的平均欧几里德距离,再次比较几何特征空间 (Dist g ) 和动力学特征空间 (Dist k )。

四种不同的舞蹈编排(右)使用不同的音乐生成,但相同的两秒种子动作(左)。调节音乐的流派是:Break、Ballet Jazz、Krump 和 Middle Hip-hop。种子运动来自嘻哈舞蹈。

Motion-Music Correlation:由于没有精心设计的指标来衡量输入音乐(音乐节拍)和生成的 3D 运动(运动节拍)之间的相关性,Google提出了一种新的指标,称为节拍对齐分数 (BeatAlign)。

生成的舞蹈动作的运动速度(蓝色曲线)和运动节拍(绿色虚线),以及音乐节拍(橙色虚线)。通过从运动速度曲线中找到局部最小值来提取运动节拍。

定量评估

Google将 FACT 在每个指标上的性能与其他最先进方法的性能进行比较。

与最近的三种最先进的方法(Li等人、Dancenet和Dance Revolution)相比,FACT 模型生成的动作更逼真,与输入音乐的相关性更好,并且在以不同的音乐为条件时更多样化。*请注意,Li等人。生成的运动是不连续的,使得平均运动特征距离异常高。

Google还通过用户研究从感知上评估了运动与音乐的相关性,其中要求每个参与者观看 10 个视频,显示Google的一个结果和一个随机对应的结果,然后选择与音乐更同步的舞者。该研究由 30 名参与者组成,从专业舞者到很少跳舞的人。与每个基线相比,81% 的人更喜欢 FACT 模型输出而不是 Li 等人的输出,71% 的人更喜欢 FACT 而不是 Dancenet,77% 的人更喜欢 Dance Revolution。有趣的是,75% 的参与者更喜欢未配对的 AIST++ 舞蹈动作,而不是 FACT 生成的动作,这并不奇怪,因为原始舞蹈捕捉具有很强的表现力。

定性结果

与DanceNet(左)和Li等先前方法相比。艾尔。(中),使用 FACT 模型生成的 3D 舞蹈(右)更逼真,并且与输入音乐的相关性更好。

使用 FACT 模型生成更多 3D 舞蹈。

Google提出了一个模型,它不仅可以学习音频-运动对应关系,还可以生成以音乐为条件的高质量 3D 运动序列。由于从音乐生成 3D 运动是一个新兴的研究领域,Google希望Google的工作将为未来跨模态音频到 3D 运动生成铺平道路。Google还发布了迄今为止最大的 3D 人类舞蹈数据集AIST++。这个提出的、多视图、多流派、跨模态的3D运动数据集不仅可以帮助研究条件 3D 运动生成研究,还可以帮助人类理解研究。Google将在GitHub 存储库中发布代码,并在此处发布经过训练的模型。

虽然Google的结果显示了这个以音乐为条件的 3D 运动生成问题的有希望的方向,但还有更多的东西需要探索。首先,Google的方法是基于运动学的,Google不考虑舞者和地板之间的物理交互。因此全局平移会导致伪像,例如脚滑动和浮动。其次,Google的模型目前是确定性的。探索如何为每首音乐生成多个逼真的舞蹈是一个令人兴奋的方向。