米兰·(milan)中国官方网站-北大刘利斌团队斩获 SIGGRAPH Asia 2022 最佳论文奖:用语音和文字驱动数字人打手势
一个由语音及文字构成的新的跨模态天生体系。
作者 | 黄楠
编纂 | 陈彩娴
2022 年 12 月 6 日,SIGGRAPH Asia 2022 年夜会官方宣布了最好论文等多个奖项。此中,最好论文奖由北京年夜学刘利斌团队的论文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”得到,论文第一作者为北京年夜学 2020 级研究生敖腾隆。
论文链接:https://arxiv.org/pdf/2210.01448.pdf于一样平常糊口中,咱们的语言举动时常会陪同着一些非语言的动作举行:于公然演讲时利用手势让内容更有传染力,一个忽然降临的好动静使人情不自禁地拍手,堕入覃思时的往返走动及紧握的拳头......这些非语言的动作像是“调味剂”,有时可以帮忙形象化咱们口头所说的一件事物,强化语言所通报的立场,让人类的表达才会越发活泼且高效。
于这项事情中,刘利斌团队提出了一个新的由语音及文字来驱动3D上半身人体模子举行手势演出的跨模态天生体系,经由过程输入一段时序同步的语音及文字,体系就能主动天生与之对于应的上半身手势。

图 1:体系概览图
一段手势动作由单个手势单位(gesture unit)构成,此中,每一个手势单位可按照语调点、例如夸大重音等,被划分为单个手势阶段(gesture phase),每一个手势阶段就代表了一小段特定的动作,好比抬手、摆臂等,于语言学中,这些手势阶段凡是被称为手势词(gesture lexeme)。因为一样平常交流中的手势词数量有限,将这些手势词举行调集后,便可得到一个手势辞书(gesture lexicon)。
特定演讲者于讲述历程中利用的手势词,就是手势辞书中的子集,每一个手势词上还有会叠加稍微的变更(variation),研究职员经由过程假定此类表动没法直接由输入揣度,将其编码为一些隐变量(latent variable),这些代表稍微变更隐变量的手势气势派头编码(gesture style code)。演讲者气势派头差别,是以手势气势派头编码一般跟演讲者的气势派头相干,会遭到演讲者的调子等低条理音频特性影响。

图 2:体系所利用的字符模子
对于此,该体系依据手势相干的语言学研究理论,从韵律及语义两个维度出发,对于语音文字及手势之间的瓜葛举行建模,从而包管天生的手势动作既韵律匹配又具有合理的语义。
基在上述理论,刘利斌团队梳理了一个条理化布局:需要检测节拍点(beat),划分脱手势词,每一个手势词素质上已经具有明确寄义,由输入语音的高条理语义特性决议;而基在每一个手势词的变更,即手势气势派头编码,应该与输入语音的低条理音频特性,例如调子、音强等因素相干。
是以于体系中,研究职员起首需要分散出差别条理的音频特性,由高条理音频特性决议手势词,低条理音频特性决议手势气势派头编码。当揣度出整段音频对于应的手势词及手势气势派头编码序列后,依照检测出的节拍,研究团队会显式地将上述手势块“拼接”起来,确保天生的手势韵律及谐,同时明确的手势词及手势气势派头编码包管了天生手势的语义准确性。

图 3:第一举动右手高度、第二举动手速、第三举动手半径的样式编纂成果,右边图表显示编纂输入(平线)及输出运动的响应值,箱形图显示输出的统计数据
体系由数据(Data)模块、练习(Training)模块及揣度(Inference)模块三个部门构成。
此中, 数据模块的使命是对于语音举行预处置惩罚,按照节奏将语音支解成尺度化块,并从这些块中提掏出语音特性。这次研究中共利用了三个数据集,别离是 Trinity 数据集、TED 数据集、以和为这项事情所网络的中文数据集。
练习模块会从尺度化运动块中进修手势辞汇,并练习天生器合成手势序列,傍边要思量的前提就包括了手势辞书、气势派头代码以和先前运动块及相邻语音块的特性。随后的推理模块中,会利用注释器将语音特性转换为手势辞书及气势派头代码,并利用进修天生器来猜测将来的手势。

图 4:借助体系从 Trinity Gesture 数据集的四个样本语音摘录中合成的手势的定性成果,于说“好”时会做出一个隐喻的手势,当于捍卫时会做出一个标记性的手势,碰到 thing 及 selling 等词会做出节奏手势,当说到“我”时会呈现唆使手势
为了验证该研究是否可以实现“高条理音频特性决议偏语义的手势词,低条理音频特性则影响当前手势词内的稍微变更”,刘利斌团队经由过程找到一类相似语义的高条理音频特性,其对于应的文本为 many、quite a few、lots of、much、and more 等,就这种高条理音频特性的每一个音频特性对于应天生的手势序列,并对于这些手势序列编码得手势辞书空间举行可视化(图 4)。

图 5:手势辞书空间动作特性向量的 t-SNE 可视化成果
可以发明,手势动作序列仅呈现于特定的手势词内,傍边所呈现的手势词对于应的动作,图 5(a)中的红、橙及紫色所对于应的骨骼动作),简直为“many、lots of、 etc”的意思表征。与之相对于应的是,当对于同类的低条理音频特性举行可视化后,如图 5(b)可见,属在该低条理音频特性类的动作序列再也不集中在特定几类,而分离到整个手势辞书空间内,由此可以验证“高条理音频特性决议偏语义的手势词”。

图 6:手势辞书空间动作特性向量的 t-SNE 可视化成果
当不插手手势气势派头编码 z 时,如图 6(a)所示,所天生的手势密集地集中于当前手势词的类中央,在真值漫衍存于较年夜差距。当插手手势气势派头编码后,如图 6(c)所示,所天生的手势跟真值漫衍靠近,这申明手势气势派头编码已经乐成建模了手势词的类内稍微变更。由此可以看到,手势气势派头编码重要由低条理音频特性揣度获得,从而证实“低条理音频特性影响当前手势词内的稍微变更”。
除了了上述成果外,该体系还有具有如下几项特征:
跨语言天生,纵然面临数据集没有的语言,也能天生韵律及谐的手势;长音频天生,可以或许面临较长的输入音频序列
手势气势派头编纂,经由过程插手节制旌旗灯号可以节制天生手势的气势派头
无声状况下只管即便削减过剩的手势动作
输入一些特定音乐可鲁棒地捕获其节拍并随之“摆动”

刘利斌,北京年夜学人工智能研究院前沿计较研究中央助理传授,2009年本科卒业在清华年夜学数理基础科学专业,后转向计较机科学与技能专业,2014年得到清华年夜学博士学位,曾经于加拿年夜不列颠哥伦比亚年夜学和美国迪士尼研究院举行博士后研究,以后插手 DeepMotion Inc. 任首席科学家。刘利斌传授的重要研究标的目的是计较机图形学、物理仿真、运动节制以和相干的优化节制、呆板进修、加强进修等范畴,曾经屡次担当图形学重要国际集会如 SIGGRAPH、PacificGraphics、Eurographics 等的论文步伐委员。
参考链接:1.https://sa2022.siggraph.org/en/2.https://github.com/Aubrey-ao/HumanBehaviorAnimation
更多内容,点击下方存眷:

未经「AI科技评论」授权,严禁以任何方式于网页、论坛、社区举行转载!
公家号转载请先于「AI科技评论」后台留言取患上授权,转载时需标注来历并插入本公家号手刺。
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





