
浙大与阿里联合发布OmniAvatar:音频驱动全身数字人模型震撼登场
导语:浙江大学与阿里巴巴集团近日联合发布了名为OmniAvatar的音频驱动全身数字人模型,该技术能够通过音频输入实时生成逼真的全身数字人动画,为数字人交互领域带来重大突破。新闻概述
OmniAvatar是由浙江大学计算机科学与技术学院与阿里巴巴达摩院共同研发的创新技术。该模型能够仅通过音频输入,实时生成与之匹配的全身数字人动画,包括面部表情、头部姿态、上肢动作和下半身动作。这一技术突破了传统数字人模型需要复杂动作捕捉设备的限制,大大降低了数字人内容创作的门槛。据悉,该研究成果已在国际顶级学术会议上发表,并获得了业界广泛关注。
详细内容
OmniAvatar采用了先进的深度学习技术,通过大规模音频-视频数据训练,建立了音频信号与人体动作之间的复杂映射关系。该模型具有以下技术特点:首先,它能够实现从音频到全身动作的端到端生成,无需中间步骤;其次,模型支持多种风格和情感的表达,可以根据音频内容自动调整数字人的表现风格;第三,生成的动作自然流畅,符合人体运动学规律,避免了传统方法中常见的动作僵硬问题。
研究团队表示,OmniAvatar在多个公开数据集上进行了测试,结果显示其在动作自然度、音频-动作同步性等指标上均优于现有技术。此外,该模型还支持个性化定制,可以根据不同用户的需求调整数字人的外观、动作风格等特征。
影响分析
OmniAvatar的发布将对多个行业产生深远影响。在娱乐产业,该技术可大幅降低虚拟主播、数字偶像等内容创作的成本和周期;在教育领域,它可以用于创建更生动的虚拟教师,提升在线教学体验;在客户服务方面,基于该技术的数字客服能够提供更自然、更具表现力的交互体验。
业内专家认为,OmniAvatar代表了音频驱动数字人技术的最新进展,其全身动作生成能力解决了当前数字人交互中"有声无动"或"动而不全"的问题,为人机交互带来了新的可能性。
未来展望
研究团队表示,未来将进一步优化OmniAvatar的性能,提高其在复杂场景下的适应能力。同时,团队也在探索将该技术与大语言模型结合,打造能够进行自然对话并表现出相应肢体动作的智能数字人。
随着元宇宙概念的兴起和数字人应用场景的不断拓展,OmniAvatar有望成为连接现实与虚拟世界的重要技术桥梁,为各行各业提供更高效、更自然的数字人解决方案。
相关链接
- 浙江大学计算机科学与技术学院官网:www.cs.zju.edu.cn
- 阿里巴巴达摩院官网:damo.alibaba.com
- OmniAvatar项目论文:[论文链接]