很棒的说话头
欢迎来到Talking Head Generation的真棒清单!这个精心策划的资源集合着重于“说话的头部生成”的有趣领域,这是计算机图形和人工智能领域,致力于创建栩栩如生的人类头和面孔的数字娱乐。这些“说话的头”可用于各种应用程序,从现实的视频内容和虚拟现实到高级通信工具及其他。该列表旨在收集关键的研究论文,最先进的算法,开创性的GitHub存储库,教育视频,鼓舞人心的博客等。无论您是AI研究人员,计算机图形专业人士还是AI爱好者,此列表都是您潜入Talking Head Generation世界的一站式目的地。快乐探索!
目录
- Github项目
- 文章和博客
- 在线课程
- 研究论文
- 工具和软件
- 幻灯片和演示文稿
Github项目
- Audiogpt:理解和产生言语,音乐,声音和说话的头。 ?
- SADTALKER:学习现实的3D运动系数,用于程式化音频驱动的单图像对话动画。 ??
- 薄板拼接 – 移动模型:图像动画的薄板样条运动模型。 ?️
- Geneface:广义和高保真3D会说话的脸合成; ICLR 2023;官方代码。 ?
- CVPR2022-DAGAN:CVPR2022纸的官方代码:用于交谈的头部视频的深度感知的对抗网络。 ?
- SD-WAV2LIP-UHQ:WAV2PLIP UHQ扩展自动。 ?
- Text2Video:ICASSP 2022:“ Text2Video:带有语音词典的文本驱动的说话头视频合成”。 ?
- OTAVATAR:这是Otavatar的官方存储库:具有可控的三平面渲染的一声说话脸[CVPR2023]。 ??
- AUDIO2HEAD:纸的代码“ Audio2head:Audio驱动的一声说话头一代,自然头运动”在IJCAI 2021会议上。
- IP_LAP:CVPR2023 Talking Face实施,用于具有里程碑意义和外观先验的具有里程碑意义的说话面部。 ?
- Wunjo AI:综合和克隆语音,英语,俄语和中文,实时语音识别,深板面和嘴唇动画,与一张照片交换,通过文本提示,细分和修饰进行更改视频。开源,本地和免费。 ?
- LIHQ:长期,高质量的合成扬声器(AI Avatar/ AI主持人)。 ?️?
- 共同语音动作生成:自由形式的体运动从语音产生。 ?
- 带有潜在姿势描述的神经头部重演:作者实施了“具有潜在姿势描述符的神经头部重演”(CVPR 2020)论文。 ??
- NED:NED的Pytorch实施(CVPR 2022)。它可以用来根据情感标签或参考方式在视频中操纵演员的面部情绪。 ???
- WACV23_TSNET:我们的WACV23纸的Pytorch实现“跨认可视频运动重新定位具有关节转换和合成”。 ?
- ICCV2023-MCNET:我们的ICCV2023工作的官方代码:隐性身份表示通话视频生成的条件记忆补偿网络。 ??
- Speech2Video:ACCV 2020的代码“ Speech2 Video合成,具有3D骨架正则化和表现力的身体姿势”。 ??
- StyleLipsync:“ Stylelipsync:基于样式的个性化唇部同步视频生成”的官方Pytorch实现。 ??
文章和博客
- 如何使用深度学习(代码教程)创建虚假的会说话的头视频:一篇文章,说明使用深度学习技巧生成虚假的说话头视频的过程。
- Audiogpt:理解和生成语音,音乐,声音:介绍Audiogpt的研究论文,Audiogpt是一种多式联运AI系统,可以处理复杂的音频信息,并理解和生成语音,音乐,声音和说话的头部内容。
- 基于文本的谈话头视频:一本学术出版物,讨论了使用基于文本的说明的说话头视频的编辑。
- 对现实的神经通话头的对抗性学习:一份研究论文,介绍了一种能够使用对抗性培训技术从一个人的几个图像视图中学习个性化的说话头模型的系统。
- Discohead:音频和视频驱动的会说话的头一代:描述迪斯科黑头的论文,这种方法可以在不监督的情况下删除和控制交谈的头部姿势和面部表情。
- Microsoft的3D照片现实说话的头:博客文章展示了微软的3D Talking Head Technology,该技术结合了逼真的视频与3D网格模型。
- 深度感知的会说话的生成对抗网络:一份研究论文,提出了一种基于GAN的方法,该方法利用密集的3D面部几何形状生成现实而准确的说话头视频。
- 带有节奏的头脑动作的说话发电:本文提出了一种用自然头部动作生成逼真的说话头视频的方法,从而解决了在合并自然头运动的同时生成唇部同步视频的挑战。所提出的方法利用了3D引用的生成网络以及混合嵌入模块和非线性组成模块,从而带来了具有自然头部运动的可控和光真实的说话头视频。
- 学习的空间表示,用于几次说话头的综合:本文通过将主体的表示形式分配到其空间和风格的组件中,引入了一种新颖的说话头综合方法。提出的方法预测了目标图像的密集空间布局,并将其用于合成目标框架,从而改善了对源图像中受试者身份的保留。
- 有效的情感适应音频驱动的说话头:本文提出了对音频驱动的说话头(EAT)方法的情感适应,该方法将情感 – 敏捷的说话头模型转化为可控制的情感模型,以一种具有成本效益和高效的方式转变为可控制的模型。该方法利用轻巧的适应来实现精确和现实的情感控制,从而在广泛使用的基准上实现了最先进的性能。
- 高保真和自由控制的会说话的主视频生成:本文解决了当前方法在生成高质量和可控制的说话头视频方面面临的挑战。它引入了一种新型模型,该模型利用自我监督的学习地标和基于3D面部模型的地标以及运动吸引的多尺度特征对齐模块对运动进行建模。提出的方法会产生高保真的说话头视频,并自由控制头姿势和表达。
- 隐性身份表示条件记忆补偿:本文提出了一个全球面部表示空间和一个新颖的隐性身份表示条件记忆补偿网络,用于高保真性交谈。该网络模块学习了统一的空间面部元件记忆库,该银行补偿了扭曲的源面部特征,以克服驾驶视频中复杂动作的局限性,从而提高了发电质量。
- AVATAR指纹用于授权使用综合说话头:本文重点介绍Avatar指纹识别的任务,该任务验证了呈现的说话头视频的可信度。它提出了一种嵌入,将一个身份的运动特征分组在一起,从而可以使用驱动表达式的特定个人的外观来识别合成视频。
- 2D Talking Head动画的样式转移:本文介绍了一种具有可学习风格参考的说话头动画的方法。它利用面部地标运动,样式图案结构和风格吸引的图像生成器,根据单个输入图像和音频流重建2D通话的头动画。该方法比最新的最新方法获得了拍摄逼真和忠实2D动画的最新方法。
- 视频的一击自由视图神经头综合综合:本文提出了一种神经通话视频综合模型,该模型学会使用包含目标人员外观的源图像和动作驱动视频来合成视频。该模型可实现高视觉质量和带宽效率,在基准数据集上优于竞争方法。
- 渐进式散开的表示良好的表示:本文提出了一种单发的说话头合成方法,该方法可以通过对唇部运动,眼睛凝视和眨眼,头部姿势和情感表达的控制进行控制。它利用渐进式的表示的学习策略来隔离每个运动因子,从而允许细粒度控制和高质量的语音和唇部动作同步。
- VideoRetalking:基于音频的唇部同步谈话头:本文介绍了视频聊天,这是一种根据输入音频编辑真实世界说话头视频的系统。它将编辑任务分解为视频生成,音频驱动的唇部同步和面部增强,最终产生了高质量且唇部同步的输出视频。该系统在不需要用户干预的情况下采用基于学习的方法。
在线课程
- 视频制作:您可以制作简单的说话头视频| Udemy?:此视频制作课程教您如何创建专业和引人入胜的会话视频。
- 完整的会说话的视频制作大师班| Udemy?:通过这项全面而深入的课程深入研究Head Video制作的世界。
- 视频制作 – 廉价说话的头视频 – 业务| Udemy?:学习如何为各种业务沟通需求创建简单有效的会话视频。
- 如何创建会说话的头视频| Udemy?:一门初学者友好的课程,涵盖拍摄和创建会说话的视频的技术性。
研究论文
- 谈话头的注意力:引入“说话头关注”,这是对多头注意的一种变化,可以改善语言建模和理解任务。
- 对现实的神经通话头的几乎没有射击的对抗性学习:展示一个系统,该系统可以从一个人的一些图像视图中产生逼真的说话头模型。
- Makeittalk:说话者意识到的说话头动画:提出一种从单个面部图像中产生表达性说话头的方法,并以音频为唯一的输入。
- Styletalk:具有可控的单一谈话式发电:引入一个框架,用于生成具有多种个性化的口语风格的一声说话的头。
- 扩散:用于广泛化的制作扩散模型:使用潜扩散模型将说话的头部生成作为音频驱动的denoising过程。
- 一声高保真的说话头综合具有变形:提出一种通过采用显式3D结构表示来产生高保真说话头的方法。
- AD-NERF:通话头的音频驱动的神经辐射场:使用神经场景代表网络直接从输入音频网络中直接从输入音频产生高保真的说话头视频。
- 通话头的深度感知的生成对抗网络:引入一种自我监督的几何学学习方法和利用密集的3D面部几何形状,以进行准确的说话头视频。
- 什么包括一个好的话题视频生成?:一项调查:本文提出了一个基准和评估指标,用于说话头视频的生成,并解决了主观评估的局限性。它探讨了所需的特性,例如身份保存,唇部同步,高视频质量和自然运动。
- 基于文本的会说话头视频的编辑:本文提出了一种基于成绩单编辑说话头视频的方法,可以对语音内容进行修改,同时保持无缝的视听流。它利用面部特征的注释和现实视频输出的参数面模型。
- MetaporTrait:具有快速个性化适应性的具有身份的交谈型校长:这项工作介绍了一个具有身份的说话头生成框架,该框架利用密集的地标,以获得准确的几何形状感知流动的流场。它还提出了合成过程中源身份的自适应融合,以及使用元学习进行个性化微调的快速自适应模型。
- 学习动态的面部辐射场,用于几次交谈的脑袋合成:本文引入了动态的面部辐射场(DFRF),用于几个播音头综合,这将具有有限的训练数据的概括为不见了。它条件在2D外观图像上面对辐射场,从而可以灵活地调整到很少的参考图像的新身份。
- Audio2head:通过自然头动作的音频驱动的一声说话一代:这项工作提出了一种音频驱动的说话头方法,该方法可从单个参考图像中产生照片真实的视频。它解决了产生与语音韵律相匹配的自然头部动作的挑战,同时保持大型头部动作的外观。它利用头部姿势预测变量和运动场发生器。
- 有效的情感适应性对音频驱动的说话头综合:本文引入了通过音频驱动的说话头(EAT)方法的情感适应,这将情感 – 敏捷的说话头模型转化为情感控制的模型,通过参数效率调整。它利用从不同角度的适应来实现现实的情感控制。
- 通过概率音频到视觉扩散的说话头产生:本文使用概率方法介绍了一次性音频驱动的说话的头部生成的框架。它概率地生成匹配输入音频的面部运动,同时保持音频唇同步和整体光真实主义。它避免需要其他驱动源以进行控制。
- 视频会议的一击自由视图神经头综合综合:本文提出了一种用于视频会议的神经通话视频综合模型。它利用源图像和驾驶视频来综合说话头视频。它的表现优于基准数据集上的竞争方法,并启用具有高视觉质量和低带宽使用情况的视频会议。
- 讲话者:基于文本的情感和节奏的说话头视频生成:本文介绍了基于文本的说话头视频生成框架,该框架根据上下文情感和语音节奏综合了面部表情和头部动作。它由一个独立的阶段和特定于扬声器的阶段组成,可为不同的个体量身定制的视频综合。
- 2D Talking Head动画的样式转移:本文介绍了一种使用可学习风格参考的说话头动画的方法。它通过提取面部地标运动并结合参考图像中的样式模式来重建基于单个输入图像和音频流的2D动画。
工具和软件
- 卢西亚:开发MPEG-4通话头引擎。
- YEPIC Studio:创建和配音在几分钟内不用昂贵的设备就可以在几分钟内谈论头型视频。 ?
- 梅尔·麦吉(Mel McGee)的TalkBots:一个完整的多浏览器,多平台的Talking Head应用程序,适用于网站或作为头像。
- face3d_chung:创建3D字符的AVATAR头对象,带有单张照片的纹理。 ?
- CrazyTalk:3D头创建和自动化的令人兴奋的功能。 ?
- TTS Avatar免费下载 – SourceForge:Mel McGee的Talkbots是一个完整的多浏览器,多平台的谈话头。 (??)
- Verbatim AI-产品信息,最新更新和评论2023:一种简单而功能强大的API,可与Verbatim AI实时实时生成AI“ Talking Head”视频。在您的聊天机器人中添加兴趣,阴谋和活力! (??)
- 最佳开源基本3D建模软件:包括Talk3D_Chung,一个使用face3d_chung创建的OBJ模型的小示例和Speak3D_Chung_dll,一个用于加载和显示face3d_chung Talking Avatars的DLL。 (?)
- DVDSTYLER /讨论 /帮助:ffmpeg-vbr或内部:说话的头会获得比特率,而在使用DVDStyler时,该比特率不必要地很高。 (?)
- Puffin Web浏览器免费下载 – SourceForge:Mel McGee的Talkebots是一个完整的多浏览器,多平台的谈话头。 (??)
- 12个最佳的AI视频发电机在2023年使用[免费和付费] |产品…:无论您是企业家,小型企业主还是经营大型公司,AI视频生成器都可以使从头开始创建高质量的视频非常容易。 (??)
幻灯片和演示文稿
- (论文评论)对现实的神经通话模型的几乎没有对抗性学习:演示文稿回顾了对现实的神经通话模型的几种对抗性学习。
- Nethania Michelle的角色| PPT:讨论在虚拟会议室的头像中使用3D通话头改进的演示文稿。
- 向您介绍:展示Prezi Video – Prezi:文章提供有关Prezi Video的主要提示。
- 研究演示| PPT:居民研究演示文稿幻灯片甲板。
- 将叙述添加到您的演示文稿中(使用Prezi视频) – Prezi …:了解如何通过Prezi Video在Prezi演示中添加叙述。
Awesome列表的最初版本是在Awesome List Generator的帮助下生成的。这是一个开源Python软件包,它使用GPT模型的功能自动策划并生成与特定主题相关的资源列表的起点。
