专利真人头像卡通视频的制作方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210967666.9 (22)申请日 2022.08.12 (71)申请人深圳市大头兄弟科技有限公司地址 518000 广东省深圳市宝安区西乡街道劳动社区西乡大道西侧海虹工业厂区二期2栋9 ABCDE单位 (72)发明人王红星　 (74)专利代理机构深圳市特讯知识产权代理事务所(普通合伙) 44653 专利代理师孟智广 (51)Int.Cl. H04N 5/262(2006.01) H04N 5/265(2006.01) H04N 21/44(2011.01) H04N 21/439(2011.01)G10L 21/10(2013.01) G10L 21/18(2013.01) G10L 15/26(2006.01) G06V 40/16(2022.01) G06V 10/80(2022.01) (54)发明名称真人头像卡通视频的制作方法、装置、设备及存储介质 (57)摘要本发明提供了一种真人头像卡通视频的制作方法、装置、设备及存储介质，方法包括获取真人头像素材集；从真人头像素材集选择待合成的真人头像；获取待制作的真人头像卡通视频的音频素材；基于音频素材获得真人头像的口型图片集；通过口型图片集和真人头像制作得到动态口型真人头像集；获取待制作的真人头像卡通视频的身体图片集；使用头像身体融合算法将动态口型真人头像集和身体图片集进行逐帧融合，得到真人头像卡通视频帧集；将真人头像卡通视频帧集和音频素材结合制得真人头像卡通视频。本发明的方法用户无需专业的视频编辑知识即可制作出真人头像嘴型随音频的一起联动的动画视频，降低了视频制作难度，满足用户快速制作趣味性视频的要求。权利要求书2页说明书9页附图2页 CN 115474009 A 2022.12.13 CN 115474009 A 1.一种真人头像卡通视频的制作方法，其特征在于，包括以下步骤：获取真人头像素材集；从所述真人头像素材集选择待合成的真人头像；获取待制作的真人头像卡通视频的音频素材；基于所述音频素材获得所述真人头像的口型图片集；通过所述口型图片集和所述真人头像制作得到动态口型真人头像集；获取待制作的所述真人头像卡通视频的身体图片集；使用头像身体融合算法将所述动态口型真人头像集和所述身体图片集进行逐帧融合，得到真人头像卡通视频帧集；将所述真人头像卡通视频帧集和所述音频素材结合，制得所述真人头像卡通视频。 2.根据权利要求1所述的真人头像卡通视频的制作方法，其特征在于，所述基于所述音频素材获得所述真人头像的口型图片集包括：对所述音频素材进行语音识别，获得语音文字；基于所述语音文字获取得到音素集；从预设的口型图片库中获得所述音素集对应的口型图片集。 3.根据权利要求1所述的真人头像卡通视频的制作方法，其特征在于，所述通过所述口型图片集和所述真人头像制作得到动态口型真人头像集包括：对所述真人头像进行嘴部对象识别，获得所述真人头像的嘴部轮廓；基于所述嘴部轮廓得到嘴部的中心点位置；通过包围所述嘴部轮廓的矩形框架获得所述嘴部轮廓的尺寸；基于所述嘴部轮廓的尺寸调整所述口型图片集中每张口型图片的尺寸；复制若干张所述真人头像，通过中心点追踪的方式将所述口型图片集中每张所述口型图片贴合分别到不同的所述真人头像上，制作得到所述动态口型真人头像集。 4.根据权利要求1所述的真人头像卡通视频的制作方法，其特征在于，所述使用头像身体融合算法将所述动态口型真人头像集和所述身体图片集进行逐帧融合，得到真人头像卡通视频帧集包括：每次从所述动态口型真人头像集中提取一张动态口型真人头像，以及从所述身体图片集中提取出一张身体图片；获取所述身体图片中预先标记出的下巴定位点；使所述动态口型真人头像的头像轮廓的最低点与所述下巴定位点重合；基于所述动态口型真人头像的双眼中心点获得所述动态口型真人头像的对称线；基于所述对称线与竖直方向之间的夹角判断所述动态口型真人头像是否倾斜；若倾斜，则将所述动态口型真人头像整体绕所述动态口型真人头像的中心点旋转所述夹角，以使所述对称线与竖直方向之间的夹角归零。 5.根据权利要求4所述的真人头像卡通视频的制作方法，其特征在于，所述若倾斜，则将所述动态口型真人头像整体绕所述下巴定位点旋转所述夹角，以使所述对称线与竖直方向之间的夹角归零之后包括：对所述身体图片中的胳膊部分与所述动态口型真人头像之间进行遮挡关系判断；若存在所述胳膊部分遮挡在所述动态口型真人头像之下，则调整所述胳膊部分覆盖于权　利　要　求　书 1/2 页 2 CN 115474009 A 2所述动态口型真人头像之上。 6.根据权利要求2所述的真人头像卡通视频的制作方法，其特征在于，所述将所述真人头像卡通视频帧集和所述音频素材结合，制得所述真人头像卡通视频包括：通过所述音频素材的时间流获得所述音素集中每个音素的时间戳；基于每个所述音素与口型的对应关系，获得每个所述音素在所述真人头像卡通视频帧集中对应的真人头像卡通视频帧；将每个所述音素对应的所述时间戳赋予每个所述音素对应的所述真人头像卡通视频帧；通过将所述真人头像卡通视频帧集和所述音频素材进行时间戳对齐，制得所述真人头像卡通视频。 7.根据权利要求4所述的真人头像卡通视频的制作方法，其特征在于，所述使所述动态口型真人头像的头像轮廓的最低点与所述下巴定位点重合之前包括：通过矩形框架获得所述头像轮廓的尺寸；获取所述身体图片的尺寸；将所述头像轮廓的尺寸调整至融合后在所述身体图片的尺寸中的占比为预设比例。 8.一种真人头像卡通视频的制作装置，其特征在于，所述真人头像卡通视频的制作装置包括：头像素材获取模块，用于获取真人头像素材集；选择模块，用于从所述真人头像素材集选择待合成的真人头像；音频素材获取模块，用于获取待制作的真人头像卡通视频的音频素材；口型图片获取模块，用于基于所述音频素材获得所述真人头像的口型图片集；口型真人头像制作模块，用于通过所述口型图片集和所述真人头像制作得到动态口型真人头像集；身体图片获取模块，用于获取待制作的所述真人头像卡通视频的身体图片集；图像融合模块，用于使用头像身体融合算法将所述动态口型真人头像集和所述身体图片集进行逐帧融合，得到真人头像卡通视频帧集；视频生成模块，用于将所述真人头像卡通视频帧集和所述音频素材结合，制得所述真人头像卡通视频。 9.一种真人头像卡通视频的制作设备，其特征在于，所述真人头像卡通视频的制作设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述数据读取设备执行如权利要求1 ‑7中任一项所述的真人头像卡通视频的制作方法。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的真人头像卡通视频的制作方法。权　利　要　求　书 2/2 页 3 CN 115474009 A 3

专利 真人头像卡通视频的制作方法、装置、设备及存储介质

专利真人头像卡通视频的制作方法、装置、设备及存储介质