专利视频质量识别模型的训练方法、视频质量识别方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210898748.2 (22)申请日 2022.07.28 (71)申请人北京达佳互联信息技术有限公司地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人袁坤　刘鸿博　孙明　闻兴　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师穆仁熙 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称视频质量识别模型的训练方法、视频质量识别方法和装置 (57)摘要本公开关于一种视频质量识别模型的训练方法、视频质量识别方法、装置、电子设备、存储介质和计算机程序产品。所述方法包括：获取样本视频和样本视频对应的视频质量标注结果；将样本视频输入预训练模型组合和待训练的视频质量识别模型，得到样本视频的第一视频质量特征、第一视频质量预测结果、第二视频质量特征和第二视频质量预测结果；根据第一视频质量预测结果与视频质量标注结果之间的差异，第二视频质量预测结果与视频质量标注结果之间的差异，以及第一视频质量特征与第二视频质量特征之间的差异，对待训练的视频质量识别模型进行训练，得到训练完成的视频质量识别模型。采用本方法，能够提高视频质量的识别准确率。权利要求书4页说明书27页附图6页 CN 115223084 A 2022.10.21 CN 115223084 A 1.一种视频质量识别模型的训练方法，其特征在于，包括：获取样本视频和所述样本视频对应的视频质量标注结果；将所述样本视频输入预训练模型组合，得到所述样本视频的第一视频质量特征和第一视频质量预测结果，以及将所述样本视频输入待训练的视频质量识别模型，得到所述样本视频的第二视频质量特征和第二视频质量预测结果；所述预训练模型组合包括至少两个与视频质量关联的目标预训练模型，所述第一视频质量特征根据各个目标预训练模型对应输出的所述样本视频的第一目标视频特征得到，所述第一视频质量预测结果根据所述第一视频质量特征得到；不同目标预训练模型所输出的第一目标视频特征不相同；根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异，所述第二视频质量预测结果与所述视频质量标注结果之间的差异，以及所述第一视频质量特征与所述第二视频质量特征之间的差异，对所述待训练的视频质量识别模型进行训练，得到训练完成的视频质量识别模型。 2.根据权利要求1所述的方法，其特征在于，所述将所述样本视频输入目标预训练模型组合，得到所述样本视频的第一视频质量特征和第一视频质量预测结果，包括：分别将所述样本视频输入各个目标预训练模型，得到所述样本视频的各个第一目标视频特征；根据所述各个第一目标视频特征的重要性参数，对所述各个第一目标视频特征进行融合处理，得到所述样本视频的第一视频质量特征；对所述第一视频质量特征进行分类处理，得到所述样本视频的第一视频质量分类结果，作为所述第一视频质量预测结果。 3.根据权利要求2所述的方法，其特征在于，所述分别将所述样本视频输入各个目标预训练模型，得到所述样本视频的各个第一目标视频特征，包括：分别将所述样本视频输入各个目标预训练模型，得到所述样本视频的各个第一初始视频特征；对所述样本视频的各个第一初始视频特征进行维度转换处理，得到所述样本视频的各个第一目标视频特征。 4.根据权利要求3所述的方法，其特征在于，在根据所述各个第一目标视频特征的重要性参数，对所述各个第一目标视频特征进行融合处理，得到所述样本视频的第一视频质量特征之前，还包括：针对所述样本视频的每一第一初始视频特征，向门控网络输入所述每一第一初始视频特征，得到用于输出所述每一第一初始视频特征的目标预训练模型的重要性参数；将每一目标预训练模型的重要性参数，确认为所述每一目标预训练模型对应输出的第一目标视频特征的重要性参数。 5.根据权利要求3所述的方法，其特征在于，所述分别将所述样本视频输入各个目标预训练模型，得到所述样本视频的各个第一初始视频特征，包括：针对各个目标预训练模型，在所述目标预训练模型属于视频模型的情况下，将所述样本视频输入所述目标预训练模型，得到所述样本视频的第一初始视频特征；在所述目标预训练模型属于图像模型的情况下，将所述样本视频的各个样本视频帧输入所述目标预训练模型，得到所述各个样本视频帧的图像特征，对所述各个样本视频帧的权　利　要　求　书 1/4 页 2 CN 115223084 A 2图像特征进行融合处理，得到所述样本视频的第一初始视频特征。 6.根据权利要求1所述的方法，其特征在于，所述将所述样本视频输入待训练的视频质量识别模型，得到所述样本视频的第二视频质量特征和第二视频质量预测结果，包括：将所述样本视频输入待训练的视频质量识别模型，得到所述样本视频的第二初始视频特征；将所述样本视频的第二初始视频特征进行维度转换处理，得到所述样本视频的第二目标视频特征，作为所述样本视频的第二视频质量特征；所述第二目标视频特征的维度与所述第二初始视频特征的维度不相同；对所述第二视频质量特征进行分类处理，得到所述样本视频的第二视频质量分类结果，作为所述第二视频质量预测结果。 7.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异，所述第二视频质量预测结果与所述视频质量标注结果之间的差异，以及所述第一视频质量特征与所述第二视频质量特征之间的差异，对所述待训练的视频质量识别模型进行训练，得到训练完成的视频质量识别模型，包括：根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异，得到第一损失值，根据所述第二视频质量预测结果与所述视频质量标注结果之间的差异，得到第二损失值，以及根据所述第一视频质量特征与所述第二视频质量特征之间的差异，得到第三损失值；将所述第一损失值、所述第二损失值和所述第三损失值进行融合处理，得到目标损失值；根据所述目标损失值，对所述待训练的视频质量识别模型进行训练，直到达到训练结束条件；达到所述训练结束条件的训练后的视频质量识别模型为所述训练完成的视频质量识别模型。 8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：构建预训练模型库；所述预训练模型库中包括多个与视频质量关联的预训练模型；每个预训练模型的模型结构之间的结构差异满足预设条件；针对所述预训练模型库中的每一个预训练模型，在利用所述预训练模型得到的学生模型的视频质量识别效果高于利用所述预训练模型得到的更新模型的视频质量识别效果的情况下，将所述预训练模型作为候选预训练模型；其中，所述学生模型为以所述预训练模型为教师模型，对待训练的视频质量识别模型进行训练后得到的，所述更新模型为对所述预训练模型进行训练后得到的；根据所述候选预训练模型，构建候选预训练模型集合；从所述候选预训练模型集合中，筛选出所述目标预训练模型；根据所述目标预训练模型，构建所述预训练模型组合。 9.根据权利要求8所述的方法，其特征在于，所述从所述候选预训练模型集合中，筛选出所述目标预训练模型，包括：从所述候选预训练模型集合中，筛选出第一视频质量识别效果最高的K个候选预训练模型，从所述K个候选预训练模型中，筛选出第二视频质量识别效果最高的候选预训练模型，作为目标预训练模型；其中，所述第一视频质量识别效果为利用候选预训练模型得到的第一学生模型的视频权　利　要　求　书 2/4 页 3 CN 115223084 A 3

专利 视频质量识别模型的训练方法、视频质量识别方法和装置

专利视频质量识别模型的训练方法、视频质量识别方法和装置