专利视频识别方法、装置、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210952352.1 (22)申请日 2022.08.09 (71)申请人阿里巴巴（中国）有限公司地址 310023 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人沈旭　梁树贤　黄建强　 (74)专利代理机构北京太合九思知识产权代理有限公司 1 1610 专利代理师孙明子 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) (54)发明名称视频识别方法、装置、设备和存储介质 (57)摘要本申请提供一种视频识别方法、装置、设备和存储介质，该方法包括：获取需要进行类别识别的视频；通过第一网络模型提取视频对应的第一特征矩阵，并根据第一特征矩阵确定视频对应的topk个类别；根据topk个类别以及第一特征矩阵生成与topk个类别相关的概要信息；基于所述概要信息，通过第二网络模型提取视频对应的第二特征矩阵，并根据第二特征矩阵确定视频对应的目标类别，目标类别为topk个类别中的一个。基于上述从概要到细节的识别思路，有助于提取到包含更多关键细节的用于识别出目标类别的特征信息，从而可以实现输入视频的准确类别识别，且节省算力。基于该方案可以实现按照其中的人物行为类别对视频进行分类。权利要求书3页说明书14页附图9页 CN 115035462 A 2022.09.09 CN 115035462 A 1.一种视频识别方法，其特征在于，包括：获取需要进行类别识别的视频；通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别；根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息；基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，所述目标类别为所述第一数量的类别中的一个。 2.根据权利要求1所述的方法，其特征在于，所述通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别，包括：通过第一网络模型中的第一采样器对所述视频进行等间隔采样以得到第一图像集；通过所述第一网络模型中的第一特征提取器对所述第一图像集进行特征提取以得到所述第一特征矩阵，所述第一特征矩阵包括所述第一图像集中图像对应的特征矩阵；将所述第一特征矩阵输入所述第一网络模型中的第一分类器，以得到与所述视频对应的排序靠前的第一数量的类别。 3.根据权利要求1或2所述的方法，其特征在于，所述概要信息包括与所述第一数量的类别相关的采样参数和/或与所述第一数量的类别相关的上下文特征，其中，所述采样参数中包括用于定位多个关键帧的第一定位参数以及用于定位各关键帧中关键区域的第二定位参数，所述多个关键帧的数量为预设值，所述关键区域的尺寸为预设值。 4.根据权利要求3所述的方法，其特征在于，所述根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息，包括：确定与所述第一数量的类别对应的类别预测矩阵；拼接所述类别预测矩阵和所述第一特征矩阵；将拼接后的矩阵输入第一概要生成模型，以获取所述第一概要生成模型输出的所述采样参数。 5.根据权利要求3所述的方法，其特征在于，所述根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息，包括：确定与所述第一数量的类别对应的类别预测矩阵；对所述第一特征矩阵进行池化处理；拼接所述类别预测矩阵和池化处理后的特征矩阵；将拼接后的矩阵输入第二概要生成模型，以获取所述第二概要生成模型输出的所述上下文特征。 6.根据权利要求3所述的方法，其特征在于，所述基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，包括：将所述采样参数和所述视频输入所述第二网络模型中的第二采样器，以使所述第二采权　利　要　求　书 1/3 页 2 CN 115035462 A 2样器根据所述采样参数对所述视频进行采样以得到第二图像集，所述第二图像集包括所述多个关键帧中的关键区域构成；基于所述上下文特征，通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵，所述第二特征矩阵包括所述第二图像集中图像对应的特征矩阵；将所述第二特征矩阵输入所述第二网络模型中的第二分类器以得到所述视频对应的目标类别。 7.根据权利要求6所述的方法，其特征在于，所述第二特征提取器中包括多个特征提取层；所述基于所述上下文特征，通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵，包括：针对所述第二图像集中的任一图像，获取第一特征提取层输出的第三特征矩阵；拼接所述第三特征矩阵与所述上下文特征；将拼接后的特征矩阵输入特征融合模型，以获得融合后的第四特征矩阵；将所述第四特征矩阵输入第二特征提取层，以获得所述第二特征提取层输出的第二特征矩阵；其中，所述第二特征提取层为所述多个特征提取层中的最后一层，所述第一特征提取层包括除所述第二特征提取层外的至少一层。 8.根据权利要求6所述的方法，其特征在于，所述第二采样器根据所述采样参数对所述视频进行采样以得到第二图像集的过程，包括：根据所述第一定位参数，确定所述多个关键帧在所述视频中对应的时间位置；根据目标关键帧中关键区域对应的第二定位参数，确定所述目标关键帧的关键区域中多行像素和多列像素在所述视频中对应的空间位置，所述目标关键帧为所述多个关键帧中任一个；采用高斯采样，确定由所述视频中的各帧图像对产生所述目标关键帧的所述时间位置而贡献的权重所构成的第一权重向量；采用所述高斯采样，确定由所述目标关键帧中的多行像素对产生目标行像素的空间位置而贡献的权重所构成的第二权重向量，所述目标行像素是所述目标关键帧的关键区域中任一行；采用所述高斯采样，确定由所述目标关键帧中的多列像素对产生目标列像素的空间位置而贡献的权重所构成的第三权重向量，所述目标列像素是所述目标关键帧的关键区域中任一列；根据所述第一权重向量、所述第二权重向量和所述第三权重向量，对所述视频进行采样处理，以得到所述第二图像集。 9.一种视频识别装置，其特征在于，包括：视频获取模块，用于获取需要进行类别识别的视频；第一识别模块，用于通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别；概要生成模块，用于根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第权　利　要　求　书 2/3 页 3 CN 115035462 A 3

专利 视频识别方法、装置、设备和存储介质

专利视频识别方法、装置、设备和存储介质