专利视频检索方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210910350.6 (22)申请日 2022.07.29 (71)申请人北京达佳互联信息技术有限公司地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人路雨　 (74)专利代理机构北京太合九思知识产权代理有限公司 1 1610 专利代理师翟玉生 (51)Int.Cl. G06F 16/783(2019.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) (54)发明名称视频检索方法、装置、设备及存储介质 (57)摘要本公开关于一种视频检索方法、装置、设备及存储介质。在本申请实施例中，对待检索长文本中的句子进行向量化处理，得到每个句子对应的第一句子向量，并根据待检索长文本中句子之间的时序关系以及每个句子对应的第一句子向量，生成可以体现句子之间的上下文关系的第二句子向量，待检索长文本中每个句子的第二句子向量可以体现其它句子的信息，使得基于待检索长文本中的第二句子向量检索得到的视频片段组成的视频信息，能够更好地契合待检索长文本主题，提高视频检索的效率和准确度。权利要求书2页说明书12页附图3页 CN 115357756 A 2022.11.18 CN 115357756 A 1.一种视频检索方法，其特征在于，包括：获取待检索长文本，所述待检索长文本包括至少两个句子，所述至少两个句子之间存在时序关系；根据每个句子中包含的词语，对每个句子进行向量化处理，得到所述每个句子对应的第一句子向量；根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，所述其它句子包括所述至少两个句子中除该句子之外的全部或部分句子；根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段；根据所述至少两个句子各自适配的视频片段，生成所述待检索长文本对应的视频信息。 2.根据权利要求1所述的方法，其特征在于，根据每个句子中包含的词语，对所述至少两个句子分别进行向量化处理，得到所述至少两个句子分别对应的第一句子向量，包括：获取每个句子包括的多个词语对应的词向量；将所述多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中，通过所述句子向量生成网络层对所述多个词语对应的词向量进行合成处理，得到每个句子对应的第一句子向量。 3.根据权利要求1所述的方法，其特征在于，根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，包括：按照所述时序关系，将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中，在所述句子向量关联网络层中，对每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到每个句子对应的第二句子向量。 4.根据权利要求1所述的方法，其特征在于，所述视频向量库中包括已有视频片段及其对应的视频向量，根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段，包括：将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层中，通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。 5.根据权利要求 4所述的方法，其特征在于，所述方法还包括：预先选取已有视频片段；针对任一个已有视频片段，获取该已有视频片段中的多个图像帧，将所述多个图像帧输入至视频检索模型中的视频向量生成网络层中，对所述多个图像帧进行特征提取，得到多个图像帧分别对应的特征向量，对所述多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。 6.根据权利要求2 ‑5任一项所述的方法，其特征在于，还包括：获取句子样本及其对应的视频片段样本；权　利　要　求　书 1/2 页 2 CN 115357756 A 2针对每个句子样本，生成该句子样本的句子向量，并生成该句子样本对应的视频片段样本的视频向量，作为一组训练样本；将训练样本中的句子向量作为视频检索模型的输入，将训练样本中的视频向量作为预期的模型输出进行多次模型训练，并计算每次训练的损失函数，根据每次训练的损失函数，调整模型参数，直至损失函数符合设定要求时，得到视频检索模型；其中，所述损失函数为实际模型输出与预期的模型输出之间的差异信息。 7.一种视频检索装置，其特征在于，包括：获取模块、处理模块、关联模块、检索模块和生成模块；所述获取模块，用于获取待检索长文本，所述待检索长文本包括至少两个句子，所述至少两个句子之间存在时序关系；所述处理模块，用于根据每个句子中包含的词语，对每个句子进行向量化处理，得到所述每个句子对应的第一句子向量；所述关联模块，用于根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，所述其它句子包括所述至少两个句子中除该句子之外的全部或部分句子；所述检索模块，用于根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段；所述生成模块，用于根据所述至少两个句子各自适配的视频片段，生成所述待检索长文本对应的视频信息。 8.一种视频检索设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以实现权利要求1 ‑6中任一项所述方法中的步骤。 9.一种计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1 ‑6任一项所述方法中的步骤。 10.一种计算机程序产品，包括计算机程序，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1 ‑6任一项所述方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115357756 A 3

专利 视频检索方法、装置、设备及存储介质

专利视频检索方法、装置、设备及存储介质