专利基于自适应3D卷积的屏幕视频质量评价方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210975931.8 (22)申请日 2022.08.15 (71)申请人华侨大学地址 362000 福建省泉州市丰泽区城东城华北路269号 (72)发明人曾焕强　黄海靓　陈婧　朱建清　施一帆　黄德天　 (74)专利代理机构厦门市首创君合专利事务所有限公司 3 5204 专利代理师连耀忠 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/40(2022.01)G06V 10/77(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于自适应3D卷积的屏幕视频质量评价方法及装置 (57)摘要本发明公开了一种基于自适应3D卷积的屏幕视频质量评价方法及装置，获取屏幕视频，基于局部视频活动度Γ(Px,y,t)对屏幕视频进行自适应分割，得到屏幕视频序列集合，屏幕视频包括参考屏幕视频和失真屏幕视频，屏幕视频序列集合包括参考屏幕视频序列集合和失真屏幕视频序列集合；通过3D卷积神经网络分别提取参考屏幕视频序列集合的参考时空卷积特征STr以及失真屏幕视频序列集合的失真时空卷积特征 STd；采用双尺度卷积神经网络对参考时空卷积特征STr和失真时空卷积特征STd实现双通道时空特征融合，计算得到失真屏幕视频的质量评价分数。着重于考虑人眼视觉系统特性及屏幕视频本质信息，模拟人类视觉系统的多通道视觉处理过程，从不同角度实现对失真屏幕视频的质量预测。权利要求书3页说明书8页附图3页 CN 115424168 A 2022.12.02 CN 115424168 A 1.一种基于自适应3D卷积的屏幕视频质量评价方法，其特征在于，包括以下步骤： S1，获取屏幕视频，基于局部视频活动度Γ(Px,y,t)对所述屏幕视频进行自适应分割，得到屏幕视频序列集合，其中，所述屏幕视频包括参考屏幕视频和失真屏幕视频，所述屏幕视频序列集合包括参考屏幕视频序列集合和失真屏幕视频序列集合； S2，通过3D卷积神经网络分别提取所述参考屏幕视频序列集合对应的参考时空卷积特征STr以及所述失真屏幕视频序列集合对应的失真时空卷积特征STd； S3，采用双尺度卷积神经网络对所述参考时空卷积特征STr和所述失真时空卷积特征 STd实现双通道时空特征融合，并计算得到失真屏幕视频的质量评价分数。 2.根据权利要求1所述的基于自适应3D卷积的屏幕视频质量评价方法，其特征在于，所述步骤S1具体包括：所述屏幕视频中每个时空像素点在对角方向上具有相邻的八个像素点，并可组成四组二距离对角线，计算一距离对角像素差值和二距离对角像素差值之和，得到局部视频活动度Γ(Px,y,t)，如下： Γ(Px,y,t)＝V1(Px,y,t)+V2(Px,y,t)；其中， V1(Px,y,t)为一距离对角像素差， V2(Px,y,t)为二距离对角像素差，计算如下： V1(Px,y,t)＝(Px,y,t‑Px‑1,y‑1,t+1)2+(Px,y,t‑Px‑1,y+1,t+1)2+(Px,y,t‑Px+1,y‑1,t+1)2+(Px,y,t‑ Px+1,y+1,t+1)2+(Px,y,t‑Px‑1,y‑1,t‑1)2+(Px,y,t‑Px‑1,y+1,t ‑1)2+(Px,y,t‑Px+1,y‑1,t‑1)2+(Px,y,t‑ Px+1,y+1,t ‑1)2； V2(Px,y,t)＝(Px‑1,y‑1,t+1‑Px+1,y+1,t ‑1)2+(Px‑1,y+1,t+1‑Px+1,y‑1,t‑1)2+(Px+1,y‑1,t+1‑Px‑1,y+1,t‑1)2 +(Px+1,y+1,t+1‑Px‑1,y‑1,t‑1)2；将所述屏幕视频沿x轴， y轴和t轴平分为八个屏幕视频序列，并依序计算局部视频活动度Γ(Px,y,t)中非零元素的占比Ψ来判断屏幕视频序列Λ的复杂度，即：其中， P代表屏幕视频序列中的像素点， η是视觉阈值，当Ψ≥η时， Λ＝1表示所述屏幕视频序列为具有高度复杂性的区域，将被再次平分为八个子序列，并迭代进行自适应分割；当Ψ＜ η 时， Λ ＝0表示所述屏幕视频序列为平稳区域，则直接进入步骤S2；分别得到所述参考屏幕视频所对应的参考屏幕视频序列集合Ir＝{Ir(1)， Ir(2)， ...， Ir (o)， ...， Ir(O)}以及所述失真屏幕视频所对应的失真屏幕视频序列集合Id＝{Id(1),Id (2),...,Id(o),...,Id(O)}，其中o代表输入视频序列的索引， O代表从每个屏幕视频中划分的子序列总数。 3.根据权利要求2所述的基于自适应3D卷积的屏幕视频质量评价方法，其特征在于，所述屏幕视频的局部视频活动度 Γ(Px,y,t)的非零元素占比Ψ为Γ(Px,y,t)中非零像素点的个数与Γ(Px,y,t)中总像素点的个数之比。 4.根据权利要求1所述的基于自适应3D卷积的屏幕视频质量评价方法，其特征在于，所述3D卷积神经网络包括S3D卷积神经网络模型。 5.根据权利要求4所述的基于自适应3D卷积的屏幕视频质量评价方法，其特征在于，所述步骤S2具体包括：权　利　要　求　书 1/3 页 2 CN 115424168 A 2基于所述S3D卷积神经网络模型，分别提取参考屏幕视频序列集合Ir＝{Ir(1),Ir (2),...,Ir(o),...,Ir(O)}的参考时空卷积特征STr和失真屏幕视频序列集合Id＝{Id(1)， Id(2)， ...， Id(o)， ...， Id(O)}的失真时空卷积特征STd，如下：其中，符号∪为并集，表明时空卷积特征由每个子序列中提取的时空特征张量堆叠合并而得。 6.根据权利要求1所述的基于自适应3D卷积的屏幕视频质量评价方法，其特征在于，所述双尺度卷积神经网络包括小尺度卷积神经网络SCN N和大尺度卷积神经网络LCN N。 7.根据权利要求6所述的基于自适应3D卷积的屏幕视频质量评价方法，其特征在于，所述步骤S3具体包括：构建基于Siamese网络的端到端框架，根据参考时空卷积特征和失真时空卷积特征组成特征融合张量F，如下： F＝STr∪STd∪STr‑STd；其中，符号∪为并集，表明特征融合张量F由参考时空卷积特征、失真时空卷积特征及二者之差堆叠合并而得；基于双通道时空特征融合计算时空融合卷积特征Ffusion和加权因子w，如下： Ffusion＝SCNN(F)； w＝LCNN(F)；其中，小尺度卷积神经网络SCNN由64个3 ×3的卷积核、 1个3 ×3的卷积核和一个全连接层组成，输出512 ×1的特征张量，即Ffusion；大尺度卷积神经网络LCNN由64个5 ×5的卷积核、 1个5×5的卷积核和一个全连接层组成，输出512 ×1的特征张量，即w。对所述时空融合卷积特征Ffusion进行加权平均得到失真屏幕视频的质量分数：其中， Ω代表时空融合卷积特征Ffusion中的特征点数。 8.一种基于自适应3D卷积的屏幕视频质量评价装置，其特征在于，包括：视频分割模块，被配置为获取屏幕视频，基于局部视频活动度Γ(Px,y,t)对所述屏幕视频进行自适应分割，得到屏幕视频序列集合，其中，所述屏幕视频包括参考屏幕视频和失真屏幕视频，所述屏幕视频序列集合包括参考屏幕视频序列集合和失真屏幕视频序列集合；特征提取模块，被配置为通过3D卷积神经网络分别提取所述参考屏幕视频序列集合对应的参考时空卷积特征STr以及所述失真屏幕视频序列集合对应的失真时空卷积特征STd；特征融合模块，被配置为采用双尺度卷积神经网络对所述参考时空卷积特征S Tr和所述失真时空卷积特征STd实现双通道时空特征融合，并计算得到失真屏幕视频的质量评价分数。权　利　要　求　书 2/3 页 3 CN 115424168 A 3

专利 基于自适应3D卷积的屏幕视频质量评价方法及装置

专利基于自适应3D卷积的屏幕视频质量评价方法及装置