视频描述的方法、装置及电子设备与流程

文档序号:37773896发布日期:2024-04-25 11:00阅读:11来源:国知局
视频描述的方法、装置及电子设备与流程

本申请涉及人工智能领域,具体而言,涉及一种视频描述的方法、装置及电子设备。


背景技术:

1、视频描述的自动生成是各种多模态信息处理任务中的一项非常重要的任务,也是视频分析领域的一项基础研究任务。它的任务是给出一个视频,计算机自动分析视频的内容,并生成一个描述视频主要内容的语句。该任务是在自动生成图像描述的基础上开发的,但视频和图像之间存在显著差异。视频可以看作是多个图像的集合,伴随着音频信息,其特征的多样性和内容场景的复杂性远远超过了图像。

2、相关技术中的视频描述技术方法对于视频特征提取不够充分,在一定程度上造成了信息损失,使得训练得到的视频文本映射模型生成的文本描述不够准确。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种视频描述的方法、装置及电子设备,以至少解决相关技术中的视频描述方法的视频特征提取不充分,在一定程度上造成了信息损失,存在视频描述不准确的技术问题。

2、根据本申请实施例的一个方面,提供了一种视频描述的方法,包括:提取目标视频对应的特征信息,其中,特征信息包括目标视频的每个视频帧对应的2d特征信息和目标视频中连续视频帧对应的3d特征信息;确定目标视频中的相邻视频帧是否表示同一对象;在相邻视频帧表示同一对象的情况下,提取相邻视频帧中的动作流特征信息;将特征信息和动作流特征信息输入视频文本映射模型,输出描述目标视频的目标文本信息,其中,视频文本映射模型用于依据输入的视频特征信息生成对应的文本描述信息。

3、可选地,确定目标视频中的相邻视频帧是否表示同一对象,包括:获取相邻视频帧中的第一视频帧中的第一像素点,以及获取相邻视频帧中的第二视频帧中的第二像素点,其中,第一像素点为第一视频帧中的任意一个像素点,第二像素点在第二视频帧中的位置与第一像素点在第一视频帧中的位置相同;确定第一像素点和第二像素点之间的特征距离;在特征距离满足预设阈值的情况下,确定目标视频中的相邻视频帧表示同一对象。

4、可选地,确定第一像素点和第二像素点之间的特征距离,包括:获取第一像素点的第一横坐标和第一纵坐标,以及获取第二像素点的第二横坐标和第二纵坐标;依据第一横坐标、第一纵坐标、第二横坐标和第二纵坐标,确定第一像素点对应的第一特征距离和第二特征距离,以及确定第二像素点对应的第三特征距离和第四特征距离,其中,第一特征距离和第三特征距离表示第一类特征距离,第二特征距离和第四特征距离表示第二类特征距离;依据第一特征距离、第二特征距离、第三特征距离和第四特征距离,确定第一像素点和第二像素点之间的特征距离。

5、可选地,在特征距离满足预设阈值的情况下,确定目标视频帧中的相邻视频帧表示同一对象,包括:在第一特征距离和第三特征距离的差值小于预设阈值中的第一阈值,且第二特征距离和第四特征距离的差值小于预设阈值中的第二阈值的情况下,确定相邻视频帧中的第一视频帧和第二视频帧表示同一对象。

6、可选地,将特征信息和动作流特征信息输入视频文本映射模型,包括:获取特征信息中的2d特征信息和3d特征信息,以及获取动作流特征信息;拼接2d特征信息、3d特征信息和动作流特征信息,得到融合特征信息;将融合特征信息输入视频文本映射模型中。

7、可选地,视频文本映射模型通过以下方式训练得到:获取历史视频和与历史视频对应的历史文本信息;确定历史文本信息中的文本类别,并依据文本类别确定对应的训练权重;依据历史视频、历史文本信息和训练权重对初始视频文本映射模型进行训练,得到训练后的视频文本映射模型。

8、可选地,依据历史视频、历史文本信息和训练权重对初始视频文本映射模型进行训练,包括:确定历史视频对应的历史融合特征信息,其中,历史融合特征信息包括历史视频的每个视频帧对应的2d特征信息、历史视频中连续视频帧对应的3d特征信息和历史视频帧中表示同一对象的历史相邻视频帧中的动作流特征信息;依据历史融合特征信息、历史文本信息对应的历史文本向量和历史文本信息中目标词汇的目标特征向量,确定目标词汇在历史文本信息中的目标位置;依据目标位置和历史融合特征信息,从历史视频中确定与目标词汇对应的视频特征维度;依据视频特征维度、历史融合特征信息和历史文本信息中每个词汇的注意力分布值,确定历史文本信息中词汇的概率分布;依据概率分布和训练权重对初始视频文本映射模型进行训练。

9、根据本申请实施例的另一方面,还提供了一种视频描述的装置,包括:第一提取???,用于提取目标视频对应的特征信息,其中,特征信息包括目标视频的每个视频帧对应的2d特征信息和目标视频中连续视频帧对应的3d特征信息;确定???,用于确定目标视频中的相邻视频帧是否表示同一对象;第二提取???,用于在相邻视频帧表示同一对象的情况下,提取相邻视频帧中的动作流特征信息;输出???,用于将特征信息和动作流特征信息输入视频文本映射模型,输出描述目标视频的目标文本信息,其中,视频文本映射模型用于依据输入的视频特征信息生成对应的文本描述信息。

10、根据本申请实施例的又一方面,还提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,与存储器连接,用于执行实现以下功能的程序指令:提取目标视频对应的特征信息,其中,特征信息包括目标视频的每个视频帧对应的2d特征信息和目标视频中连续视频帧对应的3d特征信息;确定目标视频中的相邻视频帧是否表示同一对象;在相邻视频帧表示同一对象的情况下,提取相邻视频帧中的动作流特征信息;将特征信息和动作流特征信息输入视频文本映射模型,输出描述目标视频的目标文本信息,其中,视频文本映射模型用于依据输入的视频特征信息生成对应的文本描述信息。

11、根据本申请实施例的再一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,该非易失性存储介质所在设备通过运行计算机程序执行上述视频描述的方法。

12、在本申请实施例中,通过提取目标视频对应的特征信息,其中,特征信息包括目标视频的每个视频帧对应的2d特征信息和目标视频中连续视频帧对应的3d特征信息;确定目标视频中的相邻视频帧是否表示同一对象;在相邻视频帧表示同一对象的情况下,提取相邻视频帧中的动作流特征信息;将特征信息和动作流特征信息输入视频文本映射模型,输出描述目标视频的目标文本信息,其中,视频文本映射模型用于依据输入的视频特征信息生成对应的文本描述信息,达到了通过捕获目标视频中的动作流特征信息使得模型聚焦于文本中的重要词汇的目的,从而实现了提高视频文本映射模型的准确率的技术效果,进而解决了相关技术中的视频描述方法的视频特征提取不充分,在一定程度上造成了信息损失,存在视频描述不准确的技术问题。



技术特征:

1.一种视频描述的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,确定所述目标视频中的相邻视频帧是否表示同一对象,包括:

3.根据权利要求2所述的方法,其特征在于,确定所述第一像素点和所述第二像素点之间的特征距离,包括:

4.根据权利要求3所述的方法,其特征在于,在所述特征距离满足预设阈值的情况下,确定所述目标视频帧中的相邻视频帧表示同一对象,包括:

5.根据权利要求1所述的方法,其特征在于,将所述特征信息和所述动作流特征信息输入视频文本映射模型,包括:

6.根据权利要求1所述的方法,其特征在于,所述视频文本映射模型通过以下方式训练得到:

7.根据权利要求6所述的方法,其特征在于,依据所述历史视频、所述历史文本信息和所述训练权重对初始视频文本映射模型进行训练,包括:

8.一种视频描述的装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的视频描述的方法。


技术总结
本申请公开了一种视频描述的方法、装置及电子设备。其中,该方法包括:提取目标视频对应的特征信息,其中,特征信息包括目标视频的每个视频帧对应的2D特征信息和目标视频中连续视频帧对应的3D特征信息;确定目标视频中的相邻视频帧是否表示同一对象;在相邻视频帧表示同一对象的情况下,提取相邻视频帧中的动作流特征信息;将特征信息和动作流特征信息输入视频文本映射模型,输出描述目标视频的目标文本信息,其中,视频文本映射模型用于依据输入的视频特征信息生成对应的文本描述信息。本申请解决了相关技术中的视频描述方法的视频特征提取不充分,在一定程度上造成了信息损失,存在视频描述不准确的技术问题。

技术研发人员:王晨曦,宁瑞华
受?;さ募际跏褂谜撸?/b>天翼电信终端有限公司
技术研发日:
技术公布日:2024/4/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im