一种基于局部特征和位置注意力的图像分类器优化方法

文档序号:37829377发布日期:2024-04-30 17:38阅读:39来源:国知局
一种基于局部特征和位置注意力的图像分类器优化方法

本发明涉及一种图像分类器优化方法,特别是一种基于局部特征和位置注意力的图像分类器优化方法。


背景技术:

1、卷积是深度学习中神经网络结构的基本组成部分,在计算机视觉领域取得了非凡的里程碑意义。随着人工智能浪潮来袭,基于通用卷积神经网络的计算机视觉研究在人们生活中无处不在,例如异常检测,人脸检测,医学图像处理和自动驾驶等领域,其中用处最广的是基于通用卷积神经网络的图像分类器。尽管如此,由于对计算资源的高度需求和网络结构超参数设计的复杂性,开发新的高效的基于通用卷积神经网络的图像分类器具有很大的挑战性。近年来,研究人员对动态卷积的设计越来越感兴趣,这种技术能够提高现有基于通用卷积神经网络的图像分类器的性能,同时保持其原有的计算效率和超参数设计。

2、与固定权重的传统卷积不同,动态卷积能够根据输入样本灵活调整卷积核的参数,从而捕获更精细的特征,以提升通用卷积神经网络在图像分类视觉任务中的准确率。其中典型的方法是brandon?yang等人提出的condconv模型,利用多个静态卷积核加权聚合得到一个动态卷积核,加权的权重值由输入样本的全局通道特征分布转化得到。参考文献:yang?b,bender?g,le?q?v,et?al.condconv:conditionally?parameterizedconvolutions?for?efficient?inference[j].advances?in?neural?informationprocessing?systems,2019,32.

3、尽管基于通道特征分布的动态卷积技术能够增强基于通用卷积神经网络的图像分类器的性能,但仍存在一定局限性。在提取通道注意力的过程中,由于丢失了输入样本的局部特征分布,模型对局部细节的捕捉不足。此外,尽管当前的动态卷积方法可以根据不同的输入样本动态调整卷积核的参数,但它在处理同一输入样本的不同空间位置时仍采用相同的参数进行特征提取。这种对参数的一致性处理,在处理空间上具有差异性的输入数据时可能无法充分捕捉样本的位置信息和空间变化,进而限制了模型的整体性能。


技术实现思路

1、发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于局部特征和位置注意力的图像分类器优化方法。

2、为了解决上述技术问题,本发明公开了一种基于局部特征和位置注意力的图像分类器优化方法,包括以下步骤:

3、步骤1,利用滑动窗口展平、自适应平均池化和降维操作对输入特征图x进行维度上的调整,得到保留了局部特征原始空间位置信息的中间特征图u,以及包含基础局部特征的特征描述符d;

4、步骤2,利用自注意力机制学习特征描述符d中各局部特征之间的相互关系,用于增强各特征的语义表达能力,再使用全局平均池化操作进行融合,得到新的特征描述符dv;

5、步骤3,对新的特征描述符d′进行不同维度的变换,生成通用卷积神经网络即所述图像分类器中静态卷积核的五种动态注意力;

6、步骤4,将上述五种动态注意力施加到通用卷积神经网络即所述图像分类器的卷积核上,使卷积核的权重根据不同输入特征图生成的独特注意力掩码进行调整;

7、步骤5,利用1×1卷积对保留了局部特征原始空间位置信息的中间特征图u进行降维,生成卷积计算过程中滑动窗口在不同位置上的注意力pij,并将其施加于动态卷积的卷积运算过程中,从而在同一输入样本中根据位置不同重塑特征,完成对通用卷积神经网络即图像分类器的优化;

8、步骤6,使用步骤5中所述的优化好的通用卷积神经网络即图像分类器,对输入的图像进行分类。

9、进一步的,步骤1中所述的对输入特征图x进行维度上的调整,具体包括:

10、步骤1-1,对输入特征图x使用滑动窗口展平方法,完成原始输入特征在位置上的重组,即将每个局部区域的像素点转换为一条新的特征向量,构建新的中间特征图u,具体如下:

11、u=unfold(x)

12、

13、其中,unfold表示滑动窗口展平方法,即将卷积核在输入特征图上每个滑动窗口所包含的k×k×c个像素点提取出来,转化成维度为ck2的向量uij;k表示卷积核的尺寸大小,c表示卷积核的通道数量,i和j表示特征图上像素点的二维坐标序号,uij表示中间特征图u上的像素点;滑动窗口展平方法不改变卷积核原始的步长和填充,中间特征图u维度变换为h′×w′×ck2;

14、步骤1-2,使用自适应平均池化提取具有代表性的局部特征,得到新的特征图u′,具体如下:

15、u′=aap(u),

16、其中,aap表示自适应平均池化操作,新的特征图u′的维度经自适应平均池化操作后变换为s×s×ck2,s表示u′在宽度和高度上保留的特征样本数量;

17、步骤1-3,对新的特征图u′进行降维,得到包含基础局部特征的特征描述符d,具体如下:

18、d=σ(bn(f1×1(u′))),

19、其中,f1×1表示卷积核大小为1的卷积层,卷积层深度表示为h=max(λ,c//r),λ和r是预设的超参数,bn表示批量归一化操作,σ表示高斯误差线性单元激活函数。

20、进一步的,步骤2中所述的新的特征描述符d′,获取方法具体包括:

21、步骤2-1,引入自注意力机制加强特征描述符d中各局部特征的内在联系,用于增强各特征的语义表达能力,具体方法如下:

22、dnorm=ln(d)

23、

24、d:=sa(d)+d

25、其中,ln表示层归一化,dnorm表示归一化后得到的描述符,fq(·),fk(·)和fv(·)表示三个特殊的全连接层,用于获得计算自注意力时所使用到的中间过程;sa(d)表示特征描述符d内部的自注意力;d:表示对特征描述符d进行更新;

26、步骤2-2,对更新后的特征描述符d进行全局平均池化完成特征间的融合,得到最终的特征描述符d′,具体如下:

27、d′=gap(d),

28、其中,gap表示全局平均池化操作,进行特征融合的同时将描述符空间维度降低为1。

29、进一步的,步骤3中所述的进行不同维度的变换,具体方法包括:

30、对步骤2中生成的最终的特征描述符d′,按维度要求进行变换,并使用激活函数进行激活操作,生成静态卷积核在输入通道、输出通道、空间属性、并行属性和加权权值上的五种动态注意力:ain,aout,asptail,aparallel和sump。

31、进一步的,步骤3中所述的使用激活函数进行激活操作,具体包括:

32、使用sigmoid函数作为输入通道、输出通道、空间属性和并行属性上动态注意力的激活函数,使用softmax函数作为加权权值上动态注意力的激活函数。

33、进一步的,步骤4中所述的将上述五种动态注意力施加到通用卷积神经网络的卷积核上,即将步骤3中生成的五种动态注意力按维度施加于通用卷积神经网络中的所有卷积核上,具体如下:

34、kdy=aparallel⊙asptail⊙ain⊙aout⊙kθ

35、kdy:=sump(kdy)

36、其中,kθ表示通用卷积神经网络中静态卷积核的参数,⊙表示哈达玛积,kdy表示施加动态注意力之后的卷积核参数,kdy:表示对kdy进行更新。

37、进一步的,步骤5中所述的获得输出特征图,具体包括:

38、步骤5-1,使用保留了局部特征原始空间位置信息的中间特征图u生成卷积运算所需的位置注意力,方法如下:

39、pij=sigmoid(f1×1(uij)),

40、其中,uij表示中间特征图u在坐标i和j上的一条局部特征向量,f1×1表示卷积核大小为1的卷积层,pij表示对应位置的位置注意力;

41、步骤5-2,将步骤5-1中生成的位置注意力施加在通用卷积神经网络的动态卷积核进行卷积运算的过程中,得到输出特征图。

42、进一步的,步骤1-2中所述的特征样本数量s的取值,通过消融实验获取。

43、进一步的,步骤1-3中所述的参数λ和r的取值,通过消融实验获取。

44、进一步的,步骤4中所述的施加动态注意力之后的卷积核参数kdy,随不同输入特征图生成的独特注意力值进行变化。

45、有益效果:

46、1、本发明为通用卷积神经网络即所述图像分类器引入了对局部特征关注,能够更加精确地根据输入数据中的细节和局部特征调整模型参数。这种能力使得模型在处理复杂或高度变化的图像时表现出更高的灵活性和适应性,从而提高整体的识别准确率。

47、2、本发明为卷积运算过程中引入了位置信息,动态地调整卷积计算的结果,以便更好地适应不同位置的特征。这种动态调整在处理具有复杂空间关系和多样化场景的数据时尤为有效,不仅增强了模型对输入数据的理解能力,还提高了其泛化能力,使其在面对多样化的数据集时表现更为出色,如细粒度分类任务中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im