(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210905913.2
(22)申请日 2022.07.29
(71)申请人 黄山学院
地址 245041 安徽省黄山市屯溪区西海路
39号
(72)发明人 侯丽 刘琦 何宁业 陈珍海
汪伟 曹俊呈
(74)专利代理 机构 苏州国诚专利代理有限公司
32293
专利代理师 韩凤
(51)Int.Cl.
G06V 20/59(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种用于智能视频分析的驾驶员行为识别
方法
(57)摘要
本发明公开了一种用于智能视频分析的驾
驶员行为识别方法, 涉及机器学习与模式识别技
术领域, 能够提升驾驶员行为识别性能, 包括以
下步骤: 1)通过内置车顶监控摄像头拍摄驾驶员
图像来构建训练样本; 2)以Resnet 50深度残 差网
络作为CNN基模型, 融入多级注意力块和 空间金
字塔特征融合层来构建多级注意力深度残差学
习模型3)将代表不同驾驶行为的训练样本送入
设计好的多级注意力深度残差网络中进行训练,
应用交叉熵损失函数监督网络的训练, 通过随机
梯度下降法进行多次迭代不断地优化网络模型
参数, 从而获取用于驾驶员行为识别的优选模
型。 使用该模型进行驾驶员行为识别, 能够提升
驾驶员行为识别的性能。
权利要求书2页 说明书7页 附图6页
CN 115273046 A
2022.11.01
CN 115273046 A
1.一种用于智能视频分析的驾驶员行为识别方法, 其特 征在于, 包括以下步骤:
步骤1, 通过内置车顶监控摄像头拍摄驾驶员图像, 建立驾驶员行为识别数据集, 随机
选取224×224像素的RGB图像块作为驾驶员行为识别的训练样本, 涵盖正常驾驶、 打电话、
玩手机、 抽烟、 喝水、 双手脱离方向盘6种不同的驾驶行为, 分别用0到5代表样本对应的驾驶
行为标签;
步骤2, 以Resnet50深度残差 网络作为基础卷积神经网络模型, 融入多级注意力块和空
间金字塔特 征融合层来构建多 级注意力深度残差学习模型;
步骤3, 将步骤1代表不同驾驶行为的训练样本送入步骤2设计的多级注意力深度残差
学习模型中进行训练, 应用交叉熵损失函数监督网络的训练, 通过随机梯度下降法进行多
次迭代不断地优化网络模型参数, 从而获取用于驾驶员行为识别的优选模型, 利用该模型
进行驾驶员行为识别, 输出识别标签。
2.根据权利要求1所述的用于智能视频分析的驾驶员行为识别方法, 其特征在于, 所述
步骤2中, 多 级注意力深度残差学习模型包括8级子网络, 具体包括:
第1级子网络以分辨率为224 ×224×3的原始RGB图像作为输入, 先后经过卷积层、 批标
准化层、 ReLU激活函数、 最大池化层, 输出 形状为56×56×64的特征图;
第2级子网络以分辨率为56 ×56×64的特征作为输入, 先后经过1个残差块A、 2个残差
块B、 1个注意力块, 输出 形状为56×56×256的特征图;
第3级子网络以分辨率为56 ×56×256的特征作为输入, 先后经过1个残差块A、 3个残差
块B、 1个注意力块, 输出 形状为28 ×28×512的特征图;
第4级子网络以分辨率为28 ×28×512的特征作为输入, 先后经过1个残差块A、 5个残差
块B、 1个注意力块, 输出 形状为14 ×14×1024的特 征图;
第5级子网络以分辨率为14 ×14×1024的特征作为输入, 先后经过1个残差块A、 2个残
差块B、 1个注意力块, 输出 形状为7×7×2048的特 征图;
第6级子网络分别以第1级到第4级子网络输出的特征作为输入, 经过空间金字塔特征
融合层, 输出 形状为21 ×3840的特 征图;
第7级子网络以分辨率为2 1×3840的特征作为输入, 经过全局平均池化层, 输出3840维
的特征向量;
第8级子网络以分辨率为3840维的特征作为输入, 先后经过2个全连接层、 Softmax标准
化层, 输出6维的特征向量, 用于表示不同驾驶行为类别的概率; 所述2个全连接层分别含有
1000个神经元和6个神经 元。
3.根据权利要求2所述的用于智能视频分析的驾驶员行为识别方法, 其特征在于, 所述
残差块A的输入 特征先后经过1 ×1卷积降维、 ReLU激活函数、 3 ×3卷积、 ReLU激活函数、 1 ×1
卷积升维来学习残差函数, 再与另一个分支的1 ×1卷积升维构成的线性映射进 行逐元素相
加, 再经过ReLU激活函数, 得到残差块A的输出特征, 残差块A的输出与输入的特征图形状不
同; 残差块B的输入特征先后经过1 ×1卷积降维、 ReLU激活函数、 3 ×3卷积、 ReLU激活函数、 1
×1卷积升维来学习残差函数, 再与恒等映射分支进行逐元素相加, 再经过ReLU激活函数,
得到残差块B的输出 特征, 残差块B的输出与输入的特 征图形状相同。
4.根据权利要求2所述的用于智能视频分析的驾驶员行为识别方法, 其特征在于, 所述
注意力块由空间注意力块和通道注意力块并联结构组成, 通过空间注意力块捕获空间维度权 利 要 求 书 1/2 页
2
CN 115273046 A
2语义相关性, 生 成空间注意力特征, 通过通道注 意力块捕获通道维度语义相关性, 生成通道
注意力特 征, 再将空间注意力特 征和通道 注意力特 征相加, 得到注意力块的输出 特征。
5.根据权利要求4所述的用于智能视频分析的驾驶员行为识别方法, 其特征在于, 所述
空间注意力块 通过以下步骤生成空间注意力特 征:
步骤2.1.1, 应用三个1 ×1卷积层对输入特 征进行降维, 得到三个降维特 征;
步骤2.1.2, 应用两个降维特征生成空间注意力矩阵, 反映空间特征中每个像素点对于
驾驶员行为识别的重要程度;
步骤2.1.3, 将空间注意力矩阵与另一个降维特 征进行矩阵乘法运 算;
步骤2.1.4, 应用1 ×1卷积层对矩阵乘法运算结果进行升维后, 再与原始输入特征进行
逐元素求和运算, 获得反映空间维度语义相关性的空间注意力特征, 其特征图的形状与输
入特征图相同。
6.根据权利要求4所述的用于智能视频分析的驾驶员行为识别方法, 其特征在于, 所述
通道注意力块 通过以下步骤生成通道 注意力特 征:
步骤2.2.1, 应用输入特征生成通道注意力矩阵, 反映每个通道特征对于驾驶员行为识
别的重要程度;
步骤2.2.2, 将输入特 征与通道 注意力矩阵进行矩阵乘法运 算;
步骤2.2.3, 将矩阵乘法运算结果与输入特征进行逐元素求和运算, 获得反映通道维度
语义相关性的通道 注意力特 征, 其特征图的形状与输入特 征图相同。
7.根据权利要求2所述的用于智能视频分析的驾驶员行为识别方法, 其特征在于, 所述
空间金字塔特征融合层, 由空间金字塔最大池化层和 Concat特征融合层两部分组成, 将来
自多级注意力深度 残差学习模型第2级到第5级子网络输出的不同尺度特征图, 经过 空间金
字塔最大池化层, 转化为相同尺度特征图, 再经过Concat特征融合, 得到空间金字塔特征融
合层的输出 特征图;
所述空间金字塔最大池化层 在空间维度上对特 征图进行处 理, 包括以下步骤:
步骤2.3.1, 对输入特 征图进行全局最大池化, 输出1 维的空间特 征向量;
步骤2.3.2, 将输入特征图划分为2 ×2块, 分别 对每块区域进行最大池化, 输出4维的空
间特征向量;
步骤2.3.3, 将输入特征 图划分为4 ×4块, 分别对每块区域进行最大池化, 输出16维空
间特征向量;
步骤2.3.4, 将上述输出1维、 4维、 16维的空间特征向量进行拼接, 输出21维空间特征向
量。
8.根据权利要求1所述的用于智能视频分析的驾驶员行为识别方法, 其特征在于, 所述
步骤3中, 交叉熵损失函数Lcls表示为:
其中N=6表示驾驶行为类别数, pi表示真实的类别,
表示预测的类别输出。权 利 要 求 书 2/2 页
3
CN 115273046 A
3
专利 一种用于智能视频分析的驾驶员行为识别方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:12:35上传分享