安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111681136.X (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号 申请公布号 CN 114330669 A (43)申请公布日 2022.04.12 (73)专利权人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 许金伟 李娅琳 姜晶菲 苏华友 乔鹏 王庆林 李荣春 高蕾 窦勇 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 田达兵(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 3/063(2006.01) G06F 15/80(2006.01) 审查员 沈晴 (54)发明名称 一种面向向量处理器的半精度向量化conv1 ×1卷积方法及系统 (57)摘要 本发明公开了一种面向向量处理器的半精 度向量化conv1 ×1卷积方法及系 统, 方法包括: 将半精度权值数据和半精度输入数据存储在双 倍速率同步动态随机存储器中; 调用直接存储器 访问操作, 将半精度权值数据和半精度输入数据 从双倍速率同步动态随机存储器分别加载到片 上标量存储器SM空间和片上阵列存储器A M空间; 在SM空间中, 对加载到片上SM空间的权值数据进 行向量化处理, 在AM空间中, 将向量化处理后的 权值数据与AM空间上的输入数据做卷积操作 conv1×1, 得到卷积后的特征图数据。 本发明能 够结合向量处理器的体系结构特征, 将卷积计算 (conv1×1)面向向量处理器体系结构向量化, 在 保证精度的前提下实现了FLOPs的提升 。 权利要求书5页 说明书11页 附图9页 CN 114330669 B 2022.09.16 CN 114330669 B 1.一种面向 向量处理器的半精度向量 化conv1×1卷积方法, 其特 征在于, 包括: 将半精度权值数据和半精度输入数据存 储在双倍速率同步动态随机存 储器中; 调用直接存储器访问操作, 将所述半精度权值数据和半精度输入数据从所述双倍速率 同步动态随机存 储器分别加载到片上 标量存储器SM空间和片上阵列存 储器AM空间; 在SM空间中, 对加载到片上SM空间 的权值数据进行向量化处理, 在AM空间中, 将向量化 处理后的权值数据与AM空间上的输入数据做卷积操作conv1 ×1, 得到卷积后的特征图数 据; 其中, 所述半精度权值数据Weightddr的数据格式为[Co, Cin, ks, ks], Co为输出通道数, Cin为输入通道数, ks为卷积核大小, 当卷积核大小为1时, 数据格式可视为[Co, Cin], 故所 述权值数据可表示为矩阵Weightddr=M×K, 所述半精度输入数据Inputddr的数据格式为 [Cin, Hi, Wi, n], Hi和Wi分别为图像的高和宽, n为卷积操作中一次批量处理的数量, 可将 [Hi, Wi, n]看做一维, 令N=Hi ×Wi×n, 故输入数据可表示为矩阵Inputddr=K×N, 其中, M表 示Co, K表示Ci n, N表示图像维度的大小。 2.根据权利要求1所述的方法, 其特征在于, 所述调用直接存储器访 问操作, 将所述半 精度权值数据和半精度输入数据从所述双倍速率同步动态随机存储器分别加载到片上标 量存储器SM空间和片上阵列存 储器AM空间, 包括: 调用直接存储器访问操作, 将半精度权值矩阵Wddr加载到片上SM空间中, 将原数据从M 维划分为x1个Wbsm矩阵, 变为Wsm=x1×Wbsm, Wbsm=m×K, 其中m的大小由SM的空间 大小和AM空间的大小综合决定; 调用直接存储器访问操作, 将半精度输入矩阵Iddr加载到片上AM空间中, 将原数据从N 维划分为x2个Ibam矩阵, 变为Iam=x2×Ibam, 其中Ibam=K×n, 即N=x2×n, 其中n=P ×L×4, p表示向量处理器的体系结构中向量功能运算单元部件的数量, L表示向量处 理部件的数量。 3.根据权利要求2所述的方法, 其特征在于, 所述在SM空间中, 对加载到片上SM空间的 权值数据进行向量化处理, 在AM空间中, 将向量化处理后的权值数据与AM空间上的输入数 据做卷积 操作conv1×1, 得到卷积后的特 征图数据, 包括以下步骤: 步骤1、 初始化 i=0, 其中, i表示权值子块矩阵Wbsm(i)在M维上的块索引; 步骤2、 初始化j=0, 其中, j表示输入子块矩阵Ibam(j)在N维上的块索引; 步骤3、 初始化k=0, 其中, k表示权值子块Wbsm的列索引和输入子块Ibam的行索引, m1表 示权值子块的行索引, n1表示输入子块的列索引, 即, 权值子块表示为Wbsm(i, m1, k), 输入子块 表示为Ibam(j, k, n1); 步骤4、 将向量寄存器初始化 为0, 以便向量寄存器累加并存 储计算结果; 步骤5、 标量加载指令的最小粒度为4字节, 半精度数据为2字节, 单次将加载两个半精 度数据到指定标量寄存器的R[0: 15]和R[16: 31], 将所述SM空间中的权值子块Wbsm(i)的第k 列数据Wbsm(i, 0, k)......Wbsm(i, m‑1, k)依次加载到 标量寄存器R30、 R31...R30+m‑1的R[0: 15]中, 同 时权值子块Wbsm(i)的第k+1列数据Wbsm(i, 0, k+1)......Wbsm(i, m‑1, k+1)依次加载到标量寄存器 R30、 R31...R30+m‑1的R[16: 31]中; 步骤6、 基于标量寄存器R30、 R31...R30+m‑1存放的半精度权值数据, 对标量寄存器R30、权 利 要 求 书 1/5 页 2 CN 114330669 B 2R31...R30+m‑1进行低位扩展操作, 将寄存器中低32位中低16 位数据R[0: 15]复制扩展为d位数 据存储在标量寄存器R40、 R41...R40+m‑1中, 其中, d为 一个标量寄存器的位长; 步骤7、 基于标量寄存器R40、 R41...R40+m‑1存放的复制扩展后的数据, 对标量寄存器R40、 R41...R40+m‑1依次进行广播操作并将数据储存在向量寄存器VR50、 VR51...VR50+m‑1中, L个向量 处理部件存储相同的数据, Wbsm(i)的第k列数据向量 化完成; 步骤8、 将所述AM空间中的输入子块矩阵Iba m (j)的第k行数据Iba m (j , k , 0) ......Ibam(j, k, n ‑1)加载到p个向量寄存器VR0、 VR1...VRp‑1中, p表示超长数据指令字的体系 结构中功能向量运算单元部件的数量, 单次加载最小粒度为 个字节, 故单次最少可加 载 个半精度数据; 步骤9、 将Wbsm(i, 0, k)向量化后的数据VR50分别与Ibam(j)的第k行数据VR0、 VR1...VRp‑1做乘 加操作, 同时L个向量处理部件并行操作, 将计算结果存在向量寄存器VR10、 VR11...VR10+p‑1 中; 步骤10、 基于向量寄存器VR51...VR50+m‑1储存的是权值子块Wbsm(i, 1, k)......Wbsm(i, m‑1, k) 的向量化数据, 向量寄存器VR0、 VR1...VRp‑1中储存的是输入子块Ibam(j)的第k行数据, 重复 步骤9, 将权值的各组向量化 数据分别与Ibam(j)的第k行数据相乘, 并将相乘结果累加到向量 寄存器VR10+p、 VR10+p+1....VR10+m×p‑1上, 该过程L个向量处理部件同时并行操作, 遍历Wbsm(i) 的第k列数据, 直至Wbsm(i)的第k列和Ibam(j)的k行的乘加计算完成; 步骤11、 判断k+1是否小于K, 若是, 则跳转执 行步骤19, 若否, 则继续执 行步骤12; 步骤12、 基于标量寄存器R30、 R31...R30+m‑1的R[16: 31]中存放的Wbsm(i, 1, k+1) ......Wbsm(i, m‑1, k+1)数据, 对标量寄存器R30、 R31...R30+m‑1进行高位扩展操作, 将寄存器中低 32位中高16位数据R[16: 31], 复制扩展为d位数据存储在标量寄存器R40、 R41...R40+m‑1中, d 为一个标量寄存器的位长; 步骤13、 基于标量寄存器R40、 R41...R40+m‑1存放的复制扩展后的数据, 对标量寄存器R40、 R41...R40+m‑1依次进行广播操作, 将广播后的数据储存在向量 寄存器VR50、 VR51...VR50+m‑1中, L个向量处 理部件存储相同的数据, Wbsm(i)的第k+1列数据向量 化完成; 步骤14、 将所述AM空间中的输入子块矩阵Ibam(j)的第k+1行数据Ibam(j, k+1, 0) ......Ibam(j, k+1, n ‑1)加载到p个向量 寄存器VR0、 VR1...VRp‑1中, p表示超长 数据指令字的体系 结构中功能向量运算单元部件的数量, 单次加载最小粒度为 个字节, 故单次最少可加 载 个半精度数据; 步骤15、 将Wbsm(i, 0, k+1)向量化后的数据VR50分别与Ibam(j)的第k+1行数据 VR0、 VR1...VR
专利 一种面向向量处理器的半精度向量化conv1×1卷积方法及系统
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 21:49:14
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
T-QGCML 1699—2023 经营数据中台可视化运维监管云平台.pdf
关于加强党政部门云计算服务网络安全管理的意见 .pdf
GB-T 6003.2-2012 试验筛 技术要求和检验 第2部分:金属穿孔板试验筛.pdf
GB-T 41997.3-2022 机械电气安全 基于视觉的电敏保护设备 第3部分:采用立体视觉保护器件特殊要求.pdf
DB5223-T 15-2021 新市民家庭经济困难学生资助、补助规范 黔西南布依族苗族自治州.pdf
GB-T 18884.3-2015 家用厨房设备 第3部份:试验方法与检验规则.pdf
GB 7231-2003 工业管道的基本识别色、识别符号和安全标识.pdf
GB-T 42368-2023 高温高压条件下可燃气体 蒸气 爆炸极限测定方法.pdf
T-CI 121—2023 RNA定量测序技术规程.pdf
GB-T 39570-2020 电子商务交易产品图像展示要求.pdf
GB-T 41524-2022 玩具材料中短链氯化石蜡含量的测定 气相色谱-质谱联用法.pdf
GA 1800.1-2021 电力系统治安反恐防范要求 第1部分:电网企业.pdf
GB-T 11436-2012 软磁铁氧体材料成品、半成品化学分析方法.pdf
GB-T 30127-2013 纺织品 远红外性能的检测和评价.pdf
GM-T 0064-2018 限域通信(RCC)密码检测要求.pdf
T-SZSWA 007—2022 困境儿童关爱社会工作服务指南.pdf
DB2201-T 16-2022 城市智能体数据治理技术规范 长春市.pdf
专利 一种水循环温控系统.PDF
GM-T 0011-2012 可信计算 可信密码支撑平台功能与接口规范.pdf
GB-T 37980-2019 信息安全技术 工业控制系统安全检查指南.pdf
1
/
3
26
评价文档
赞助2元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。