专利 基于分层共识和强化学习的区块链性能自适应优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211004846.3 (22)申请日 2022.08.22 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人王孟鑫　陈世展　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师刘子文 (51)Int.Cl. H04L 41/042(2022.01) H04L 41/044(2022.01) H04L 41/0823(2022.01) H04L 41/14(2022.01) H04L 41/16(2022.01) H04L 9/40(2022.01) (54)发明名称基于分层共识和强化学习的区块链性能自适应优化方法 (57)摘要本发明公开一种基于分层共识和强化学习的区块链性能自适应优化方法，基于由分层共识模块和网络安全评估模块组成的强化学习决策模块，分层共识模块为基于网络分层模型的共识算法模块，包括信任评估子模块；该优化方法具体包括： (1)通过网络节点分层模块将共识流程中的节点划分为主共识组和子共识组集群，子共识组集群中包括若干个子共识组； (2)通过信任评估子模块内的信任模型评估共识过程中每个节点的行为；实现信任评估和信任选举； (3)通过网络安全评估模块计算出分组数量的安全性约束及时延的安全性约束； (4)通过强化学习决策模块实现区块链性能自适应优化。本发明在保证区块链网络安全的同时优化网络性能，实现自适应调节。权利要求书4页说明书11页附图4页 CN 115378788 A 2022.11.22 CN 115378788 A 1.一种应用于区块链网络的强化学习决策模块，其特征在于，包括分层共识模块和网络安全评估模块，所述分层共识模块为基于网络分层模型的共识算法模块，包括信任评估子模块，所述分层共识模块用于将区块链网络中的节点划分为主共识组和子共识组集群，子共识组集群中包括若干个子共识组；分层共识模块内的共识算法能够降低共识通信复杂度，更快达成全网共识；信任评估子模块用于实现信任评估和信任选举；信任评估子模块内引入了一个信任模型来评估共识过程中每个节点的行为；如果检测到节点恶意行为，信任模型会降低该节点的信任值，反之则会提高其信任值；在每一轮共识后，所有节点更新节点信任值和节点状态信息，并根据信任值调整共识组，以信任值高低作为选举标准选举相应节点成为领导节点或主节点；所述网络安全评估模块从分组数量和时延两个角度计算区块链网络的安全性约束；所述网络安全评估模块通过获取区块链共识历史信息并计算共识历史的不一致性，估算当前区块链网络中恶意节点的比例，以计算出分组数量的安全性约束；通过限定有限个连续区块间隔时间内完成一轮共识，最终计算出时延的安全性约束；所述强化学习决策模块内的强化学习神经网络使用两个智能体，用于主共识组的智能体采用严格的分组约束作为激励函数的约束条件，而用于子共识组的智能体采用宽松的分组约束；强化学习决策模块将节点间数据传输速率、节点性能、共识历史组成的区块链网络环境信息作为状态空间；将区块大小、出块时间、共识组中节点数量组成的参数作为动作空间；在满足区块链网络安全性约束前提下，通过计算区块链性能参数，实现区块链性能自适应优化。 2.一种基于分层共识和强化学习的区块链性能自适应优化方法，基于权利要求1所述强化学习决策模块，其特征在于，包括： (1)通过网络节点分层模块将共识流程中的节点划分为主共识组和子共识组集群，子共识组集群中包括若干个子共识组；网络节点分层模块内使用的共识算法是将PBFT算法中所有节点互相广播的方式改为分层共识，引入流水线化的Hotstuff算法，在每个子共识组内完成初步共识，然后在主共识组中完成最终共识；所述共识算法由预准备、准备、提交、确定四个阶段组成； (2)通过信任评估子模块内的信任模型评估共识过程中每个节点的行为；如果检测到节点恶意行为，信任模型会降低该节点的信任值，反之则会提高其信任值；在每一轮共识后，所有节点更新节点信任值和节点状态信息，并根据信任值调整共识组，以信任值高低作为选举标准选举相应节点成为领导节点或主节点； (3)通过网络安全评估模块获取区块链共识历史信息，并通过计算共识历史的不一致值来估算当前区块链网络中恶意节点的比例，以计算出分组数量的安全性约束；通过限定有限个连续区块间隔时间内完成一轮共识，以计算出时延的安全性约束； (4)所述强化学习决策模块用于实现区块链性能自适应优化，强化学习神经网络使用两个采用D 3QN网络的智能体，用于主共识组的智能体采用严格的分组约束作为激励函数的约束条件，用于子共识组的智能体采用宽松的分组约束；强化学习决策模块将节点间数据传输速率、节点性能、共识历史组成的区块链网络环境信息作为状态空间；将区块大小、出块时间、共识组中节点数量组成的参数作为动作空间；在满足区块链网络安全性约束前提权　利　要　求　书 1/4 页 2 CN 115378788 A 2下，通过计算区块链性能参数，实现区块链性能自适应优化。 3.根据权利要求2所述一种基于分层共识和强化学习的区块链性能自适应优化方法，其特征在于，步骤(1)具体如下： (101)在共识算法开始阶段，各共识组内由信任值评估模块选举主节点，客户端发送请求给主节点； (102)每轮共识开始时，主节点收集到足额的副本节点发送的更改视图消息，其包含了发送节点上高度最高的预准备签名；主节点向所有节点转发请求并发送预准备消息，消息中包含预准备签名；该步是主共识组的预准备阶段； (103)在每个子共识组内的副本节点收到预准备消息之后，对预准备消息中签名的合法性及视图合法性进行验证，随后向领导节点发送确认消息；步骤(102)和(103)是子共识组的预准备阶段； (104)当子共识组内的领导节点收集到足额的签名时进入本步骤，领导节点收到预准备消息时，通过聚合若干数量的签名得到预准备签名；然后领导节点向组内副本节点发送准备消息，准备消息附带聚合得到的预准备签名； (105)每个共识组内的副本节点向领导节点收到准备消息，验证后发送准备投票消息；步骤(104和(10 5))是子共识组的准备阶段； (106)当子共识组内领导节点收集足额签名时进入本步骤，然后聚合出这一阶段的准备签名，然后第一个领导节点向其他领导节点发送提交消息，提交消息中包含准备签名； (107)其他领导节点收到提交消息，验证后发送提交投票消息给主节点；步骤(106)和 (107)是主共识组的提交阶段； (108)第一个共识组的主节点收集到足额的提交消息时，聚合得到提交签名，并且附带在确定消息中发送给其他所有节点； (109)当其他节点收到确定消息时，其中提交签名指向的交易就会被执行，之后增加视图号；最后发送回复消息给客户端，完成本轮共识，并开启下一轮共识。 4.根据权利要求2所述一种基于分层共识和强化学习的区块链性能自适应优化方法，其特征在于，步骤(2)中，信任模型内节点信任值设为[0,1]，数值越大，可信度越高；信任模型将信任值划分为不同区间，每个区间表示一种节点状态；并且设置基于信任值的节点状态转化方式。 5.根据权利要求3所述一种基于分层共识和强化学习的区块链性能自适应优化方法，其特征在于，节点状态转化方式如下：区块链网络刚运行时，节点状态为正常；当节点若干次的生成有效的块，并且信任值大于阈值α 时，升级到可信状态；如果节点出现异常行为，节点状态变为受限状态；如果节点信任值低于阈值β，节点将变为恶意状态；不论节点处于什么状态，如果在共识过程中向不同节点发送不一致投票消息，则直接降级为恶意节点；节点生成有效块后或者在共识过程中与大多数节点投票信息一致，信任值会不断提高；最后，在每一轮共识后，所有节点更新节点信任值和状态信息。 6.根据权利要求2所述一种基于分层共识和强化学习的区块链性能自适应优化方法，其特征在于，步骤(3)中共识历史的不一致值是使用规范化的熵值计算的，不一致值是共识状态的不同概率的不确定性的度量；首先在子共识组集群内的每个子共识组和主共识组中计算不一致值；然后，通过平均所有共识组的归范化熵值来计算区块链网络安全性。权　利　要　求　书 2/4 页 3 CN 115378788 A 3

专利 基于分层共识和强化学习的区块链性能自适应优化方法

专利基于分层共识和强化学习的区块链性能自适应优化方法