[发明专利]用于定向天线自组织网络的智能邻居发现方法及装置有效
| 申请号: | 202111209966.2 | 申请日: | 2021-10-18 |
| 公开(公告)号: | CN114051228B | 公开(公告)日: | 2022-12-02 |
| 发明(设计)人: | 张彧;孙文亮;吴义辰;王军 | 申请(专利权)人: | 清华大学 |
| 主分类号: | H04W8/00 | 分类号: | H04W8/00;H04W40/18;H04W84/18;G06N20/00 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 尚伟净 |
| 地址: | 10008*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 定向天线 组织网络 智能 邻居 发现 方法 装置 | ||
1.一种用于定向天线自组织网络的智能邻居发现方法,其特征在于,包括以下步骤:
利用定向天线的收发模式及扫描方式构建强化学习模型;
根据所述强化学习模型中的Q值表,并采用∈-greedy算法选择定向天线自组织网络中的节点的收发模式与扫描方向;
根据所述节点的收发模式发送或侦听握手包,并基于所述握手包进行三步握手交互;
通过节点检测交互过程中握手包的冲突,根据冲突信息及所述收发模式确定所述强化学习模型中的奖励值;以及
根据所述奖励值和预设学习算法更新所述强化学习模型中的Q值表;
所述利用定向天线的收发模式及扫描方式构建强化学习模型,包括:
控制所述定向天线按照扫描序列进行扫描,基于所述扫描序列的序列号进行所述强化学习模型中的状态建模;
选取发送或接收模式以及所述扫描序列中的指向信息,确定所述强化学习模型中的动作建模;
基于发送模式、接收模式、与所述扫描序列同向信息和/或反向信息确定所述强化学习模型中的状态空间建模;
所述根据所述节点的收发模式发送或侦听握手包,并基于所述握手包进行三步握手交互,包括:
处于发送模式的节点在第一个子时隙发送带有本节点ID的握手包,并且在第二个子时隙进行侦听,其中,若在所述第二个子时隙正确收到其他节点的握手包,则在第三个子时隙进行回复确认握手包,若在所述第二个子时隙检测到冲突握手包,则在所述第三个子时隙进行回复冲突信息,若在所述第二个子时隙未收到数据包或收到冲突信息,则所述第三个子时隙不发送信息;
处于接收模式的节点在所述第一个子时隙进行侦听,若在所述第一个子时隙正确收到所述其他节点的握手包,则在所述第二个子时隙进行回复,若在所述第一个子时隙检测到所述冲突握手包,则在所述第二个子时隙进行回复冲突信息,若所述第一个子时隙未收到所述数据包,则在所述第二个子时隙不发送信息;在所述第三个子时隙进行侦听;
所述Q值表的更新公式为:
其中,s与a分别表示当前的状态与选取的动作,α为学习率,R表示奖励,λ表示奖励的折扣系数,s′与a′分别表示下一个状态与对应的动作。
2.根据权利要求1所述的方法,其特征在于,所述采用∈-greedy算法选择定向天线自组织网络中的节点的收发模式与扫描方向,包括:
以1-∈的概率选取在当前状态下使Q值最大的动作,以∈的概率选取任意动作。
3.根据权利要求1所述的方法,其特征在于,所述根据冲突信息及所述收发模式确定所述强化学习模型中的奖励值,包括:
若所述节点处于所述发送模式且检测到冲突,则奖励的取值为-1;
若所述节点处于所述接收模式且检测到冲突,则奖励的取值为1;
若所述节点成功进行链路发现且为所述发送模式,则奖励的取值为-0.5;
若所述节点成功进行链路发现且为所述接收模式,则奖励的取值为0.5;
若为其余情况下,则所述奖励的取值为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111209966.2/1.html,转载请声明来源钻瓜专利网。





