[发明专利]一种基于图嵌入与CRF知识融入的地址要素识别方法有效
| 申请号: | 202110746162.X | 申请日: | 2021-07-01 |
| 公开(公告)号: | CN113255346B | 公开(公告)日: | 2021-09-14 |
| 发明(设计)人: | 毛星亮;陈晓红;路毅恒;徐雪松;李芳芳 | 申请(专利权)人: | 湖南工商大学 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F16/29;G06F16/22;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 黄敏华 |
| 地址: | 410205 *** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 嵌入 crf 知识 融入 地址 要素 识别 方法 | ||
1.一种基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,具体包括如下步骤:
S1:构建地址要素关系图;
S2:构建并训练一个图嵌入模型,向图嵌入模型输入S1中的地址要素关系图,由图嵌入模型输出地址要素关系图中的地址要素的向量表征;
S3:统计语料中各类地址要素之间的转移概率,从而形成一个转移矩阵;
S4:构建一个CRF模型,在CRF模型初始化时,将S3中的转移矩阵作为CRF模型的转移矩阵;
S5:构建并训练一个Word2Vec词嵌入模型,向词嵌入模型输入地址要素文本,由词嵌入模型输出地址要素文本中的地址要素的向量表征;
S6:构建并训练一个BiLSTM模型,使用S2中与S5中输出的地址要素的向量表征,共同作为BiLSTM模型的输入,由BiLSTM模型抽取出语料中的地址要素,输出抽取出的地址要素的向量表征;
S7:将S6中输出的地址要素的向量表征输入S4中的CRF模型对其进行训练,通过收敛后的CRF模型,得到地址要素的最终识别结果;
S3中,转移矩阵,公式(1):
(1)
其中,
2.根据权利要求1所述的基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,S1中:
所述地址要素关系图包括:全国行政区划图,其中的市与对应的省连线。
3.根据权利要求1所述的基于图嵌入与CRF知识融入的地址要素识别方法,其特征在于,S2中:
所述图嵌入模型中具有Node2Vec网络,设定采样策略,按照采样策略对地址要素关系图进行序列采样,获得序列训练Node2Vec网络,由Node2Vec网络输出地址要素的向量表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110746162.X/1.html,转载请声明来源钻瓜专利网。





