[发明专利]一种电子公文实体抽取方法在审

申请号：	201910507540.1	申请日：	2019-06-12
公开（公告）号：	CN110297913A	公开（公告）日：	2019-10-01
发明（设计）人：	陈达纲;李泽源;李泽松;刘昆南;宋亚军;王鹏	申请（专利权）人：	中电科大数据研究院有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06F17/27;G06N3/04
代理公司：	贵阳睿腾知识产权代理有限公司 52114	代理人：	谷庆红
地址：	550000 贵州省贵阳市贵阳***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种电子公文实体抽取方法，包括如下步骤：A.预处理；B.构造特征；C.训练实体抽取模型；D.获取语料；E.获取词向量；F.训练算法模型。本发明采用传统的序列标注算法与深度学习算法相结合，利用传统序列算法需要少语料标注的优点，采用半监督的方法扩充语料，解决深度学习算法需要人工标注大量语料的费时费力问题；在CRF模型中添加最大正向及逆向词典、句法和语义特征，充分考虑了实体词出现的前后边界词特性，让算法更具泛化能力；采用dilated CNN与BiLSTM‑CRF相结合，dilated CNN将字符级向量与字符级位置特征作为外部特征，与词性向量一起拼接到词向量中，可以一定程度表达出更多的语义和上下相关信息。
搜索关键词：	语料算法抽取电子公文学习算法词向量向量预处理语义程度表达传统序列构造特征人工标注外部特征位置特征相关信息序列标注训练算法语义特征半监督传统的词性句法正向标注费力
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种电子公文实体抽取方法，其特征在于：包括如下步骤：A.预处理：利用爬虫系统获取政府公文的文本数据，将文本数据存入数据库中，并对文本数据进行专家标注；B.构造特征：根据专家标注对文本数据提取CRF特征，CRF特征包括特征词本身、词性、词长、左右信息熵、TF_IDF、公文领域词典位置、基于词典的前向最大匹配分词、基于词典的后向最大匹配分词、基于LTP的句法及基于LTP的语义特征；C.训练实体抽取模型：根据提取得到的CRF特征，通过CRF++训练实体抽取模型；D.获取语料：利用实体抽取模型，对文本数据进行语料扩充抽取，确保语料条数不小于5000；E.获取词向量：将得到的语料通过Bert算法表示成词向量；F.训练算法模型：以词向量作为训练数据，以dilated CNN‑BiLSTM‑CRF算法的网络层作为模型架构，训练得到政府公文实体抽取算法模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司，未经中电科大数据研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910507540.1/，转载请声明来源钻瓜专利网。

上一篇：欺诈识别方法、装置、设备及计算机可读存储介质
下一篇：语料标注方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种电子公文实体抽取方法在审

专利文献下载