[发明专利]基于用户辅助修正下的实体对特定关系抽取方法在审
申请号: | 201911235530.3 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111026815A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 韩伟红;王志超;陈雷霆;母国才;邱彪 | 申请(专利权)人: | 电子科技大学广东电子信息工程研究院 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/31;G06F16/35;G06F16/36 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 潘俊达;郭宝煊 |
地址: | 523000 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 辅助 修正 实体 特定 关系 抽取 方法 | ||
1.基于用户辅助修正下的实体对特定关系抽取方法,其特征在于,包括以下步骤:
a、设置人工标注模块,通过该人工标注模块用于按需导入数据,并通过web页面进行人工标注;
b、使用tensorflow工具构建基于深度学习的模型训练模块,其中,所述基于深度学习的模型训练模块中包含多个适用于自然语言处理关系分类的深度学习模型,训练数据经过不同的深度学习模型找出当前批数据中最优模型,并替换掉特定关系抽取模块中的抽取模型;
c、对人工标注数据及校正数据进行整合以及对特定的过滤清理,并依据分词结果进行数据的预处理,预处理数据作为模型标准输入得出分类结果,并对抽取结果进行汇总验证;
d、构建关系校正模块供用户进行辅助修正,通过前端展示的形式由用户判断抽取是否正确。
2.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法,其特征在于,所述步骤a具体包括以下步骤:
a1、设置网页,对网页的数据表进行预设;
a2、通过该网页进行人工标注,生成初始标注数据。
3.根据权利要求2中所述的基于用户辅助修正下的实体对特定关系抽取方法,其特征在于:所述数据表的预设包括提供句子、句子的分词结果和两个实体的位置。
4.根据权利要求3中所述的基于用户辅助修正下的实体对特定关系抽取方法,其特征在于:所述数据表的预设还包括在数据库中增加用户互斥锁,使每条数据只会被用户处理一次。
5.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法,其特征在于,所述步骤b具体包括以下步骤:
b1、预处理及标准化,将文本数据进行向量化处理,使文本数据通过低维向量表示;
b2、文本特征的提取,对文本中两个指定实体的物理位置和语义位置特征进行提取;
b3、训练模型的构建,将词向量、两个实体的物理、语义距离拼接,作为训练模型的输入构建模型;
b4、训练与择优选择,通过训练后取最优模型替代默认的模型。
6.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法,其特征在于,所述步骤c具体包括以下步骤:
c1、依据用户需求,自动获取网络链接到互联网上的网页内容;
c2、将步骤c1中获取的数据,通过相应规则,找出其正文,并使用分词工具对自然语言进行处理,得到其语义特征;
c3、依据步骤c2中的特征,加载当前分类模型进行分类;
c4、将抽取出的结果依据索引、存储、更新等不同需求,存放到不同的数据库中。
7.根据权利要求6中所述的基于用户辅助修正下的实体对特定关系抽取方法,其特征在于:所述步骤c1中获取的内容包括html源码和javascript代码。
8.根据权利要求1中所述的基于用户辅助修正下的实体对特定关系抽取方法,其特征在于:所述步骤d包括对当前的结果进行评估,若输出结果正确,则将当前句子的抽取结果标记为正例;若输出结果错误,则将当前句子的抽取结果标记为反例,同时在数据库中标记删除,下次数据将不再显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学广东电子信息工程研究院,未经电子科技大学广东电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911235530.3/1.html,转载请声明来源钻瓜专利网。