[发明专利]一种基于实体扩展的实体识别方法和系统有效
申请号: | 202110733185.7 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113191152B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 韩瑞峰;金霞;杨红飞;程东 | 申请(专利权)人: | 杭州费尔斯通科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/284;G06F40/211;G06K9/62;G06N3/04 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张超 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 扩展 识别 方法 系统 | ||
1.一种基于实体扩展的实体识别方法,其特征在于,所述方法包括:
通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;
以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
通过所述word2vec模型进行训练,根据随机梯度下降的方式,在所述概念词上循环计算反向梯度,并对所述word2vec模型的参数进行调整,得到所述概念词的词向量,使得词义相近的概念词的词向量距离相对接近;
根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;
根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;
根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
2.根据权利要求1所述的方法,其特征在于,根据所述概念词的词向量计算所述概念词的文本特征包括:
计算所述概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以所述概念词的数量,来表示所述上下文一致度;
计算所述概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以所述词向量之间的相似度的平均值,来表示所述上下文纯度;
计算所述概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以所述概念词的数量,来表示所述上下文一致度,其中,所述预设高质量实体集存在于领域实体词列表中;
计算所述概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且所述概念词包含相同的组成词,则以所述概念词的数量,来表示所述上下文一致度。
3.根据权利要求1所述的方法,其特征在于,根据领域实体词列表将所述概念词设置为正负样本包括:
根据领域实体词列表,若概念词出现在所述领域实体词列表中,则将所述概念词设置为正样本;
若概念词未现在所述领域实体词列表中,则将所述概念词设置为负样本。
4.根据权利要求1所述的方法,其特征在于,根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
所述无标签语料包含若干句子,按照每个句子重新分割得到的概念词的置信度之和为最大的规则,通过动态规划方法来进行重新分割得到基于实体扩展的实体词。
5.一种基于实体扩展的实体识别系统,其特征在于,所述系统包括预分割模块、词向量模块、特征样本模块、置信度模块和再分割模块;
所述预分割模块通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;
所述词向量模块以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
所述词向量模块通过所述word2vec模型进行训练,根据随机梯度下降的方式,在所述概念词上循环计算反向梯度,并对所述word2vec模型的参数进行调整,得到所述概念词的词向量,使得词义相近的概念词的词向量距离相对接近;
所述特征样本模块根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;
所述置信度模块根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;
所述再分割模块根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110733185.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种箱包生产用的尺寸检测平台
- 下一篇:一种基于测向设备的空域滤波方法