[发明专利]企业名称识别方法、电子设备及计算机可读存储介质在审
申请号: | 201710960222.1 | 申请日: | 2017-10-16 |
公开(公告)号: | CN107797989A | 公开(公告)日: | 2018-03-13 |
发明(设计)人: | 徐冰;汪伟;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙)44347 | 代理人: | 高杰,于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业名称 识别 方法 电子设备 计算机 可读 存储 介质 | ||
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种企业名称识别方法、电子设备及计算机可读存储介质。
背景技术
舆情分析需要把财经新闻结构化,其中第一步是识别新闻中的企业实体。传统的自然语言处理技术一般采用条件随机场或者隐式马尔科夫模型进行序列建模,但是,这些方法非常依赖于特征的选取、泛化能力很弱。故,现有技术中的企业名称识别方法设计不够合理,亟需改进。
发明内容
有鉴于此,本发明提出一种企业名称识别方法、电子设备及计算机可读存储介质,通过LSTM+CRF模型的结合,自动提取有效特征,并且在识别企业名称时能够利用上下文信息,在打标签的阶段有效利用了句子级别的标记信息,提高了识别精确度与召回率。
首先,为实现上述目的,本发明提出一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的企业名称识别系统,所述企业名称识别系统被所述处理器执行时实现如下步骤:
接收输入的特定文字序列;
将所述特定文字序列中的每个汉字转化为对应的词向量,并将转化后的词向量输入至递归神经网络;
通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场;
通过特定的回归模型将每个词向量的状态向量转换成特征向量,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量进行解码,得到所述特定文字序列中所有汉字的三元标注集,并通过最佳标签序列输出所有汉字的三元标注集;及
根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。
优选地,所述预先设定的三元标注规则包括:通过第一标签表示企业名称的第一个汉字,第二标签表示企业名称的剩余汉字,及第三标签表示不属于企业名称的汉字。
优选地,所述状态向量包括第一隐藏层状态向量和第二隐藏层状态向量;
所述状态向量的计算包括:
调用所述递归神经网络的双向长短期记忆模块,从左向右根据当前词向量的前一个词向量的隐藏层状态向量计算当前词向量的第一隐藏层状态向量,并从右向左根据当前词向量的后一个词向量的隐藏层状态向量计算当前词向量的第二隐藏层状态向量。
所述特征向量的计算包括:通过所述特定的回归模型将每个词向量对应的第一隐藏层状态向量和第二隐藏层状态向量进行合并,得到每个词向量的特征向量。
优选地,所述最佳标签序列通过预定的标签序列计算公式获取,所述预定的标签序列计算公式设置为:
其中,X代表每个词向量的特征向量,y代表待预测的标签序列,n代表所述特定文字序列中的汉字个数,i代表所述特定文字序列中的第i个汉字;
A代表状态转移矩阵,Ayi,yi+1代表从第yi个标签转移到第yi+1个标签的概率,Pi,yi代表第i个汉字被标记为第yi个标签的概率;及
s(X,y)代表衡量每条标签序列的指标,通过最大化s(X,y)得到所述最佳标签序列。
优选地,所述特定企业名称的识别包括:从所述最佳标签序列中提取连续标注的第一标签和所有第二标签对应的汉字,将提取的汉字作为特定企业名称。
此外,为实现上述目的,本发明还提供一种企业名称识别方法,该方法应用于电子设备,所述方法包括:
接收输入的特定文字序列;
将所述特定文字序列中的每个汉字转化为对应的词向量,并将转化后的词向量输入至递归神经网络;
通过所述递归神经网络计算每个词向量的状态向量,并将每个词向量的状态向量输入至条件随机场;
通过特定的回归模型将每个词向量的状态向量转换成特征向量,并利用所述条件随机场和预先设定的三元标注规则,对每个词向量的特征向量进行解码,得到所述特定文字序列中所有汉字的三元标注集,并通过最佳标签序列输出所有汉字的三元标注集;及
根据所述预先设定的三元标注规则,从所述最佳标签序列中识别出特定企业名称。
优选地,所述预先设定的三元标注规则包括:通过第一标签表示企业名称的第一个汉字,第二标签表示企业名称的剩余汉字,及第三标签表示不属于企业名称的汉字。
优选地,所述最佳标签序列通过预定的标签序列计算公式获取,所述预定的标签序列计算公式设置为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710960222.1/2.html,转载请声明来源钻瓜专利网。