[发明专利]中文文本的识别方法及装置在审
申请号: | 201910625020.0 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110502741A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 张懿 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 11448 北京中强智尚知识产权代理有限公司 | 代理人: | 黄耀威<国际申请>=<国际公布>=<进入 |
地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文文本 注意力机制 获取目标 句法分析 模型确定 特征识别 预定条件 预设 | ||
本发明提供了一种中文文本的识别方法及装置,其中,该方法包括:获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;使用预设句法分析模型确定所述多个第二意群的意群次序特征;基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。通过本发明,解决了现有技术中不能识别复杂句式的中文文本的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种中文文本的识别方法及装置。
背景技术
现有技术中,NLP(Natural Language Processing,自然语言处理)领域中深度学习里针对英文的上下文嵌入层十分时髦,在学术界罕有类似的中文相关的嵌入方式。由于中文的行文风格和英文并不相似,直接套用效果不佳。尤其是中文的字词次序特征含义模糊,行文中常有倒装,以至于传统的RNN(循环神经网络,Recurrent Neural Network)学习并不能有效获取中文的行文含义。
针对现有技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种中文文本的识别方法及装置,以至少解决现有技术中不能识别复杂句式的中文文本的技术问题。
根据本发明的一个实施例,提供了一种中文文本的识别方法,包括:获取目标中文文本中的多个第一意群,其中,所述多个第一意群组成所述目标中文文本;采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群;使用预设句法分析模型确定所述多个第二意群的意群次序特征;基于所述多个第二意群和所述意群次序特征识别所述目标中文文本。
可选的,采用注意力机制从所述多个第一意群中选择符合预定条件的多个第二意群包括:在预设神经网络模型中构建嵌入层;将所述多个第一意群输入所述嵌入层,在所述嵌入层中查找所述目标中文文本中的时间属性词或空间属性词,将与所述时间属性词相关的意群确定为所述第二意群,或者将与所述空间属性词相关的意群确定为所述第二意群;将所述嵌入层的输出结果确定为所述多个第二意群。
可选的,基于所述多个第二意群和所述意群次序特征识别所述目标中文文本包括:根据所述意群次序特征确定各个第二意群的排列顺序;按照所述排列顺序编排所述多个第二意群。
可选的,获取目标中文文本中的多个第一意群包括:将所述目标中文文本进行分词处理,得到多个概念单位;将所述多个概念单位输入至CRF线性链的以下势函数,输出所述多个第一意群:
其中,tk为转移特征函数,对应相邻的隐层节点,sl为状态特征函数,对应每一对隐层和显层节点,λk和μl分别是tk()和sl()对应的权值,Z(x)是规范化因子,yi-1为当前单词与后一个词组成的意群,yi为当前单词与前一个词组成的意群,i为单词标识,x为单词的语义特征信息。
可选的,使用预设句法分析模型确定目标中文文本中多个所述第二意群的意群次序特征包括:采用预设句法分析模型确定所述目标中文文本的句法结构和所述多个第二意群之间的依存关系;根据所述句法结构和所述依存关系确定所述多个第二意群的意群次序特征。
可选的,采用预设句法分析模型确定所述目标中文文本的句法结构包括:确定所述目标中文文本的语法体系;根据所述语法体系,按照所述语法体系的句法结构拆分句子,分析句子所包含的句法单位和这些句法单位之间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910625020.0/2.html,转载请声明来源钻瓜专利网。