[发明专利]一种基于概念的语义识别方法及装置在审
| 申请号: | 201810748970.8 | 申请日: | 2018-07-10 |
| 公开(公告)号: | CN108984527A | 公开(公告)日: | 2018-12-11 |
| 发明(设计)人: | 董文平 | 申请(专利权)人: | 广州极天信息技术股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫 |
| 地址: | 510000 广东省广州市海珠*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字符串 分词 词语概念 路径存储 语义识别 语义网 消歧 匹配 文本 词义 概念识别 文本语义 准确率 词语 输出 保存 成功 | ||
本发明公开了一种基于概念的语义识别方法及装置,所述方法包括如下步骤:步骤S1,对待分词的文本进行分词,获得多个已分词字符串;步骤S2,将已分词字符串与语义网的所有节点进行匹配;步骤S3,对成功匹配语义网节点的字符串进行词义消歧处理,得到消歧后的字符串的概念路径,保存于词语概念路径存储库内;步骤S4,输出该待分词的文本的字符串在所述词语概念路径存储库内的相关词语的概念路径,本发明可有效提高文本语义概念识别的准确率和计算速度。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于概念的语义识别方法及装置。
背景技术
目前,主流的中文分词技术主要有如下两种:
一是机械式分词法(基于词典),机械式分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分,基于词典的机械分词法,实现简单、实用性强;
二是基于语法和规则的分词法,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。
然而目前的中文分词技术分别存在如下问题:
1、机械分词法的最大缺点就是词典的完备性不能得到保证。首先词典的词汇录入具有时间上的滞后性,其次,词典录入的词不能涵盖所有的人名、地名、机构名等专有名词,而据统计登录词典的词大部分有人名、地名、机构名等专有名词;
2、基于语法和规则的分词法因现有的语法知识、句法规则十分笼统、复杂,基于元和规则的分词法所能达到的精确度还远远不能令人满意。因此目前这种分词系统还处在试验阶段。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于概念的语义识别方法及装置,以有效提高文本语义概念识别的准确率和计算速度。
为达上述目的,本发明提出一种基于概念的语义识别方法,包括如下步骤:
步骤S1,对待分词的文本进行分词,获得多个已分词字符串;
步骤S2,将已分词字符串与语义网的所有节点进行匹配;
步骤S3,对成功匹配语义网节点的字符串进行词义消歧处理,得到消歧后的字符串的概念路径,保存于词语概念路径存储库内;
步骤S4,输出该待分词的文本的字符串在所述词语概念路径存储库内的概念路径。
优选地,于步骤S1中,调用多语言语义网引擎对文本里的字符进行分词。
优选地,于步骤S1之前,还包括如下步骤:对所述待分词的文本进行语种识别,以便步骤S1调用相应的语种的语义网引擎进行分词。
优选地,于步骤S3中,如果成功与该语义网节点匹配的字符串与超过一个语义网节点匹配上,则对该字符串进行词义消歧,将消歧后的该字符串的概念路径R2保存到所述词语概念路径存储库内。
优选地,于步骤S3中,如果成功与语义网节点匹配的字符串只能与语义网中一个节点匹配,则该字符串不需要进行词义消歧,将该字符串的概念路径R1保存到所述词语概念路径存储库内。
为达到上述目的,本发明还提供一种基于概念的语义识别装置,包括如下步骤:
分词单元,用于对待分词的文本进行分词,获得多个已分词字符串;
语义网匹配单元,用于将已分词所有字符串与语义网的所有节点进行匹配;
词义消歧处理单元,用于对成功匹配语义网节点的字符串进行词义消歧处理,得到消歧后的字符串的概念路径,保存于词语概念路径存储库内;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州极天信息技术股份有限公司,未经广州极天信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810748970.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的文档主题向量抽取方法
- 下一篇:一种基于思维距离的社交方法





