[发明专利]一种基于品牌分析系统的NLP中文分词歧义识别方法在审
申请号: | 201810454166.9 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108664618A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 汪伟亚;高倩;许恺;陈辉 | 申请(专利权)人: | 江苏号百信息服务有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210006 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歧义 集合 品牌分析 中文分词 交叉型 深度优先搜索 输入汉语语句 最大匹配算法 可能性计算 遍历路径 分析系统 工作效率 歧义消解 人工干预 输入语句 数学模型 识别率 准确率 遍历 递归 放入 建模 语句 文本 智能 返回 检测 中文 | ||
本发明公开了一种基于品牌分析系统的NLP中文分词歧义识别方法,包含以下步骤:步骤一:输入汉语语句,通过最大匹配算法检测中文语句中存在的交叉歧义,并放入交叉型歧义集合,若集合为空,表示输入语句中无交叉型歧义,不进行任何处理,直接返回,否则,遍历集合中的所有歧义,进入步骤二处理;步骤二:采用基于深度优先搜索的递归方法,对歧义进行路径全切分,得到所有路径的集合,遍历路径集合,对每条路径做步骤三处理;步骤三:根据给定的选择可能性计算数学模型,对歧义切分路径进行建模,进行歧义消解。本发明提高了品牌分析系统中伪歧义识别率与准确率,使得系统更加智能的识别理解文本,降低人工干预,提高分析系统工作效率。
技术领域
本发明涉及一种中文分词歧义识别方法,特别是一种基于品牌分析系统的NLP中文分词歧义识别方法。
背景技术
人工智能(Artificial Intelligence,AI)已经不再是鲜为人知的名词,从初步提出到现在,经过五十多年的研究发展,已经在机械制造、信息控制、航空航天以及仿生学等各学科领域得到广泛的应用。自然语言理解(Natural Language Processing,NLP)即是人工智能的一项重要分支,也是实现人工智能技术其他分支领域的重要基础,如专家系统的知识学习、控制领域的语音控制、搜索引擎的智能搜索等等,都以NLP为分析基础,因此NLP是一项在人工智能领域具有重大研究意义的技术课题。
在目前信息量剧增的时代,通过大数据分析将企业品牌健康度、品牌定位、消费者印象、品牌传播力、品牌竞争表现等数据整合成企业品牌舆情分析监控系统已经成为热门趋势,通过大数据能够获取到想要的信息是一个必须要解决的问题,目前市面的相关产品主要通过爬虫技术结合企业内外部非结构文本数据的方法,利用基本的分词算法,然后经过咨询分析人员人工分析形成品牌分析报告产品,但由于前期文本分析的颗粒度较粗,使得需要耗费较大人力进行人工干预,一旦数据量较大,便使得整个系统效率低下,品牌分析系统核心在于提高自然语言识别的效率,根据自然语言的类别不同,自然语言理解分为多个研究方向,其中最主要的包括英语自然语言理解与汉语自然语言理解,英语自然语言理解相对于汉语自然语言理解要容易的多,因为英文语句本身就是由具有完整语义的最小单元(即英语单词)组成,而汉语语句是由连续的汉字组成,单个汉字并不具有表达完整语义的能力,汉语中具有完整语义的最小单元是词条,因此,在汉语语句的语义理解之前,需要将由连续汉字组成的汉语语句切分成词条的集合,以作为汉语自然语言理解的数据基础,这一过程称为汉语分词。汉语分词是汉语自然语言理解的基础步骤,也是关键一步。
汉语分词过程中的主要难点之一就是歧义识别。所谓歧义识别,是指在汉语分词过程中检测出输入汉语语句中存在的所有歧义并加以消解的过程,包括歧义检测和歧义消解两项关键技术。歧义检测是在输入语句中定位歧义,如果该语句中存在歧义;歧义消解则是对已定位的歧义进行消解,并输出消解结果,即歧义的正确切分路径。
现有技术一的技术方案
基于记忆的伪歧义识别方法在伪歧义识别中应用较广,该方法主要利用伪歧义具有唯一正确切分路径的性质,通过对大规模语料库的统计,得到所有交叉型歧义,然后过滤交叉型真歧义,得到伪歧义集合,最后将所有伪歧义收录于伪歧义词表,在汉语分词时通过伪歧义词表查找匹配汉语语句以实现歧义检测,对检测出的伪歧义直接通过查询伪歧义词表获取消解方案。该方法识别准确率高,而且原理简单,操作容易,但是歧义检测和歧义消解都完全依赖于伪歧义词表,受伪歧义词表规模影响很大,故而召回率不高。该技术方案简要执行流程图如图3所示。
现有技术一的缺点:
1、统计语料库无法包含所有的交叉伪歧义,因此伪歧义词表不可能收录所有的伪歧义,故而该技术在歧义检测时无法保证检测出所有的伪歧义,最终造成伪歧义的检测遗漏,并导致伪歧义的识别召回率较低;
2、某种交叉型真歧义在统计语料库中可能只出现一种切分路径,从而容易误被处理为伪歧义而收录于伪歧义词表,最后造成歧义的识别错误,这是限制该方案准确率上升的根本原因,而且也很难做到完全消除;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏号百信息服务有限公司,未经江苏号百信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810454166.9/2.html,转载请声明来源钻瓜专利网。