[发明专利]一种基于品牌分析系统的NLP中文分词歧义识别方法在审
申请号: | 201810454166.9 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108664618A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 汪伟亚;高倩;许恺;陈辉 | 申请(专利权)人: | 江苏号百信息服务有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210006 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歧义 集合 品牌分析 中文分词 交叉型 深度优先搜索 输入汉语语句 最大匹配算法 可能性计算 遍历路径 分析系统 工作效率 歧义消解 人工干预 输入语句 数学模型 识别率 准确率 遍历 递归 放入 建模 语句 文本 智能 返回 检测 中文 | ||
1.一种基于品牌分析系统的NLP中文分词歧义识别方法,其特征在于包含以下步骤:
步骤一:输入汉语语句,通过最大匹配算法检测中文语句中存在的交叉歧义,并放入交叉型歧义集合,若集合为空,表示输入语句中无交叉型歧义,不进行任何处理,直接返回,否则,遍历集合中的所有歧义,进入步骤二处理;
步骤二:采用基于深度优先搜索的递归方法,对歧义进行路径全切分,得到所有路径的集合,遍历路径集合,对每条路径做步骤三处理;
步骤三:根据给定的选择可能性计算数学模型,对歧义切分路径进行建模,计算并记录相应路径的选择可能性数值,计算歧义的路径集合中最大的两个选择可能性数值的差值,若在某一给定阈值内,则认定该歧义为真歧义,停止消解,并递交给真歧义消解模块处理,否则,判断该歧义为伪歧义,并将选择可能性数值最大的路径作为该歧义的消解结果。
2.按照权利要求1所述的一种基于品牌分析系统的NLP中文分词歧义识别方法,其特征在于:所述步骤一中最大匹配算法具体包含以下步骤:
1.1、给定输入汉字语句S,记S包含的汉字个数为N,S中第i个汉字为Wi,L(x)表示词典中收录的以字x开头的最长词语所包含的汉字数,Index表示当前指向S中文字的位置,并使Index初始化为1,即指向第1个文字,设包含S中Index位置上汉字的广义最长词条在S中的开始位置和结束位置分别为SI和EI,且SI和EI分别初始化为1和2,设定歧义集合A来保存所有已检测出的歧义,A初始化为空集合;
1.2、判断Index是否大于N,若是,则执行1.5,否则判断Index是否小于EI,若不是执行1.4,否则获取S中第Index个汉字WIndex,若L(WIndex)+Index>N+1,则令L(WIndex)=N+1–Index;
1.3、获取S中Index位置和Index+L(WIndex)位置之间的汉字串,若该汉字串不是已收录的汉语词条且Index+L(WIndex)>EI,则L(WIndex)--,继续执行1.3,否则,使EI=Index+L(WIndex),Index++,继续执行1.2;
1.4、提取语句S中位置SI和位置EI之间的汉字串,使SI=Index,EI=Index+1,若该汉字串不是词典中收录的词语,则该汉字串为交叉型歧义,放入集合A,然后执行1.2,否则,该汉字串不是交叉型歧义,直接执行1.2;
1.5、改进最大匹配算法执行完毕,提交交叉型歧义集合A,若A为空,则表示输入语句中无交叉型歧义。
3.按照权利要求1所述的一种基于品牌分析系统的NLP中文分词歧义识别方法,其特征在于:所述步骤三中选择可能性计算数学模型具体为:
设歧义S,其某条切分路径为W={Wi},i=1,2,..N,Wi表示切分路径的第i个词条,N表示切分路径的词条个数,即路径长度;记P(Wi)表示该路径第i个词条的词频,p(Wi)表示P(Wi)对应的相对词频,且有:
式(2.1)中,MAX{P(W)}、MIN{P(W)}分别表示歧义S该切分路径内词条的最大和最小词频;
最小词频:词频越小说明词语越不常用,切分路径中的最小词频则从一个侧面反映了该切分路径的选择可能性大小,而且歧义某切分路径W的最小词频越大,则该切分路径的选择可能性Φ(W)越大,即:
Φ(W)∝MIN{P(W)} (2.2)
相对最大词频间距:最大词频间距F(W)是指切分路径W的最大词频与最小词频的差值,即:
F(W)=MAX{P(W)}-MIN{P(W)} (2.3)
最大词频间距从侧面刻画了路径W的词频波动幅度,词频波动幅度越大,路径的选择可能性就越小,由于不同词条的词频相差较大,词频无比较可言,故而为增强词频波动幅度的可比较性,采用相对最大词频间距f(W)来刻画词频的波动幅度,相对最大词频间距计算式如下:
词频波动均方差:词频波动均方差μ(W)采用切分路径W内所有词条的相对频数进行计算,如式(2.5)所示:
长词优先:具体是指在汉语分词时使切分的词条数目尽可能少;
通过以上对最小词频、相对最大词频间距、词频波动均方差三项指标和长词优先原则的综合考虑,建立如式(2.6)所示的歧义切分路径选择可能性计算模型:
Φ(W)={μ(W)×Nα×f(W)β×MIN{P(W)}-γ}-1 (2.6)
式(2.6)中,α、β和γ分别为路径长度、相对词频间距和最小词频对路径选择可能性的影响因子,可根据相关实验进行确定;将式(2.4)和式(2.5)带入式(2.6)可得伪歧义切分路径的选择可能性计算模型,如式(2.7):
式(2.7)中:
P(Wi)—路径W第i个词条的词频;
p(Wi)—路径W第i个词条的相对词频,参见式(2.1);
—为路径W所有词条的平均相对词频;
N—路径W的长度,即词条个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏号百信息服务有限公司,未经江苏号百信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810454166.9/1.html,转载请声明来源钻瓜专利网。