[发明专利]一种文本处理方法及装置在审
申请号: | 201910330851.5 | 申请日: | 2019-04-23 |
公开(公告)号: | CN111832310A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 兰红云 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
本申请提供了一种文本处理方法及装置,该文本处理方法包括确定多个文本中的重复字符串;从重复字符串中筛选不包含已有独立词汇的候选字符串;基于候选字符串的长度、候选字符串中每个字符对应的第一词汇在多个文本中出现的概率,和每个字符对应的第二词汇在多个文本中出现的概率,确定候选字符串是否能够形成一个新的独立词汇;第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇,第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。利用本申请提供的上述方法可以精确地发现新的独立词汇,将该新的独立词汇存入词库中,用更新后的词库对待分析文本进行语义分析,提高了语义分析结果的准确度。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种文本处理方法及装置。
背景技术
在对文本进行语义分析的过程中,对于新词的发现和处理,是影响分析结果准确度的一个关键因素,也即是理解生成上述文本的用户的真实意图的关键因素。
现有技术中,通过处理预设字符个数的文本,或者通过文本中字符的凝固度来筛选出可能的新词。但是,在对非预设字符个数的字符串进行处理时,会很难识别并确定其是否可以成为新词;通过文本的凝固度来筛选新词时,仅利用各个字符在文本中出现的概率来计算两个相邻字符的凝固度,即组合成新词的概率,但不能计算多个字符组合成新词的概率。可见,上述两种方法均无法有效的找到新词的发现。
发明内容
有鉴于此,本申请实施例的目的在于提供一种文本处理方法及装置,能够精确地发现新的独立词汇,进而有利于提高语义分析结果的准确度。
第一方面,本申请实施例提供了一种文本处理方法,其中,包括:
确定多个文本中的重复字符串;
从所述重复字符串中筛选不包含已有独立词汇的候选字符串;
基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率,和每个字符对应的第二词汇在所述多个文本中出现的概率,确定所述候选字符串是否能够形成一个新的独立词汇;所述第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇,所述第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述从所述重复字符串中筛选不包含已有独立词汇的候选字符串,包括:
基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率,和每个字符对应的第四词汇在所述多个文本中出现的概率,确定所述重复字符串中的独立词汇;所述第三词汇为对应的字符和重复字符串中该字符的前一个字符形成的词汇,所述四词汇为对应的字符和重复字符串中该字符的后一个字符形成的词汇;
从所述重复字符串中的除所述独立词汇以外的字符串中,筛选所述候选字符串。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述从所述重复字符串中的除所述独立词汇以外的字符串中,筛选所述候选字符串,包括:
从所述重复字符串中,获取除所述独立词汇以外的字符串,得到待选字符串;
从所述待选字符串中,选取包含的字符的数量大于预定数值的待选字符串,得到所述候选字符串。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率,和每个字符对应的第四词汇在所述多个文本中出现的概率,确定所述重复字符串中的独立词汇,包括:
获取预设的第一阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910330851.5/2.html,转载请声明来源钻瓜专利网。