[发明专利]一种文本处理方法及装置在审
| 申请号: | 201910330851.5 | 申请日: | 2019-04-23 |
| 公开(公告)号: | CN111832310A | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | 兰红云 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
| 地址: | 100193 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,包括:
确定多个文本中的重复字符串;
从所述重复字符串中筛选不包含已有独立词汇的候选字符串;
基于所述候选字符串的长度、所述候选字符串中每个字符对应的第一词汇在所述多个文本中出现的概率,和每个字符对应的第二词汇在所述多个文本中出现的概率,确定所述候选字符串是否能够形成一个新的独立词汇;所述第一词汇为对应的字符和候选字符串中该字符的前一个字符形成的词汇,所述第二词汇为对应的字符和候选字符串中该字符的后一个字符形成的词汇。
2.根据权利要求1所述的文本处理方法,其特征在于,所述从所述重复字符串中筛选不包含已有独立词汇的候选字符串,包括:
基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率,和每个字符对应的第四词汇在所述多个文本中出现的概率,确定所述重复字符串中的独立词汇;所述第三词汇为对应的字符和重复字符串中该字符的前一个字符形成的词汇,所述四词汇为对应的字符和重复字符串中该字符的后一个字符形成的词汇;
从所述重复字符串中的除所述独立词汇以外的字符串中,筛选所述候选字符串。
3.根据权利要求2所述的文本处理方法,其特征在于,所述从所述重复字符串中的除所述独立词汇以外的字符串中,筛选所述候选字符串,包括:
从所述重复字符串中,获取除所述独立词汇以外的字符串,得到待选字符串;
从所述待选字符串中,选取包含的字符的数量大于预定数值的待选字符串,得到所述候选字符串。
4.根据权利要求2所述的文本处理方法,其特征在于,所述基于所述重复字符串中每个字符对应的第三词汇在所述多个文本中出现的概率,和每个字符对应的第四词汇在所述多个文本中出现的概率,确定所述重复字符串中的独立词汇,包括:
获取预设的第一阈值;
针对所述重复字符串中除首字符和尾字符以外的每个字符,计算该字符对应的第三词汇在所述多个文本中出现的概率,与该字符对应的第四词汇在所述多个文本中出现的概率的比值,得到该字符对应的成词比率;
筛选成词比率大于所述第一阈值的字符,并根据筛选得到字符确定所述重复字符串中的独立词汇。
5.根据权利要求4所述的文本处理方法,其特征在于,所述根据筛选得到字符确定所述重复字符串中的独立词汇,包括:
若筛选得到的字符的数量为一个,则将筛选得到的字符、重复字符串中该字符的前一个字符、和重复字符串中该字符的后一个字符组成的字符串作为所述独立词汇;
若筛选得到的字符的数量为多个,并且筛选得到的字符在所述重复字符串中连续排列,则将筛选得到的字符、筛选得到的字符中的第一字符的前一个字符、和筛选得到的字符中的最后一字符的后一个字符组成的字符串作为所述独立词汇;
若筛选得到的字符的数量为多个,并且筛选得到的字符在所述重复字符串中不连续排列,则针对每个筛选得到字符,将该字符、重复字符串中该字符的前一个字符、和重复字符串中该字符的后一个字符组成的字符串作为该字符对应的独立词汇。
6.根据权利要求2所述的文本处理方法,其特征在于,还包括:
若所述重复字符串包括两个字符,则将所述重复字符串作为所述独立词汇。
7.根据权利要求2所述的文本处理方法,其特征在于,在确定所述新的独立词汇之前,还包括:
从确定的独立词汇中,筛选包含其他独立词汇的词汇,得到待拆分词汇;
对所述待拆分词汇进行拆分,并从拆分得到字符串中筛选不包含已有独立词汇的候选字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910330851.5/1.html,转载请声明来源钻瓜专利网。





