[发明专利]一种实现文本分析的方法、装置、计算机存储介质及终端在审
申请号: | 201911346811.6 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111160015A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 崔小波;陈奇宁 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263;G06F40/242 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 文本 分析 方法 装置 计算机 存储 介质 终端 | ||
1.一种实现文本分析的方法,包括:
将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。
2.根据权利要求1所述的方法,其特征在于,所述语言字典包括一项或任意组合的字典:
繁体字字典、越南语字母字典、特殊字符字典和粤语字典。
3.根据权利要求1所述的方法,其特征在于,所述将待分析文本与两种或两种以上语言字典进行比对之前,所述方法还包括:对所述待分析文本进行以下一项或任意组合的处理:
过滤乱码;过滤特殊字符;过滤网址;过滤图片链接。
4.根据权利要求1所述的方法,其特征在于,所述将待分析文本与两种或两种以上语言字典进行比对,包括:
所述待分析文本的字符数小于或等于预设字符数时,将所述待分析文本与各所述语言字典进行比对;
所述待分析文本的字符数大于所述预设字符数时,按照预设策略从所述待分析文本中获取预设长度的抽样文本,将获取的抽样文本与所述语言字典进行比对。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述确定待分析文本的所属语言类型,包括:
通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析,并根据分析的结果确定所述待分析文本的所属语言类型。
6.根据权利要求5所述的方法,其特征在于,所述语言字典包括繁体字字典、越南语字母字典、特殊字符字典及粤语字典,所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值,所述确定待分析文本的所属语言类型,包括:
所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述第一字符数阈值;该字符数最多的字符的字符数大于所述第一字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为英文;
所述待分析文本中英文字符数大于第二字符数阈值,且英文字符数和越南语字母字符数的和、与比对字符总数的比值大于第一百分比阈值时,确定除英文字符和越南语字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否小于所述第一字符数阈值;该字符数最多的字符的字符数小于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为越南语;
所述待分析文本中英文字符数大于所述第二字符数阈值且英文字符数、粤语字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数和简体中文字符数相对所述比对字符总数的比值均小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为粤语;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数和简体中文字符数的和、与比对字符总数的比值大于所述第一百分比阈值,简体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值,且繁体中文字符数相对所述比对字符总数的比值小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为简体中文;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数、繁体中文字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为繁体中文;
所述待分析文本中其它类型字符数与所述比对字符总数的比值大于所述第一百分比阈值时,确定所述待分析文本的所属语言类型为其它;
所述待分析文本中英文字符数小于第二字符数阈值,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述字符数阈值;该字符数最多的字符的字符数大于所述字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述字符数阈值时,确定所述待分析文本的所属语言类型为其它;
其中,所述其它类型字符数包括:除英文字符、简体中文字符、繁体中文字符、越南语字母字符及粤语字符以外的字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911346811.6/1.html,转载请声明来源钻瓜专利网。