[发明专利]一种实现文本分析的方法、装置、计算机存储介质及终端在审
申请号: | 201911346811.6 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111160015A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 崔小波;陈奇宁 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263;G06F40/242 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 文本 分析 方法 装置 计算机 存储 介质 终端 | ||
一种实现文本分析的方法、装置、计算机存储介质及终端,包括:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析,确定了待分析文本的所属语言类型,为文本分析提供了技术支持。
技术领域
本文涉及但不限于信息分析技术,尤指一种实现文本分析的方法、装置、计算机存储介质及终端。
背景技术
随着信息基础设施建设的日益完善,互联网在人们日常生活中变的越来越重要,它已经深入到人们生产、生活的各个领域。“互联网+”是互联网的进阶,推动了移动互联网、云计算、大数据、物联网等与现代制造业相结合,促进了电子商务、工业互联网的发展。“互联网+”不断的改变着我们的生活方式,越来越多的个人、公司、企业、科研单位、机关、学校等通过网络进行科研成果交流或日常信息的交流。中国网民规模达8.02亿,普及率为57.7%;中国手机网民规模达7.88亿,网民通过手机接入互联网的比例高达98.3%。伴随着这些庞大的数字,网页、电子邮件、聊天信息、各种文档等带来了海量的文本数据,这些海量的文本数据正是通过互联网进行生成、传播、交换、存储和访问,进入世界各地人们的日常生活中。
在互联网带来的海量文本数据中,语言多样性带来的问题特别值得关注。据调查数据显示,全世界使用英语的网民占的比重最大,占到三成以上。据统计,世界上使用人数较多的语言有82种,这些语言中的任何一种都有超过1000万人在使用,其它使用人数相对较少的语言更是多达数千种。在多种语言文字同时使用及存储的情况下,面对互联网上不断产生的海量文本数据,在进行自然语言处理时,需要知道该数据是那种自然语言的数据,才能确定后续使用哪种方式进行信息的处理;例如,如果识别当前为英文,则后续需要进行分词分析等操作时,会按照英文的类型进行操作;如果识别的是中文,则后续需要进行分词分析等操作时,会按照中文的类型进行操作。对中英文的操作是不同的,不能用同一种方式进行操作分析,否则分析出来的结果很可能就会毫无意义。
目前,在进行文本数据分析时,主要通过相关技术人员人为确定语言类型,这给信息处理带来不便。设计实现一种语言类型识别的方法,成为一个亟待解决的技术问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种实现文本分析的方法、装置、计算机存储介质及终端,能够实现语言类型的识别。
本发明实施例提供了一种实现文本分析的方法,包括:
将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。
在一种示例性实施例中,所述语言字典包括一项或任意组合的字典:
繁体字字典、越南语字母字典、特殊字符字典和粤语字典。
在一种示例性实施例中,所述将待分析文本与两种或两种以上语言字典进行比对之前,所述方法还包括:对所述待分析文本进行以下一项或任意组合的处理:
过滤乱码;
过滤特殊字符;
过滤网址;
过滤图片链接。
在一种示例性实施例中,所述将待分析文本与两种或两种以上语言字典进行比对,包括:
所述待分析文本的字符数小于或等于预设字符数时,将所述待分析文本与各所述语言字典进行比对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911346811.6/2.html,转载请声明来源钻瓜专利网。