[发明专利]一种实现文本分析的方法、装置、计算机存储介质及终端在审

申请号：	201911346811.6	申请日：	2019-12-24
公开（公告）号：	CN111160015A	公开（公告）日：	2020-05-15
发明（设计）人：	崔小波;陈奇宁	申请（专利权）人：	北京明略软件系统有限公司
主分类号：	G06F40/263	分类号：	G06F40/263;G06F40/242
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	王康;栗若木
地址：	100084 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实现文本分析方法装置计算机存储介质终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种实现文本分析的方法、装置、计算机存储介质及终端，包括：将待分析文本与两种或两种以上语言字典进行比对，获得待分析文本中包含的各种文字的比例；根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析，确定了待分析文本的所属语言类型，为文本分析提供了技术支持。

技术领域

本文涉及但不限于信息分析技术，尤指一种实现文本分析的方法、装置、计算机存储介质及终端。

背景技术

随着信息基础设施建设的日益完善，互联网在人们日常生活中变的越来越重要，它已经深入到人们生产、生活的各个领域。“互联网+”是互联网的进阶，推动了移动互联网、云计算、大数据、物联网等与现代制造业相结合，促进了电子商务、工业互联网的发展。“互联网+”不断的改变着我们的生活方式，越来越多的个人、公司、企业、科研单位、机关、学校等通过网络进行科研成果交流或日常信息的交流。中国网民规模达8.02亿，普及率为57.7％；中国手机网民规模达7.88亿，网民通过手机接入互联网的比例高达98.3％。伴随着这些庞大的数字，网页、电子邮件、聊天信息、各种文档等带来了海量的文本数据，这些海量的文本数据正是通过互联网进行生成、传播、交换、存储和访问，进入世界各地人们的日常生活中。

在互联网带来的海量文本数据中，语言多样性带来的问题特别值得关注。据调查数据显示，全世界使用英语的网民占的比重最大，占到三成以上。据统计，世界上使用人数较多的语言有82种，这些语言中的任何一种都有超过1000万人在使用，其它使用人数相对较少的语言更是多达数千种。在多种语言文字同时使用及存储的情况下，面对互联网上不断产生的海量文本数据，在进行自然语言处理时，需要知道该数据是那种自然语言的数据，才能确定后续使用哪种方式进行信息的处理；例如，如果识别当前为英文，则后续需要进行分词分析等操作时，会按照英文的类型进行操作；如果识别的是中文，则后续需要进行分词分析等操作时，会按照中文的类型进行操作。对中英文的操作是不同的，不能用同一种方式进行操作分析，否则分析出来的结果很可能就会毫无意义。

目前，在进行文本数据分析时，主要通过相关技术人员人为确定语言类型，这给信息处理带来不便。设计实现一种语言类型识别的方法，成为一个亟待解决的技术问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种实现文本分析的方法、装置、计算机存储介质及终端，能够实现语言类型的识别。

本发明实施例提供了一种实现文本分析的方法，包括：

将待分析文本与两种或两种以上语言字典进行比对，获得待分析文本中包含的各种文字的比例；

根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型。

在一种示例性实施例中，所述语言字典包括一项或任意组合的字典：

繁体字字典、越南语字母字典、特殊字符字典和粤语字典。

在一种示例性实施例中，所述将待分析文本与两种或两种以上语言字典进行比对之前，所述方法还包括：对所述待分析文本进行以下一项或任意组合的处理：

过滤乱码；

过滤特殊字符；