[发明专利]一种文本处理方法及装置在审
申请号: | 201910269029.2 | 申请日: | 2019-04-04 |
公开(公告)号: | CN111858837A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王旭;陈坦访;王伟玮;李奘 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/20;G06F40/289 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 刘静 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
本申请涉及文本处理技术领域,尤其涉及一种文本处理方法及装置。本申请通过将获取到的中文文本进行分词处理,得到多个中文词语,在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列,进而将中文文本转化为对应的英文文本,进一步地,从英文文本中抽取出多个英文关键短语,并根据中英文映射表,分别将每个英文关键短语转化为中文关键短语。与现有技术中只基于中文文本抽取中文关键短语的方法相比,本申请通过预设规则将中文文本转化为英文文本,并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取,进而将英文关键短语转化为中文关键短语,可以提升中文关键短语抽取的准确率和效率。
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本处理方法及装置。
背景技术
关键短语自动抽取是文本信息处理的重要技术,是在进行文本自动摘要、文本自动分类、主题提取及专利检索分析等文本信息理解工作时,都要应用到的一项关键技术。
目前,现有技术中,基于中文文本进行中文关键短语的抽取,存在比如字符编码、语言习惯的问题,造成中文关键短语抽取的效率低下而且准确率不高。
发明内容
有鉴于此,本申请实施例的目的在于提供一种文本处理方法及装置,可以提升中文关键短语抽取的准确率和效率。
主要包括以下几个方面:
第一方面,本申请实施例提供一种文本处理方法,所述文本处理方法包括:
将获取到的中文文本进行分词处理,得到多个中文词语;
在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列;
根据查找出的多个英文字母序列,将所述中文文本转化为对应的英文文本;
从所述英文文本中抽取出多个英文关键短语;
根据所述中英文映射表,分别将每个英文关键短语转化为中文关键短语。
在一种可能的实施方式中,根据以下步骤建立所述中英文映射表:
获取中文词语库中所有的中文词语,分别对每个中文词语进行编号;
基于每个中文词语对应的编号,分别确定每个中文词语对应的英文字母序列;
按照每个中文词语、每个中文词语对应的编号及英文字母序列的相互对应关系,建立所述中英文映射表。
在一种可能的实施方式中,所述基于每个中文词语对应的编号,分别确定每个中文词语对应的英文字母序列,包括:
将每个中文词语对应的编号与预设数值进行相除计算,并确定每个相除计算结果中的商值和余数;
根据每个中文词语对应的商值和余数,确定每个中文词语对应的英文字母序列。
在一种可能的实施方式中,所述从所述英文文本中抽取出多个英文关键短语,包括:
对所述英文文本中至少两个连续的英文字母序列进行组合,确定出多个英文字母短语;
将所述多个英文字母短语和查找出的所述多个英文字母序列,确定为多个候选英文关键短语;
从所述多个候选英文关键短语中抽取出英文关键短语。
在一种可能的实施方式中,所述从所述多个候选英文关键短语中抽取出英文关键短语,包括:
确定每个候选英文关键短语的受欢迎度、聚合度以及信息量;
根据每个候选英文关键短语的受欢迎度、聚合度以及信息量,对每个候选英文关键短语进行评分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910269029.2/2.html,转载请声明来源钻瓜专利网。