[发明专利]识别文本题材的方法和装置有效
申请号: | 201510811104.5 | 申请日: | 2015-11-20 |
公开(公告)号: | CN105302797B | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 费浩峻 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 文本 题材 方法 装置 | ||
本申请公开了识别文本题材的方法和装置。所述识别文本题材的方法的一具体实施方式包括:接收待识别文本;根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;根据匹配结果识别出所述待识别文本的题材。该实施方式能够识别出更多表达形式的文本的题材。
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及识别文本题材的方法和装置。
背景技术
目前,随着互联网行业的迅速发展,互联网新闻逐渐成为大众的主要阅读来源。为了更好地引导用户阅读、或者为用户的决策(例如购买股票)提供参考,如何识别出新闻文本的题材(即主题、概念)成为目前需要解决的问题。现有技术中识别文本的题材的方法是:通过将文本与题材库中的题材文本进行匹配,根据匹配到的题材文本来识别文本的题材。
然而,在实际的新闻文本中,题材的表达方式是多种多样的,大部分情况下不能与题材库中题材文本的表达形式完全相同。因此,采用现有技术只能识别出与题材文本的表达形式完全相同的文本的题材,而无法识别出其它表达形式的文本的题材。
发明内容
本申请的目的在于提出一种识别文本题材的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种识别文本题材的方法,所述方法包括:接收待识别文本;根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材信息集合中匹配与所述待识别文本对应的题材信息,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本,所述题材切分文本通过对所述原始题材文本进行切分后获得;根据匹配结果识别出所述待识别文本的题材。
在一些实施例中,所述根据预存的题材信息集合中的题材信息的原始题材文本和题材切分文本,在所述题材集合中匹配与所述待识别文本对应的题材信息,包括:将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配;如果匹配到原始题材文本,则将匹配到的原始题材文本对应的题材信息作为所述与所述待识别文本对应的题材信息;如果没有匹配到原始题材文本,则将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配;如果匹配到题材切分文本,则将与匹配到的题材切分文本信息对应的题材信息作为所述待识别文本对应的题材信息。
在一些实施例中,所述将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配,包括:通过最大匹配算法将所述待识别文本与所述题材信息集合中的各个题材信息的原始题材文本进行匹配。
在一些实施例中,所述将所述待识别文本与所述题材信息集合中的各个题材信息的题材切分文本进行匹配,包括:根据各个题材切分文本中的字符以及字符间的前后关系,将所述待识别文本与各个题材切分文本进行匹配。
在一些实施例中,在接收待识别文本之前,所述方法还包括:根据预先收集的原始题材文本集合构建N-Gram模型,得到所述原始题材文本集合中的各个原始题材文本对应的至少一个题材切分文本;在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本;将各个原始题材文本对应的题材信息加入所述题材信息集合中,其中,所述题材信息包括以下信息:原始题材文本、与所述原始题材文本相关联的题材切分文本。
在一些实施例中,所述在每个原始题材文本对应的至少一个题材切分文本中选择一个题材切分文本作为与原始题材文本相关联的题材切分文本,包括:根据预先收集的基准文本集合、各个原始题材文本和所述各个原始题材文本对应的至少一个题材切分文本,得到各个原始题材文本对应的各个题材切分文本的权重;针对每一个原始题材文本,将所述原始题材文本对应的各个题材切分文本中权重最高的题材切分文本作为与所述原始题材文本相关联的题材切分文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510811104.5/2.html,转载请声明来源钻瓜专利网。