[发明专利]用于识别文本主题的方法和装置在审

专利信息
申请号: 201611051277.2 申请日: 2016-11-23
公开(公告)号: CN108090042A 公开(公告)日: 2018-05-29
发明(设计)人: 张帅 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京英赛嘉华知识产权代理有限责任公司 11204 代理人: 王达佐;马晓亚
地址: 100080 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 关键词集合 文本主题 方法和装置 抽样 文本 预处理 概率分布 数目确定 随机确定 重复执行 迭代 预设 收敛 概率 申请 统计
【说明书】:

本申请公开了用于识别文本主题的方法和装置。该方法的一具体实施方式包括:对待识别文本进行预处理得到关键词集合;随机确定关键词集合中的每个关键词所属的主题;统计各个主题包括的关键词的数目;对关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数:将关键词所属主题包括的关键词的数目减一;根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一;根据各个主题包括的关键词的数目与关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率。该实施方式提高了文本主题识别的精确度。

技术领域

本申请涉及计算机技术领域,具体涉及语义分析领域,尤其涉及用于识别文本主题的方法和装置。

背景技术

随着互联网的快速发展,越来越多的用户通过网络进行信息的共享,由于信息多而杂,如何利用这些信息进行决策分析已经成为一个重要的问题。例如,在电子商务领域,越来越多的消费者开始网上购物,并对购物体验进行评价,这种商品评价数据呈爆炸式增长,而这些评论数据可以为电商和消费者提供丰富的决策参考。因此,有必要从评论数据的文本特征出发,快速而有效地识别评论数据的有用性,发现消费者的意见和态度,并进行情感分析预测,而文本特征提取则是文本挖掘的关键步骤。

目前,文本特征提取方法通常是运用统计学或信息论的方法,挑选出与类别标记最显示的关键词作为特征集合。它们大都建立以词袋(Bag of Words,BOW)模型为基础,首先从文本中抽取关键词,然后采用一些评估策略算法(如文本反文本频率TF-IDF,信息增益,互信息等)挑选出最有价值的关键词作为特征向量。但是这种方法获取的特征向量维度高,对于评论等短文本,通过BOW模型生成的特征向量将会是一个很稀疏的向量,增加了后续文本处理的难度;另外,评论等短文本具有主题不明确的特点,也会影响BOW的处理效果。因此,这样的方法,对于评论等短文本的特征提取,提取的特征向量效果不佳,识别文本主题的精确度差。

发明内容

本申请的目的在于提出一种改进的用于识别文本主题的方法和装置,来解决以上背景技术部分提到的技术问题。

第一方面,本申请提供了一种用于识别文本主题的方法,所述方法包括:对待识别文本进行预处理得到关键词集合;随机确定所述关键词集合中的每个关键词所属的主题;统计各个主题包括的关键词的数目;对所述关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数,其中,所述结果收敛包括重复执行以下步骤得到的各个主题的关键词分布的变化量小于预定阈值:将关键词所属主题包括的关键词的数目减一;根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一;根据各个主题包括的关键词的数目与所述关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率。

在一些实施例中,所述方法还包括训练获得概率分布的步骤,其中,所述训练获得概率分布的步骤,包括:获取历史文本集合,其中,所述历史文本集合包括至少一个历史文本子集,所述历史文本子集是根据所述历史文本集合中文本的生成时间和文本的数量对所述历史文本集合划分得到的;通过文本主题生成模型训练获得所述待识别文本所在的历史文本子集中各个主题的关键词分布。

在一些实施例中,所述通过文本主题生成模型训练获得所述历史文本子集中各个主题的关键词分布,包括:通过文本主题生成模型训练获得文本生成时间最早的历史文本子集中各个主题的关键词分布;基于训练获得的历史文本子集中各个主题的关键词分布,按照所述历史文本子集中文本的生成时间,依次确定除所述文本生成时间最早的子集外其他子集中文本的主题分布与各个主题的关键词分布。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611051277.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top