[发明专利]基于类标关系的短文本扩充方法有效
| 申请号: | 201510288434.0 | 申请日: | 2015-05-29 |
| 公开(公告)号: | CN104850650B | 公开(公告)日: | 2018-04-10 |
| 发明(设计)人: | 靳晓明;张瑞容;张世韬 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张大威 |
| 地址: | 100084 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 关系 文本 扩充 方法 | ||
技术领域
本发明属于计算机文本处理技术领域,涉及基于特征扩展的短文本扩充技术。
背景技术
随着互联网的飞速发展,大量的电子文本信息应运而生。其中,人们通过访问网络论坛、问答平台和社交网站产生了大量的短文本信息。短文本是指内容较少、文本短小、特征不明显的文本。短文本虽然篇幅短小,却能真实反映出用户在使用互联网的过程中发生的行为,通过对短文本进行分类,运营商能更有效地分析网络服务中产生的短文本,以便发现用户的兴趣并为用户提供推荐性的服务。因此短文本进行分类问题是当下的一个热点问题。短文本分类方法中大部分是从研究提高短文本的特征表示方法入手,即通过短文本特征的扩充、选择等方式让相似的短文本产生更多公共特征。除此之外,还有的研究工作试图借助其他辅助资源,通过短文本与辅助资源之间的“词共现”关系,在不改变短文本自身的特征表示的同时找到短文本之间的联系。对短文本进行扩充是当下短文本分类问题的瓶颈所在。
本专利解决的问题就是如何有效的为短文本的稀疏特征矩阵进行扩充。目前,短文本的扩充方法主要包括两大类:根据短文本自身包含的知识进行特征扩充,和基于外部知识的短文本特征扩充。其中,采用短文本自身挖掘出的知识进行特征扩充的方法是指,先用层次聚类方法对短文本进行话题聚类,再将每个短文本与这些话题聚类的相似关系作为特征扩充到原始短文本的词频矩阵中[1];另外还有的方法借助分布表示[2],将短文本中的词语利用文本集合里的上下文进行表示,利用上下文信息丰富短文本[3]。这类方法的分类精度虽然有一定的提升,但是只利用短文本自身特点进行特征扩充是有局限性的。
基于外部知识的短文本扩充按照外部知识来源的不同,主要分为两种:基于搜索引擎的特征扩充方法和基于外部语料信息的特征扩充方法。基于搜索引擎的扩充方法主要利用搜索引擎的便捷性及其具备的丰富知识为短文本进行扩充,通常采用的方法是:把搜索词放到搜索引擎中进行查询,将返回结果作为搜索词的扩充内容[4]。这种利用搜索引擎进行扩充的思路在手机应用领域也具有重要的利用价值[5]。这种方法虽然能对原始短文本进行有效扩充,却具有一定的局限性,尤其是当搜索引擎接受的输入关键词较长时,这种扩充方法的扩充效果比较差。另外,这种方法依赖网络环境,不适用于那些对实时性要求较高的短文本分类任务。
基于外部语料信息的特征扩充的主要思路是在进行扩充之前根据需要进行分类的具体内容和文本的内容人工收集一些相关的长文本数据,然后通过对原始短文本数据进行主题语义的分析找到短文本与外部预料信息之间的联系进行扩充。这种方法可以一定程度上地解决基于搜索引擎的扩充方法的弊端。这类方法大部分的外部信息都来自维基百科(Wikipedia),采用的文本分析方式大多为主题模型。目前,这种方法被广泛应用到短文本分类问题中[6]。然而这种扩充方式存在两个主要问题:外部数据集的知识覆盖是有限的;用外部数据集的词语作为原有文本特征的扩充内容可能带来信息丢失或引入噪音。
参考文献
[1]Dai Z,Sun A,Liu X Y.Crest:Cluster-based Representation Enrichment for Short Text Classification[M]//Advances in Knowledge Discovery and Data Mining.Springer Berlin Heidelberg,2013:256-267.
[2]Lavelli A,Sebastiani F,Zanoli R.Distributional term representations:an experimental comparison[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management.ACM,2004:615-624.
[3]Cabrera J M,Escalante H J,Montes-y-Gómez M.Distributional term representations for short-text categorization[M]//Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2013:335-346.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510288434.0/2.html,转载请声明来源钻瓜专利网。





