[发明专利]一种文本表示方法及装置有效
申请号: | 201510096570.X | 申请日: | 2015-03-04 |
公开(公告)号: | CN104778158B | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 刘洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征词 词向量 文本表示 词语 文本 文本处理 聚类 句子 语义 聚类结果 权重确定 文本表达 文本向量 权重 | ||
本发明公开了一种文本表示方法及装置,用以提高文本表示的准确性,从而提高文本处理的准确性。所述方法包括:确定构成当前文本的各词语,确定各词语的词向量,对各词向量进行聚类,根据聚类结果在各词语中确定出当前文本的特征词以及该特征词的权重,根据各特征词的词向量和权重确定当前文本的文本向量。这样,通过聚类确定特征词的过程已经考虑了词语在句子中的语义以及句子之间的相关性,确定出的特征词的词向量可准确的表达文本的内涵,从而可提高文本表达的准确性,进而可提高文本处理的准确性。
技术领域
本发明涉及信息处理技术,尤其涉及一种文本表示方法及装置。
背景技术
在信息处理技术领域,往往会涉及到文本处理。文本处理是指对经过文本表示后的文本内容,进行文本检索、文本分类、文本分析等处理,其中,文本表示是指将原始的文本内容变成计算机内部表示结构,该内部表示结构是计算机程序可分析的结构,例如,可以用文本内容中的词语、短语等形成计算机可分析的向量结构。
文本表示的准确性越高,就越能准确表达当前文本的内涵,文本处理的效果越好、效率就越高,反之,文本表示的准确性越低,表达出的文本的内涵就越偏离文本的实际内涵,文本处理的效果就越差、效率也就越低。
在现有技术中,文本表示方法主要基于向量空间模型。向量空间模型表示文本的方法为:针对某一个文本,首先对该文本进行分词,得到多个词语,然后再根据这些词语在文本中出现的频率,选取频率大于预设值的词语作为表达该文本的特征词,并计算每一个特征词的权重,最后将这些特征词和对应的权重构成文本向量,该文本向量就是该文本的表示形式。例如,对于某一个文本,第i个特征词为fi,该特征词的权重为wi,则文本表示形式为:{<f1:w1>、<f2:w2>、……、<fi:wi>、……},其中,i=1、2、3、……。
上述现有技术提供的文本表示方法中,在选取特征词时,并没有考虑特征词在句子中的语义,也没有考虑句子之间的相关性,只是机械的从文本中提取频率大于预设值的词语作为特征词,此外,由于文本向量中的特征词为文本中的词语,由于独立的词语可能存在多层含义,无法准确表达文本的内涵,因此,文本向量表达文本的准确性就较低,相应的,文本处理的准确性也就较低。
发明内容
本发明实施例提供一种文本表示方法及装置,用以提高文本表示的准确性,从而还可提高文本处理的准确性。
本发明实施例提供的一种文本表示方法,包括:
确定构成当前文本的各词语;
确定各词语的词向量;
对各词向量进行聚类;
根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重;
根据各特征词的词向量和权重确定当前文本的文本向量。
本发明实施例提供的一种文本表示装置,包括:
第一确定模块,用于确定构成当前文本的各词语;
第二确定模块,用于确定各词语的词向量;
聚类模块,用于对各词向量进行聚类;
第三确定模块,用于根据聚类结果,在各词语中确定出当前文本的特征词以及该特征词的权重;
第四确定模块,用于根据各特征词的词向量和权重确定当前文本的文本向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510096570.X/2.html,转载请声明来源钻瓜专利网。