[发明专利]最优主题数获取方法及装置有效
申请号: | 201611265195.8 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106815214B | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 赵耕弘;张霞;赵立军;崔朝辉 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 薛娇;王宝筠<国际申请>=<国际公布>= |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 最优 主题 计算方法 装置 | ||
本发明实施例公开了一种最优主题数获取方法及装置,基于主题数对应的两两主题间的第一相似度、主题数对应的两两词语间的第二相似度以及主题数,计算主题数对应的用于衡量主题数的优劣的平衡相似度;将平衡相似度满足预设条件时的主题数确定为最优主题数。从而可以基于如下原则获取最优主题数:主题数尽可能多,以保证最大程度的语义覆盖,但是却不能过多;各个主题尽可能表达独立含义,尽量不存在语义交叉;相同含义的词语越少越好,以保证用最少的词语来表示尽可能多的语义。
技术领域
本发明涉及机器学习技术领域,更具体地说,涉及一种最优主题数获取方法及装置。
背景技术
在自然语言处理过程中,文档对于计算机通常被当作是一个无限维度的向量。而这种无限维度的向量对于计算机本身又是不可被计算的,这时就需要对文本进行降维处理,让它以一定维度的数学向量储存在计算机中以便计算。主题模型(Topic Model)就是一种常见的文档降维方法。主题模型的实质是对文档中隐含主题的一种建模方法。具体的,主题模型就是通过已知的“词语-文档”矩阵进行训练,得到“词语-主题”矩阵和“主题-文档”矩阵的过程。其中,“词语-文档”矩阵表示每个文档中每个词语的词频(即出现的概率);“词语-主题”矩阵表示每个主题中每个词语出现的概率;“主题-文档”矩阵表示每个文档中每个主题出现的概率。
上述训练过程,需要先获取若干个主题数,然后基于每一个主题数,通过“词语-文档”矩阵进行训练,得到每一个主题数对应的“词语-主题”矩阵和“主题-文档”矩阵,然后从上述若干个主题中选择一个最优的主题数,将该最优主题数对应的“词语-主题”矩阵和“主题-文档”矩阵作为最优结果输出。
显然,主题数是主题模型的一个重要参数。如果最优主题数选择不当(主题数过少或过多)会导致主题模型的输出结果的质量较差。因此,如何选择最优主题数成为亟待解决的问题。
发明内容
本发明的目的是提供一种最优主题数获取方法及装置,以提高主题模型的输出结果的质量。
为实现上述目的,本发明提供了如下技术方案:
一种最优主题数获取方法,包括:
获取主题模型中使用的若干个主题数;
对应每一个所述主题数,获取所述主题数对应的,每个主题中每个词语出现的第一概率,以及每个文档中每个主题出现的第二概率;
基于所述第一概率和所述第二概率,计算两两主题间的第一相似度,以及两两词语间的第二相似度;
基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,所述平衡相似度的大小用于衡量主题数的优劣;
将平衡相似度满足预设条件时的主题数确定为最优主题数。
通过上述过程可知,本发明实施例中,基于主题数对应的两两主题间的第一相似度、主题数对应的两两词语间的第二相似度以及主题数,计算主题数对应的用于衡量主题数的优劣的平衡相似度;将平衡相似度满足预设条件时的主题数确定为最优主题数。从而可以基于如下原则获取最优主题数:主题数尽可能多,以保证最大程度的语义覆盖,但是却不能过多;各个主题尽可能表达独立含义,尽量不存在语义交叉;相同含义的词语越少越好,以保证用最少的词语来表示尽可能多的语义。
上述方法,优选的,所述基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,包括:
计算所述主题数对应的两两主题间的第一相似度的第一和值,以及所述主题数对应的两两词语间的第二相似度的第二和值;
将所述第一和值和所述第二和值的乘积与所述主题数的平方值做商运算,得到所述主题数对应的平衡相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611265195.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种合同履行条款自动提取方法及系统
- 下一篇:生成标注库的方法和装置