[发明专利]一种基于隐含狄利克雷模型的关键词抽取方法在审
申请号: | 201410088252.4 | 申请日: | 2014-03-11 |
公开(公告)号: | CN103870447A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 陈里波;胡子扬;祁点点 | 申请(专利权)人: | 北京优捷信达信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 李广 |
地址: | 100123 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于隐含狄利克雷模型的关键词抽取方法 。该交互式关键词推荐方法包括步骤,词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订。话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布。每个隐含话题被定义为词的分布。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。本发明不需要额外语料库,又能够挖掘出文本中描述的各个“事物”或“观点”。 | ||
搜索关键词: | 一种 基于 隐含 狄利克雷 模型 关键词 抽取 方法 | ||
【主权项】:
一种基于隐含狄利克雷模型的关键词抽取方法 ,包括步骤,词汇预处理:先进行词性标注和分词,跟进待分析文本构建词汇表,然后对词汇表进行修订;话题聚类:构建隐含狄利克雷模型,把一篇待分析文本看作若干个隐含话题的分布;每个隐含话题被定义为词的分布;一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成;输出话题和关键词:预设一个阈值,依据每个词汇出现在某话题中的条件概率,对词汇表重新排序,概率大于给定阈值的词,作为关键词输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优捷信达信息科技有限公司,未经北京优捷信达信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410088252.4/,转载请声明来源钻瓜专利网。