[发明专利]一种关键词抽取方法有效
申请号: | 201310316483.1 | 申请日: | 2013-07-25 |
公开(公告)号: | CN103399901A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 周进华;熊张亮;胡永;张涛 | 申请(专利权)人: | 三星电子(中国)研发中心;三星电子株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 蒋欢;王琦 |
地址: | 210061 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 抽取 方法 | ||
1.一种关键词抽取方法,其特征在于,该方法包括:
对文本进行预处理;
基于预处理后的文本,统计词频和词对的共现信息;
将词频大于或等于门限值的词作为候选关键词;
根据词对的共现信息,计算各候选关键词对文本的重要性;
根据计算结果,对候选关键词进行排序,将前N个候选关键词作为文本的关键词,其中,N大于等于1。
2.根据权利要求1所述的方法,其特征在于:
所述对文本进行预处理包括:根据标点符号对文本进行切分得到切分单元,从各个切分单元中识别并去除以下词中的至少一种:停用词、HTML/XML标记、数字、时间、噪音词;
统计词对的共现信息包括:基于切分单元统计词对的共现次数。
3.根据权利要求3所述的方法,其特征在于:
所述基于切分单元统计词对的共现次数包括:对于每一个词对,根据构成所述词对的两个词在同一切分单元中的距离,计算所述词对在所述切分单元中的共现次数,将所述词对在所有切分单元中的共现次数累加,得到所述词对在文本中的共现次数。
4.根据权利要求3所述的方法,其特征在于,所述根据构成所述词对的两个词在同一切分单元中的距离,计算所述词对在所述切分单元中的共现次数包括:
将1除以构成所述词对的两个词在同一切分单元中的位序之差,作为所述词对在所述切分单元中的共现次数;所述共现次数是浮点数。
5.根据权利要求1所述的方法,其特征在于:
所述计算各候选关键词对文本的重要性包括:根据卡方检验公式计算各候选关键词对文本内容的语义相关程度,得到各候选关键词对文本的重要性。
6.根据权利要求5所述的方法,其特征在于,所述根据卡方检验公式计算各候选关键词对文本内容的语义相关程度包括:
根据卡方检验公式计算候选关键词与文本中各个其他词的共现分布的偏置;
将所述候选关键词对应于各个其他词计算得到的共现分布的偏置进行累加,得到所述候选关键词对文本内容的语义相关程度。
7.根据权利要求6所述的方法,其特征在于:
所述候选关键词与文本中各个其他词的共现分布的偏置为:所述候选关键词与所述其他词共现次数的实际值与期望值之差的平方除以期望值的商。
8.根据权利要求6所述的方法,其特征在于:
所述候选关键词与所述其他词共现次数的实际值为:所述候选关键词与所述其他词在文本中实际的共现次数。
9.根据权利要求6所述的方法,其特征在于:
所述候选关键词与所述其他词共现次数的期望值为:所述其他词的出现次数和所述候选关键词的出现概率的乘积。
10.根据权利要求6所述的方法,其特征在于:
所述卡方检验公式为:
其中,w候选关键词,w2为与w构成词对的词;
c(w,w2)表示词w和w2的共现次数;
c(w2)为词w2的词频;
p(w)为文本中词w出现的概率;
表示候选关键词w和其他词w2的共现次数的偏置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子(中国)研发中心;三星电子株式会社,未经三星电子(中国)研发中心;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310316483.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:无刷直流电机的CAN总线控制系统
- 下一篇:电网空间数据智能采集系统