[发明专利]提取关键字的方法无效
| 申请号: | 201010608118.4 | 申请日: | 2010-12-27 |
| 公开(公告)号: | CN102541910A | 公开(公告)日: | 2012-07-04 |
| 发明(设计)人: | 王宵栋;张丽晓 | 申请(专利权)人: | 上海杉达学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海集信知识产权代理有限公司 31254 | 代理人: | 张坤明 |
| 地址: | 201209 上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 提取 关键字 方法 | ||
1.一种提取关键字的方法,其特征在于,从一段文字中提取关键字,该方法包括:
分词步骤,分词步骤将所述一段文字划分成单词;
停用词消除步骤,从所述分词步骤中划分出的单词中去除停用词;
词性还原步骤,将取出停用词后的单词的词性进行还原,该词性还原步骤使用词干分析算法将单词还原成词干原型;
关键字确定步骤,以所述词干原型为基础,在所述一段文字中确定每一个词干原型出现的频率,基于出现的频率确定关键字。
2.如权利要求1所述的提取关键字的方法,其特征在于,
所述分词步骤包括从所述一段文字中提取空格、标点符号以及字符串作为分词的标记。
3.如权利要求1所述的提取关键字的方法,其特征在于,
所述停用词消除步骤包括查找一停用词表,所述分词步骤中划分出的单词中存在于所述停用词表中的单词作为停用词去除。
4.如权利要求1所述的提取关键字的方法,其特征在于,所述关键字确定步骤基于密度聚类模式实现,包括:
TF/IDF值计算步骤,在所述一段文字中计算每一个词干原型的TF/IDF值;
词频过滤步骤,设定一词频阈值,选择词频大于该词频阈值的词干原型作为候选关键字;
共现度计算步骤,在候选关键字中计算候选关键字之间的词共现度,生成词共现矩阵;
聚类步骤,基于所述词共现矩阵进行候选关键字聚类,为每一个聚类计算TF/IDF平均值;
关键字确定步骤,选择具有最高的TF/IDF平均值得聚类中的词干原型作为关键字。
5.如权利要求1所述的提取关键字的方法,其特征在于,所述关键字确定步骤基于非高频词查找,包括:
预处理步骤,对所述一段文字进行预处理,去除其中的停用词;
词频统计步骤,设定一词频阈值,选择词频大于该词频阈值的词干原型作为高频词;
构图步骤,设定一关联度阈值,以所述高频词作为顶点,关联度大于所述关联度阀值的词干原型作为边集构图;
划分步骤,基于聚类系数对所述构图进行划分,划分成数个子图;
关键字确定步骤,计算每一个子图的特征路径长度,选取具有最短特征路径长度的子图中的词干原型作为关键字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海杉达学院,未经上海杉达学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010608118.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型不锈钢管自动切割下料扩口一体机
- 下一篇:倒角刀





