[发明专利]一种关键词确定方法及装置有效
| 申请号: | 201711407143.4 | 申请日: | 2017-12-22 |
| 公开(公告)号: | CN108153728B | 公开(公告)日: | 2021-05-25 |
| 发明(设计)人: | 闵剑;温煦峰;郝景坡;张静静;翟素校 | 申请(专利权)人: | 新奥(中国)燃气投资有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F16/35 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 100033 北京市西城区锦*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 关键词 确定 方法 装置 | ||
1.一种关键词确定方法,其特征在于,包括:
获取待确定信息,从所述待确定信息中解析出至少一个特征词;
针对每一个所述特征词,均执行:
确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词,如果是,则确定所述特征词与所述目标样本关键词之间的匹配系数;
确定所述匹配系数是否大于预设阈值,如果是,将所述特征词作为所述待确定信息对应的关键词;
所述确定所述特征词与所述目标样本关键词之间的匹配系数,包括:
根据预设的拆分规则,将所述特征词拆分为至少一个特征字符,并将所述目标样本关键词拆分为至少一个样本字符;
针对每一个所述特征字符,均执行:确定所述至少一个样本字符中是否存在与所述特征字符相同的样本字符,如果是,则将所述特征字符确定为匹配字符;
根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量,确定所述特征词与所述目标样本关键词之间的匹配系数;
所述根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量,确定所述特征词与所述目标样本关键词之间的匹配系数,包括:
根据下述公式计算所述匹配系数:
其中,M表征所述匹配系数,a表征所述匹配字符的数量,b表征所述特征字符的数量,c表征所述样本字符的数量,α为校正系数,α>0。
2.根据权利要求1所述的方法,其特征在于,
所述从所述待确定信息中解析出至少一个特征词,包括:
确定所述待确定信息的标题,并确定所述标题的数据类型;
设置与所述数据类型相对应的词法分析器;
利用所述词法分析器,从所述标题中拆分出至少一个特征词。
3.根据权利要求1所述的方法,其特征在于,
在所述将所述特征词作为所述待确定信息对应的关键词之后,进一步包括:将每一个所述关键词作为当前关键词执行:
确定其他关键词中是否存在与所述当前关键词相同的目标关键词,如果是,确定所述目标关键词的数量;其中,所述其他关键词为:各个所述关键词中除所述当前关键词以外的关键词;
根据所述目标关键词的数量以及各个所述关键词的总数量,确定所述当前关键词对应的出现频次;
根据每一个所述关键词对应的出现频次,确定各个所述关键词的优先级顺序;
根据所述优先级顺序,对所述待确定信息进行分类管理。
4.一种关键词确定装置,其特征在于,包括:获取单元、匹配系数确定单元和关键词确定单元;其中,
所述获取单元,用于获取待确定信息,从所述待确定信息中解析出至少一个特征词;
所述匹配系数确定单元,用于针对每一个所述特征词,均执行:确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词,如果是,则确定所述特征词与所述目标样本关键词之间的匹配系数;
所述关键词确定单元,用于确定所述匹配系数是否大于预设阈值,如果是,将所述特征词作为所述待确定信息对应的关键词;
所述匹配系数确定单元包括:字符拆分子单元、匹配字符确定子单元和系数确定子单元;其中,
所述字符拆分子单元,用于根据预设的拆分规则,将所述特征词拆分为至少一个特征字符,并将所述目标样本关键词拆分为至少一个样本字符;
所述匹配字符确定子单元,用于针对每一个所述特征字符,均执行:确定所述至少一个样本字符中是否存在与所述特征字符相同的样本字符,如果是,则将所述特征字符确定为匹配字符;
所述系数确定子单元,用于根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量,确定所述特征词与所述目标样本关键词之间的匹配系数;
所述系数确定子单元,用于根据下述公式计算所述匹配系数:
其中,M表征所述匹配系数,a表征所述匹配字符的数量,b表征所述特征字符的数量,c表征所述样本字符的数量,α为校正系数,α>0。
5.根据权利要求4所述的装置,其特征在于,
所述获取单元,用于确定所述待确定信息的标题,并确定所述标题的数据类型;设置与所述数据类型相对应的词法分析器,并利用所述词法分析器,从所述标题中拆分出至少一个特征词。
6.根据权利要求4所述的装置,其特征在于,
进一步包括:分类单元;其中,
所述分类单元,用于将每一个所述关键词作为当前关键词执行:确定其他关键词中是否存在与所述当前关键词相同的目标关键词,如果是,确定所述目标关键词的数量;其中,所述其他关键词为:各个所述关键词中除所述当前关键词以外的关键词;根据所述目标关键词的数量以及各个所述关键词的总数量,确定所述当前关键词对应的出现频次,并根据每一个所述关键词对应的出现频次,确定各个所述关键词的优先级顺序,根据所述优先级顺序,对所述待确定信息进行分类管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新奥(中国)燃气投资有限公司,未经新奥(中国)燃气投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711407143.4/1.html,转载请声明来源钻瓜专利网。





