[发明专利]一种为文本添加超级链接的方法和装置有效
申请号: | 201210087642.0 | 申请日: | 2012-03-29 |
公开(公告)号: | CN103365831B | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 贺翔;卞琪;焦峰 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 添加 超级链接 方法 装置 | ||
1.一种为文本添加超级链接的方法,其特征在于,包括:
预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率;
针对每个待添加超级链接的文本X,分别进行如下处理:
对文本X进行切词处理;
从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;
根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值;
按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。
2.根据权利要求1所述的方法,其特征在于,所述通过对各文本进行切词处理,生成一个特征词列表包括:
将切词得到的所有不重复词均作为特征词;
或者,从切词得到的所有不重复词中去除高频词、停用词和低频词,将剩余词作为特征词。
3.根据权利要求1所述的方法,其特征在于,所述针对每个特征词,分别确定其与每个超链词的共现频率包括:
针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):
P(x|y)=xy共现次数/y出现次数;
其中,xy共现次数表示在收集到的所有文本中,同时出现了特征词y和超链词x的文本的个数,y出现次数表示在收集到的所有文本中,出现了特征词y的文本的个数;
或者,
针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):
P(x/y)=H(x,y)/I(x,y);
其中,H表示信息熵,I表示互信息。
4.根据权利要求3所述的方法,其特征在于,
所述生成一个特征词列表之后,进一步包括:针对每个特征词,分别确定其逆文本频率IDF值,IDF值通过用收集到的所有文本的个数除以出现了该特征词的文本个数,再将得到的商取对数得到;
所述确定每个提取出的超链词和每个提取出的特征词的权值包括:
针对每个提取出的超链词H,分别计算其权值WH:
WH=TFH*IDFH;
其中,TFH表示超链词H的词频TF值,即超链词H在文本X中的出现次数,IDFH表示超链词H的IDF值;
针对每个提取出的特征词F,分别计算其权值WF:
WF=TFF*IDFF;
其中,TFF表示特征词F的TF值,IDFF表示特征词F的IDF值。
5.根据权利要求4所述的方法,其特征在于,所述根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值包括:
针对每个提取出的超链词H,分别计算其最终权值WH’:
其中,n表示提取出的特征词的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210087642.0/1.html,转载请声明来源钻瓜专利网。