[发明专利]一种结合视觉分辨难度的文本串权重计算方法及装置无效
申请号: | 201310725839.7 | 申请日: | 2013-12-26 |
公开(公告)号: | CN103744900A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 刘伟;姚键;潘柏宇;卢述奇 | 申请(专利权)人: | 合一网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种结合视觉分辨难度的文本串权重计算方法和装置,其方法首先构造一个文档集合,统计字符串在文档集合中频率和在单个文档中的频率,以及每个字符在哪些文本串中出现,每个字符的笔画数。然后,切词处理待计算文本串权重的文档,得到一个文本串序列,对每一个文本计算其视觉密度,易识别度,和TF?IDF值。最后,加权相加该文本串的视觉密度、易识别度和TF?IDF值,得到文本串对一个文档的权重,并进一步的得到文本串对文档的归一化权重。该方法使得具有更多信息量,同时容易被用户辨识的词具有更大的权重,在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果,使得用户能够更快地发现感兴趣的结果。 | ||
搜索关键词: | 一种 结合 视觉 分辨 难度 文本 权重 计算方法 装置 | ||
【主权项】:
1.一种结合视觉分辨难度的文本串权重计算方法,包括如下步骤:构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;数据统计子步骤S112:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k,
公式(1),其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;视觉密度计算子步骤S122:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度
:
公式(2),其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子; 易识别度计算子步骤S123:利用公式(3)计算文本串Ti的易识别度
:
公式(3),m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
公式(4),CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
公式(5),N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
公式(6)其中,
为TF·IDF值权重调权因子,
为文本串视觉分辨难度调权因子;归一化权重计算步骤S140:将待测文档D中的文本串Ti的权重
利用公式(7)进行归一化,得到文本串Ti的归一化权重
,
公式(7)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310725839.7/,转载请声明来源钻瓜专利网。