[发明专利]一种结合视觉分辨难度的文本串权重计算方法及装置无效

专利信息
申请号: 201310725839.7 申请日: 2013-12-26
公开(公告)号: CN103744900A 公开(公告)日: 2014-04-23
发明(设计)人: 刘伟;姚键;潘柏宇;卢述奇 申请(专利权)人: 合一网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100080 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种结合视觉分辨难度的文本串权重计算方法和装置,其方法首先构造一个文档集合,统计字符串在文档集合中频率和在单个文档中的频率,以及每个字符在哪些文本串中出现,每个字符的笔画数。然后,切词处理待计算文本串权重的文档,得到一个文本串序列,对每一个文本计算其视觉密度,易识别度,和TF?IDF值。最后,加权相加该文本串的视觉密度、易识别度和TF?IDF值,得到文本串对一个文档的权重,并进一步的得到文本串对文档的归一化权重。该方法使得具有更多信息量,同时容易被用户辨识的词具有更大的权重,在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果,使得用户能够更快地发现感兴趣的结果。
搜索关键词: 一种 结合 视觉 分辨 难度 文本 权重 计算方法 装置
【主权项】:
1.一种结合视觉分辨难度的文本串权重计算方法,包括如下步骤:构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;数据统计子步骤S112:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k, 公式(1),其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;视觉密度计算子步骤S122:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度公式(2),其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子; 易识别度计算子步骤S123:利用公式(3)计算文本串Ti的易识别度公式(3),m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:公式(4),CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:公式(5),N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,公式(6)其中,为TF·IDF值权重调权因子,为文本串视觉分辨难度调权因子;归一化权重计算步骤S140:将待测文档D中的文本串Ti的权重利用公式(7)进行归一化,得到文本串Ti的归一化权重公式(7)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310725839.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top