[发明专利]一种结合视觉分辨难度的文本串权重计算方法及装置无效

申请号：	201310725839.7	申请日：	2013-12-26
公开（公告）号：	CN103744900A	公开（公告）日：	2014-04-23
发明（设计）人：	刘伟;姚键;潘柏宇;卢述奇	申请（专利权）人：	合一网络技术（北京）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种结合视觉分辨难度的文本串权重计算方法和装置，其方法首先构造一个文档集合，统计字符串在文档集合中频率和在单个文档中的频率，以及每个字符在哪些文本串中出现，每个字符的笔画数。然后，切词处理待计算文本串权重的文档，得到一个文本串序列，对每一个文本计算其视觉密度，易识别度，和TF?IDF值。最后，加权相加该文本串的视觉密度、易识别度和TF?IDF值，得到文本串对一个文档的权重，并进一步的得到文本串对文档的归一化权重。该方法使得具有更多信息量，同时容易被用户辨识的词具有更大的权重，在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果，使得用户能够更快地发现感兴趣的结果。
搜索关键词：	一种结合视觉分辨难度文本权重计算方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种结合视觉分辨难度的文本串权重计算方法，包括如下步骤：构造文档集合并统计词数据步骤S110：构建文档集合，并得到文本串的统计数据，具体包括：文档集合构建子步骤S111：收集视频信息库中的视频标题，从查询日志中随机取出等量的用户输入的查询串，将这两部分文本一起作为下一步要处理的文档集合；数据统计子步骤S112：切分所述文档集合中的每个文档，每个文档经过切分后得到一个文本串序列，统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次，对出现在文本串中的所有汉字统计其笔画数量，如果不是汉字，则按照一画统计；中间权重结果计算步骤S120：对需要计算文本串权重的待测文档D进行切词，得到一个由k个文本串组成的序列，通过如下步骤分别得到几种中间结果权重：TF·IDF值计算子步骤S121：对所述文本串序列中的文本串Ti采用公式（1）计算其TF·IDF值，其中1≤i≤k, 公式（1），其中，N为文档集合中文档数量，ND(Ti)为文本串Ti在待测文档D中出现的次数，N(Ti)为文档集合中含有文本串Ti的文档数量；视觉密度计算子步骤S122：对所述文本串序列中的文本串Ti，采用公式（2）计算其视觉密度：公式（2），其中，文本串Ti含有m个字符，BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m，f₁和f_m为调权因子；易识别度计算子步骤S123：利用公式（3）计算文本串Ti的易识别度：公式（3），m表示文本串Ti含有m个字符，CF(Cj)表示字符Cj易识别度，对文本串Ti中的首尾字符利用调权因子y₁和y_m进行调权，字符C易识别度CF(C)通过公式（4）计算得到：公式（4），CWF为字符C在整个文档集合中不同的文本串中出现的次数，TCl表示在整个文档集合中含有字符C的第l个文本串，BH(C)为字符C的笔画数，u为最易识别单字的笔画数，f为调权因子，IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率，通过公式（5）计算得到：公式（5），N为文档集合中文档数量，N(Tl)为文档集合中含有文本串Tl的文档数量；综合权重计算步骤S130：利用中间权重结果，采用公式（6）计算文本串Ti相对待测文档D的权重，公式（6）其中，为TF·IDF值权重调权因子，为文本串视觉分辨难度调权因子；归一化权重计算步骤S140：将待测文档D中的文本串Ti的权重利用公式（7）进行归一化，得到文本串Ti的归一化权重，公式（7）。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合一网络技术（北京）有限公司，未经合一网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310725839.7/，转载请声明来源钻瓜专利网。

上一篇：基于多特征哈希的视频拷贝检测方法
下一篇：一种宽带光学频率梳的产生装置及其方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种结合视觉分辨难度的文本串权重计算方法及装置无效

专利文献下载