[发明专利]一种基于上下文关联的中文相似性比较方法无效

申请号：	201110303533.3	申请日：	2011-10-09
公开（公告）号：	CN102314418A	公开（公告）日：	2012-01-11
发明（设计）人：	赵长海;晏海华;郎钰泽	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京永创新实专利事务所 11121	代理人：	周长琪
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于上下文关联中文相似性比较方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于上下文关联的中文相似性比较方法，其特征在于，该方法具体包括如下步骤：

步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词，然后为每一个文本建立倒排表，具体是：通过词汇内容建立索引，将词汇本身作为索引的键，词汇在文本中的位置作为索引值；

步骤2、对倒排表进行相似性检测，得到可疑相似片段，具体是：

步骤2.1、首先使用倒排表对中心词进行映射：若词X同时在文本S的倒排表和文本D的倒排表中出现，则在文本S的倒排表和文本D的倒排表中建立词X的关系映射，并得到以词X作为中心词、以r作为半径，长度n＝2r+1的一对可疑相似片段；

步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测，并确定每一对可疑相似片段的相似度；

步骤2.3、确定文本S和文本D的相似值R_S，D表示文本S对文本D的相似度，R_D，S表示文本D对文本S的相似度；

步骤3、对可疑相似片段进行聚合，生成相似文本块。

2.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法，其特征在于，步骤2.1中所述的r为2。

3.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法，其特征在于，步骤2中所述的可疑相似片段，其数据结构包括如下元素：包含该可疑相似片段s与d的相似度r_sf(s，d)、片段s在文本S中的起始位置索引号s_StartIndex、片段s在文本S中的终止位置索引号s_EndIndex、片段d在文本D中的起始位置索引号d_StartIndex和片段d在文本D中的终止位置索引号d_EndIndex。

4.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法，其特征在于，步骤2.3中所述的文本S对文本D的相似度R_S，D具体通过式(1)得到：

RS,D=ΣwirsfwiNS,wi∈S---(1)]]>