[发明专利]一种面向科技大数据的项目查重方法有效

申请号：	201510797445.1	申请日：	2015-11-18
公开（公告）号：	CN105446954B	公开（公告）日：	2018-11-30
发明（设计）人：	罗亮;林珠;徐迪威;李海威;蔡建新	申请（专利权）人：	广东省科技基础条件平台中心
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510033 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	领域本体关键特征项目信息大数据特征词词序相似度概念相似度相似度比较相似度计算相似度评价语义相似度时序公共序列科技项目信息构建中文分词中文文本停用词相似度构建词汇文本申报引入
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向科技大数据的项目查重方法，其特征在于，包括以下步骤：

S1：利用历年的科技项目立项信息数据构建领域本体；

S2：对历年的科技项目立项信息数据进行中文分词后再进行去停用操作，提取出历年的科技项目立项信息数据的特征词，对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子；

S3：对待查重的新申请项目进行中文分词后再进行去停用操作，提取出该项目立项信息数据的特征词，对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子；

S4：将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论；

所述步骤S2的具体过程如下：

S21：将历年的科技项目立项信息数据组成数据源C＝{C1,C2……Ci…}，读取其中任一数据文本Ci，对数据文本Ci进行中文分词，将得到的分词去停用词，得到向量特征词A＝(A1,A2,……,An)；

S22：用领域本体对向量A进行词语消歧和同义替换实现文本降维，得到降维后的特征词向量A’＝(A’1,A’2,……,A’m)，其中m<n；

S23：通过隐马尔可夫模型，计算特征词向量A’的词序因子序列αi＝(αi1,αi2,……,αim)；

S24：重复步骤S22-S23得到每一年的科技项目立项信息数据的词序因子序列。

2.根据权利要求1所述的面向科技大数据的项目查重方法，其特征在于，所述步骤S3的具体过程如下：

S31：将待查重的新申请项目数据进行中文分词，将得到的分词去停用词，得到特征词向量B＝(B1,B2,……,Bn)；

S32：用领域本体对特征词向量B进行词语消歧和同义替换实现文本降维，得到降维后的特征词向量B’＝(B’1,B’2,……,B’m)，其中m<n；

S33：通过隐马尔可夫模型，计算特征词向量B’的词序因子序列βj＝(βj1,βj2,……,βjm)。

3.根据权利要求2所述的面向科技大数据的项目查重方法，其特征在于，所述步骤S4的具体过程如下：

将词序因子序列βj＝(βj1,βj2,……,βjm)和每一年的科技项目立项信息数据的词序因子序列引入领域本体中概念相似度K_l计算，其中l表示年份：

其中，X_α为任一年份的科技项目立项信息数据降维后的特征词向量，X_β为待查重的新申请项目数据降维后的特征词向量，a_α为X_α的词序因子序列，b_β为X_β词序因子序列，a_α、b_β是可调节参数，通过两个词序因子的差值计算作为调节参数，dist(X_α,X_β)为语义相似度，语义相似度指领域本体树中连接两个节点的最短路径所跨的边数。

4.根据权利要求3所述的面向科技大数据的项目查重方法，其特征在于，所述步骤S4还包括：

采用hadoop框架对相似度K_l的计算式进行分布式改进，之后设置相似度阀值，将计算出的相似度与阈值进行一一对比，得出查重结论。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东省科技基础条件平台中心，未经广东省科技基础条件平台中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510797445.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种变电站五防控制系统
下一篇：一种阵列基板及其制作方法、显示装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向科技大数据的项目查重方法有效

专利文献下载