[发明专利]一种面向科技大数据的项目查重方法有效

申请号：	201510797445.1	申请日：	2015-11-18
公开（公告）号：	CN105446954B	公开（公告）日：	2018-11-30
发明（设计）人：	罗亮;林珠;徐迪威;李海威;蔡建新	申请（专利权）人：	广东省科技基础条件平台中心
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510033 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明是一种面向科技大数据的项目查重方法，该方法根据历年的科技项目立项信息构建领域本体，然后对新申报的项目信息跟已有的项目信息进行相似度比较，进行中文分词、去停用词等一系列操作后，提取出关键特征词汇，对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子，将词序因子引入领域本体的概念相似度计算，可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论，本发明方法在现有的中文文本词序相似度计算方法上结合了领域本体处理即语义相似度和时序因子相结合，相似度计算效果将更佳。
搜索关键词：	领域本体关键特征项目信息大数据特征词词序相似度概念相似度相似度比较相似度计算相似度评价语义相似度时序公共序列科技项目信息构建中文分词中文文本停用词相似度构建词汇文本申报引入
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向科技大数据的项目查重方法，其特征在于，包括以下步骤：S1：利用历年的科技项目立项信息数据构建领域本体；S2：对历年的科技项目立项信息数据进行中文分词后再进行去停用操作，提取出历年的科技项目立项信息数据的特征词，对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子；S3：对待查重的新申请项目进行中文分词后再进行去停用操作，提取出该项目立项信息数据的特征词，对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子；S4：将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论；所述步骤S2的具体过程如下：S21：将历年的科技项目立项信息数据组成数据源C＝{C1,C2……Ci…}，读取其中任一数据文本Ci，对数据文本Ci进行中文分词，将得到的分词去停用词，得到向量特征词A＝(A1,A2,……,An)；S22：用领域本体对向量A进行词语消歧和同义替换实现文本降维，得到降维后的特征词向量A’＝(A’1,A’2,……,A’m)，其中m

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东省科技基础条件平台中心，未经广东省科技基础条件平台中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510797445.1/，转载请声明来源钻瓜专利网。

上一篇：一种变电站五防控制系统
下一篇：一种阵列基板及其制作方法、显示装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向科技大数据的项目查重方法有效

专利文献下载