[发明专利]专利交易大数据采集和处理方法有效
| 申请号: | 201910134395.7 | 申请日: | 2019-02-22 |
| 公开(公告)号: | CN109933643B | 公开(公告)日: | 2020-10-02 |
| 发明(设计)人: | 张乔木;杜亮 | 申请(专利权)人: | 蓝知科技(南京)有限公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06Q50/18 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 专利 交易 数据 采集 处理 方法 | ||
1.专利交易大数据采集和处理方法,其特征在于包括以下步骤:
S1、将即时聊天工具中的群聊信息采集生成原始数据;
S2、对原始数据进行识别提取生成有效数据;
所述识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;
S3、对有效数据进行标准化提取形成标准数据;
所述标准化提取包括卖方数据标准化提取和买方数据标准化提取;
所述卖方数据标准化提取,包括以下步骤:
S311、对于卖方数据中的一条群聊信息,首先提取该一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;
S312、根据匹配算法匹配一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;
所述买方数据标准化提取,包括以下步骤:
S321、设置一级关键词和二级关键词;
S322、买方数据中的一条群聊信息中含有M个一级关键词并含有N个二级关键词;
如果M=1,N>1,则根据二级关键词形成N个买方信息;否则根据一级关键词形成M个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据;
S4、对标准数据进行合并归类处理形成最终数据;
所述匹配算法为:识别一条群聊信息中第一个专利号前的连续汉字数量SQ,以及最后一个专利号后的连续汉字数量SH;如果SH小于5,且SQ大于6,则提取专利号前的连续汉字为专利名称;否则提取专利号后的连续汉字为专利名称。
2.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:
所述合并归类处理包括以下步骤:
S401、卖方标准数据中存在发布人账号和专利号相同的数据,则只保留其中一条;
S402、卖方标准数据中存在发布人账号和买方信息相同的数据,则只保留其中一条;
S403、如果在一定时间段内,不同发布人账号对应多个相同的专利号或者买方信息,则将不同发布人账号标记为一类。
3.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:
在一条群聊信息中一级关键词向前或者向后的五个字符内存在其他一级关键词,则相邻一级关键词合为一个一级关键词;
在一条群聊信息中二级关键词向前或者向后的五个字符内存在其他二级关键词,则相邻二级关键词合为一个二级关键词。
4.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述二级关键词包括前置关键词和后置关键词;首先前置关键词确定为二级关键词,如果不含有前置关键则后置关键词确定为二级关键词。
5.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述根据一级关键词形成相应的M个买方信息为:提取相邻一级关键词之间的信息为买方信息,提取最后一个一级关键词后面的信息为买方信息,从而形成M个买方信息。
6.根据权利要求4所述的专利交易大数据采集和处理方法,其特征在于:所述根据二级关键词形成N个买方信息为:
含有前置关键词则提取相邻前置关键词之间的信息为买方信息,提取最后一个前置关键词后面的信息为买方信息,从而形成N个买方信息;
不含前置关键词则提取相邻后置关键词之间的信息为买方信息,提取第一个后置关键词和一级关键词之间的数据为买方信息,从而形成N个买方信息。
7.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述提取含有预先设定关键词的群聊信息为:
S201、有效数据中的一条群聊信息,只含有卖方数据关键词则提取为卖方数据;
S202、有效数据中的一条群聊信息,只含有买方数据关键词则提取为买方数据;
S203、有效数据中的一条群聊信息,既含有买方数据关键词又含有卖方数据关键词;
那么,如果买方数据关键词之后没有卖方数据关键词则截取买方数据关键词之后的数据,为买方数据;如果买方数据关键词之后有卖方数据关键词则截取买方数据关键词和第一个卖方数据关键词之间的数据,为买方数据;
剩余数据为卖方数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝知科技(南京)有限公司,未经蓝知科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910134395.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





