[发明专利]区块链资讯的识别方法以及装置在审
| 申请号: | 201811480238.3 | 申请日: | 2018-12-05 |
| 公开(公告)号: | CN109597938A | 公开(公告)日: | 2019-04-09 |
| 发明(设计)人: | 曹雪倩;郗家贞;张政勇;周文祥;蔡明军 | 申请(专利权)人: | 北京投肯科技有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100094 北京市海淀区永澄*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 区块 资讯 抓取 分类信息 存储介质 电子设备 预设区块 噪音过滤 资讯检索 资讯信息 映射表 去重 全网 预设 查找 分类 展示 | ||
1.一种区块链资讯的识别方法,其特征在于,所述方法包括:
资讯抓取步骤,使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤步骤,将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别步骤,提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示步骤,根据所述分类信息生成区块链资讯检索信息并展示。
2.如权利要求1所述的方法,其特征在于,所述资讯抓取步骤中所述区块链抓取词可以定期更新。
3.如权利要求2所述的方法,其特征在于,所述区块链抓取词定期更新方法包括:
定期在历史区块链资讯中提取的关键词;
将所述关键词按照词性过滤,只保留专有名词,并按照权重排序;
将预算排名之前的关键词作为区块链抓取词进行更新。
4.如权利要求2所述的方法,其特征在于,所述区块链抓取词定期更新方法包括:区块链抓取词人工修正和更新。
5.如权利要求1所述的方法,其特征在于,所述资讯抓取步骤还包括:抓取预设区块链领域颇具权威的网站和公众号,以及所有区块链项目的官方资讯来源中的区块链资讯补充更新所述区块链资讯库。
6.如权利要求1所述的方法,其特征在于,所述资讯过滤步骤中所述区块链资讯库中的资讯进行噪音过滤的方法为基于FastText算法的一个二分类器过滤方法:
通过人工标注的方法,建立预设资讯数量的标准资讯数据集,所述标准资讯数据集中区块链资讯样本与非区块链资讯样本的比例为4∶1;
将所述标准资讯数据集通过FastText算法进行初始训练,并对区块链资讯样本与非区块链资讯样本施加不同的惩罚因子,生成训练模型;
在标准资讯数据集中未进行初始训练的数据中抽取预设数量的样本,并根据区块链专有名词和非区块链名词分别对所述样本进行分类标记;
预测所述样本的分类标记结果,按照预设转换阈值和规则进行分类标记的转换,并使用转换后的数据更新所述标准资讯数据集;
重复上述步骤,直至所述标准资讯数据集中训练模型完全收敛。
7.如权利要求1所述的方法,其特征在于,所述资讯过滤步骤中所述区块链资讯库中的内容去重处理包括:通过simhash算法对所述区块链资讯库中进行噪音过滤后的资讯进行内容去重处理。
8.如权利要求1所述的方法,其特征在于,所述资讯识别步骤还包括:
基于textrank算法提取所述区块链资讯库中每篇区块链资讯中的关键词,并过滤所述关键词中的区块链项目关联词;
将区块链资讯中各分类区块链项目关联词按照预设权重相加,得到对应各分类的权重值;
将所述权重值排序并生成所述区块链资讯与区块链项目的对应关系,并生成所述区块链资讯的分类信息。
9.如权利要求1所述的方法,其特征在于,所述资讯识别步骤还包括:对容易引入噪音的区块链项目再次过滤,并生成所述区块链资讯的分类信息。
10.一种区块链资讯的识别装置,其特征在于,所述装置包括:
资讯抓取模块,用于使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤模块,用于将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别模块,用于提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示模块,用于根据所述分类信息生成区块链资讯检索信息并展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京投肯科技有限公司,未经北京投肯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811480238.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网络课程推荐方法及装置
- 下一篇:检测注视用户以在显示器上提供个性化内容





