[发明专利]一种以矩阵计算为基础进行舆论信息抽取的方法及系统有效
申请号: | 201510569894.0 | 申请日: | 2015-09-09 |
公开(公告)号: | CN105117385B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 杜登斌;杜璞 | 申请(专利权)人: | 北京中润普达信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 祁建国,梁挥 |
地址: | 100029 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矩阵 计算 基础 进行 舆论 信息 抽取 方法 系统 | ||
1.一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,包括:
步骤1,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
步骤2,建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析;
其中,所述规则矩阵包括,查找网站中最能体现文章内容的关键词,进行关键词标注;
并通过以下公式获取所述权重:
信息源权重计算公式:q*w*e=r,其中q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
分词权重计算公式:x*y=u,其中x为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
规则权重计算公式:g*h=k,其中g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
2.如权利要求1所述的一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
3.如权利要求1所述的一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,计算所述综合评分的公式为:
a1*b1+…ai*bj=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
4.一种以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,包括:
建立信息源矩阵模块,用于抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
建立分词矩阵、规则矩阵模块,用于建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析;
其中所述规则矩阵包括,查找网站中最能体现文章内容的关键词,进行关键词标注,并通过以下公式获取所述权重:
信息源权重计算公式:q*w*e=r,其中q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;
分词权重计算公式:x*y=u,其中x为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;
规则权重计算公式:g*h=k,其中g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
5.如权利要求4所述的一种以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
6.如权利要求4所述的一种以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,计算所述综合评分的公式为:
a1*b1+…ai*bj=M
其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中润普达信息技术有限公司,未经北京中润普达信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510569894.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:翻译方法和装置
- 下一篇:一种油棕传粉象甲成虫饲喂器