[发明专利]一种基于无监督学习的新闻实体分析方法及装置在审
| 申请号: | 202110685518.3 | 申请日: | 2021-06-21 | 
| 公开(公告)号: | CN113420112A | 公开(公告)日: | 2021-09-21 | 
| 发明(设计)人: | 周军;张震;杨家豪;沈亮;张鹏远;王立强;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06K9/62 | 
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 | 
| 地址: | 100190 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 学习 新闻 实体 分析 方法 装置 | ||
1.一种基于无监督学习的新闻实体分析方法,其特征在于,包括:
对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;
基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;
根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述每条新闻数据各自对应的标注结果进行话题聚类,得到话题聚类结果,获得所述每条新闻数据所属的话题;
根据所述每条新闻数据所属的话题,统计所述多个实体中每个实体在所述多条新闻数据所属的话题中出现的概率,得到所述多个实体中每个实体在多条新闻数据中的话题分布。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过所述多个实体中每个实体的话题分布以及所述聚类结果,确定所述聚类结果的聚类效果,所述聚类效果通过所述每个实体的话题分布的平均距离来表示。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据种子信息进行搜索,获得所述多条新闻数据中与所述多个实体相关的隐含信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述多个实体的分布式表示和所述多个实体在所述多条新闻数据中的共现次数构建所述多个实体之间的关系;利用社区发现算法发现在所述多个实体之间的关系中存在的社区结构。
6.一种基于无监督学习的新闻实体分析装置,其特征在于,包括:
标注模块,用于对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;
获取模块,用于基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;
聚类模块,用于根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
新闻话题获取模块,用于根据所述每条新闻数据各自对应的标注结果进行话题聚类,得到话题聚类结果,获得所述每条新闻数据所属的话题;
话题分布获取模块,用于根据所述每条新闻数据所属的话题,统计所述多个实体中每个实体在所述多条新闻数据所属的话题中出现的概率,得到所述多个实体中每个实体在多条新闻数据中的话题分布。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
实体聚类分析模块,用于通过所述多个实体中每个实体的话题分布以及所述聚类结果,确定所述聚类结果的聚类效果,所述聚类效果通过每个实体的话题分布的平均距离来表示。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
种子信息搜索模块,用于根据种子信息进行搜索,获得所述多条新闻数据中与所述多个实体相关的隐含信息。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
社区发现模块,用于根据所述多个实体的分布式表示和所述多个实体在所述多条新闻数据中的共现次数构建所述多个实体之间的关系;利用社区发现算法发现在所述多个实体之间的关系中存在的社区结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110685518.3/1.html,转载请声明来源钻瓜专利网。





