[发明专利]一种基于无监督学习的新闻实体分析方法及装置在审

申请号：	202110685518.3	申请日：	2021-06-21
公开（公告）号：	CN113420112A	公开（公告）日：	2021-09-21
发明（设计）人：	周军;张震;杨家豪;沈亮;张鹏远;王立强;颜永红	申请（专利权）人：	中国科学院声学研究所;国家计算机网络与信息安全管理中心
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289;G06K9/62
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督学习新闻实体分析方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括：对待处理的多条新闻数据中的每条新闻数据分别进行分词处理，将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果；基于所述标注结果构建分布式表示模型，得到所述多个实体的分布式表示信息，所述分布式表示信息标识为实体向量；根据所述多个实体的分布式表示信息，对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中，通过新闻实体所处位置的上下文来得到实体的分布式表示，通过对实体的聚类分析来得到实体的聚类结果。

技术领域

本申请涉及文本信息挖掘领域，更具体的，涉及一种基于无监督学习的新闻实体分析方法及装置。

背景技术

新闻是开源信息获取的重要来源，由于新闻的获取难度低、传播范围广且具有很好的时效性，对新闻的分析一直是文本分析和挖掘的热点，有很多针对新闻文本分析的研究。

新闻中的实体可以通过中文命名实体识别的相关工具来获得，相关工作已经比较成熟，但由于相应的实体种类繁多、涉及范围广且不一定存在相关词条故难以进行大规模标注，而现有大部分针对新闻分析的工作是需要标注信息的，据调查并没有直接应用于新闻中实体的建模和分析的无监督方法。

发明内容

为了解决以上问题，本申请提出一种基于无监督学习的新闻实体分析方法及装置。

第一方面，本申请提供一种基于无监督学习的新闻实体分析方法，包括：

对待处理的多条新闻数据中的每条新闻数据分别进行分词处理，将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果；

基于所述标注结果构建分布式表示模型，得到所述多个实体的分布式表示信息，所述分布式表示信息标识为实体向量；

根据所述多个实体的分布式表示信息，对所述多个实体进行聚类分析以得到聚类结果。

优选地，基于无监督学习的新闻实体方法还包括：