[发明专利]一种基于无监督学习的新闻实体分析方法及装置在审
| 申请号: | 202110685518.3 | 申请日: | 2021-06-21 | 
| 公开(公告)号: | CN113420112A | 公开(公告)日: | 2021-09-21 | 
| 发明(设计)人: | 周军;张震;杨家豪;沈亮;张鹏远;王立强;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06K9/62 | 
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 | 
| 地址: | 100190 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 学习 新闻 实体 分析 方法 装置 | ||
本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
技术领域
本申请涉及文本信息挖掘领域,更具体的,涉及一种基于无监督学习的新闻实体分析方法及装置。
背景技术
新闻是开源信息获取的重要来源,由于新闻的获取难度低、传播范围广且具有很好的时效性,对新闻的分析一直是文本分析和挖掘的热点,有很多针对新闻文本分析的研究。
新闻中的实体可以通过中文命名实体识别的相关工具来获得,相关工作已经比较成熟,但由于相应的实体种类繁多、涉及范围广且不一定存在相关词条故难以进行大规模标注,而现有大部分针对新闻分析的工作是需要标注信息的,据调查并没有直接应用于新闻中实体的建模和分析的无监督方法。
发明内容
为了解决以上问题,本申请提出一种基于无监督学习的新闻实体分析方法及装置。
第一方面,本申请提供一种基于无监督学习的新闻实体分析方法,包括:
对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;
基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;
根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。
优选地,基于无监督学习的新闻实体方法还包括:
根据所述每条新闻数据各自对应的标注结果进行话题聚类,得到话题聚类结果,获得所述每条新闻数据所属的话题;
根据所述每条新闻数据所属的话题,统计所述多个实体中每个实体在所述多条新闻数据所属的话题中出现的概率,得到所述多个实体中每个实体在多条新闻数据中的话题分布。
优选地,基于无监督学习的新闻实体方法还包括:
通过所述多个实体中每个实体的话题分布以及所述聚类结果,确定所述聚类结果的聚类效果,所述聚类效果通过每个实体的话题分布的平均距离来表示。
优选地,基于无监督学习的新闻实体方法还包括:
根据种子信息进行搜索,获得所述多条新闻数据中与所述多个实体相关的隐含信息。
优选地,基于无监督学习的新闻实体方法还包括:
根据所述多个实体的分布式表示和所述多个实体在所述多条新闻数据中的共现次数构建所述多个实体之间的关系;利用社区发现算法发现在所述多个实体之间的关系中存在的社区结构。
第二方面,本申请提供一种基于无监督学习的新闻实体分析装置,包括:
标注模块,用于对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;
获取模块,用于基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;
聚类模块,用于根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110685518.3/2.html,转载请声明来源钻瓜专利网。





