[发明专利]一种基于论元结构的事件观点挖掘方法在审
申请号: | 202210031265.2 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114528830A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 徐若曦;林鸿宇;韩先培;孙乐 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F16/33;G06F40/126 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 事件 观点 挖掘 方法 | ||
1.一种基于论元结构的事件观点挖掘方法,其步骤包括:
1)对于给定的事件e和文档d,从文档d中提取所有与给定事件e有关的观点片段;
2)针对每一所述观点片段,从事件e中提取表达观点的事件子结构作为对应所述观点片段的观点对象;
3)根据步骤2)的处理结果,得到事件e的事件观点集合T={…,(ok,ak),…|e,d};其中,ok是文档d中的第k个观点片段;ak是观点ok对应的观点对象。
2.根据权利要求1所述的方法,其特征在于,所述观点片段的观点对象包括事件本身、事件子事件和事件参与者。
3.根据权利要求2所述的方法,其特征在于,所述事件本身是指观点片段直接针对整个事件发表看法;所述事件子事件是指观点片段针对事件的子事件或相关事件发表看法;所述参与者是指观点片段直接针对事件当中涉及的实体发表看法。
4.根据权利要求1或2或3所述的方法,其特征在于,从文档d中提取所有与给定事件e有关的观点片段的方法为:
1)将给定事件e和文档d中的每一句使用BERT的通用拼接符号拼接,构造输入:[CLS]事件短语[SEP]文档句子[SEP];
2)将拼接后的文本输入Transformer编码器;
3)将起始符号[CLS]对应的表示输入Softmax层进行分类,如果输出结果为1,那么对应句子为与事件e相关的观点句;如果输出结果为0,则不是与事件e相关的观点句;
4)将文档d中连续的观点句连接起来得到所述观点片段。
5.根据权利要求1或2或3所述的方法,其特征在于,获取所述观点片段的观点对象的方法为:
1)对事件e进行分词,得到分词集合{w1,w2,…,wm};其中,事件e为包含m个词的文本短语,wm为事件e中第m个词;文档d包含n个句子,sn为文档d中第n个句子;
2)随意组合事件短语中连续的分词,得到多个子短语;将每一所述子短语作为一待选观点对象;
3)将每个待选观点对象与一所述观点片段使用双向编码器表示技术BERT的拼接符号拼接,构造输入:[CLS]待选观点对象[SEP]观点片段[SEP];
4)将拼接后的文本输入双向编码器表示技术BERT获取该待选观点对象与对应所述观点片段的匹配程度,选择匹配程度最高的待选观点对象作为对应所述观点片段的观点对象。
6.根据权利要求5所述的方法,其特征在于,使用“结巴”中文分词组件对事件e进行分词,得到分词集合{w1,w2,…,wm}。
7.根据权利要求1或2或3所述的方法,其特征在于,所述观点片段的类别包括:判断、态度、信仰、情感和建议。
8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210031265.2/1.html,转载请声明来源钻瓜专利网。