[发明专利]一种基于两个三元组的中文问题生成方法在审
申请号: | 201910946043.1 | 申请日: | 2019-10-01 |
公开(公告)号: | CN111104517A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 董泽桉;邵红;董黎刚;蒋献 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 两个 三元 中文 问题 生成 方法 | ||
本发明公开了一种基于两个三元组的中文问题生成方法。它包括如下步骤:1)分别用Bi‑LSTM+CRF模型和GRU+AM模型,提取文本中的实体对和实体关系,构建知识图谱;2)对于包含同一公共实体的两个三元组,若其关系相同,则根据知识图谱生成是非疑问句或特殊疑问句;3)对于包含同一公共实体的两个三元组,若其关系不同,则根据知识图谱生成是非疑问句或特殊疑问句;4)当三元组间出现多个公共实体,则围绕每一个公共实体依次按2)和3)步骤生成问题,生成时视剩余的公共实体为其他实体。本发明采用上述方法,实现了多实体、多关系的问题生成,在问题生成领域中补充了仅有的根据一对一关系生成问题的方式,可以有效地提高生成问题的多样性。
技术领域
本发明涉及文本生成领域,一种基于两个三元组的中文问题生成方法。
背景技术
随着互联网的发展和网络的普及,计算机的广泛应用催生出众多人工智能领域的研究,主要领域有深度学习、计算机视觉、智能机器人、虚拟个人助理、自然语言处理等。其中,自然语言处理领域的研究也逐渐取得相当高的水准。目前,问题生成,即是根据已有的知识生成自然语言形式的问题,是自然语言处理的重要研究方向。知识的形式可以是一段话,一篇上下文的对话,也可以是知识图谱等等,不同的知识形式定义了不同的问题生成的研究。
自从Rust et al.的研究出现之后,问题生成一直是自然语言生成领域关注的重点。最初大部分研究都在探索基于模板的问题生成方法。通常,他们首先用句法分析将输入文本逐句处理,然后根据句法树,用人为制定的模板构造问题 (Mostow and Chen,Lindberg et al., Mazidi and Nielsen)。Labutov et al.先用众包技术收集一些问题模板,然后再根据相应的文本领域对这些模板进行打分排序。通常,这种基于规则的问题生成方法只是利用了词语间的语法,并没有考虑到它们的语义。Heilman and Smith介绍了一种过度生成和排序的方法,作者首先生成很多问题,然后再对这些问题打分。不过虽然他们打分的过程融入了学习机制,但是他们的系统的表现还是完全取决于人造模板的质量。
自然语言处理的很多先进性技术都来自于机器翻译(Sutskever et al.,Bahdanau et al.; Gulcehre et al.,) ,以往问题生成也都采用了机器翻译的技术。Serban et al. 训练了一个将知识库中的三元组转换成自然语言形式的问题的模型,将三元组的头和关系作为构造问题的文本,三元组的尾作为问题的答案。Du et al.基于文本-答案对,用seq2seq模型生成问题。类似的,Zhou et al. 用词性标注加强词嵌入。以上两位模型的评测都采用了人工评阅的方法。 Kumar et al.使用的是相似的模型,但是他们生成问题时没有在特定的答案范围内调节。
Song et al.基于多方面上下文匹配(Wang et al.) 优化了的文本编码模型。Kumar et al.提出一种使用梯度策略的微调框架,并对框架生成的问题进行了人工评估,达到了预期的结果。然而,他们使用各种激励参数仍然是基于基本事实的。Yuan et al.使用注意力机制和指针网络构建seq2seq模型,对答案设计了单独的编码层;同时,他们还介绍了一种用一个额外的语言模型和问答系统作为激励微调模型的方法。不过可惜的是,他们并没有人为验证这种微调是否有助于提高生成问题的质量。与此同时,Yang et al. 设计了适用于领域的问题生成模型,将问题生成作为问答系统的辅助任务。他们生成问题只是为了扩大数据,并没有验证所生成问题的质量。
现有的基于知识图谱的中文问题生成系统都是基于单个三元组,以特定三元组为基础知识,以该三元组的某个实体为答案生成问题,缺少对三元组之间知识相关性的考虑。例如对于三元组(C罗,获得奖项,金球奖)和(C罗,获得奖项,金靴奖),现有的方式只能分别对这两个三元组提问,例如:“C罗获得过金球奖吗+问号”和“C罗获得过金靴奖吗+问号”而如何能够融合三元组间的横向知识,生成对多个三元组知识理解后的综合问题,例如:“C罗获得过哪些奖项”,现在还没有很好的解决办法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910946043.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:测量时间确定、驻留小区确定、参数确定方法和装置
- 下一篇:一种钢丝除锈机