[发明专利]一种基于深度学习和上下文语义的需求实体共指检测方法和装置有效
| 申请号: | 202010632710.1 | 申请日: | 2020-07-02 |
| 公开(公告)号: | CN111950281B | 公开(公告)日: | 2023-03-21 |
| 发明(设计)人: | 王亚文;石琳;王青 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 上下文 语义 需求 实体 检测 方法 装置 | ||
本发明公开了一种基于深度学习和上下文语义的需求实体共指检测方法和装置。本方法为:1)上下文截取:首先定位实体,然后以该实体为中心根据窗口大小截断文本,将该需求文本作为与该实体相关的上下文;2)构建上下文相似度网络:网络由两部分组成,一部分是用于学习上下文表示的微调BERT模型,另一部分是用于学习实体表示的基于Word2Vec的网络;分别将上下文和实体输入BERT模型和Word2Vec网络,将得到的两种向量表示连接起来;最后使用多层感知器和softmax层来推断预测标签,即两个实体是否为共指实体。本发明能够解决自然语言需求中的实体共指问题,有助于在多个不同领域的利益相关者之间对实体达成共识。
技术领域
本发明属于计算机技术领域,涉及需求工程,自然语言处理等技术,尤其是自然语言处理中的共指消解技术,用于解决需求工程中的实体共指问题。同时针对该场景下需要考虑上下文语义和标注数据不足等问题,提出了一种基于深度学习和上下文语义的需求实体共指检测方案,该方案也可用于解决其他类似领域内实体共指问题。
背景技术
大多数软件需求都是用自然语言描述的,可以灵活地适应任意抽象。在进入开发的后期阶段之前,清楚地编写需求而不产生不一致和歧义是一项具有挑战性但必不可少的任务。不一致是评价自然语言需求质量语言方面的有关原则之一,不一致的产生大多是由于需求分析专家和领域专家专业术语的不同或利益相关者之间来自的领域不同。
特别是,利益相关者可以使用不同的语言表达方式来指代自然语言需求中的同一真实世界中的实体,这种现象定义为“实体共指”。更具体地说,图1给出了实体共指的示例,三个需求中具有相对应的实体:需求1中的“行业相关的术语列表”,需求2中的“金融词汇列表”和需求3中的“金融单词列表”。然而,根据它们的上下文,这三个实体指的是同一件事。实体共指可能导致对实体的误解,从而损害需求的可读性和可理解性。
现有解决文本需求不一致或歧义问题的方案大致有:基于模式的方法使用词性(Part-of-Speech)模板或启发式方法。基于学习的方法使用信息检索(InformationRetrieval)技术,例如潜在语义索引(Latent Semantic Indexing)或无监督的聚类算法。基于相似度的方法包括词嵌入(Word Embeddings)和句法方法(例如,Jaccard距离和Levenstein距离)。然而由于以下挑战,这些方法不能直接用于该场景下的实体共指中:
1.多字实体。在文本需求中,实体更多是名词短语,而不是单个词。如图1所示,示例中的所有实体均由多个词组成。根据工业数据的观察,实体的平均长度为3.52。多字实体很难用字级表示法表示。例如,尽管实体1与实体2和实体3指代相同的实体,但是实体1与其他两个实体的表达方式有很大不同,它们仅共享一个相同的词“列表”。如果简单地使用诸如词嵌入技术之类的逐词相似性方法,则将给出错误的实体共指关系,即实体2和实体3是共指的,而实体1是不同的实体。
2.缺少上下文语义。现有的解决方案缺少句子级别的上下文语义信息,而上下文语义可以为解析实体共指提供额外的信息。在大多数情况下,根据上下文推断两个实体是否共指,即共指实体通常具有相似的上下文。例如,图1中的所有三个需求都具有类似的上下文词,例如“用户”,“在线帮助工具”等,它们表示三个实体是相互关联的。因此,如何在实体表示中融合上下文语义也很重要。
3.标注数据不足。需求中的实体共指检测是特定领域的任务,不能像通用共指检测任务那样直接从大型通用语料库或公共知识库中直接受益。此外,在需求中对共指实体进行标注需要领域专业知识和大量的人工工作,从而导致标注数据不足以进行有效地学习。如何使用有限的标注数据并从在大型通用语料库上训练的预训练模型中受益是另一个挑战。
本发明基于词嵌入技术和微调的BERT模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010632710.1/2.html,转载请声明来源钻瓜专利网。





