[发明专利]一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置在审
申请号: | 202310443963.8 | 申请日: | 2023-04-23 |
公开(公告)号: | CN116362243A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李琳;侯茜;蹇杰安;陈梓阳 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/268;G06F16/31;G06F16/335;G06F40/30;G06F16/35;G06F18/22;G06F40/216 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 罗盼晴 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 句子 关联 关系 文本 关键 短语 提取 方法 存储 介质 装置 | ||
1.一种融入句子间关联关系的文本关键短语提取方法,其特征在于,包括:
S1、获取待处理的文本数据,采用词性组合方式提取出文本中的名词性短语;
S2、构建两个不同的Trie树;
S3、根据两个不同的Trie树对名词性短语进行过滤,去除名词性短语中语义信息表达不完整的短语,得到候选短语集;
S4、计算候选短语集中每个候选短语的全局语义相似度得分;
S5、利用WRD算法,计算句子间的相似度,并采用AP聚类算法对各个句子进行聚类,得到包含不同语义信息的句子簇;
S6、根据候选短语的全局语义得分,对句子簇中的候选短语进行排序,从不同句子簇分别提取关键短语,并将所有的关键短语进行集合,得到文档对应的关键短语集。
2.根据权利要求1所述的一种融入句子间关联关系的文本关键短语提取方法,其特征在于,采用词性组合方式提取出文本中的名词性短语包括:采用分词工具对输入文本进行分词,得到多个分词结果;对分词结果中的停用词进行标记;采用词性组合的方式对分词结果进行组合,得到文档中包含的名词性短语;其中词性组合的方式包括:如果是单个词语,则该词语由一个词性为名词的词语构成,如果是两个词语,则两个词语中必须有一个是名词。
3.根据权利要求1所述的一种融入句子间关联关系的文本关键短语提取方法,其特征在于,构建两个不同的Trie树包括:第一Trie树用于计算名词性短语的互信息,第二Trie树用于计算名词性短语的左右信息熵;构建第一Trie树包括:获取外部词典,将词典中的词语作为TrieA树的节点;构建第二Trie树包括:获取文本中所有文档的二阶候选短语,根据二阶候选短语所在的文档得出二阶候选短语对应的左右三阶候选短语,最后将所有三阶候选短语合并为一个数组,用于初始化第二Trie树。
4.根据权利要求1所述的一种融入句子间关联关系的文本关键短语提取方法,其特征在于,根据两个不同的Trie树对名词性短语进行过滤包括:
计算组成二阶词的词语出现概率以及文档中每个二阶词的出现概率,根据两个概率值计算名词性短语的互信息值,其表达式为:
其中,x和y表示的是二阶词中包含的两个不同的词语;p′x代表x基于外部词典得出的概率;p′y代表y基于外部词典得出的概率;pxy代表二阶词出现的概率;
计算第二Trie树中的短语左右邻接词的总数,根据短语左右邻接词的总数计算二阶词对应的左右信息熵的值,其计算公式为:
其中,W代表对应的二阶候选短语;p(a)表示左三阶词a在W的左三阶词中出现的概率;p(b)表示右三阶词b在W的右三阶词中出现的概率;countl代表二阶词W的左邻接词集合;countr代表二阶词W的右邻接词集合;
根据词频、互信息、左右信息熵对应的值计算得分,根据得分对名词性短语进行筛选,得到候选短语集。
5.根据权利要求4所述的一种融入句子间关联关系的文本关键短语提取方法,其特征在于,计算得分的公式为:
其中,Result(W)表示候选短语W最终的得分;P(W)表示候选短语W在文本中出现的频率;EL(W)表示候选短语W的左信息熵;ER(W)表示候选短语W的右信息熵。
6.根据权利要求1所述的一种融入句子间关联关系的文本关键短语提取方法,其特征在于,计算候选短语集中每个候选短语的全局语义相似度得分的过程包括:采用预训练模型ELMo获取分词结果对应的词向量表示En;采用金融词典计算文档中的词语权重,根据计算出的权重调整词向量En的值;利用SIF算法计算词向量表示En中的上下文嵌入,得到候选短语词向量EC和文档对应的词向量ED,采用相似度计算公式计算候选短语的全局语义相似度得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310443963.8/1.html,转载请声明来源钻瓜专利网。