[发明专利]一种无监督的英语短文句子跑题分析方法有效
申请号: | 201910596537.1 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110287291B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 黄桂敏;刘剑;周娅 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/205;G06F40/253;G06F40/289;G06F40/30;G06F40/247 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种无监督的英语短文句子跑题分析方法,分析系统是一个由顺序连接的英语短文预处理模块、多元语义表示模型构建模块、英语短文表示模型构建模块、英语短文句子跑题分析模块组成。一篇英语短文通过该分析系统处理后,最后能够得到该篇英语短文中跑题的句子,以及英语短文句子跑题程度分数与评语。本发明方法解决了传统的无监督英语短文句子跑题分析方法忽略了词与词之间的语义相关性,从而导致的在进行英语短文句子跑题分析时无法准确分析出跑题句子和跑题程度评分准确差的问题。 | ||
搜索关键词: | 一种 监督 英语 短文 句子 跑题 分析 方法 | ||
【主权项】:
1.一种无监督的英语短文句子跑题分析方法,其特征是:包括一个由顺序连接的英语短文预处理模块、多元语义表示模型构建模块、英语短文表示模型构建模块、英语短文句子跑题分析模块,其分析方法包括如下处理步骤:(1)英语短文预处理模块,第一,输入待分析英语短文及其题目,对待分析英语短文及其题目进行共指消解、单词小写化处理并对待分析英语短文分句;第二,对第一步中输出的待分析英语短文及其题目进行词性标注、短语切分处理,得到待分析英语短文题目和英语短文中的各个句子组成单词和名词短语;第三,对待分析英语短文中的各个句子和英语短文题目中的名词短语进行去停用词和词干化处理,并用下划线将名词短语中的单词分隔开;第四,分别输出待分析英语短文中的各个句子的名词短语列表与除名词短语外的单词列表、英语短文题目的名词短语列表与除名词短语外的单词列表;(2)多元语义表示模型构建模块,第一,输入神经概率词向量空间、词共现词向量空间、常识概念语义网络、英语语义词典同义词集;第二,对第一步中输入的神经概率词向量空间、词共现词向量空间、常识概念语义网络、英语语义词典同义词集中的词汇表进行去除标点符号处理,用下划线将短语中的单词分隔开并输出;第三,对第二步中的输出结果中的多词短语进行去停用词、单词小写化;第四,将第三步处理后的词共现词向量空间和神经概率词向量空间进行合并处理;第五,使用英语语义词典同义词集改进第四步合并后的向量空间;第六,对去停用词、单词小写化后的常识概念语义网络进行稀疏对称处理;第七,使用稀疏对称处理后的常识概念语义网络,对第五步中的改进结果进行扩展改造,得到多元语义表示模型;(3)英语短文表示模型构建模块,第一,输入预处理模块中的待分析英语短文题目的预处理结果,将英语短文题目中的名词短语和除名词短语外的单词,映射到多元语义表示模型中得到对应的向量表示;第二,使用预先训练好的文档频率集,对待分析英语短文题目中的单词和名词短语的向量进行加权和;第三,计算出求和后的向量的主成分,得到待分析英语短文题目的向量表示;第四,输入预处理模块中的待分析英语短文的预处理的结果,将待分析英语短文中的各个句子中的名词短语和除名词短语外的单词,映射到多元语义表示模型中得到对应的向量表示,并对待分析英语短文中的各个句子的单词和名词短语向量进行加权并求和;第五,计算出求和后的向量的主成分,得到待分析英语短文中的各个句子的向量表示;(4)英语短文句子跑题分析模块,第一,输入英语短文表示模型构建模块中输出的待分析英语短文题目向量;第二,输入待分析英语短文中的各个句子向量;第三,计算待分析英语短文题目向量及其各个句子向量的语义相似度,并取均值作为待分析英语短文与待分析英语短文题目的相似度;第四,输入预先设置的英语主题库中的主题,并通过英语短文表示模型构建模块表示为向量形式,之后计算得到待分析英语短文与英语短文主题库中的各个主题的语义相似度;第五,将待分析英语短文与待分析英语短文题目的相似度以及待分析英语短文与英语主题库中各题目的相似度进行降序排列,如果待分析英语短文与待分析英语短文题目的语义相似度排在前五,则继续执行第六步,否则将待分析英语短文判定为与待分析主题完全无关的短文并结束;第六,分别计算待分析英语短文题目向量与待分析英语短文中的所有句子向量的语义相似度,并将这些语义相似度与预先设置的阈值进行比较,如果小于预先设置的阈值则判定为跑题句子并输出;第七,统计待分析英语短文中的跑题句子数量和待分析英语短文句子的总数量,通过计算待分析英语短文中的跑题句子数占待分析英语短文中的句子总数比例,得出待分析英语短文句子跑题程度分数,并生成待分析英语短文句子跑题程度的评语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910596537.1/,转载请声明来源钻瓜专利网。