[发明专利]一种综合多源知识的在线文本类教育资源标签生成方法有效
| 申请号: | 201910945282.5 | 申请日: | 2019-09-30 | 
| 公开(公告)号: | CN110688461B | 公开(公告)日: | 2021-08-06 | 
| 发明(设计)人: | 李莎莎;庞焜元;唐晋韬;王挺;陈凤;党芙蓉;林登雯;王攀成;徐维桑;余诗文 | 申请(专利权)人: | 中国人民解放军国防科技大学 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/75;G06F16/78 | 
| 代理公司: | 长沙中科启明知识产权代理事务所(普通合伙) 43226 | 代理人: | 任合明 | 
| 地址: | 410003 湖*** | 国省代码: | 湖南;43 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 综合 知识 在线 文本 教育 资源 标签 生成 方法 | ||
1.一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于包括以下步骤:
第一步,构建标签生成系统,标签生成系统由标签服务器和存储服务器构成,存储服务器与标签服务器使用局域网进行连接;
存储服务器存储原始标签表、标签修改日志表、标签服务器产生的标准标签表;
原始标签表存储教育网站运行过程产生的原始标签;原始标签表的一个表项是一个原始标签,原始标签包括标签id、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域,id即序号;标签id的数据类型是整数,标签id是原始标签表的主键,标签id是原始标签的唯一标示;原始标签文字的数据类型是字符串,代表标签的文字部分;标注对象id的数据类型是整数,代表标签对应的教育资源的标示;标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容;生产者id的数据类型是整数,代表提交这条原始标签的用户的标示;
标签修改日志表存储教育网站运行过程产生的标签修改日志,标签修改日志表是由若干标签修改日志构成的集合,记为其中为第iX个标签修改日志iX=1,...,nX;每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域;标签id的数据类型是整数,与原始标签表中的“标签id”相对应,代表标签的标示;原标签文字的数据类型是字符串,代表修改前的标签文字;新标签文字的数据类型是字符串,代表修改后的标签文字;修改者id的数据类型是整数,代表提交这条修改的用户;采纳结果的数据类型为整数,是从集合{-1,0,1}中取的一个值,0表示这条修改被拒绝,1表示这条修改被接受,-1表示这条修改还未被处理;nX为正整数,表示标签修改日志表中标签修改日志的个数;
标准标签表存储原始标签对应的结构化、规范化的标准标签;标准标签表的一个表项是一个标准标签,标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域;标准标签文字的数据类型是字符串,代表标签的文字部分,是标准标签元中出现过的标准标签文字;标注对象id的数据类型是整数,代表标签对应的教育资源的标示;标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容;
标签服务器是可以运行计算密集型或者知识密集型的标签生成和处理应用的服务器,标签服务器上除安装有词向量工具包、自动分词工具包和机器学习工具包外,还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件,并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块,中间文件包括词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件;
标准标签元集合文件存储“标签元”;“标签元”含有标签文字和对客体的文字描述,是“标签文字,客体描述”二元组,背景知识语料库是指符合词向量训练要求的自然文本;
知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连,知识表示模块从背景知识语料库读取语料,从标准标签元集合文件读取标准标签元,调用词向量工具包对语料和标准标签元进行词向量训练,将训练后得到的词向量存到词向量文件中;
语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连,语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词,从词向量文件读取每个词的词向量,将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中;
候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签列表相连,候选排序模块依次读取原始标签表中的原始标签的原始标签文字,并从标准标签元集合文件依次读取标准标签元,从标签向量文件获取原始标签文字及标准标签元对应的语义向量,基于语义向量,分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性,依据此相似性对标准标签元进行排序,选择相似性强的标准标签元生成原始标签对应的候选标准标签列表;
标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连,由特征提取模块、分类器组成;特征提取模块将标签修改日志表的表项转化成特征向量,将特征向量存入修改日志特征文件,供分类器训练;训练后的分类器判断标签修改日志表的表项的采纳结果,将采纳结果更新到标准标签表;
第二步,知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量,存储在词向量文件中,方法是:
2.1知识表示模块从背景知识语料库接收语料,从标准标签元集合文件读取标准标签元,将标准标签元、语料输入CBOW训练函数即连续词包模型训练函数,生成词列表和词向量;其中词列表包含语料中的所有字、词和标准标签中的标签文字;词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量,n为正整数;任意一个字、词或标准标签元中的标签文字x的词向量用e(x)表示;
2.2知识表示模块将词列表及其对应的词向量存储到词向量文件;
第三步,语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量,并将标签向量存入标签向量文件,方法是:
3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L,记为表示第iL个待表示标签文字,nL为待表示标签文字的个数;原始标签表中的所有表项为nY为原始标签表中表项的个数,为第iY个原始标签;标签修改日志表中的所有表项为nX为标签修改日志表中表项的个数,为第iX个标签修改日志;nL≤nY+2*nX;
3.2语义表示模块使用改进后的NCA方法将待表示列表L中的所有待表示标签文字转化成标签向量,并将标签向量存入标签向量文件;具体步骤为:
3.2.1令待表示列表序号变量iL=1;
3.2.2如果iL>nL,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量,转第四步,否则,执行3.2.3;
3.2.3语义表示模块调用自动分词工具包对L中第iL个待表示标签文字分词,获得第iL个词序列
3.2.4语义表示模块去除词序列中的单字和停用词,得到筛选后的词集合中含有个词,为的第iN个词;
3.2.5语义表示模块设置以下阈值:邻居数目nn和最小临近程度ss,nn为正整数,ss为小于1的正实数;定义待表示标签文字的临近词词向量集合为中所有词的临近词的词向量集合,初始化为空集合;
3.2.6语义表示模块从2.1生成的词向量文件中读取词列表,记做单词表V,V为其中为V中的第iV个词,nV为V中词的个数;
3.2.7语义表示模块找到中的临近词集合并从词向量文件查找中每个词的词向量,将这些词向量加入的临近词词向量集合方法是:
3.2.7.1令的序号变量iN=1;
3.2.7.2如果说明中所有词的临近词词向量都已加入临近词词向量集合转3.2.8,否则,执行3.2.7.3;
3.2.7.3语义表示模块计算单词表V中的所有词与的相似程度,得到V中的nV个词与的相似程度集合是一个由形如的二元组组成的集合,其中是V中第iv个词,为和的相似度;
3.2.7.4语义表示模块将中相似度大于ss的二元组按照从大到小的顺序排序,从排序结果中依次取出每个二元组中的第一项加入的临近词序列临近词序列即为词在单词表V中的最相近的词的序列,记为其中为单词表V中第ip个与相似的词;
3.2.7.5语义表示模块将中的所有词的词向量加入临近词词向量集合
3.2.7.6令iN=iN+1,转3.2.7.2;
3.2.8语义表示模块调用机器学习工具包中的聚类函数对向量进行聚类,聚类函数接收两个参数:待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合,聚类个数是一个正整数,表示期望输出的集合个数;聚类函数输出聚类个数个集合,这些集合是待聚类向量集合的子集,表示将待聚类向量集合中的向量分成了聚类个数个类;
语义表示模块将作为待聚类向量集合,将中的元素个数作为聚类个数输入聚类函数,获得个待聚类向量集合的子集,命名为第1至第个待聚类向量集合的子集,表示为其中为第iN个子集;
3.2.9语义表示模块从中找到元素个数最多的集合,命名为最大临近集合
3.2.10语义表示模块求中所有向量的平均值作为待表示标签的语义表示,记为即:
e为最大临近集合中的任意向量,为中向量的个数,公式(2)表示对中的所有向量求平均;
3.2.11语义表示模块将待表示标签和它的语义表示写入标签向量文件,标签向量文件中每一条记录由待表示标签和其语义表示组成;
3.2.12 iL=iL+1,转3.2.2;
第四步,候选排序模块通过比较原始标签表中原始标签文字le和所有标准标签元的语义,根据le和所有标准标签元语义的相似性生成le的候选标准标签列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签提交给存储服务器存储,具体方法如下:
4.1候选排序模块设置候选标准标签列表长度n2,n2为正整数,候选列表最小临近程度阈值s2,s2为小于1的正实数;
4.2候选排序模块读取原始标签表;
4.3候选排序模块读取标准标签元集合文件,获得标准标签元列表B,标准标签元列表是第iB个标准标签元;
4.4令iY=1;
4.5如果iY>nY,说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签列表,转第五步,否则,执行4.6;
4.6候选排序模块生成的原始标签文字的候选标准标签列表步骤是:
4.6.1候选排序模块对标准标签元列表B按照与的语义相似度从大到小的顺序排序,得到重排标签序列中第1个元素与的语义相似度最大,第nB个元素与的语义相似度最小;
4.6.2候选排序模块取重排标签序列的前n2个元素,得到第一序列
4.6.3候选排序模块取第一序列中所有相似度大于s2的元素,得到候选标准标签列表
4.7如果候选标准标签列表不为空,候选排序模块依次提取中第一个标准标签元的标签文字作为标准标签文字及原始标签的标注对象id,标注对象文字内容作为标注对象id和标注对象文字内容,形成标准标签,标准标签为三元组标准标签文字,标注对象id,标注对象文字内容,将标准标签提交给存储服务器;
4.8存储服务器从标签服务器收到4.7生成的标准标签后,将标准标签文字,标注对象id,标注对象文字内容三个域作为一个表项,写入标准标签表;
4.9令iY=iY+1,转4.5;
第五步,标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征,存入修改日志特征文件,具体步骤如下:
5.1令iX=1;
5.2如果iX>nX,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件,转第六步,否则,执行5.3;
5.3特征提取模块读取标签修改日志表的第iX个标签修改日志
5.4令的标签id、原标签文字、新标签文字、修改者id、采纳结果分别为特征提取模块为计算第一至第八特征具体方法为:
5.4.1特征提取模块统计原标签文字生产者撰写的原始标签的总数目,作为第一特征
5.4.2特征提取模块在原始标签表中查询与的“修改者id”域相同的原始标签表的表项数目,记为的第二特征的意义是修改者撰写的原始标签的总数目;
5.4.3特征提取模块在标签修改日志表中查询与的“修改者id”域相同,且采纳结果域等于1的标签修改日志表的表项数目,记为的第三特征的意义是修改者提交的标签修改记录中被采纳的个数;
5.4.4特征提取模块在标准标签表中查询与的“原标签文字”域相同的表项数目,记为的第四特征的意义是原标签文字作为标准标签的出现的次数;
5.4.5特征提取模块在标准标签表中查询与的“新标签文字”域相同的表项数目,记为的第五特征的意义是新标签文字作为标准标签的出现的次数;
5.4.6特征提取模块计算的“新标签文字”对比的“原标签文字”的修改程度,记为第六特征
5.4.7特征提取模块计算“原始标签文字”与标注对象文字内容的语义相似性,作为第七特征
5.4.8特征提取模块计算“新标签文字”与标注对象文字内容的语义相似性,作为第八特征
5.5特征提取模块将表项作为主键,作为键值存入修改日志特征文件;
5.6令iX=iX+1,转5.2;
第六步,标签比较模块训练支持向量机SVM分类器S,用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝,具体步骤如下:
6.1标签比较模块构建训练集Tr,训练集Tr是一个9列Nmax行的矩阵,Nmax为正整数,每一行代表一个标签修改日志,其第1至第8列代表标签修改日志的第一至第八特征;第9列为采纳结果,0代表标签修改日志被拒绝,为1代表标签修改日志被采纳;具体的方法是:
6.1.1语义表示模块读取标签修改日志表,记其中的所有表项为其中为第iX个标签修改日志;
6.1.2令iX=1,初始化Tr为空矩阵;
6.1.3如果iX>nX或Tr已有Nmax行,转6.2,否则,执行6.1.4;
6.1.4标签比较模块从修改日志特征文件中查找的特征
6.1.5如果的采纳结果域为0或1,将添加到Tr的最后一行;
6.1.6iX=iX+1,转6.1.3;
6.2标签比较模块调用机器学习工具包的SVM函数,输入训练集Tr,获得分类器S;分类器S的功能是输入一个样本的第一至第八特征输出被采纳的概率;
第七步,标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项,先判断是否采纳,再根据标签修改日志对标准标签表中的对应表项进行修改;具体方法如下:
7.1令iX=1;
7.2语义表示模块读取标签修改日志表的第iX个表项
7.3如果iX>nX,转第八步,否则,执行7.4;
7.4标签比较模块从修改日志特征文件中查找的特征
7.5标签比较模块将输入分类器S,得到被采纳的概率
7.6如果执行7.7,否则说明不采纳转7.9;
7.7标签比较模块用的“标签id”域查询存储服务器的原始标签表,获得原始标签表表项
7.8标签比较模块向存储服务器提交用新标签文字,标注对象id,标注对象文字内容,修改者id>替换标准标签表中原标签文字,标注对象id,标注对象文字内容,生产者id>这一表项的请求;
7.9存储服务器从标准标签表中删除原标签文字,标注对象id,标注对象文字内容,生产者id>这一表项,向标准标签表写入新标签文字,标注对象id,标注对象文字内容,修改者id>这一表项;
7.10iX=iX+1,转7.3;
第八步,结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910945282.5/1.html,转载请声明来源钻瓜专利网。





