[发明专利]一种文景转换中实现场景真实性增强的方法有效
申请号: | 201810011163.8 | 申请日: | 2018-01-05 |
公开(公告)号: | CN108108482B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 杨富平;刘凯 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/295 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 转换 实现 场景 真实性 增强 方法 | ||
1.一种文景转换中实现场景真实性增强的方法,其特征在于,包括以下步骤:
1)、从互联网获取描述某一场景的多篇中文文档,组建场景语料库;
2)、对描述某一场景的中文文档集进行不去重的分词处理;然后对分词处理后的中文文档进行去停留词处理;
3)、利用步骤2)中文文档集去停留词处理后的分词结果,对分词结果中的实体名词利用词频统计的方法,得到实体名词的统计指标;
4)、利用步骤3)的实体名词的统计指标,构建文档集对应场景类别的特征词列表;
5)、利用步骤4)的场景类别特征词列表,分析并抽取最优场景类别特征词,建立场景实体词典;
所述步骤3)对分词结果中的实体名词利用词频统计的方法,得到实体名词的统计指标,具体包括:
传统的文本特征提取方法TFIDF模型主要考虑特征项的频率信息TF以及反文档频率信息IDF,特征项频率TF是指特征项在文档中出现的次数,对于场景概念模型而言,获取某一类别C的n篇文档,构成文档集A,实体名词w在类别C的文档集中出现的次数是获取场景概念词典的重要参考之一;
对于每一个文档集A,利用去停留词处理后的中文文档的结果,统计n篇文档中出现的实体名词出现频率大小;
定义词wi在A中词频数fi为
count(wi,A)/size(A),0<fi<1
count(wi,A)定义为词wi在A的文档集中出现的次数,size(Ak)定义为A中所有实体名词出现的总数;
再采用反文档频率IDF进行计算,反文档频率IDF是特征项在文档集分布情况的量化,IDF的计算方法为:文档集A中总文档数量设为N,定义包含词w的文档数为n,则场景模型中的反文档频率定义为:
2.根据权利要求1所述的一种文景转换中实现场景真实性增强的方法,其特征在于,所述步骤1)的场景语料库由同一场景类别的文档组建,场景语料库为具有明显场景特征的文档集。
3.根据权利要求1-2之一所述的一种文景转换中实现场景真实性增强的方法,其特征在于,所述步骤1)场景实体模型为使用实体名词所组成的词向量对场景类别进行实体概念表示,wt表示实体名词,每个场景类别对应一组相关的词向量,定义下标t为概念词典的阈值,亦为词向量的模,通过获取同一类别的大量文档,统计文档中出现次数较多且与类别C相关联的实体名词组成词向量定义m为实体名词的数量,以确定场景类别C的场景实体词典
4.根据权利要求1所述的一种文景转换中实现场景真实性增强的方法,其特征在于,所述步骤2)对场景语料库中的中文文档进行不去重的分词处理;然后对分词处理后的中文文档进行去停留词处理,具体包括:
对于获取的多篇文档,首先对文档进行去噪处理,去除文档中包括广告词与英文链接在内的词语,利用ROST中文分词工具进行分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810011163.8/1.html,转载请声明来源钻瓜专利网。