[发明专利]一种基于词条作家热度构建分类分级词表的方法及系统有效
| 申请号: | 201910420769.1 | 申请日: | 2019-05-20 | 
| 公开(公告)号: | CN110222175B | 公开(公告)日: | 2020-08-25 | 
| 发明(设计)人: | 赵慧周 | 申请(专利权)人: | 北京语言大学 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31 | 
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 | 
| 地址: | 100083*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 词条 作家 热度 构建 分类 分级 词表 方法 系统 | ||
1.一种基于词条作家热度构建分类分级词表的方法,其特征在于,包括:
按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;其中,所述文学语料库指作品字数不平衡和作家作品数不平衡的文学语料库;
根据所述分类词集中各词条在同一作家的各作品中出现的频次和作品总字数,通过下列公式,计算出每一词条在同一作家的各作品中的作品热度:
其中,fi,w,j为词条i在作家w的作品j中的作品热度,FCi,w,j为词条i在作家w的作品j中的频次,FZw,j为作家w的作品j的总字数,k为自定义常量;
基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;其中,所述预设函数为取最大值函数,取平均值函数,取中位数函数,以及求和函数中的任意一种;
将同一词条所对应的各作家热度求和,得到相应词条的词条热度;
根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
2.如权利要求1所述的基于词条作家热度构建分类分级词表的方法,其特征在于,k的取值为10000。
3.如权利要求1所述的基于词条作家热度构建分类分级词表的方法,其特征在于,所述对所述分类词集中所有词条进行排序,具体为:
对所述分类词集中所有词条按照各词条对应的词条热度的降序进行排序。
4.一种基于词条作家热度构建分类分级词表的系统,其特征在于,包括:
分类词集构建模块,用于按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;其中,所述文学语料库指作品字数不平衡和作家作品数不平衡的文学语料库;
作品热度计算模块,用于根据所述分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数,通过下列公式,计算出每一词条在同一作家的各作品中的作品热度:
其中,fi,w,j为词条i在作家w的作品j中的作品热度,FCi,w,j为词条i在作家w的作品j中的频次,FZw,j为作家w的作品j的总字数,k为自定义常量;
作家热度计算模块,用于基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;其中,所述预设函数为取最大值函数,取平均值函数,取中位数函数,以及求和函数中的任意一种;
词条热度计算模块,用于将同一词条所对应的各作家热度求和,得到相应词条的词条热度;
分类分级词表构建模块,用于根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。
5.如权利要求4所述的基于词条作家热度构建分类分级词表的系统,其特征在于,k的取值为10000。
6.如权利要求4所述的基于词条作家热度构建分类分级词表的系统,其特征在于,所述分类分级词表构建模块在对所述分类词集中所有词条进行排序时,是按照各词条对应的词条热度的降序对所述分类词集中所有词条进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910420769.1/1.html,转载请声明来源钻瓜专利网。





