[发明专利]词汇学习的词条选取方法、装置、电子设备及存储介质有效
申请号: | 201910619958.1 | 申请日: | 2019-07-10 |
公开(公告)号: | CN110321404B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 翟文韬 | 申请(专利权)人: | 北京麒才教育科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 黄俊 |
地址: | 100081 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词汇 学习 词条 选取 方法 装置 电子设备 存储 介质 | ||
1.一种词汇学习的词条选取方法,其特征在于,包括:
从语料库中获取词条的词条词频;
将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及
至少选取所述词族词频排序靠前的部分所述词族及对应的词条作为当前词汇学习的内容;
查找所述选取的词族的中心词的词源;以及
将具有相同词源的所述中心词对应的所述词族划分为同一类。
2.根据权利要求1所述的方法,其特征在于,在将形式相似度大于预设形式相似度阈值的所述词条组合为词族之后,还包括:
选取所述词族的中心词,其中所述中心词代表所述词族。
3.根据权利要求2所述的方法,其特征在于,选取所述词族的中心词包括:
选取所述词族中词条词频最大的词条为中心词。
4.根据权利要求3所述的方法,其特征在于,选取所述词族中词条词频最大的词条为中心词包括:
判断是否存在其他词条的词条词频与最大的词条词频的差值小于预设差值;
当存在其他词条的词条词频与最大的词条词频的差值小于预设差值时,选取所述最大的词条词频对应的词条和所述其他词条中为动词和/或长度小于预设长度阈值的词条为中心词。
5.根据权利要求1所述的方法,其特征在于,在至少选取所述词族词频排序靠前的部分所述词族及对应的词条作为当前词汇学习的内容之前,还包括:
对所述词族进行预处理。
6.根据权利要求5所述的方法,其特征在于,对所述词族进行预处理包括:
删除所述词族中词条词频小于第一预设词频阈值的词条。
7.根据权利要求5所述的方法,其特征在于,对所述词族进行预处理包括:
计算当前词族中的词条与该词族的中心词的相似度;
判断所述相似度是否小于第一预设相似度阈值;以及
当判断结果为所述相似度小于所述第一预设相似度阈值,将所述相似度对应的所述词条调整至其他词族中。
8.根据权利要求7所述的方法,其特征在于,所述相似度包括语音相似度,和/或第一语义相似度,和/或词源相似度。
9.根据权利要求1所述的方法,其特征在于,所述词族的词族词频根据所述词族包含的所有词条的词条词频得到包括:
所述词族的词族词频为所述词族包含的所有词条的词条词频求得到。
10.根据权利要求1所述的方法,其特征在于,所述词源包括美国传统字典的印欧根。
11.根据权利要求1所述的方法,其特征在于,在对选取的词族进行聚类操作之后,还包括:
将满足预设条件的词族重新划分类。
12.根据权利要求10所述的方法,其特征在于,所述预设条件包括:
对应的聚类中包含词族数量低于预设数量阈值,和/或与对应的词源的相似度小于第二预设相似度阈值,和/或未被划分至任何类。
13.根据权利要求11所述的方法,其特征在于,所述重新划分类的方式包括:
提取当前词族的中心词的词干;
计算所述词干与所有的词源的相似度;
当大于第三预设相似度的相似度阈值数量为一个时,将所述当前词族划分至该相似度对应的词源所在的类;以及
当大于所述第三预设相似度阈值的相似度数量为多个时,将所述当前词族划分至该多个相似度对应的多个词源中词族数量最少的词源所在的类。
14.根据权利要求13所述的方法,其特征在于,提取当前词族的中心词的词干包括:
去除所述中心词的前缀和后缀,和/或将合成词拆解出对应的词条。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京麒才教育科技有限公司,未经北京麒才教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910619958.1/1.html,转载请声明来源钻瓜专利网。