[发明专利]一种汉语由字组词方法及装置在审
| 申请号: | 201911045332.0 | 申请日: | 2019-10-30 |
| 公开(公告)号: | CN110781288A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 于江德;李学钰;赵红丹;张津铭;张悦;杨英 | 申请(专利权)人: | 安阳师范学院 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/338;G06F40/205 |
| 代理公司: | 11424 北京修典盛世知识产权代理事务所(特殊普通合伙) | 代理人: | 杨方成 |
| 地址: | 455000 河南省安阳市弦歌*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词语 组词 候选词语 频次统计 汉字 汉语 输出组 语料库 构词 输出 融合 网络 | ||
1.一种汉语由字组词方法,其特征在于,包括以下步骤:
S1、融合三种途径获得最终的词语频次统计结果;
S2、确定组词汉字;
S3、由确定的汉字生成候选词语;
S4、从最终的词语频次统计结果中根据候选词语的词语频次由高到低依次选取设定数量的词语;
S5、输出组词结果。
2.根据权利要求1所述的汉语由字组词方法,其特征在于,步骤S1包括以下步骤:
S11、从现代汉语语料库中获得词语频次统计结果一;
S12、从教育部语信司确定的每年度十大网络用语、十大流行语、十大新词语中获得词语频次统计结果二;
S13、将步骤S11和步骤S12中的统计结果通过网络众包让参与者选择出常见常用的词语,从而融合形成最终的词语频次统计结果。
3.根据权利要求1所述的汉语由字组词方法,其特征在于,步骤S2确定汉字包括以下步骤:由用户输入设定数量的汉字,或从字库随机抽取设定数量的汉字。
4.根据权利要求3所述的汉语由字组词方法,其特征在于,字库按照笔画的数量分成多个等级,按照等级从字库随机抽取设定数量的汉字。
5.根据权利要求1所述的汉语由字组词方法,其特征在于,步骤S3中由确定的汉字排列组合生成候选词语,按候选词语包含的字数由少到多依次排列。
6.一种汉语由字组词装置,其特征在于,包括:
词语频次统计模块,融合三种途径获得最终的词语频次统计结果;
汉字确定模块,用于由用户输入设定数量的汉字或从字库随机抽取设定数量的汉字确定组词的汉字;
候选词语生成模块,由确定的汉字排列组合生成候选词语,按候选词语包含的字数由少到多依次排列;
筛选模块,利用最终的词语频次统计结果从候选词语中选取设定数量的词语;
输出模块,用于输出组词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安阳师范学院,未经安阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911045332.0/1.html,转载请声明来源钻瓜专利网。





