[发明专利]一种外文文本评价方法及装置有效
申请号: | 201710006544.2 | 申请日: | 2017-01-05 |
公开(公告)号: | CN108280065B | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 汪洋;盛志超;陈志刚 | 申请(专利权)人: | 广州讯飞易听说网络科技有限公司 |
主分类号: | G06F40/51 | 分类号: | G06F40/51 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 510305 广东省广州市珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 外文 文本 评价 方法 装置 | ||
1.一种外文文本评价方法,其特征在于,所述方法包括:
获取待评价的外文文本数据;
提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征;
根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果;
当所述评价特征包括单词评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的词汇信息,其中所述词汇信息包括以下信息中的一种或多种:单词总数、非重复单词数、多音节单词数、每个单词的词性、词性为指定词性的单词数;
根据所述词汇信息,计算所述外文文本数据的词汇得分,并将所述词汇得分作为所述外文文本数据的单词评价特征;
所述外文文本数据的词汇得分的计算方法包括:
其中,Weva为当前外文文本数据的词汇得分;xi为当前外文文本数据词汇信息中的第i种信息的取值;n1为当前外文文本数据词汇信息中所包含的信息种类数;wi为xi的预设的系数。
2.根据权利要求1所述的方法,其特征在于,当所述评价特征包括句子评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的句子信息,其中所述句子信息包括以下信息中的一种或多种:句子水平平均得分、长短句比例、句式类别数;
根据所述句子信息,计算所述外文文本数据的句子得分,并将所述句子得分作为所述外文文本数据的句子评价特征。
3.根据权利要求2所述的方法,其特征在于,当所述句子信息包括句子水平平均得分时,获取所述外文文本数据的句子信息,包括:
获取所述外文文本数据每个句子的特征数据,其中所述每个句子的特征数据包括以下一种或多种:单词难度、句子长度、句式类别得分;
根据每个句子的特征数据,获取每个句子的句子水平得分;
根据所述外文文本数据所有句子的句子水平得分,获得所述句子水平平均得分。
4.根据权利要求1所述的方法,其特征在于,当所述评价特征包括段落评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的段落信息,其中所述段落信息包括以下信息中的一种或多种:段落水平平均得分、长短段落比例、段落间逻辑结构得分;
根据所述段落信息,计算所述外文文本数据的段落得分,并将所述段落得分作为所述外文文本数据的段落评价特征。
5.根据权利要求4所述的方法,其特征在于,当所述段落信息包括段落水平平均得分时,获取所述外文文本数据的段落信息,包括:
获取所述外文文本数据每个段落的特征数据,其中所述每个段落的特征数据包括以下一种或多种:段落中句子的流畅度、段落长度、段落内部逻辑结构得分;
根据所述每个段落的特征数据,获取每个段落的段落水平得分;
根据所述外文文本数据所有段落的段落水平得分,获得所述段落水平平均得分。
6.根据权利要求1所述的方法,其特征在于,根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果,包括:
将所述外文文本数据的所述单词评价特征、句子评价特征、段落评价特征作为所述外文文本评价模型的输入;
将所述外文文本评价模型输出的评价得分作为所述外文文本数据的评价结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州讯飞易听说网络科技有限公司,未经广州讯飞易听说网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710006544.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于半监督学习的语义分析方法及系统
- 下一篇:一种汉语到英语的离线翻译方法