[发明专利]一种文本信息处理方法、装置和系统有效
| 申请号: | 201610091229.X | 申请日: | 2016-02-18 |
| 公开(公告)号: | CN107092588B | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 林全郴;刘黎春;赵建春 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
| 代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 信息处理 方法 装置 系统 | ||
1.一种文本信息处理方法,其特征在于,包括:
获取文本信息,所述文本信息为网络文本信息和用户生成内容;
从所述文本信息中筛选掉无用信息,以确定训练语料,所述无用信息至少包括表情符号;
将所述训练语料划分为单字,以及字串,所述字串为两个以上的连续单字;
分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;
根据所述独立概率和联合概率选择候选新词,得到候选新词集合;
获取需要迭代的次数,根据所述次数将训练语料按顺序平均生成相应的训练开始位置,根据训练开始位置确定相应训练结束位置;使得每一次迭代的训练开始位置均不同,以保证生成的前向时间和后置时间不受开始位置的影响;
从所述候选新词集合中确定当前需要处理的候选新词;
估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间;
估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间;
根据所述前向时间和后置时间,利用预置的指数衰减式函数对所述当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率,所述指数衰减式函数根据艾宾浩斯记忆规律进行构造;
返回执行从所述候选新词集合中确定当前需要处理的候选新词的步骤,直至所述候选新词集合中所有的候选新词的联合概率更新完毕;
确定所述候选新词集合中的候选新词不在预设常用词典中,且更新后联合概率大于预设阈值时,确定所述候选新词为新词。
2.根据权利要求1所述的方法,其特征在于,所述分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,包括:
分别统计所述单字在训练语料中出现的次数、所述字串在训练语料中出现的次数,以及所述训练语料的总字数;
根据所述单字在训练语料中出现的次数和总字数计算单字的概率,得到单字的独立概率;
根据所述字串在训练语料中出现的次数和总字数计算字串的概率,得到字串所对应的联合概率。
3.根据权利要求1所述的方法,其特征在于,所述根据所述独立概率和联合概率选择候选新词,得到候选新词集合,包括:
确定当前需要处理的字串,得到当前字串;
获取所述当前字串所对应的联合概率,以及所述当前字串中所有单字的独立概率;
确定所述当前字串所对应的联合概率大于所述当前字串中所有单字的独立概率的乘积时,将所述当前字串确定为候选新词;
将所述候选新词添加至候选新词集合中。
4.根据权利要求1所述的方法,其特征在于,所述估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间,包括:
确定所述训练语料的训练开始位置,以及确定所述当前需要处理的候选新词在所述训练语料中的顺序位置;
计算所述训练开始位置到所述顺序位置的距离,得到第一距离;
将所述第一距离除以预设阅读速度,得到前向时间。
5.根据权利要求1所述的方法,其特征在于,所述估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间,包括:
确定所述训练语料的训练结束位置,以及确定所述当前需要处理的候选新词在所述训练语料中的逆序位置;
计算所述逆序位置到所述训练结束位置的距离,得到第二距离;
将所述第二距离除以预设阅读速度,得到后置时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610091229.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种制动鼓钻孔加工工装
- 下一篇:一种具有定位指针的植筋架





