[发明专利]一种文本信息处理方法、装置和系统有效

申请号：	201610091229.X	申请日：	2016-02-18
公开（公告）号：	CN107092588B	公开（公告）日：	2022-09-09
发明（设计）人：	林全郴;刘黎春;赵建春	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	黄威
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本信息处理方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本信息处理方法、装置和系统；本实施例采用将训练语料划分为单字，以及字串，并分别统计该单字和字串在训练语料中出现的概率，得到单字的独立概率，以及字串所对应的联合概率，然后，根据该独立概率和联合概率选择候选新词，得到候选新词集合，在确定该候选新词集合中的候选新词不在预设常用词典中，且联合概率大于预设阈值时，确定该候选新词为新词；该方案不仅可以简化流程，节省计算资源，而且，可以提高新词发现率，改善处理效果。

技术领域

本发明涉及通信技术领域，具体涉及一种文本信息处理方法、装置和系统。

背景技术

随着科学技术的不断发展，用户产生的文本语料也呈现指数级增长，不断发生的新事物催生很多新词语，如“非典”等。新词语的出现常常令一些文本处理模型，如分词，变得不知所措，而分词是中文自然语言处理中最基础的一个环节，不理想的分词结果势必影响诸如文本分类、聚类以及主题识别等常见的文本处理任务，因此对新词的自动发现显得非常必要。

现有的新词发现方法一般可分为基于统计和基于规则两种方法。其中，基于统计的方法常见有隐马尔可夫模型、最大熵、以及支持向量机等，这些统计信息常常用于生成分词模型；而基于规则方法则是从模板特征库和已标注上下文搭配特征的训练集中学习一些规则，进而再把学习得到的规则用于待发现新词语料，常见的一些规则如词语构造规则等。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有方案都需要对文本语料进行分词，而这种基于分词的新词发现方案，需要不断将训练语料和待发现新词语料组合，重新生成分词模型训练语料，不断滚动的去发现新词，流程复杂，需要耗费较多计算资源；而且，由于新词没有明确定义，因此，其边界也较难确定，用常规的词典和规则对其进行过滤，也往往达不到良好效果，新词发现率较低。

发明内容

本发明实施例提供一种文本信息处理方法、装置和系统，不仅可以简化流程，节省计算资源，而且，可以提高新词发现率，改善处理效果。

本发明实施例提供一种文本信息处理方法，包括：

获取文本信息，并根据所述文本信息确定训练语料；

将所述训练语料划分为单字，以及字串；

分别统计所述单字和字串在训练语料中出现的概率，得到单字的独立概率，以及字串所对应的联合概率；

根据所述独立概率和联合概率选择候选新词，得到候选新词集合；

确定所述候选新词集合中的候选新词不在预设常用词典中，且联合概率大于预设阈值时，确定所述候选新词为新词。

相应的，本发明实施例还提供一种文本信息的处理装置，包括：

获取单元，用于获取文本信息，并根据所述文本信息确定训练语料；

划分单元，用于将所述训练语料划分为单字，以及字串；

统计单元，用于分别统计所述单字和字串在训练语料中出现的概率，得到单字的独立概率，以及字串所对应的联合概率；