[发明专利]语言数据处理方法、装置以及用于语言数据处理的装置在审

申请号：	201610243904.6	申请日：	2016-04-18
公开（公告）号：	CN107305549A	公开（公告）日：	2017-10-31
发明（设计）人：	高腾;许静芳;刘明荣	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京集佳知识产权代理有限公司11227	代理人：	任苏亚,王宝筠
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言数据处理方法装置以及用于
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请涉及语言数据处理技术领域，特别涉及一种语言数据处理方法、装置以及一种语言数据处理的装置。

背景技术

随着互联网技术的飞速发展，越来越多的用户使用互联网设备浏览各个门户网站，借以获得最新的新闻资讯。很多门户网站在发布新闻的时候，通常会提供一个评论接口，例如，提供一个供用户点击打开的评论窗口，用户可以在该评论窗口中输入自己对于该条新闻内容的看法等。

发明内容

但是发明人在研究过程中发现，很多用户更倾向于浏览评论条数多的新闻内容。例如，用户打开搜狐网，在搜狐网的首页推送的头条新闻中，包含同样内容的两条新闻的新闻标题，但是一条新闻的评论有上百条，用户就更有可能去浏览这条评论数较多的新闻，因为这样就可以在浏览完新闻正文内容之后，进一步的浏览一下其他用户对这条新闻内容发表的意见或建议。而有些新闻虽然可能内容更符合用户的浏览需求或者更有新闻价值，但是由于评论数不多而导致了用户点击浏览的可能性较低。

因此，在大多数情况下用户在打开某条评论数较多的新闻之后，如果发现这条新闻其实并不符合自己当初的浏览需求，就会重新返回网站首页，去查找自己更感兴趣或者更具有新闻价值的其他新闻内容。可见，这种重复与新闻网站进行的交互，无疑会使得新闻网站的服务器的处理压力增加，相应的，新闻网站的服务器的处理性能自然也就会下降，进一步，新闻网站的新闻页面的打开就可能存在延迟，还可能会影响用户浏览新闻网站的阅读体验。

基于此，本申请提供了一种语言数据处理方案，以使得新发布的新闻或者冷门新闻的评论数能够增多从而提升用户点击浏览的可能性，以及，某些可能成为热门新闻或重要新闻的新闻在一经发布就能自动具有评论，也提升了用户浏览的可能性。

本申请还提供了一种语言数据处理装置，用以保证上述方法在实际中的实现及应用。

本申请公开的一种语言数据处理方法，模型训练过程和数据处理过程，其中，所述模型训练过程包括：

获取符合预设训练条件的训练语言数据，所述训练语言数据包括：训练新闻内容数据，和，与所述训练新闻内容数据对应的训练新闻评论数据；

依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系，训练得到语言数据处理模型；

所述数据处理过程包括：

获取符合预设处理条件的目标新闻内容数据；

利用训练得到的所述语言数据处理模型，将所述目标新闻内容数据转换为目标新闻评论数据；

将所述目标新闻评论数据发布至目标展示位置以便展示。

本申请实施例公开了一种语言数据处理装置，包括：模型训练单元和数据处理单元，其中，

所述模型训练单元包括：

获取训练数据模块，用于获取符合预设训练条件的训练语言数据，所述训练语言数据包括：训练新闻内容数据，和，与所述训练新闻内容数据对应的训练新闻评论数据；