[发明专利]语言数据处理方法、装置以及用于语言数据处理的装置在审
申请号: | 201610243904.6 | 申请日: | 2016-04-18 |
公开(公告)号: | CN107305549A | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 高腾;许静芳;刘明荣 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 任苏亚,王宝筠 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 数据处理 方法 装置 以及 用于 | ||
1.一种语言数据处理方法,其特征在于,该方法包括模型训练过程和数据处理过程,其中,
所述模型训练过程包括:
获取符合预设训练条件的训练语言数据,所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻内容数据对应的训练新闻评论数据;
依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型;
所述数据处理过程包括:
获取符合预设处理条件的目标新闻内容数据;
利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据;
将所述目标新闻评论数据发布至目标展示位置以便展示。
2.根据权利要求1所述的方法,其特征在于,所述获取符合预设训练条件的训练语言数据,包括:
从新闻库中获取新闻标题数据和/或新闻正文数据的摘要信息,作为训练新闻内容数据;
从与所述新闻库对应的评论库中,获取与所述新闻标题数据和/或新闻正文数据的摘要信息对应的评论数据,作为分别与所述训练新闻内容数据对应的训练新闻评论数据。
3.根据权利要求1所述的方法,其特征在于,所述依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型,包括:
对所述训练新闻内容数据和训练新闻评论数据分别进行分词,得到所述训练新闻内容数据对应的内容词序列和所述训练新闻评论数据对应的评论词序列;
从词向量词典中,查询得到所述内容词序列对应的内容词向量序列;
将所述内容词向量序列中的词向量分别作为所述语言数据处理模型 的输入,以及,将对应的评论词序列中的评论词作为所述语言数据处理模型的输出,对所述语言数据处理模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述将所述内容词向量序列中的词向量分别作为所述语言数据处理模型的输入,以及,将对应的评论词序列中的评论词作为所述语言数据处理模型的输出,对所述语言数据处理模型进行训练,包括:
分别将第一个训练新闻内容数据中的每一个内容词向量作为输入,并且将第一个训练新闻评论数据中的每一个评论词作为输出,依据所述语言数据处理模型优化初始模型参数;
依次针对其他训练新闻内容数据对应的内容词向量,及,各训练新闻内容数据对应的训练新闻评论数据的评论词,执行所述语言数据处理模型迭代过程,直至最后一组对应的训练新闻内容数据及对应的训练新闻评论数据执行完毕,得到所述语言数据处理模型。
5.根据权利要求1所述的方法,其特征在于,所述模型训练过程还包括:
参考预设时间段内更新的新闻内容数据和对应的新闻评论数据,更新所述语言数据处理模型。
6.根据权利要求1所述的方法,其特征在于,所述利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据,包括:
将所述目标新闻内容数据进行分词得到目标词序列;
从词向量词典中查询得到所述目标词序列的目标词向量序列;
将所述目标词向量序列中的目标词向量分别作为所述训练的语言数据处理模型的输入,得到所述语言数据处理模型的输出评论词;
组合所述输出评论词得到所述目标新闻评论数据。
7.根据权利要求1所述的方法,其特征在于,所述获取符合预设处理条件的目标新闻内容数据,包括:
从已发布的新闻中获取符合预设时间条件的初始新闻内容数据;
判断所述初始新闻内容数据对应的初始新闻评论数据是否满足预设 评论条件,如果是,则将满足预设评论条件的初始新闻内容数据确定为目标新闻内容数据。
8.根据权利要求1所述的方法,其特征在于,所述获取符合预设处理条件的目标新闻内容数据,包括:
获取未发布的新闻数据作为初始新闻内容数据;
判断所述初始新闻内容数据是否满足预设的重要内容条件,如果是,则将满足重要内容条件的重要新闻内容数据作为所述目标新闻内容数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610243904.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:控制网络爬虫的任务分配方法和装置
- 下一篇:一种智能问答方法及装置