[发明专利]用于生成信息的方法和装置在审
申请号: | 201811075458.8 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109241296A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 邓江东 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词汇集合 搜索词 目标词汇 方法和装置 生成信息 预设 预设时间段 全面性 响应 申请 | ||
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取预设时间段内用户输入的搜索词;对于所获取的搜索词中的搜索词,对该搜索词进行识别,以确定该搜索词是否包括目标词汇,以及响应于确定包括,将目标词汇添加到预设词汇集合中;基于添加目标词汇后的预设词汇集合,生成新的词汇集合。该实施方式提高了所生成的、新的词汇集合的全面性,有助于丰富词汇集合的内容。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及用于生成信息的方法和装置。
背景技术
通常,分词指的是中文分词。通过分词,可以将一个汉字序列切分成一个或多个词语。
目前,分词的方法有很多。其中,利用预先建立的词库进行分词的方法得到了广泛的应用。这里,预先建立的词库通常是基于早期人民日报中的内容得到的词库。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:获取预设时间段内用户输入的搜索词;对于所获取的搜索词中的搜索词,对该搜索词进行识别,以确定该搜索词是否包括目标词汇,以及响应于确定包括,将目标词汇添加到预设词汇集合中;基于添加目标词汇后的预设词汇集合,生成新的词汇集合。
在一些实施例中,对于所获取的搜索词中的搜索词,该搜索词对应至少一个标题文本,其中,标题文本为用户输入搜索词后所点击的文本;以及对该搜索词进行识别,包括:获取该搜索词所对应的至少一个标题文本;对于至少一个标题文本中的标题文本,对该标题文本和该搜索词进行匹配。
在一些实施例中,对该搜索词进行识别,以确定该搜索词是否包括目标词汇,包括:对该搜索词进行分词,获得词汇序列;响应于确定所获得的词汇序列包括至少两个词汇,对于至少两个词汇中的词汇,执行以下步骤:确定该词汇和在词汇序列中与该词汇相邻的词汇所对应的关联系数,其中,关联系数用于表征该词汇和与该词汇相邻的词汇的关联程度;响应于确定所确定的关联系数大于等于预设阈值,确定该搜索词包括目标词汇,其中,目标词汇为该词汇和在词汇序列中与该词汇相邻的词汇合成的词汇。
在一些实施例中,对该搜索词进行识别,以确定该搜索词是否包括目标词汇,包括:对该搜索词进行命名实体识别,获得识别结果,其中,识别结果用于指示搜索词是否包括目标词汇,目标词汇为命名实体。
在一些实施例中,对该搜索词进行命名实体识别,获得识别结果,包括:利用预先训练的命名实体识别模型对该搜索词进行命名实体识别,获得识别结果。
第二方面,本申请实施例提供了一种用于分词的方法,该方法包括:获取用户输入的搜索词;基于采用如上述第一方面中任一实施例所描述的方法生成的新的词汇集合,对所获取的搜索词进行分词,获得分词结果。
第三方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:第一获取单元,被配置成获取预设时间段内用户输入的搜索词;识别单元,被配置成对于所获取的搜索词中的搜索词,对该搜索词进行识别,以确定该搜索词是否包括目标词汇,以及响应于确定包括,将目标词汇添加到预设词汇集合中;生成单元,被配置成将基于添加目标词汇后的预设词汇集合,生成新的词汇集合。
在一些实施例中,对于所获取的搜索词中的搜索词,该搜索词对应至少一个标题文本,其中,标题文本为用户输入搜索词后所点击的文本;以及识别单元包括:获取模块,被配置成对于所获取的搜索词中的搜索词,获取该搜索词所对应的至少一个标题文本;匹配模块,被配置成对于至少一个标题文本中的标题文本,对该标题文本和该搜索词进行匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811075458.8/2.html,转载请声明来源钻瓜专利网。