[发明专利]超链接标记方法和装置、文本分类方法和装置有效
| 申请号: | 201810091591.6 | 申请日: | 2018-01-30 |
| 公开(公告)号: | CN110096695B | 公开(公告)日: | 2023-01-03 |
| 发明(设计)人: | 王星雅;万伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/134 | 分类号: | G06F40/134;G06F40/117;G06F40/284 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 超链接 标记 方法 装置 文本 分类 | ||
1.一种超链接标记方法,包括:
获取待标记的文本,并获取对所述文本本身进行分类的第一概率分布;
确定所述文本的上下文,并获取对所述上下文进行分类的第二概率分布;
将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;
确定所述文本的来源方标识,并获取对所述来源方标识对应的历史文本进行分类的第四概率分布;
根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;
获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;
将所述链接地址标记为所述文本的超链接。
2.根据权利要求1所述的方法,其特征在于,所述获取链接地址包括:
获取与所述词序列中各个词相应的链接地址;每个所述链接地址指向根据相应的词检索得到的检索结果;
所述将所述链接地址标记为所述文本的超链接,包括:
将每个所述链接地址分别标记为所述文本中相应词的超链接。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述词序列中各个词相应的链接地址,包括:
获取从所述词序列中筛选的指定词,以及与各个所述指定词相应的链接地址;所述指定词是根据用户数据或所述文本的相关信息筛选得到的。
4.根据权利要求1所述的方法,其特征在于,所述方法应用于移动终端,所述方法还包括:
将所述类别发送至服务器,所述类别用于指示所述服务器确定与所述类别相匹配的分词方式,指示所述服务器按照所述分词方式对所述文本分词,得到词序列,并指示所述服务器根据所述词序列进行检索,得到检索结果;
所述获取链接地址包括:
接收所述服务器反馈的指向所述检索结果的链接地址。
5.根据权利要求1所述的方法,其特征在于,所述获取待标记的文本包括:
展示交互界面,所述交互界面中展示有内容;
检测对所述交互界面中所展示内容的文本选择操作;
将检测到的文本选择操作所选中的文本作为待标记的文本。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别,包括:
将所述第三概率分布和所述第四概率进行第二融合,得到第五概率分布;
在所述第五概率分布中确定最大的概率;
将所述最大的概率对应的预设类别作为所述文本所属的类别。
7.根据权利要求1所述的方法,其特征在于,所述获取对所述来源方标识对应的历史文本进行分类的第四概率分布,包括:
获取所述来源方标识对应的历史文本集合,以及所述历史文本集合中历史文本的产生时间;
按照所述历史文本集合中历史文本的产生时间所属的时间段,将所述历史文本集合划分为不同的历史文本子集;
对各所述历史文本子集按照相应的抽样比例抽取历史文本;
确定对抽取的历史文本进行分类的第四概率分布。
8.根据权利要求1至7中任一项所述的方法,其特征在于,还包括:
检测对标记有所述超链接的所述文本的触发操作;
当检测到所述触发操作时,根据所述触发操作所对应的链接地址访问目标页面;在所述目标页面中展示相应的检索结果;
检测对展示的检索结果的选中操作;
访问所述选中操作所选中的检索结果所链接的页面。
9.根据权利要求8所述的方法,其特征在于,所述检索结果按照相应的质量权值排序,所述方法还包括:
将所述选中操作选中所述检索结果的选中操作记录进行上报,上报的选中操作记录用于调整选中的检索结果相应的质量权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810091591.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于自然语言处理的信息生成方法和装置
- 下一篇:一种中文长文本情感分析方法





