[发明专利]超链接标记方法和装置、文本分类方法和装置有效
| 申请号: | 201810091591.6 | 申请日: | 2018-01-30 |
| 公开(公告)号: | CN110096695B | 公开(公告)日: | 2023-01-03 |
| 发明(设计)人: | 王星雅;万伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/134 | 分类号: | G06F40/134;G06F40/117;G06F40/284 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 超链接 标记 方法 装置 文本 分类 | ||
本申请涉及一种超链接标记方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。本申请提供的方案可以提高超链接标记的准确性。
技术领域
本申请涉及计算机信息处理技术领域,特别是涉及一种超链接标记方法和装置、文本分类方法和装置。
背景技术
随着网络通信技术的发展,出现了搜索引擎技术,搜索引擎技术通过网络上大量的页面信息,响应用户提出的各种检索请求,为用户提供所需信息。而通过超链接标记技术进行检索则是一种特殊的检索方式,用户可通过点击标记有超链接的文本,跳转至链接的页面以获取所需信息,方便快捷。
传统的超链接标记方式,通常是对常见的百科词汇进行超链接标记。然而,基于传统的超链接标记方式,无法对最新出现的词汇或者特定领域的词汇进行准确的标记和释义,常常导致超链接标记不准确的问题。
发明内容
基于此,有必要针对超链接标记不准确的技术问题,提供一种超链接标记、文本分类方法、装置、计算机可读存储介质和计算机设备。
一种超链接标记方法,包括:
获取待标记的文本;
确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;
获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;
将所述链接地址标记为所述文本的超链接。
一种超链接标记装置,所述装置包括:
获取模块,用于获取待标记的文本;
确定模块,用于确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;
所述获取模块还用于获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;
标记模块,用于将所述链接地址标记为所述文本的超链接。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述超链接标记方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述超链接标记方法的步骤。
上述超链接标记方法、装置、计算机可读存储介质和计算机设备,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。
一种文本分类方法,包括:
获取待分类的文本;
获取对所述文本本身进行分类的第一概率分布;
确定所述文本的上下文;
获取对所述上下文进行分类的第二概率分布;
将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810091591.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于自然语言处理的信息生成方法和装置
- 下一篇:一种中文长文本情感分析方法





