[发明专利]一种短文本信息提取方法和装置在审
| 申请号: | 201710124224.7 | 申请日: | 2017-03-03 |
| 公开(公告)号: | CN108536666A | 公开(公告)日: | 2018-09-14 |
| 发明(设计)人: | 徐晓鹏;蒙睿;江金陵;丁若谷;冯是聪 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 胡艳华;李丹 |
| 地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 短文本 信息提取 目标短文本 命名实体 匹配 方法和装置 标注信息 聚类 标注 成功 | ||
本文公开了一种短文本信息提取方法,该方法包括:对短文本训练集中的各个短文本进行聚类;建立每一个短文本类别的模型,并对所述模型中出现的命名实体进行标注;将目标短文本与各个短文本类别的模型进行匹配,在成功匹配到短文本模型后,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取。本文能够自动从海量短文本数据中高效地提取出关注的信息,适应性好。
技术领域
本发明涉及数据处理技术领域,尤其涉及的是一种短文本信息提取方法和装置。
背景技术
短文本在生活中有广泛的应用,包括短信、聊天记录、微博、购物评论等。以短信为例,在通讯运营领域,短信是重要的通讯手段之一。通讯运营商,广告营销商,普通商户,银行业及个人即时通讯均会通过短信的形式进行信息的传输。因而,短信的种类有多元化的情况,例如广告推送短信、业务通知短信、手机验证短信、以及普通人群间的互动短信等。
海量短文本数据中蕴藏着大量的信息,比如,人名、地名、品牌名、店铺名、产品名、号码、时间等,因此,如何精准定位短文本的种类,识别出短文本中的有用信息,是需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种短文本信息提取方法和装置,能够自动从海量短文本数据中高效地提取出关注的信息,适应性好。
本发明实施例提供了一种短文本信息提取方法,该方法包括:
对短文本训练集中的各个短文本进行聚类;
建立每一个短文本类别的模型,并对所述模型中出现的命名实体进行标注;
将目标短文本与各个短文本类别的模型进行匹配,在成功匹配到短文本模型后,根据所述短文本模型中的命名实体标注信息对所述目标短文本进行信息提取。
可选地,所述对短文本训练集进行短文本聚类,包括:
对所述短文本训练集中的各个短文本进行分词;
将词语作为短文本的特征,确定每一个短文本中各个词语的权重,根据短文本中各个词语以及词语的权重确定所述短文本的词语特征;
将词语划分为n个主题,将主题作为短文本的特征,用潜在语义索引LSI算法将短文本的特征维度从词语特征维度降低为主题特征维度;
通过聚类算法将所述训练集中的各个短文本聚类为多个类别。
可选地,所述确定每一个短文本中各个词语的权重,包括:
对任意一个短文本中的任意一个词语,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重。
可选地,根据所述词语在所述短文本中的出现频率以及所述词语在训练集中的出现频率确定所述词语在所述短文本中的权重,包括:采用词频-逆向文件频率TF-IDF算法确定词语在短文本中的权重q:
将词语在短文本中的出现次数n除以所述短文本包含的词语总数N1后得到的商作为第一参数,将所述短文本所在的训练集包含的短文本总数N2除以1与所述词语出现的短文本总数m的和得到的商的对数作为第二参数,将所述第一参数与所述第二参数的乘积作为所述词语在所述短文本中的权重q。
可选地,所述建立每一个短文本类别的模型,包括:建立每一个短文本类别的特征谱隐马尔科夫模型PHMM;
其中,建立任意一个短文本类别的PHMM模型,包括:
根据词语之间的相似度进行所述类别的两两短文本之间的比对找到最大公共子序列,所述最大公共子序列中各个位置的词语对应于PHMM模型的各个匹配状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710124224.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:商品领域的知识融合方法
- 下一篇:中文文本识别方法及装置





