[发明专利]电子产品命名实体自动识别系统的构建方法及识别方法无效
申请号: | 201010602773.9 | 申请日: | 2010-12-23 |
公开(公告)号: | CN102033950A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 孙承杰;林磊;梅丰;王晓龙;刘远超;刘秉权 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子产品 命名 实体 自动识别 系统 构建 方法 识别 | ||
技术领域
本发明涉及自然语言处理中的命名实体识别系统的构建方法和识别方法,属于从相关信息中把电子产品的名称进行自动识别的技术。
背景技术
客观存在并可相互区别的事物称之为实体。实体可以是具体的人、事和物,也可以是抽象的概念或联系。命名实体识别任务是指识别文本中具有特定意义的实体。随着人类社会步入数字时代,越来越多的电子产品进入到了人们的生活中。关于电子产品的各种报道大量出现在电子文档中。互联网上更是充满了关于电子产品的广告、使用方法和用户评论。电子产品命名实体识别技术可以帮助人们更好的查询和管理自己感兴趣的电子产品信息,帮助企业更快地发现互联网上用户对自己产品的反馈以及更准确地投递广告,因此这项技术越来越受到工业界和学术界的关注。
目前的命名实体识别技术主要针对新闻语料中的人名、地名、机构名等这些传统命名实体。主要的技术可以分为两类:基于规则的技术和基于机器学习的技术。基于规则的技术主要利用命名实体的构成规则,采用人工构建知识库和规则库的方式来进行实体识别,这种技术准确率较高,但是召回率较低,而且很难移植。基于机器学习的技术主要采用机器学习算法和上下文特征来进行实体识别,其中比较重要的识别算法包括隐马尔科夫模型、最大熵模型、支持向量机模型、决策树模型等。这类方法需要人工标注大量训练语料,对于缺少标注语料的电子产品命名实体通常效果很差。
与传统的命名实体相比,电子产品命名实体具有如下特点:1)更新变化更快;2)构成复杂,并且通常混杂有大量的数字与跨语言字符;3)缺乏规范和标注语料。目前国内外对于电子产品命名实体识别的研究尚处于起步阶段,对电子产品命名实体的定义各执一词。而相应的识别方法也主要集中于直接套用传统的命名实体识别技术,缺乏针对性,因此识别准确率和召回率都难以达到实用水平。
发明内容
本发明的目的是提供一种电子产品命名实体自动识别系统的构建方法,以解决基于规则的识别系统在识别时召回率较低,而基于机器学习的识别系统识别时需要人工标注大量训练语料的问题。
它包括下述步骤:一、利用下载软件从互联网中收集多种体裁的电子产品网页信息,提取出网页信息的正文,从而形成原始语料的知识库;使用分词词性标注工具,对原始语料进行分词和词性标注处理,之后按照电子产品命名实体的定义,对分词和词性标注后的语料进行实体标注,构建一个标注语料库;所述对电子产品命名实体的定义是指按照一个电子产品命名实体的品牌名、系列名和型号三部分区分出电子产品命名实体;二、基于条件随机域方法,定义多个特征模板,特征模板利用标注语料和知识库具体化出特征,条件随机域方法在标注语料库上的运算结果可以为每个特征赋予一定的权重,特征和其对应的权重构成的条件随机域模型就能用来进行电子产品命名实体识别。
本发明还提供基于上述电子产品命名实体自动识别系统的识别方法,它包括下述步骤:一、把用于识别的自由文本输入所述电子产品命名实体自动识别系统;二、系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的权重,把这些权重利用条件随机域方法进行运算就得到最终的识别结果。
本发明的方法使用分词词性标注工具来对互联网中收集的电子产品网页信息进行处理,避免了由人工标注大量训练语料,基于条件随机域方法和知识库、标注语料库来处理自由文本,因此识别系统在识别时召回率高。本发明的方法可以有效地管理和组织互联网上海量的商务信息,提高人们查找、管理和利用信息的效率。本发明利用电子产品命名实体的构成规律,针对产品类命名实体变化快、形式多样化的特点,提出了基于知识库的条件随机域模型的电子产品命名实体识别方法,并实现了相应的系统,系统识别的准确率和召回率均达到86%以上。
附图说明
图1是本发明实施方式五的流程示意图,图2是实施方式五中一个识别的举例示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010602773.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种资源推荐方法及装置
- 下一篇:二次蒸发空调器