[发明专利]基于依存分析实现菜名实体识别的方法有效

申请号：	201910354720.0	申请日：	2019-04-29
公开（公告）号：	CN110222332B	公开（公告）日：	2023-06-16
发明（设计）人：	杨晓燕;庄泽彬;陈子扬;徐戈;李佐勇	申请（专利权）人：	闽江学院
主分类号：	G06F40/295	分类号：	G06F40/295
代理公司：	厦门原创专利事务所(普通合伙) 35101	代理人：	徐东峰
地址：	350108 福建***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于依存分析实现实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于依存分析实现菜名实体识别的方法，包括以下步骤：S1，建立菜名语料库；S2，对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理，包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注；S3，读取当前行，并寻找词性是名词的词语作为候选词；S4，判断候选词与其父亲词的依存关系，判断所述依存关系是否为定中关系、主谓关系或并列关系，是，输出满足依存关系的候选词作为候选菜名并进入步骤S5，否，读取下一行，并进入步骤S3；S5，获取候选菜名的父亲词，并判断候选菜名的父亲词与root的关系是否为核心关系，是，输出满足依存关系的候选词作为实际菜名，否，读取下一行，并进入步骤S3。

技术领域

本发明涉及一种基于依存分析实现菜名实体识别的方法。

背景技术

命名实体识别是文本挖掘的关键技术。命名实体识别包括识别文本中的人名、组织机构名、地名等。相比于一般领域的命名实体，菜名实体识别有以下几个难点：(1)中文菜名种类繁多，无法列出菜名清单；(2)中文复合菜名的构成比较复杂，可以由两种或两种以上单式菜名复合也可以是由其他词与单式菜名复合而成，如香菇菜心、东坡红烧肉、水煮牛肉；(3)因为地域和餐厅不同，所以待识别的菜名可能会产生很多别名，如：黑米饭，乌米饭；(4)待识别的菜名可能会由许多单词修饰，导致实体的边界难以划分，如水煮鱼、酸菜鱼、烤鱼、红烧鱼；(5)有的餐厅为了让菜名生动有趣,在菜名中运用隐喻、借喻、用典等修辞手段,使菜名识别更加困难，如蚂蚁上树，青龙卧雪、龙凤呈祥，这给菜名识别增加难度，因此菜名是命名实体中相对较难识别的一类。

发明内容

本发明提供了一种基于依存分析实现菜名实体识别的方法，可以有效解决上述问题。

本发明是这样实现的：

一种基于依存分析实现菜名实体识别的方法，包括以下步骤：

S1，建立菜名语料库；

S2，对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理，包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注；

S3，读取当前行，并寻找词性是名词的词语作为候选词；

S4，判断候选词与其父亲词的依存关系，判断所述依存关系是否为定中关系、主谓关系或并列关系，是，输出满足依存关系的候选词作为候选菜名并进入步骤S5，否，读取下一行，并进入步骤S3；

S5，获取候选菜名的父亲词，并判断候选菜名的父亲词与root的关系是否为核心关系，是，输出满足依存关系的候选词作为实际菜名，否，读取下一行，并进入步骤S3。

作为进一步改进的，所述建立菜名语料库的步骤包括：

从网络上下载客户对商家的评论文本建立菜名语料库。

本发明的有益效果是：采用本发明基于依存分析实现菜名实体识别的方法实体避免了基于统计方法需要标注大量数据的不足；可以快速的、准确的识别菜名。