[发明专利]基于条件随机场的食品安全事件实体抽取方法在审
| 申请号: | 201810569813.0 | 申请日: | 2018-06-05 |
| 公开(公告)号: | CN108776656A | 公开(公告)日: | 2018-11-09 |
| 发明(设计)人: | 王东波;朱子赫;叶文豪;吴毅;王玥雯 | 申请(专利权)人: | 南京农业大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 李鹏 |
| 地址: | 210095 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 食品安全 事件实体 构建 语料 抽取 条件随机场模型 机器学习模型 知识库 基础资源 基于条件 事件发生 特征模板 外部特征 界定 标注 融入 挖掘 机场 统计 制定 | ||
1.一种多特征知识下的食品安全事件实体抽取方法,其特征在于,包括如下步骤:
S1:食品安全事件实体界定和特征统计;
S11:实体界定;
在对食品安全事件进行采集、标注和组织的基础上,构建食品安全事件语料库;
S12:食品安全事件实体内部和外部特征统计;
选取所有食品安全事件,对其中的食品名称与导致食品安全事件发生的具体因素进行标注;在标注的语料基础上,统计“食品名称”与“具体因素”这些实体的内部和外部特征;
内部特征包括实体长度和数量:
获取实体长度用于掌握所抽取实体对象的难易程度和确定条件随机场标记集的数目;
统计具体实体的分布情况用于实体的具体内容和统计具体实体的左右边界特征;
实体的外部特征:
对食品安全事件语料中的“食品名称”和“具体因素”的左右边界进行统计,该统计结果对于后续构建“食品名称”和“具体因素”抽取模型具有重要价值;
“食品名称”和“具体因素”的边界范围限定在以“。!?”结尾的子句范围内,“食品名称”和“具体因素”的左边界为起始标记,从句子开始到第一个标记结束的范围内,称为β;从最后一个标记开始到句子结束,这个范围记做α;具体选取“食品名称”和“具体因素”左边界词的计算公式如公式(1)所示;
其中,f(W_left_outside)表示W在β范围内出现的频次,f(W_left)表示W在β、“食品名称”、“具体因素”内部出现的频次;通过公式(1),结合食品安全事件的语料,给定P的经验阈值为0.8,即当P≥0.8时,W可能成为“食品名称”和“具体因素”的左边界词,然后结合人工语言学知识的内省,最终确定7个左边界词:“的、用、和、是、食品、超标、中”;
使用公式(2)用于“食品名称”和“具体因素”右边界词的选取;
其中,f(W_right_outside)表示W在α范围内出现的频次,f(W_right)表示W在α、“食品名称”、“具体因素”内部出现的频次,将右边界词P的阈值也设定为0.8,根据语言学知识的内省再结合大于或等于0.8的P值,最终确定10个右边界词:“的、用、品、有、种、和、是、超、中、产”;
S2:模型建立和特征确定
S21:机器学习模型建立
设x={x1,x2,…,xn-1,xn}表示被观察的输入数据序列,如语料中分词后的词;y={y1,y2,…,yn-1,yn}表示有限状态集合,其中每个状态对应于一个标记;在给定输入序列x的条件下,对于参数λ={λ1,λ2,…,λn-1,λn}的线性链CRFs的状态序列y的条件概率如公式(3)和公式(4)所示;
其中,Zx为归一化因子,表示所有可能的状态序列的得分,确保所有可能状态序列的条件概率之和为1;是一个统一形式的特征函数,通常为二值表征函数;λj是通过模型对训练数据进行训练之后获得的相应特征函数的权重;
S22:语料的选择和语料的处理
具体的“食品名称”和“具体因素”的实体在语料中被标注成“【】”的形式;
基于对“食品名称”和“具体因素”的特征统计,在确定用于“食品名称”和“具体因素”的CRF标记数的过程中,运用公式(5);
其中,L表示当i≤k时“食品名称”和“具体因素”时平均加权后的长度,Ni表示所选取的语料中长度为i的“食品名称”和“具体因素”出现的次数,k和j分别表示语料库中最长与最短“食品名称”和“具体因素”的长度,N表示语料库中“食品名称”和“具体因素”的总个数;
基于公式(5),结合语料的基本情况以及相应的实验结果,“食品名称”和“具体因素”识别模型构建中确定使用5词位的标注集,标注集用R来表示,具体为R={B,C,E,S,A},B表示“食品名称”和“具体因素”的初始词,C为“食品名称”和“具体因素”的中间词,E为“食品名称”和“具体因素”的结束词,S为“食品名称”和“具体因素”之外的词汇,A为一个词或字单独为“食品名称”和“具体因素”的情况,如果“食品名称”和“具体因素”的长度超过3,就用C表示扩展词;
S23:特征的选取以及特征模板的制定;
特征由原子特征和复合特征两部分构成;
选取原子特征为词语本身、词性、词长度、是否实体词、是否左边界、是否右边界6个特征;
复合特征是通过对原子特征的组合来表征“食品名称”和“具体因素”实体复杂的语言学特征的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京农业大学,未经南京农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810569813.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有监督的词向量训练方法及装置
- 下一篇:政协提案关注点自动提取方法





