[发明专利]一种弱标注环境下的分段式语义标注方法在审

专利信息
申请号: 201911190029.X 申请日: 2019-11-28
公开(公告)号: CN110888991A 公开(公告)日: 2020-03-17
发明(设计)人: 张健沛;安立桐;杨静;王勇 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/30;G06F40/289;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 标注 环境 段式 语义 方法
【权利要求书】:

1.一种弱标注环境下的分段式语义标注方法,其特征是:

(1)输入待标注文本,使用数据挖掘方法根据文章标题弱标记,自动构建与文本主题相关的类别-实体-关系-扩展四层领域本体;

(2)使用分词技术将文章按段落带入已构建的四层领域本体中,对弱标记文本的初步语义标注;

(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合,使用skip-gram模型生成词向量,使用加入注意力机制的卷积神经网络进行训练,已标注的段落文本进行段落句群划分,对相邻段落是否属于同一句群进行判断;

(4)使用词袋模型验证句群生成的准确性并对新生成的句群的标注信息进行重新筛选。

2.根据权利要求1所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的实体词结构时,先使用分词技术,获取文章标题中的实词,并按照结合标题信息的短文本主题词抽取公式计算出文章前200字内的关键实体词,公式为:W(wi)=tf(wi)×df(wi)×(1+g(wi))×fp(wi),

其中fp(wi)是词汇的位置权重因子,由公式求得:其中,考虑到分词粒度对结果产生的影响,ft(wi)是wi在标题中所占的汉字数目,st(dj)是标题中全部实词的汉字总数,Q为调整系数、与标题内重复包含的该关键词个数的上限有关,经训练取整数2,取得分最高的前n个主题词作为初始的实体词,以获取其领域层次结构,n的大小与文章篇幅正相关。

3.根据权利要求2所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的类别词结构时,将提取的实体词带入已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中,在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇,再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系,保留每类中处于最上位的待选择词作为文章领域的类别词。

4.根据权利要求3所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的关系词结构时,将实体词带入百度百科、维基百科、360百科、搜狗百科、互动百科和复旦知识图谱知识库中检索,爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W,并使用关系词得分公式计算关系词得分,保留得分高于阈值的关系词作为文章领域本体的关系词。

5.根据权利要求4所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的扩展词结构时,通过分别建立实体层m个实体词+关系层n个关系词所对应的m×n个词对,在必应搜索中检索m×n次词对获取网页信息,爬取检索结果前十页内网页的主要内容,分词并保留名词,统计剩余词汇和词频,通过计算TF-IDF值,保留大的词作为待选择的扩展词,通过多维度归一化Bing距离公式计算其归一化距离,公式如下:

其中,M表示Bing索引搜索到的网页总数,f(x)和f(y)分别表示搜索词x和y的命中数量,f(x,y)表示同时出现x和y的网页数量,若x和y从未一起出现在同一网页上,而只是单独出现,则它们之间的归一化Bing距离无穷大;若x和y总是同时出现,则它们之间的归一化Bing距离为0,利用归一化Bing距离对非领域内概念进行过滤,将过滤后得到的词汇作为领域本体第四层的扩展词汇。

6.根据权利要求1-5任何一项所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(2)中使用已构建的四层领域本体对弱标记文本进行语义标注时:将分词并保留名词部分的文章按段落对已构建的四层领域本体进行遍历,提取在领域本体中存在的实词和其所有在领域本体中的上位概念作为该弱标记文本的初步语义标注。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911190029.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top