[发明专利]基于眼动跟踪的词义和摘要生成辅助方法及系统在审
| 申请号: | 202011320506.2 | 申请日: | 2020-11-23 |
| 公开(公告)号: | CN112417142A | 公开(公告)日: | 2021-02-26 |
| 发明(设计)人: | 程时伟 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/284;G06F40/30;G06F3/01;G06K9/00;G06K9/20;G06N3/04;G06N3/08;G06T5/00;G06T7/80 |
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 周红芳;朱盈盈 |
| 地址: | 310014 *** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 跟踪 词义 摘要 生成 辅助 方法 系统 | ||
1.基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,包括如下步骤:
1)眼动跟踪数据计算:首先需要用户完成标定过程,从而准确跟踪用户的实时注视点;
2)图像文本信息获取:对从场景相机中获取的图像进行文本信息获取;
3)用户阅读需求综合分析:结合眼动跟踪数据与文本信息对用户需求进行综合分析;
4)词义和摘要生成。
2.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤1)中眼动跟踪数据计算具体步骤如下:
用户佩戴眼动设备,对眼动设备上的两个相机采集的图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和阈值化操作;在特征检测过程中,一方面对眼部图像提取瞳孔中心点与普尔钦斑中心点所构成的PCCR向量,另一方面对场景图像,利用D-P算法检测所标定设备的位置,通过标定点建立向量与屏幕注视点之间的映射关系,从而能够得到实时的眼动跟踪注视点坐标。
3.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤2)中图像文本信息获取具体步骤如下:
首先对场景图像进行预处理,包括图像灰度化、利用高斯滤波进行图像去噪和自适应阈值化操作,通过形态学参数的迭代检测图像中字符与单词的最优检测尺度,通过CRNN深度模型对单词ROI图像进行预测得到文本内容,最终将文本与图像位置建立映射关系。
4.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤3)中用户阅读需求综合分析具体步骤如下:
首先对用户的阅读模式进行初步分析,确定用户的阅读方式是深阅读还是浅阅读,进一步地对于深阅读进行单词困惑分析,而对于浅阅读进行文本困惑分析;其中单词困惑预测通过对可观测量与用户困惑状态建立隐马尔可夫模型,预测用户的困惑状态,并通过注视点局部感知方法对困惑单词进行定位;另外,当检测到用户的阅读速度较快,存在不规律的回视与注视情况时,将用户定性为对文本的理解存在困惑。
5.根据权利要求1所述的基于眼动跟踪的词义和摘要生成辅助方法,其特征在于,所述步骤4)中词义和摘要生成具体步骤如下:
当检测到用户的单词困惑,利用预先准备的语料库建立单词索引,在需要时快速查询困惑单词的词义,并以可视化形式展示给用户,从而解决用户的单词困惑问题;当检测到用户对文本理解存在困惑时,结合阅读注视点热区图与文本信息,通过摘要生成模型来显示摘要;摘要生成模型整体采用了Seq2seq模型来进行文本生成任务,首先通过BERT预训练模型对文本进行分句编码,编码器为双层双向LSTM网络,在第二层隐藏层状态的计算过程中加入了基于眼动跟踪数据的注意力向量,然后通过多层感知机模型计算眼动跟踪数据与文本的相关性评分,最终得到编码器的语义向量;在解码器中采用传统的Attention机制进行语义分析,再利用分层解码的方式将语句的语义向量解码为词向量,最后利用Softmax分类器与集束搜索算法输出最终的文本序列;在得到文本摘要后以可视化形式展示给用户,从而解决用户的文本理解困惑问题。
6.基于眼动跟踪的词义和摘要生成辅助系统,其特征在于,包括眼动跟踪数据计算模块、图像文本信息获取模块、用户阅读需求综合分析模块、词义和摘要生成模块;
眼动跟踪数据计算模块:提取人眼图像中的瞳孔和普尔钦斑,计算瞳孔和普尔钦斑中心坐标,然后以瞳孔中心和普尔钦斑中心建立瞳孔-角膜反射向量,进而建立眼动跟踪映射模型,计算眼动跟踪注视点在显示屏幕上的坐标;对原始眼动跟踪数据进行预处理,剔除无效的眼动跟踪数据;
图像文本信息获取模块:负责场景图像进行文本识别,分为文本检测和文本提取任务,为了保证任务的实时性,采用基于传统图像处理的迭代检测方法完成文本检测,采用深度学习模型对检测到的文本ROI进行文本提取;通过建立一定的数据结构,存储文本与其内容结构与图像位置信息,构建图像与文本之间的对应关系,其目的是便于根据注视点位置快速查找对应距离最近的文本内容;
用户阅读需求综合分析模块:通过对眼动数据与文本信息提取各种困惑相关的特征,构建特征向量,并分析计算用户的困惑状态与困惑对象,困惑状态分为有困惑与无困惑两种,困惑对象分为某一个单词与整体文本内容;
词义和摘要生成模块:根据用户困惑分析结果生成对应的辅助信息,通过服务器在不同的用户之间共享眼动跟踪数据之后,在用户终端的显示屏幕上,以不同的可视化形式展现其他用户的眼动跟踪数据,具体可视化形式包括注视点实时显示、视觉感兴趣文本边框、辅助信息显示区、视觉感兴趣区与辅助信息显示区之间的连线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011320506.2/1.html,转载请声明来源钻瓜专利网。





