[发明专利]一种在主观答题文本中抽取核心观点的方法在审
| 申请号: | 202110178549.X | 申请日: | 2021-02-09 |
| 公开(公告)号: | CN112905766A | 公开(公告)日: | 2021-06-04 |
| 发明(设计)人: | 封黎 | 申请(专利权)人: | 长沙冉星信息科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
| 代理公司: | 北京七夏专利代理事务所(普通合伙) 11632 | 代理人: | 刘毓珍 |
| 地址: | 410000 湖南省长沙市高新开发*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 主观 答题 文本 抽取 核心 观点 方法 | ||
本发明属于在线问卷文本处理技术领域,具体涉及一种在主观答题文本中抽取核心观点的方法,包括以下步骤:S1:输入数据,获取问卷标题、主观题题目、答题文本数据;S2:行业分类;S3:文本抽取观点;S4:合并统计观点;本发明能够简化文本信息,使用户能够快速了解到主观题中答题者的观点。
技术领域
本发明属于在线问卷文本处理技术领域,具体的讲涉及一种在主观答题文本中抽取核心观点的方法。
背景技术
现有的在线问卷的主观答题文本中,文本的特点表现为长短不一、观点复杂、且没有明显规律,用户不能快速全面地获取文本信息。观点抽取的目的就是为了简化文本信息,使用户能够快速了解到主观题中答题者的观点。
发明内容
为解决现有技术存在的问题,本发明提供一种在主观答题文本中抽取核心观点的方法。
本发明的技术方案是这样实现的:
一种在主观答题文本中抽取核心观点的方法,包括以下步骤:
S1:输入数据,获取问卷标题、主观题题目、答题文本数据;
S2:行业分类;
S3:文本抽取观点;
S4:合并统计观点。
进一步地,所述S2步骤中,根据S1步骤中获取的问卷标题、主观题题目进行行业分类,由于问卷会涉及到各个行业,分行业能够让观点抽取更加准确,行业分类采用的方法是用规则根据问卷标题和主观题题目做分类,目前行业分为餐饮酒店、医疗卫生、大学教育、其他教育(包括小学,幼儿园,学生教学,课程培训)、企业管理、其他行业。
进一步地,所述S3步骤的具体步骤如下:
a、对文本数据做预处理,删除一些无效文本,包括空文本、内容无意义的文本;
b、根据行业选择对应模型,模型批量对文本进行序列标注,序列标注的结果如:输入‘宿舍空气不好,不通风’,得到的结果['O','O','B-ASP','I-ASP','B-OPI','I-OPI','O','B-OPI','I-OPI','I-OPI']。
模型训练采用的是Bert训练序列标注模型,序列标注的类型为['B-OPI','I-OPI','B-ASP','I-ASP','O']。模型训练的流程是用一部分数据训练序列标注模型作为预训练模型,对预训练模型分行业训练序列标注模型,两组数据不重合;
c、处理序列标注的结果,整合观点。如:序列标注结果['O','O','B-ASP','I-ASP','B-OPI','I-OPI','O','B-OPI','I-OPI','I-OPI'],观点整合后得到['空气不好','不通风']。
进一步地,S4步骤中,合并统计观点。对抽取的观点做相似度计算,合并相似度比较高的观点,统计观点的数量。
本方案的效果如下:
本方案能够简化文本信息,使用户能够快速了解到主观题中答题者的观点。
附图说明
图1为本发明一种在主观答题文本中抽取核心观点的方法的实施例1的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙冉星信息科技有限公司,未经长沙冉星信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110178549.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序的启动方法、装置和电子设备
- 下一篇:一种具有手动开关功能的蒸蛋器





