[发明专利]消费者文本的信息提取结构,标注方法和识别方法在审
申请号: | 202110172747.5 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112906367A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 杨骏;李杰 | 申请(专利权)人: | 上海宏原信息科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/117;G06F40/279;G06F16/35;G06N3/04 |
代理公司: | 上海容慧专利代理事务所(普通合伙) 31287 | 代理人: | 于晓菁 |
地址: | 200233 上海市徐汇区钦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消费者 文本 信息 提取 结构 标注 方法 识别 | ||
1.消费者文本的信息提取结构,其特征在于,所述信息提取结构包括以下维度:
需求,用以表达消费者的需求;
场景,用以表达所述需求发生的场景;
方案,用以表达所述需求对应的解决方案;
驱动因素,用以表达选择所述解决方案的原因;
阻碍因素,用以表达阻碍选择所述解决方案的原因;
疑问中性因素,用以表达购买决策中的疑问要素。
2.消费者文本信息结构的标注方法,其特征在于,包括以下步骤:
获取待识别的文本;
从待识别的文本中提取信息,根据提取信息建立n个二维数组,每个二维组中包括元素及其维度,所述元素的关联通过维度建立,所述维度包括:需求、场景、方案、驱动因素、阻碍因素和疑问中性因素;
采用BIO结构分别对所述二维数组中的元素进行标注,得到BIO标注结果,标注后每一个元素均包括BIO标注和维度。
3.一种识别方法,其特征在于,包括:
获取经过标注的待检测文本;
根据BIO标注将待检测文本中的元素进行归类,并将归类后的元素输入到相应的信息提取维度的分类,所述维度包括:需求、场景、方案、驱动因素、阻碍因素和疑问中性因素;
根据分类结果,输出待检测文本的经过维度分类的元素。
4.如权利要求3所述的一种识别方法,其特征在于,在分类过程中,还包括:
将文本输入BERT编码模型,将文本转化为经过编码后的特征序列,所述特征序列具有结合上下文语义的向量标识。
5.如权利要求4所述的一种识别方法,其特征在于,在分类过程中,还包括:
将BERT编码后的特征序列输入LSTM模型,输出具有维度表达的特征序列;
将具有维度表达的特征序列输入Dropout和全连接层,进行泛化处理和分布特征映射。
6.如权利要求4所述的一种识别方法,其特征在于,在分类过程中,还包括:
将Dropout和全连接层输出结果输入条件随机场,识别BIO标注中的顺序性关系;
采用分词修正对修正条件随机场的识别结果,完成对信息提取维度的分类;
根据BIO标注和信息提取维度的分类结果,格式化处理输出消费者文本的信息提取结果。
7.一种识别方法,其特征在于,包括:
获取经过标注的待检测文本;
根据BIO标注将待检测文本中的元素进行归类,并将归类后的元素输入到相应的信息提取维度的分类,所述维度包括:需求、场景、方案、驱动因素、阻碍因素和疑问中性因素;
根据分类结果,输出待检测文本的经过维度分类的元素;
识别维度分类的对应关系,所述对应关系包括需求-场景,需求-解决方案,解决方案-驱动因素,解决方案-阻碍因素,解决方案-疑问中性,根据对应关系输出各元素之间的维度分类关系。
8.如权利要求7所述的一种识别方法,其特征在于,在分类过程中,还包括:
将文本输入BERT编码模型,将文本转化为经过编码后的特征序列,所述特征序列具有结合上下文语义的向量标识。
9.如权利要求8所述的一种识别方法,其特征在于,在分类过程中,还包括:
将BERT编码后的特征序列输入LSTM模型,输出具有维度表达的特征序列;
将具有维度表达的特征序列输入Dropout和全连接层,进行泛化处理和分布特征映射。
10.如权利要求9所述的一种识别方法,其特征在于,在分类过程中,还包括:
将Dropout和全连接层输出结果输入条件随机场,识别BIO标注中的顺序性关系;
采用分词修正对修正条件随机场的识别结果,完成对信息提取维度的分类。
11.如权利要求10所述的一种识别方法,其特征在于,在识别对应关系的过程中,还包括:
将识别维度分类的对应关系输入BERT识别模型,所述BERT识别模型根据参数调优结果输出识别对象的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宏原信息科技有限公司,未经上海宏原信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110172747.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油封自动安装设备
- 下一篇:一种游戏信号处理方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置