[发明专利]基于偏最小二乘的文本语义提取方法无效
| 申请号: | 200810036392.1 | 申请日: | 2008-04-21 |
| 公开(公告)号: | CN101261624A | 公开(公告)日: | 2008-09-10 |
| 发明(设计)人: | 曾雪强;李国正 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 上海上大专利事务所 | 代理人: | 何文欣 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 最小 文本 语义 提取 方法 | ||
1.一种基于偏最小二乘的文本语义提取方法,其特征在于将文档在向量空间模型表示后,利用偏最小二乘模型对数据进行分析,提取出对原始数据具有最大表示能力同时又与类标信息相关的潜在语义,而后在该语义空间上进行文档分析,其具体操作步骤如下:
a.文档预处理。包括中文分词和去除停用词步骤;
b.统计词频,建立文档在向量空间模型下的向量表示,得到数据矩阵X和类别矩阵Y;
c.基于矩阵X和矩阵Y,进行偏最小二乘分析,得到各个潜在语义的投影方向;
d.利用得到的语义投影方向,得到待分析文档在语义空间上的语义表示;
e.在新的语义空间下,对文档进行各种分析。
2.根据权利要求1所述的基于偏最小二乘的文本语义提取方法,其特征在于所述的步骤(3)中的偏最小二乘分析的具体方法如下:
输入:数据矩阵X、类别矩阵Y、阈值ε,缺省为0.01,
输出:语义投影方向矩阵Ξ
E0=X;F0=Y;
k=0;ESP=||E0||;
DO WHILE ESP>ε
k=k+1;
uk=Fk-1的第一行;
DO until ξk收敛
ξk=ξk/||ξk||;
tk=Ek-1ξk;
ENDDO
ESP=||Ek||;
ENDDO
Ξ=[ξ1,ξ2,…ξK]。
3.根据权利要求1所述的基于偏最小二乘的文本语义提取方法,其特征在于所述的步骤(4)中,给定文档向量xT,其对应的在潜在语义空间的表示tT的计算方法如下:
tT=xTΞ
=(xTξ1,xTξ2,…xTξK)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810036392.1/1.html,转载请声明来源钻瓜专利网。





