数据归约(data reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)。数据归约技术可以得到数据集的归约表示,规约后的数据集比原数据集小得多,但仍接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘将更有效,仍然产生相同(或几乎相同)的分析结果。
数据归约策略包括维归约、数量归约和数据压缩。
维归约维归约是减少所考虑的随机变量或属性的个数,它们把原数据变换或投影到较小的空间。方法包括小波变换和主成分分析(principalcomponentsanalysis,PCA)。属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。小波变化在气候变化、水文监测、工程地质等方面应用较多,而种猪生产应用不多。因此,以下主要介绍PCA。
主成分分析的概念
PCA又称Karhunen-Loeve法或K-L.方法,搜索k个最能代表数据的n维正交向量,其中k≤n。
PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1、2个轴正交的平面中方差最大的。依此类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。
事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。这样,原数据投影到一个小得多的空间上,导致维归约。
主成分分析在种猪生产中的应用
PCA的应用比较广泛,如比较DanBred长大杂交组合母猪和TN70长大杂交组合母猪这两个高产母猪的产仔数主要受哪些因素的影响。
选择1472头仔猪信息,每头仔猪具有的特征因素主要包括:窝产仔数、寄养、胎次、日粮、性别、是否死胎、是为IUGR(宫内发育迟缓)、独立产房、体长、初生体重、乳头数量等。
由于每头仔猪个体具有很多特征,难以对其分类分析,因此采取PCA方法进行降维。即通过一定的方法,将这些特征重新计算,合并具有相关关系的特征,产生尽可能少的新变量,再对新变量进行分析。
具体做法是通过计算仔猪个体特征矩阵的协方差矩阵,然后得到协方差矩阵的特征值与特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。
此处仅显示了前两个特征向量即Dim1和Dim2,两个特征向量分别能够解释总体方差变异的22.3%和 13.2%,共35.5%。
PCA分析产仔数的影响因素
如图所示,DanBred和TN70仔猪在Diml1轴上发生了明显的分离。图中的箭头代表原始变量,箭头之间的夹角表示原始变量之间的相关性(锐角正相关,钝角负相关,直角不相关),箭头方向与主坐标的夹角代表原始变量与主成分的相关性,长度代表原始数据对主成分的贡献度。
例如,图中杂交组合N70与体长2个变量之间为锐角,表明杂交组合TN70与体长之间关系为正相关;对Dim1 轴贡献最大的是杂交组合、窝产仔数、体长,初生重也表现出相似的贡献度,乳头效量则贡献度较小。在 Dim2轴上贡献度最大的是胎次、宫内发育不良、初生重。此外,体长与Dim1轴夹角为锐角,表明体长与主特征Dim1呈正相关。
数量归约数量归约是指用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的或非参数的。对于参数方法而言,通常使用一个参数模型来评估数据。只需要存储参数,而不需要实际数据,能大大减少数据量,但只对数值型数据有效。
例如,可以用公式Y=a+βX,将随机变量Y(称为因变量)表示为另一随机变量X(称为自变量)的线性函数。其中,假定Y的方差是常量;系数a和β(称为回归系数),分别为直线的Y轴截取值和斜率。
存放数据归约表示的非参数方法包括直方图、聚类、抽样和数据立方体聚集。
表所示为某猪场一批母猪上产房时背膘厚的数据集,记录了分娩时的背膘厚,以及在数据集中的母猪数。
使用单桶显示了这些数据的直方图,为进一步压缩数据。通常让一个桶代表给定属性的一个连续值域。在图中等分化为3个区间,每个桶代表背膘厚的一个不同区间,这样就实现了数据规约。
数据压缩数据压缩是指使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。如果我们只能近似重构原数据,则该数据归约称为有损的。
对于串压缩,有一些无损压缩算法。然而,它们一般只允许有限的数据操作。维归约和数量归约也可以视为某种形式的数据压缩。因此,图PCA分析产仔数的影响因素以及图背膘厚的等宽的直方图分析都属于数据压缩。
有许多其他方法来组织数据归约。花费在数据归约上的计算时间不应超讨或“抵消”在归约后的数据上挖掘所节省的时间。