您所在的位置:主页->产品中心->数据挖掘

  • 010-51651689
  • sales@tech-box.com.cn

数据挖掘

Unscrambler多元数据分析和实验设计软件包

Unscrambler可以执行如下任务:

  • 简化了多变量分析 
  • 制定完好设计的实验计划 
  • 简化、转换及绘制数据 
  • 研究一组变量中的变化 
  • 研究两组变量之间的关系 
  • 确定不确定实验中的多变量模型 
  • 评估新的、未知的响应值 
  • 分类未知样本 
  • 显示样本组群

简化多变量分析

Unscrambler的主要功能就是提供分析多变量数据的工具。包括了寻找变量、共变量和其它数据矩阵的内部关系。Uncsrabmler也可以用来引导设计实验,用于制定完好设计的实验以获得最大的信息量。

基于Unscrambler可以解决如下类型的基本问题:

  • 设计实验,分析影响及使用Xperiment模块寻找最适条件; 
  • 简化和预处理数据,方便随后的分析工作; 
  • 在一个数据矩阵中(X)寻找相关变量; 
  • 寻找两个数据矩阵中(X和Y)的关系; 
  • 在不确定性测试中验证多变量模型; 
  • 通过寻找纯物质的数量和估计浓度分布曲线和光谱的方法Res解析未知混合物; 
  • 预测反应变量的未知值; 
  • 将未知样本归类到可能的不同目录下. 

分析没有包含任何信息的数据是没有意义的。实验设计是一个将数据表中的数据赋予有意义信息的有用工具。Unscrambler非常好的解决了这个问题。

Unscrambler? 的预测结果符合美国FDA的 21 CFR Part 11标准.

制定完好设计的实验计划

如果能够仔细的选择样本,就可以增加在数据中获得更多有用信息的机会。并且,如何能够主动试验变量也可以增加获得数据之间的的关系的机会。其关键就是要决定在一定间隔内或者某种类型的实验点时要改变哪些变量。

“实验设计”的主要目的就是产生可以决定哪个设计变量(X)能对相应的响应变量(Y)产生影响的实验数据,然后进一步理解设计变量之间的相互作用,congenial最终决定最优化的实验条件。同时,这也有助于通过最少次数的实验获得结果,从而降低实验成本。 一个好的实验设计程序,应该能够提供合适的实验方法和实验可行性,如:通过重要变量执行次数最少但有用的实验。

“筛选设计“(如: fractional, full factorial 和 Plackett-Burman)是用于找出对于响应起到作用的设计变量,并且这些变量也是收集适用于扩展到所有重要变量的数据。

优化设计(如中心组合,Box-Behnken) 的主要目标就是找出一个反应过程中的最优化条件并给出非线性(二次方程)模型。给出的数据表在很多细节方面做了描述并且通常可以用来精炼模型,如:在完成初步筛选之后。 

无论您的设计实验的目的是要进行筛选还是优化,在这些设计变量中总有多重线性的约束。在这种情况下,您就需要D-优化设计。

另外一种特例是:混合设计——主要设计变量是一种混合物的组成成分。Unscrambler? 提供无论是有额外束缚条件下的经典类型混合物设计。

有多种方法可以用于分析实验设计。Unscrambler? 使用多重线性回归(MLR)的方法作为其默认的正交设计方法。对于非正交设计或者当设计等级达不到时,Unscrambler? 允许使用其它方法,如PCR或者PLS。

简化、转换及绘制数据

原始数据可能会不是用于分析的最佳数据。背景效应、以不同的单位进行测量、变量间的不同差异等等,都可能使您比较困难的获得有用信息。预处理或者转换数据格式可以帮助您减少这些效应中产生的“噪声”。

在转换数据之前,从不同的角度观察一下数据是一个重要的步骤。这种格式转换的操作包含了例如将样品或者变量分类和置换数据表等。

无论数据是否被该换或者转换格式,如果能够快速地绘制成图,这所获得的数据信息远比通过肉眼看到的多得多。Unscrambler?提供了多种类型的绘图。它促进了个体变量分布的可视化检查,允许用户研究两个变量或样本之间的关系,例如3-D swarm of points或者3-D landscape。

研究一组变量中的变化

我们常遇到的问题是需要确定在一组给定的数据矩阵中找出起决定作用的变量,也就是解决以下问题,如:

  • “哪些变量是能够充分描述样本所必须的?” 
  • “哪些样本是类似的?” 
  • “在一个特定的数据集中是否有样本群?” 
  • “这些样本类型是有什么含义?” 

Unscrambler? 通过采用主成分分析(PCA)的方法,将一个数据矩阵分解为结构化部分和噪声部分,从而获得这些相关的信息。.

描述一组变量的其它方法Unscrambler?也提供经典的描述统计学方法:平均、标准方差、最小值、最大值、中值和四分位数等方法,提供了对变量的单变量分布的描述及对比。此外,还有揭示变量之间的相关变异的相关矩阵法。

在某一个通过改变浓度或者不同阶段的过程中(如色谱分析法),通过仪器测量(如光谱或伏安图)一些由纯净组分组成的混合物的样品时,Unscrambler? 可以帮助找出未知的合适浓度,它采用的方法叫做多元曲线分辨法(MCR)。

研究两组变量之间的关系

我们常见的另外一种问题是建立两组数据矩阵之间的回归模型。例如,您可能有一组不同溶液的性质的多个合理的测量量(X),您需要建立这些测量量与溶液中一个特定化合物的浓度(Y)的关系。这种特定的化合物的浓度通常是可通过一种可靠的可参照的方法获得。

为了实现这个目的,我们需要找出两组数据矩阵之间的关系。这类工作的结果有可能会由数据不同的获得渠道而有区别,如是否是通过统计实验或者只是通过简单的随机数据收集获得。

如何分析设计数据矩阵 

设计数据矩阵中的是变量(除了混合物或者D-优化设计)都是正交的。传统的统计方法如ANOVA何MLR方法非常适合用于在正交数据表中建立回归模型。

如何分析非设计数据矩阵

非设计数据矩阵中的变量很少是正交的,但是几乎彼此都是共线的。在这种情况下MLR方法是不合适的,因此我们建议使用投影算法,如PCR或者PLS。

验证不确定测试中的多变量模型

无论您建立多变量模型的目的是什么——研究、精确描述、建立预测模型——您总是需要首先进行验证工作。只有获得了了合适的验证,您的模型才能保证结果不是对一些极端的特殊样品过度依赖,也证明了您的回归模型对实验对象有很好的预测作用。

通过Martens 不确定性测试模块,您的验证将更加有效,它为您提供了:

  • 通过强大的、简单的图形表示了对个体样本的影响的研究;
  • 验证了预测变量的重要性并去除PLS或者PCR模型中不重要的预测量。

评估新的、未知响应值

我们可以利用回归模型进行新的预测,即未知值、Y值。这种预测技术是非常有用的。它可以节约实验开支,减少实验时间消耗。通过光谱的吸光率预测浓度就是这方面的一个典型的例子,传统的做法是直接测量获得,如滴定法。

未知样本分类

所谓分类即确定新的样本是否与一类确定的曾用来建立模型的样本类似。如果新的样本与一特定模型符合的很好,那么就可以归为这一类。支持分类的方法有:SIMCA,LDA,SVM和PLS-DA。

这类分析有很多种,如原材料的质量科分为“好”和“坏”,成品可分为不同的等级,如“A”,“B”、“C“等。

显示样本组群

聚类分析的目的基于一个特定的测量距离是将样本群分为为”k”种类组。

在Unscrambler?中,可以使用K-Means算法聚类分析一组数据,也可以使用层次聚类法(HCA)。 这里提供了包含了Ward方法在内的7种不同类型的测距方法(包括Chebyshev和Bray-Curtis)。

综上所述,Unscrambler? 是一个完整的、多合一的多元数据分析和实验设计软件包,可处理大型和复杂的数据表,应用范围广泛。它提供了最常用的和大多数数据分析所需要的的分析工具。其基于插件的软件结构,允许用户方便的增加最新的算法到软件中。Unscrambler?非常好的数据保密机制非常适用于受限制的行业。


分类原理 

多元分类可以分为两个重要的领域:聚类分析和差异分析。.

聚类分析法可用于寻找没有预定义分类结构的数据的组群。聚类分析极富探索性,但有时它也是研究初期非常有用的工具。

差异分析是一种监督式分类法,常被用来创建事列明的一定数量组类的分类规则。这些规则(模型)之后可以可用于配置新的和未知的样本到最可能的类别中去。差异分析法的另外一个重要应用是用于解释样本不同组群之间的差异。

  • 分类的目的 
  • 分类的方法
    • SIMCA 分类法 
    • 线性差异分析法 
    • 支持向量机分类法
    • PLS差异分析法
  • SIMCA分类法的步骤
  • 新样本分类
  • 分类处理结果 
  • 基于回归模型的分类


分类的目的

分类的主要目标就是将新的样本可靠的分配到已知的类组中。需要注意的是,分类与聚类是不同的。

分类的结果也可以作为诊断的工具:

  • 用于区分一个模型中最重要的变量(变量以种群为特征);
  • 或者寻找离群值(种群中非典型的样本)。

与回归方法相反,它预测了一个或多个定量变量的值。当响应分类变项时,分类方法非常有用,这种分类变项可以以几种类别的方式,解释为样本可能的归属。

应用案例: 

  • 预测一种产品是否满足质量要求,这里预测的结果是简单的“是”或者“否”(即,二元响应)。
  • 根据不同近似种类的植物或动物的容易辨认的特征构建模型,可用于判断一个新的个体是否属于这个物种的模型。
  • 根据不同疾病容易识别的病征、临床症状或者生物学参数构建模型,可用于将来对这些疾病的诊断。


分类方法

本章讲解了样本分类的目的,以及Unscrambler?中支持的分类方法:

  • 簇类独立软模式(SIMCA) 
  • 线性判别式分析法(LDA) 
  • 支持向量机(SVM) 分类 

非监督分类方法:

  • 聚类分析 
  • 投影 

辨别分析方法是一种定量检验的方法,可检验的量包括:某种类别的组变量、定量检验(回归)情况下的非连续测量。

这种方法源于生物科学家使用的数值分析法,是在数据处理技术中非常有价值的可视化工具。 可以使用多种聚合方法进行聚类分析:K-均值或者K-中值聚类, 或者有不同链接层组的层次聚类 (单连接, 完全连接, 平均连接, 中值连接,等等).聚合方法首先将每个单个的样本当做 单个类处理,然后根据样本的相似性进行聚类直至形成一个更大的类。

Unscrambler?中的主要聚类分析的类别是非分层的聚类分析(K-均值、K-中值)和分层聚类分析(HCA)。


SIMCA 分类法

簇类独立软模式(SIMCA)是对在训练集中的每一个类建立一个PCA模型。 然后将未知的样本与这些类的模型进行对比,根据与训练样本的类比,将其分类到相对应的那一类中。


线性判别式分析法

线性判别式分析法 (LDA) 是基于Bayes公式的一种方法,是所有可能的分类方法中最简单的。LDA所要实现的目标是基于一个成熟的模型确定最适合分类样本的相关参数。这种模型可以用来区分未知的样本。 该方法主要基于正态分布假设,并且该假设的两组或多组协方差矩阵是恒等的。


支持向量机分类法

支持向量机 (SVM)是一种基于统计学习的分类方法。有时,线性函数不能够建立复杂离析物的模型,因此SVM采用核函数来绘制从原有空间到特征空间的映射图。这种函数可以由很多形式,从而可以支持解决处理非线性分类的各种情况。核函数可以看做是非线性数据到更高维的特征空间的映射,与此同时,就可以支持允许线性程序与更高维的特征空间并行的快捷计算。.


PLS 判别分析

该判别分析方法的观点与SIMCA方法不同,它假设某个样本一定是所分析的数据中类的一员。最常见的案例是二元判别变量:只有“是”或者“否”两种答案。

二元 判别分析法采用回归的方法,在模型中使用判断变量0/1(是=1,否=0)作为Y变量。结合PLS,这种方法可以很容易的扩展到多个类中去。每种类由一个指标变量代表,即:一个值为1的二元变量代表属于该类的成员,0代表非该类成员。通过所有的Y指标变量可以建立一个PLS模型,我们就可以直接从描述样本的X变量预测到一个样本的归属。通过查看所绘制的每一类的指标变量Y变量的Predicted vs. Measured 图就可以方便的解释模型:

  • Ypred > 0.5 代表 “大约是 1” ,即是成员; 
  • Ypred < 0.5 代表 “大约是0” t即是非成员。 

一但建立起的PLS模型检验通过,我们就可以运行分类新样本的预测分析。 预测结果可以通过查看每一类的指标变量Y变量的Predicted with Deviations 图:

  • 样本的 Ypred > 0.5 并且偏差不超过0.5,就是成员;
  • 样本的 Ypred < 0.5 并且偏差不超过 0.5,就是非成员;
  • 样本的偏差超过0.5,那么样本不能被安全识别.


SIMCA分类的步骤

我们需要2步解决来分类的问题:

  • 建模: 为每个单独的类建立一个独立的模型;
  • 分类 新样本:将每个样本与每种模型进行配合度比较,判断样本是否属于相应的类。

建模步骤还要求每一种类要有有足够的被识别过的样本,以保证建立起的模型是可靠的。同时它也要去有足够的变量能够对样本进行精确的描述。

实际的分类步骤,采用了显著性的检验,其结果是基于在目标到模型的距离分析上的统计测定。


分类新样本

当建立了一种类的模型时,并且假设类之间重叠度不大,那么新的样本就适合(映射)到各个模型上去。这家意味着,对于每个样本,所有变量的新值是使用打分计算的并且附加到模型上与实际值对比得到的。

接下来的剩余误差结合到从目标到模型的距离测量中。

分数也是用于建立样本到模型中心距离的测量的,被称作杠杆。

最后,目标到模型的juice和杠杆作用都会被作为决定样本类归属的标准。