很多事实证明,利用大数据可以获取App的巨大商业价值,正是有了这些大数据,企业运营者才能参考这些数据,并以之为起点,从大数据中挖掘出更多的“机会”。但要抓住大数据的机会并从中获取商业价值,需要建立在具有先进分析方法的基础上。
大数据分析方法,通常有以下几种。
(1)可视化分析
数据的可视化分析,是指将数据加以收集、筛选、分析、归纳、组合,通过不同的展现方式提供给用户,让其发现不同数据之间的关联信息。可视化分析最大的特点就是直观,这个特点更有利于用户接受,使复杂的数据如同看图说话一样简单明了。
大数据分析的特征:
①实时性:数据可视化分析适应了大数据时代数据爆炸式增长的需求,更新速度快、周期短,紧随市场形势变化。
②简单操作:数据可视化快速开发、易于操作,同时也便于用户的理解。
③展现方式多样化:数据可视化具有更丰富的展现方式,能充分满足数据展现的多维度要求。
④多种数据集成支持方式:数据的来源不仅仅局限于数据库,还可以依赖于数据可视化工具,互联网协作、数据仓库、文本等多种方式。
(2)数据挖掘算法
数据挖掘是大数据分析的理论核心,因此,进行数据分析离不开数据挖掘算法。所谓的数据挖掘算法,是指根据数据创建、数据挖掘模型进行计算的一组方法,算法有很多种,各种算法都是基于不同的数据类型和模式。
这种方法能更加科学地呈现出数据本身的特点,深入数据内部,挖掘出公认的价值。数据挖掘比较常用的有六大算法,分别如下。
①C4.5
这是一种决策树算法(由于这种决策分支画成图形很像一棵树的树干,故称决策树),这种方法是需要每次选择一个好的特征以及分裂点作为当前节点的分类条件。
这种方法是ID3的改进算法,ID3选择属性用的是子树的信息增益,而C4.5用的是信息增益率,所以基本上了解了一半决策树构造方法就能构造决
策树。
②CART
CART也是一种决策树算法,相对于上面有条件实现一个节点下面有多个子树的多元分类,CART只是分为两个子树,这样实现起来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。
③K-Means
K-Means是一种使用最广泛的聚类方法,算法很简单。
a.首先,从n个数据对象任意选择k个对象作为初始聚类中心。
b.对于所剩下的其他对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类。
c.然后计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)。
d.不断重复这一过程,直到标准测度函数开始收敛为止。值得注意的是,这种方法一般采用均方差作为标准测度函数,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
④Apriori
这种算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,即是通过支持度和置信度两个量来工作。现已经被广泛应用于商业、网络安全等各个领域。
具体的算法如下。
a.第一步,首先找出所有的频繁项集,这些项集出现的频繁性至少和预定义的最小支持度一样。
b.第二步,然后由频集产生强关联规则(这些规则必须满足最小支持度和最小可信度)。
c.再使用第一步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项(一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才能被留下来)。
在这个过程中,可通过频繁项集的一些规律(频繁项集的子集必定是频繁项集)进行剪枝,过滤掉非频繁项集,来减少计算复杂度。
⑤GSP
全称为Generalized Sequential Pattern(广义序贯模式),是一种序列挖掘算法。有点类似于Apriori算法,采用冗余候选模式的剪除策略和特殊的数据结构——哈希树来实现候选模式的快速访存。
具体的算法如下。
a.扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集。
b.根据长度为i的种子集Li,通过连接操作和修剪操作生成长度为i+1的候选序列模式Ci+1。
C.然后扫描序列数据库,计算每个候选序列模式的支持度,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集。
d.重复第二步,直到没有新的序列模式或新的候选序列模式产生为止。产生候选序列模式主要分两步:
a.连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1与s2进行连接,即将s2的最后一个项目添加到s1中。
b.修切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。
⑥Adaboost
这个不能说是一种算法,应该是一种方法,因为它可以建立在任何一种分类算法上,包括决策树、NB、SVM等。
Adaboost是一种迭代算法,其核心思想是针对同一个训练集的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
其算法通过改变数据分布来实现,根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用Adaboost分类器可以排除一些不必要的训练数据,并将重点放在关键的训练数据上面。
(3)预测性分析
大数据预测分析(Big Data Predictive Analytics)是大数据分析中主要的一环。同时,这也是大数据分析中一个极端困难的任务,实施成功的预测分析非常困难,并非普通的分析人士所能完成的。做好大数据的预测性分析,需要具备以下四个条件。
以上四种方法是大数据分析最基本的方法,运营者可根据数据类型、数据特点以及实际需求进行有针对性的选择,从而对大数据进行更加深入的、更加专业的分析。
大数据的分析方法的分享到这里,希望能给您的工作带来帮助,谢谢关注,博纳网络编辑整理。