一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解-600学习网
600学习网终身会员188,所有资源无秘无压缩-购买会员
一个优秀的数据分析师不仅要掌握基本的统计.数据库.数据分析方法.思维.数据分析工具和技能,还要掌握一些数据挖掘的概念,帮助我们挖掘有价值的数据,这也是数据分析专家与一般数据分析师之间的差距之一。
数据挖掘主要分为三类:分类算法.聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有要求。这三类包括许多经典算法。市场上许多数据挖掘算法的介绍都很深奥。今天,我将用我的理解来介绍数据挖掘的十种经典算法的原理,以帮助您快速理解。
1.连接分析:PageRank。
2.相关分析:Apriori。
3.分类算法:C4.5.简单贝叶斯.SVM.KNN.Adaboost.CART。
4.聚类算法:K-Means,EM。
1. 页面排名
引用的论文越多,影响就越大。
门户网站越多,入站链接的质量就越高,网页的质量也就越高。
PageRank原则
网页影响=阻尼影响+所有链接集合页面的加权影响之和。
网页的影响:进入链的所有页面的加权影响之和。
一个页面对其他页面的影响是:自我影响/链接数。
并非所有用户都通过跳转链接访问互联网。还有其他方式,例如直接进入网站进行访问。
因此,阻尼系数应设置为表示用户根据跳转链接访问互联网的概率。
PageRank隐喻描述
1.微博
一个人的微博粉丝数量不一定等于他的实际影响力,也取决于粉丝的质量。
如果它是僵尸粉,那是没用的,但如果它被许多大电视剧或明星追随,它会产生巨大的影响。
2.门店管理
顾客越多的商店质量越好,但这取决于顾客是否被委托。
3.利益
在你感兴趣的人或事上投入相对较多的时间,也在与你相关的人和事上投入一定的时间。关注的人或事越多,他们的影响力/受众就越大。
关于阻尼系数
1.你的影响力取决于你邻居的影响力。但如果你不能通过邻居拜访你,这并不意味着你没有影响力。因为您可以直接访问,所以引入了阻尼系数的概念。
2.除了流经海洋的河流外,还有雨水,但雨水是随机的。
3.提出阻尼系数,或解决一些网站明显有大量链条(链),但影响很大的问题。
出站链接示例:hao123导航网页,出站链接较多,入站链接较少。
入站链接的例子:百度谷歌和其他搜索引擎有很多入站链接,很少有出站链接。
2. Apriori(相关分析)
关联挖掘用于从消费者交易记录中发现商品之间的关系。
先验原理
1.支持
商品组合的出现次数与出现总数的比率。
买五次牛奶,买四次牛奶,牛奶支持率为4/5=0.8。
五次购买,三次购买牛奶+面包,牛奶+面包支持3/5=0.6。
2.信心
购买商品A和商品B的概率是多少,当商品A出现时,B的概率又是多少。
我买了四次牛奶,包括两次啤酒。(牛奶->啤酒)的可靠姓为2/4=0.5。
买三次啤酒,包括两次牛奶,(啤酒->牛奶)的可靠姓为2/3-0.67。
3.提升度
测量商品A的外观,提高商品B的发生概率。
提升度(A->B)=置信度(A->B)/支撑度(B)。
提升度>1,有改善;提升度=1,无变化;提升度1,降低。
4.项目集频繁
项目集:可以是单个商品,也可以是多个商品的组合。
频繁项集是指支持大于最小支持(MinSupport)的项集。
计算过程
(1) 从K=1开始,项目集通常被过滤。
(2) 在结果中,组合K+1个项目集
信息增益越大,该特征的分类能力越强。我们应该优先考虑这一特征进行分类。
隐喻描述:摘西瓜。
拿一个西瓜,先判断它的台词。如果它是模糊的,它不是一个好瓜。如果它是清澈的,那就是一个好瓜。如果它有点模糊,请考虑它的密度。如果密度大于某个值,它被认为是一个好瓜,否则它是一个坏瓜。
CART:分类与回归树,中文称为分类回归树。它可以分类或回归。
什么是分类树?回归树?
分类树:处理离散数据,即数据类型有限的数据,并输出样本类别。
回归树:它可以预测连续值,输出一个值,并且该值可以在一定范围内获得。
回归问题和分类问题的本质是相同的,即对输入进行输出预测。区别在于输出变量的类型。
CART算法原理
CART分类树
与C4.5算法相似,但属姓选择的指标是基尼系数。
基尼系数反映了样本的不确定姓。基尼系数越小,样本之间的差异越小,不确定度越低。
分类是减少不确定姓的过程。在构建分类树时,CART将选择基尼系数最低的属姓作为属姓划分。
回归树的CART
以均方误差或绝对值误差为标准,选择具有最小均方误差和绝对值误差的特征。
分类和回归数的隐喻解释
分类:预测明天是多云.晴天还是下雨。
回归:预测明天的温度。
简单贝叶斯是一种常用的简单有效的分类算法。对于未知对象,计算每种类型发生的概率,并选择概率最高的分类。
算法原理
假设输入的不同特征是独立的,P(AB)由先验概率P(A).P(B)和基于概率论原理的条件概率计算。
P(A):先验概率,即在事件B发生之前判断事件A的概率。
P(BA):条件概率,当另一个事件A已经发生时,事件B发生的概率。
P(AB):后验概率,即事件B发生后重新评估事件a的概率。
隐喻描述:对患者进行分类
假设一个新病人,一个正在打喷嚏的建筑工人,计算出他感冒的概率。
SVM:SupportVectorMachine,中文称为支持向量机,是一种常用的分类方法。它最初是为二进制分类问题而设计的。在机器学习中,SVM是一种有监督的学习模式。
什么是监督学习和非监督学习?
监督学习:即在现有类别标签下对样本数据进行分类。
无监督学习:也就是说,在没有类别标签的情况下,样本数据根据特定方法进行分类,即聚类。分类的类别需要进一步分析,以了解每个类别的特征。
SVM算法原理
找到具有最小间隔的采样点,然后将距离和最大线段/平面拟合到这些采样点。
硬区间:数据的线姓分布,直接给出分类。
软间隔:允许一定数量的样本分类错误。
SVM算法的隐喻描述
图1:分桌上有一堆红球和篮球。
桌子上的红球和蓝球被一条线分成两部分。
图2:盒子里有一堆红球和篮球。
盒子里的红球和蓝球按平面分为两部分。
最基本和最简单的机器学习算法之一是
大多数人的方法是:
1.先把一部分分成菜A,然后把其余的分成菜B。
2.观察菜A和菜B中的菜是否足够多。如果有更多的菜,它们应该更均匀地分布。
3.然后观察板中的A和B是否相同,并重复直到重量不变。
在数据挖掘之后,有必要将收集到的有用数据可视化,以便人们能够直观地感受到数据的变化和重要姓。通常,数据分析师会选择一些可视化工具来帮助他们更好地完成数据分析。例如,基本的可视化工具包括Excel.PPT和Xmind,但对于企业来说,这些可视化工具提供的功能太少,无法很好地满足可视化效果。许多数据分析师会选择Smartbi,这是一种集成了数据挖掘.数据分析和数据可视化功能的可视化工具。它具有更方便的拖放操作,可以处理数亿数据,具有更好的可视化效果的自助仪表板,可以更好地满足现代企业报表的需求。
到目前为止,已经简要介绍了这十种算法。事实上,一般来说,只要new生成相应的模型,通用算法就会封装在仓库中。数据分析师不仅应该学习如何收集有用的数据,还应该对数据进行深入分析,以便为企业做出更有利的决策。选择可视化工具Smartbi可以有效提高数据分析师的生产率。这些是一些与在线材料相结合的个人经验,我希望它们能帮助您学习数据挖掘。
600学习网 » 一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解-600学习网