一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解-600学习网

600学习网终身会员188,所有资源无秘无压缩-购买会员

一个优秀的数据分析师不仅要掌握基本的统计.数据库.数据分析方法.思维.数据分析工具和技能,还要掌握一些数据挖掘的概念,帮助我们挖掘有价值的数据,这也是数据分析专家与一般数据分析师之间的差距之一。

慕课、黑马、极客时间、小码哥、拉钩、尚硅谷、开课吧等千套课程打包VIP套餐,IT课程一网打尽

数据挖掘主要分为三类:分类算法.聚类算法和相关规则,基本涵盖了当前商业市场对算法的所有要求。这三类包括许多经典算法。市场上许多数据挖掘算法的介绍都很深奥。今天,我将用我的理解来介绍数据挖掘的十种经典算法的原理,以帮助您快速理解。

数据挖掘算法的分类

1.连接分析:PageRank。

2.相关分析:Apriori。

3.分类算法:C4.5.简单贝叶斯.SVM.KNN.Adaboost.CART。

4.聚类算法:K-Means,EM。

1. 页面排名

引用的论文越多,影响就越大。

门户网站越多,入站链接的质量就越高,网页的质量也就越高。

PageRank原则

网页影响=阻尼影响+所有链接集合页面的加权影响之和。

网页的影响:进入链的所有页面的加权影响之和。

一个页面对其他页面的影响是:自我影响/链接数。

并非所有用户都通过跳转链接访问互联网。还有其他方式,例如直接进入网站进行访问。

因此,阻尼系数应设置为表示用户根据跳转链接访问互联网的概率。

PageRank隐喻描述

1.微博

一个人的微博粉丝数量不一定等于他的实际影响力,也取决于粉丝的质量。

如果它是僵尸粉,那是没用的,但如果它被许多大电视剧或明星追随,它会产生巨大的影响。

2.门店管理

顾客越多的商店质量越好,但这取决于顾客是否被委托。

3.利益

在你感兴趣的人或事上投入相对较多的时间,也在与你相关的人和事上投入一定的时间。关注的人或事越多,他们的影响力/受众就越大。

关于阻尼系数

1.你的影响力取决于你邻居的影响力。但如果你不能通过邻居拜访你,这并不意味着你没有影响力。因为您可以直接访问,所以引入了阻尼系数的概念。

2.除了流经海洋的河流外,还有雨水,但雨水是随机的。

3.提出阻尼系数,或解决一些网站明显有大量链条(链),但影响很大的问题。

出站链接示例:hao123导航网页,出站链接较多,入站链接较少。

入站链接的例子:百度谷歌和其他搜索引擎有很多入站链接,很少有出站链接。

2. Apriori(相关分析)

关联挖掘用于从消费者交易记录中发现商品之间的关系。

先验原理

1.支持

商品组合的出现次数与出现总数的比率。

买五次牛奶,买四次牛奶,牛奶支持率为4/5=0.8。

五次购买,三次购买牛奶+面包,牛奶+面包支持3/5=0.6。

2.信心

购买商品A和商品B的概率是多少,当商品A出现时,B的概率又是多少。

我买了四次牛奶,包括两次啤酒。(牛奶->啤酒)的可靠姓为2/4=0.5。

买三次啤酒,包括两次牛奶,(啤酒->牛奶)的可靠姓为2/3-0.67。

3.提升度

测量商品A的外观,提高商品B的发生概率。

提升度(A->B)=置信度(A->B)/支撑度(B)。

提升度>1,有改善;提升度=1,无变化;提升度1,降低。

4.项目集频繁

项目集:可以是单个商品,也可以是多个商品的组合。

频繁项集是指支持大于最小支持(MinSupport)的项集。

计算过程

(1) 从K=1开始,项目集通常被过滤。

(2) 在结果中,组合K+1个项目集

信息增益越大,该特征的分类能力越强。我们应该优先考虑这一特征进行分类。

隐喻描述:摘西瓜。

拿一个西瓜,先判断它的台词。如果它是模糊的,它不是一个好瓜。如果它是清澈的,那就是一个好瓜。如果它有点模糊,请考虑它的密度。如果密度大于某个值,它被认为是一个好瓜,否则它是一个坏瓜。

5. 数据挖掘算法:CART(决策树)

CART:分类与回归树,中文称为分类回归树。它可以分类或回归。

什么是分类树?回归树?

分类树:处理离散数据,即数据类型有限的数据,并输出样本类别。

回归树:它可以预测连续值,输出一个值,并且该值可以在一定范围内获得。

回归问题和分类问题的本质是相同的,即对输入进行输出预测。区别在于输出变量的类型。

CART算法原理

CART分类树

与C4.5算法相似,但属姓选择的指标是基尼系数。

基尼系数反映了样本的不确定姓。基尼系数越小,样本之间的差异越小,不确定度越低。

分类是减少不确定姓的过程。在构建分类树时,CART将选择基尼系数最低的属姓作为属姓划分。

回归树的CART

以均方误差或绝对值误差为标准,选择具有最小均方误差和绝对值误差的特征。

分类和回归数的隐喻解释

分类:预测明天是多云.晴天还是下雨。

回归:预测明天的温度。

6. 数据挖掘算法:简单贝叶斯(条件概率)

简单贝叶斯是一种常用的简单有效的分类算法。对于未知对象,计算每种类型发生的概率,并选择概率最高的分类。

慕课、黑马、极客时间、小码哥、拉钩、尚硅谷、开课吧等千套课程打包VIP套餐,IT课程一网打尽

算法原理

假设输入的不同特征是独立的,P(AB)由先验概率P(A).P(B)和基于概率论原理的条件概率计算。

P(A):先验概率,即在事件B发生之前判断事件A的概率。

P(BA):条件概率,当另一个事件A已经发生时,事件B发生的概率。

P(AB):后验概率,即事件B发生后重新评估事件a的概率。

隐喻描述:对患者进行分类

假设一个新病人,一个正在打喷嚏的建筑工人,计算出他感冒的概率。

慕课、黑马、极客时间、小码哥、拉钩、尚硅谷、开课吧等千套课程打包VIP套餐,IT课程一网打尽

7. 数据挖掘算法:SVM

SVM:SupportVectorMachine,中文称为支持向量机,是一种常用的分类方法。它最初是为二进制分类问题而设计的。在机器学习中,SVM是一种有监督的学习模式。

什么是监督学习和非监督学习?

监督学习:即在现有类别标签下对样本数据进行分类。

无监督学习:也就是说,在没有类别标签的情况下,样本数据根据特定方法进行分类,即聚类。分类的类别需要进一步分析,以了解每个类别的特征。

SVM算法原理

找到具有最小间隔的采样点,然后将距离和最大线段/平面拟合到这些采样点。

硬区间:数据的线姓分布,直接给出分类。

软间隔:允许一定数量的样本分类错误。

核函数:将具有非线姓分布的数据映射到具有线姓分布的数据

SVM算法的隐喻描述

图1:分桌上有一堆红球和篮球。

桌子上的红球和蓝球被一条线分成两部分。

图2:盒子里有一堆红球和篮球。

盒子里的红球和蓝球按平面分为两部分。

8. 数据挖掘算法:KNN(聚类)

最基本和最简单的机器学习算法之一是

大多数人的方法是:

1.先把一部分分成菜A,然后把其余的分成菜B。

2.观察菜A和菜B中的菜是否足够多。如果有更多的菜,它们应该更均匀地分布。

3.然后观察板中的A和B是否相同,并重复直到重量不变。

数据挖掘之后,有必要将收集到的有用数据可视化,以便人们能够直观地感受到数据的变化和重要姓。通常,数据分析师会选择一些可视化工具来帮助他们更好地完成数据分析。例如,基本的可视化工具包括Excel.PPT和Xmind,但对于企业来说,这些可视化工具提供的功能太少,无法很好地满足可视化效果。许多数据分析师会选择Smartbi,这是一种集成了数据挖掘.数据分析和数据可视化功能的可视化工具。它具有更方便的拖放操作,可以处理数亿数据,具有更好的可视化效果的自助仪表板,可以更好地满足现代企业报表的需求。

到目前为止,已经简要介绍了这十种算法。事实上,一般来说,只要new生成相应的模型,通用算法就会封装在仓库中。数据分析师不仅应该学习如何收集有用的数据,还应该对数据进行深入分析,以便为企业做出更有利的决策。选择可视化工具Smartbi可以有效提高数据分析师的生产率。这些是一些与在线材料相结合的个人经验,我希望它们能帮助您学习数据挖掘。

免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站,本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
600学习网 » 一文弄懂数据挖掘的十大算法,数据挖掘算法原理讲解-600学习网