数据分析与挖掘的方法,数据分析与挖掘的基本流程

  

  1.大数据的一些概念   

  

  大数据是指在一定时间内无法用常规软件工具捕捉、管理和处理的数据集合。它是一种海量、高增长、多元化的信息资产,需要一种新的处理模式来拥有更强的决策力、洞察力和发现力以及流程优化能力。   

  

  大数据概念及常用算法介绍   

  

  一些使用日常大数据的平台包括hadoop和微软Azure,以及一些数据库软件平台,如ORACLE(甲骨文)和SQL Server。   

  

  日常大数据应用主要包括:SQL查询和传统报表分析。一些技术应用包括:数据挖掘,机器学习,深度学习,人工智能等。   

  

  人工智能(Artificial Intelligence),的缩写是AI。它是研究和发展模拟、延伸和扩展人类智能的理论、方法、技术和应用系统的一门新技术科学。   

  

  人工智能是计算机科学的一个分支,它试图理解智能的本质,并产生一种新的智能机器,能够以类似于人类智能的方式做出反应。该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。人工智能可以模拟人的意识和思维的信息过程。人工智能不是人类的智能,但它可以像人类一样思考,并有可能超越人类的智能。   

  

  数据挖掘(Data Mining),顾名思义,就是从海量数据中“挖掘”隐藏的信息。按照教材的说法,这里的数据是“海量的、不完整的、有噪声的、模糊的、随机的实际应用数据”,信息是指“隐含的、有规律的、事先未知的、但潜在有用的、最终可以理解的信息和知识”。在商业环境中,企业希望存储在数据库中的数据能够“说话”,支持决策。因此,数据挖掘更加面向应用。数据挖掘通常与计算机科学有关,利用统计学、联机分析处理、信息检索、机器学习、专家系统(依靠过去的经验规则)、模式识别等多种方法来达到上述目的。   

  

  机器学习(Machine Learning)是指利用某种算法引导计算机从已知数据中得出合适的模型,然后利用这个模型对新的情况做出判断的过程。机器学习的思想并不复杂,它只是对人类生活中学习过程的模拟。在整个过程中,最关键的是数据。任何通过数据训练学习算法的研究都属于机器学习,包括很多已经发展多年的技术,如线性回归、K-means(基于原型的目标函数聚类方法)、决策树(一种利用概率分析的图解法)、随机森林(Random Forest,一种利用概率分析的图解法)、PCA(主成分分析)、SVM(支持向量机)、ANN(人工神经网络)。   

  

  深度学习(Deep Learning)的概念源于对人工神经网络的研究。具有多个隐藏层的多层感知器是一种深度学习结构。深度学习通过结合底层特征来发现数据的分布式特征表示,形成更抽象的高层表示属性类别或特征。深度学习是机器学习研究的一个新领域,其动机在于建立和模拟人脑的神经网络进行分析学习,模仿人脑解释数据的机制,如图像、声音和文本。   

  

  机器学习是人工智能的一种实现,深度学习是   

span style="color: #FF0000; --tt-darkmode-color: #FF0C00;">机器学习的一种研究方向

数据挖掘主要利用机器学习提供的技术来分析海量数据,利用数据库的技术来管理海量数据

大数据概念及常用算法介绍

02.常用算法介绍


大数据概念及常用算法介绍

单个样本


我们可以根据单独样本,描述一个样本特征的向量。以此类推,针对多个群体,就会得出一个样本集。

小明:【180,80,59,87,70,120,4.72,5】

小李:【162,75,58,80,80,160,6.1,5.9】

...........


然后我们进行向量距离计算,

计算公式有欧式距离,曼哈顿距离,切比雪夫距离,马氏距离......

这里我们以欧式距离为例。

欧式距离 :欧几里得度量(educlidean metric),指在m维空间中两点之间的真实距离,或者向量的自然长度,即该点到原点的距离。



大数据概念及常用算法介绍

X=[180,80,59,87,70,120,4.72,5]

Y=[162,75,58,80,80,160,6.1,5.9]


大数据概念及常用算法介绍

D(x,y)

通过上式,我们就可以算出具体数值。

接下来介绍三个概念:聚类、分类 、线性回归。

聚类(无监督):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

简而言之:面对一堆样本,不知道可以有几个类,也不知道每个类是什么,需要跑出结果后,总结每个类的特征。


大数据概念及常用算法介绍

A


大数据概念及常用算法介绍



大数据概念及常用算法介绍

C

聚类-Kmeans

1、在A中,2个红色的点分别代表深浅两种颜色的样本点所在各自群的中心点。

2、不考虑现在分群情况,分别计算各个样本点到2个红色中心点的距离,将距离相似的样本点形成一个新群;如B所示

3、计算C中2个新群的中心点(图中红色的点)。

4、如果C中新的中心点与之前A中的中心点相比较变化极小,则迭代结束;否则返回第1步。

分类(有监督):明确知道要分几类。由带标签的训练集“教”会计算机什么样的样本属于什么类,然后输入不带标签的“测试集”测试“教育成果”。


大数据概念及常用算法介绍


大数据概念及常用算法介绍

分类算法示意图


分类-KNN(K近邻)

所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。俗话说:近朱者赤近墨者黑。

KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

K值若较小,这里取内圈,红色三角占2/3,则绿色的未知物被判断为红色三角;

K值若较大,这里取外圈,蓝色方块占3/5,则绿色未知物被判断为蓝色方块。

模型评价指标:准确率,精度,F值

查准率(Precision)=(检索出的相关信息量/检索出的信息总量)*100%
查全率(Recall)=(检索出的相关信息量/系统中的相关信息总量)*100%
F值=((2*P*R)/(P+R)) *100%

线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。


大数据概念及常用算法介绍

线性回归方程示意图

相关文章