数据分析与挖掘的方法,数据分析与挖掘的基本流程

2022-04-30 08:13:18 私募资讯

　　1.大数据的一些概念　　

　　大数据是指在一定时间内无法用常规软件工具捕捉、管理和处理的数据集合。它是一种海量、高增长、多元化的信息资产，需要一种新的处理模式来拥有更强的决策力、洞察力和发现力以及流程优化能力。　　

　　大数据概念及常用算法介绍　　

　　一些使用日常大数据的平台包括hadoop和微软Azure，以及一些数据库软件平台，如ORACLE(甲骨文)和SQL Server。　　

　　日常大数据应用主要包括：SQL查询和传统报表分析。一些技术应用包括：数据挖掘，机器学习，深度学习，人工智能等。 　　

　　人工智能（Artificial Intelligence），的缩写是AI。它是研究和发展模拟、延伸和扩展人类智能的理论、方法、技术和应用系统的一门新技术科学。　　

　　人工智能是计算机科学的一个分支，它试图理解智能的本质，并产生一种新的智能机器，能够以类似于人类智能的方式做出反应。该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。人工智能可以模拟人的意识和思维的信息过程。人工智能不是人类的智能，但它可以像人类一样思考，并有可能超越人类的智能。　　

　　数据挖掘（Data Mining）,顾名思义，就是从海量数据中“挖掘”隐藏的信息。按照教材的说法，这里的数据是“海量的、不完整的、有噪声的、模糊的、随机的实际应用数据”，信息是指“隐含的、有规律的、事先未知的、但潜在有用的、最终可以理解的信息和知识”。在商业环境中，企业希望存储在数据库中的数据能够“说话”，支持决策。因此，数据挖掘更加面向应用。数据挖掘通常与计算机科学有关，利用统计学、联机分析处理、信息检索、机器学习、专家系统(依靠过去的经验规则)、模式识别等多种方法来达到上述目的。　　

　　机器学习（Machine Learning）是指利用某种算法引导计算机从已知数据中得出合适的模型，然后利用这个模型对新的情况做出判断的过程。机器学习的思想并不复杂，它只是对人类生活中学习过程的模拟。在整个过程中，最关键的是数据。任何通过数据训练学习算法的研究都属于机器学习，包括很多已经发展多年的技术，如线性回归、K-means(基于原型的目标函数聚类方法)、决策树(一种利用概率分析的图解法)、随机森林(Random Forest，一种利用概率分析的图解法)、PCA(主成分分析)、SVM(支持向量机)、ANN(人工神经网络)。　　

　　深度学习（Deep Learning）的概念源于对人工神经网络的研究。具有多个隐藏层的多层感知器是一种深度学习结构。深度学习通过结合底层特征来发现数据的分布式特征表示，形成更抽象的高层表示属性类别或特征。深度学习是机器学习研究的一个新领域，其动机在于建立和模拟人脑的神经网络进行分析学习，模仿人脑解释数据的机制，如图像、声音和文本。　　

　　机器学习是人工智能的一种实现，深度学习是　　

span style="color: #FF0000; --tt-darkmode-color: #FF0C00;">机器学习的一种研究方向

数据挖掘主要利用机器学习提供的技术来分析海量数据，利用数据库的技术来管理海量数据