什么是数据挖掘？

2024-05-14

1. 什么是数据挖掘？

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘流程：
定义问题：清晰地定义出业务问题，确定数据挖掘的目的。
数据准备：数据准备包括：选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。
数据挖掘：根据数据功能的类型和和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘。
结果分析：对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

什么是数据挖掘？

2. 什么是数据挖掘？

1）首先，数据挖掘－Data Mining不是一个骗局，而是一种还处于发展中，已经投入部分投入实际生产实践的技术框架。DM之所以经常和知识发现概念相关联是因为知识发现（Knowledge Discovery）是DM的目标和产出（output）。随着信息化应用的普及，传统的交易性数据（Transaction），比如：你在超市购物，产生了一笔交易，这笔交易会在现有的数据库系统中存储下来，随着时间的累计，这种数据变得海量。面对这些海量数据，这其中是否存在一些可以更好帮助决策的东西。比如：什么产品的搭配拜访可能会提高销量，我超市的用户可能都是出于什么消费水平？。注意：我这里用到“可能”字眼，意味着决策需要用到历史数据的支持来降低未来决策的风险（提高可能性）。而实际上，比如：沃尔玛和一些大型金融机构使用数据挖掘的产品和工具都超过了二十年，而且产生了期望的效应，而国内电信、金融行业从2005年以后逐渐加大了相关的投入。因此，如果DM是一个骗局，那被忽悠的都是全球最顶尖的公司和最顶尖的IT管理人员。
2）数据（Data）-信息（information）-知识（Knowledge）是一个递进的关系。数据的电子化产生了信息，比如：我们可以通过SQL语句检索到我们要的信息，但是我们无法用简单的SQL语句找到我们需要的知识，比如：我想知道某种型号面包的销售是否存在季节性因素和扰动，这就需要专门的统计分析工具和算法，而在某些命题常规统计学方法不能奏效的时候，就可能需要用到一些更复杂的工具和算法，比如：随机过程，神经网络等。
3）数据挖掘的步骤一般可以分为：数据提取（ETL）－数据仓库－数据挖掘工具－知识发现。当然这些挖掘的结果很多时候是令人无法接受，或者不能理解的，但是DM提供的是基于某种算法下的或然性（可能性），还需要与具体的业务逻辑相结合，因此数据挖掘应用效果的核心不是工具和平台的先进，而是对现有企业的业务知识和市场战略把握、决策方法等相关联的事情。此类项目失败的风险远远高于普通IT项目的最大原因在于历史数据的不完整（早期系统设计上的缺陷等），实施队伍的不专业，业务知识梳理能力低下。其中最核心的可能在于实施此类项目对于人员的要求较高，而很多企业的IT部门，以及承当项目的公司显然不具备这样的团队。

希望可以帮你理解DM。

3. 数据挖掘是什么？

分类是在一群已经知道类别标号的样本中，训练一种分类器，让其能够对某种未知的样本进行分类。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集，通过分析由属性描述的数据库元组来构造模型。

数据挖掘是什么？

4. 数据挖掘是什么？

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘流程：
定义问题：清晰地定义出业务问题，确定数据挖掘的目的。
数据准备：数据准备包括：选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。
数据挖掘：根据数据功能的类型和和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘。
结果分析：对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。
数据挖掘的技术，可粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法，可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、CBR、遗传算法、贝叶斯信念网络等。神经网络方法，可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。数据库方法主要是基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

5. 什么是数据挖掘?

数据挖掘又译为资料探勘、数据采矿。是一种透过数理模式来分析企业内储存的大量资料，以找出不同的客户或市场划分，分析出消费者喜好和行为的方法，它是数据库知识发现中的一个步骤。


数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

什么是数据挖掘?

6. 什么是数据挖掘？

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。



数据挖掘对象
数据的类型可以是结构化的、半结构化的，甚至是异构型的。发现知识的方法可以是数学的、非数学的，也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
数据挖掘的对象可以是任何类型的数据源。可以是关系数据库，此类包含结构化数据的数据源；也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据，此类包含半结构化数据甚至异构性数据的数据源。
发现知识的方法可以是数字的、非数字的，也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

7. 什么是数据挖掘

数据挖掘（Data Mining）是指通过大量数据集进行分类的自动化过程，以通过数据分析来识别趋势和模式，建立关系来解决业务问题。换句话说，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

原则上讲，数据挖掘可以应用于任何类型的信息存储库及瞬态数据（如数据流），如数据库、数据仓库、数据集市、事务数据库、空间数据库（如地图等）、工程设计数据（如建筑设计等）、多媒体数据（文本、图像、视频、音频）、网络、数据流、时间序列数据库等。也正因如此，数据挖掘存在以下特点：
（1）数据集大且不完整数据挖掘所需要的数据集是很大的，只有数据集越大，得到的规律才能越贴近于正确的实际的规律，结果也才越准确。除此以外，数据往往都是不完整的。（2）不准确性数据挖掘存在不准确性，主要是由噪声数据造成的。比如在商业中用户可能会提供假数据；在工厂环境中，正常的数据往往会收到电磁或者是辐射干扰，而出现超出正常值的情况。这些不正常的绝对不可能出现的数据，就叫做噪声，它们会导致数据挖掘存在不准确性。（3）模糊的和随机的数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察，或者由于涉及到隐私信息无法获知到具体的一些内容，这个时候如果想要做相关的分析操作，就只能在大体上做一些分析，无法精确进行判断。而数据的随机性有两个解释，一个是获取的数据随机；我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习，那么一切的操作都属于是灰箱操作。

什么是数据挖掘

8. 什么是数据挖掘

1、什么是数据挖掘？
数据挖掘(Data Mining)是采用数学的、统计的、人工智能和神经网络等领域的科学方法，如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术，从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程。
数据挖掘综合了各个学科技术，有很多的功能，当前的主要功能如下： 
(1)、分类：按照分析对象的属性、特征，建立不同的组类来描述事物。例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。
(2)、聚类：识别出分析对内在的规则，按照这些规则把对象分成若干类。例如：将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。
(3)、关联规则：关联是某种事物发生时其他事物会发生的这样一种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。
(4)、预测：把握分析对象发展的规律，对未来的趋势做出预见。例如：对未来经济发展的判断。
(5)、偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。例如：在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减小以后经营的风险。
当然除了以上所列出的还有时间序列分析等一些其他的功能，需要注意的是：数据挖掘的各项功能不是独立存在的，在数据挖掘中互相联系，发挥作用。