怎么学习用 R 语言进行数据挖掘

2024-04-29

1. 怎么学习用 R 语言进行数据挖掘

  如果说数据挖掘是一门手艺,那么R语言就是工匠手里一种工具,要做出一件价值连城的艺术品需要先“利其器”,但更关键的是工匠能够“集百家之长,成一家之言“自成一派的创造力。

  正所谓”操千曲而后晓声,观千剑而后识器"。建议初学者先了解一些机器学习的基础理论以及典型的应用领域实例,定下自己想要研究的方向后与行业相结合,然后再学习工具的使用。

  R语言经典图书推荐:
  《R in Action-Data Analysis and Graphics with R》链接:R语言实战 (豆瓣)
  这本书从实用的统计研究角度,每一章节结合实际的例子讲解了R在创建数据集、绘制图形、数据管理、以及模型构建的使用方法,堪称经典。前两部分属于R基本功能介绍,第三部分以后才是精髓开始(包括了回归分析、方差分析、功效分析、广义线性模型、主成分和因子分析等统计方法详细的实例分析)。
  《数据之魅-基于开源工具的数据分析》链接:数据之魅 (豆瓣)
  作者是华盛顿大学理论物理学博士。这本书是数据分析系列著作的经典之一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。吃透以后就能够对整个数据挖掘的流程有一个全方位的了解。
转载

怎么学习用 R 语言进行数据挖掘

2. 怎么学习用 R 语言进行数据挖掘

首先R是一种专业性很强的统计语言,如果想学得快一些的话,基本的统计学知识要懂,不然很多东西会掌握的比较慢。

掌握基本语法和操作,推荐国内的已经翻译的比如《R语言实战》《R语言编程艺术》,这个过程中最好结合一些小例子来做一些分析的东西。如果需要可视化的话,强烈不推荐学习R本身的作图系统,实在是太不友好了.....还是用ggplot2吧。

掌握了上面的,就可以深入一些了,如果是做数据分析和可视化,推荐《ggplot2:数据分析与图形艺术》,这个才是作图的神器啊.....如果是空间分析相关的,推荐《Applied Spatial Data Analysis with R》,这个如果可以的话看英文版,而且要有地学的一些知识背景,中文版翻译的太次了,尽量不要看。数据挖掘机器学习之类的,可以看看比如《数据挖掘与R语言》、《机器学习——实用案例解析》,不过我觉得这几本书没上面的那几本好,但是可以大概看看是咋回事,最好还是看看专门的相关书籍,熟悉各种算法和流程,到时候搜索R的package,照着文档和例子搞定,不是特别难。

3. 怎么学习用 R 语言进行数据挖掘

  如果说数据挖掘是一门手艺,那么R语言就是工匠手里一种工具,要做出一件价值连城的艺术品需要先“利其器”,但更关键的是工匠能够“集百家之长,成一家之言“自成一派的创造力。

  正所谓”操千曲而后晓声,观千剑而后识器"。建议初学者先了解一些机器学习的基础理论以及典型的应用领域实例,定下自己想要研究的方向后与行业相结合,然后再学习工具的使用。

  R语言经典图书推荐:
  《R in Action-Data Analysis and Graphics with R》链接:R语言实战 (豆瓣)
  这本书从实用的统计研究角度,每一章节结合实际的例子讲解了R在创建数据集、绘制图形、数据管理、以及模型构建的使用方法,堪称经典。前两部分属于R基本功能介绍,第三部分以后才是精髓开始(包括了回归分析、方差分析、功效分析、广义线性模型、主成分和因子分析等统计方法详细的实例分析)。
  《数据之魅-基于开源工具的数据分析》链接:数据之魅 (豆瓣)
  作者是华盛顿大学理论物理学博士。这本书是数据分析系列著作的经典之一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。吃透以后就能够对整个数据挖掘的流程有一个全方位的了解。
转载
-

怎么学习用 R 语言进行数据挖掘

4. 怎么学习用 R 语言进行数据挖掘

数据挖掘的理论基础和R也没什么太大关系。如果明白方法了,用什么语言其实无所谓。不过R有几个包,可以提升效率和弥补R自身的不足,做大数据很有用。我就说说我每天要用的吧。

bigmemory:R的内存管理太烂了,因为很少给程序员管理的权限,这样一来操作系统懒加上R也懒导致常常读入大数据时内存瞬间用完,导致这个R session被强制退出。解决办法就是把常用的大数据提前放在共享内存里。

Rmpi,snow,multicore: 平行运算/多运程运算。 Rmpi最好多看看,是mpi在R里面的实现。这是平行运算的黄金标准。如果你要做大数据的模型,高能运算是必须的。

Rcpp:R与C++的接口。自带的.C和.F也很有用。毕竟R是高等语言,太慢了,基本的方程还是要用低等语言写。如果做统计模型,会有很多inference,这时必须要用低等语言写Log likelihood的方程。

DEoptim,quadqrog,linprog等等线性非线性优化:优化是统计少不了的技术。R里面好的优化包不是太慢就是太烂,你可以用GNU scientific library自己写优化器,或者买一个第三方的比如说IBM。不过很贵哦,

ggplot:不多说了,就是美丽的图片。。。

不是R的:hadoop。近几年,这都是处理大数据的必需品了。

有了以上工具我相信任何数据和统计问题都能解决了,不会被R自身的缺陷而陷入技术瓶颈。
-

5. 怎么学习用 R 语言进行数据挖掘

首先R是一种专业性很强的统计语言,如果想学得快一些的话,基本的统计学知识要懂,不然很多东西会掌握的比较慢。

掌握基本语法和操作,国内的已经翻译的比如《R语言实战》《R语言编程艺术》,这个过程中最好结合一些小例子来做一些分析的东西。如果需要可视化的话,强烈不学习R本身的作图系统,实在是太不友好了..还是用ggplot2吧。

掌握了上面的,就可以深入一些了,如果是做数据分析和可视化,《ggplot2:数据分析与图形艺术》,这个才是作图的神器啊..如果是空间分析相关的,《Applied Spatial Data Analysis with R》,这个如果可以的话看英文版,而且要有地学的一些知识背景,中文版翻译的太次了,尽量不要看。数据挖掘机器学习之类的,可以看看比如《数据挖掘与R语言》、《机器学习——实用案例解析》,不过我觉得这几本书没上面的那几本好,但是可以大概看看是咋回事,最好还是看看专门的相关书籍,熟悉各种算法和流程,到时候搜索R的package,照着文档和例子搞定,不是特别难。

怎么学习用 R 语言进行数据挖掘

6. 怎么学习用 R 语言进行数据挖掘

数据挖掘的理论基础和R也没什么太大关系。如果明白方法了,用什么语言其实无所谓。不过R有几个包,可以提升效率和弥补R自身的不足,做大数据很有用。我就说说我每天要用的吧。

bigmemory:R的内存管理太烂了,因为很少给程序员管理的权限,这样一来操作系统懒加上R也懒导致常常读入大数据时内存瞬间用完,导致这个R session被强制退出。解决办法就是把常用的大数据提前放在共享内存里。

Rmpi,snow,multicore: 平行运算/多运程运算。 Rmpi最好多看看,是mpi在R里面的实现。这是平行运算的黄金标准。如果你要做大数据的模型,高能运算是必须的。

Rcpp:R与C++的接口。自带的.C和.F也很有用。毕竟R是高等语言,太慢了,基本的方程还是要用低等语言写。如果做统计模型,会有很多inference,这时必须要用低等语言写Log likelihood的方程。

DEoptim,quadqrog,linprog等等线性非线性优化:优化是统计少不了的技术。R里面好的优化包不是太慢就是太烂,你可以用GNU scientific library自己写优化器,或者买一个第三方的比如说IBM。不过很贵哦,

ggplot:不多说了,就是美丽的图片。。。

不是R的:hadoop。近几年,这都是处理大数据的必需品了。

有了以上工具我相信任何数据和统计问题都能解决了,不会被R自身的缺陷而陷入技术瓶颈。

7. 怎么学习用R语言进行数据挖掘?

我不知道你的程度,几个建议:

1、数据挖掘导论这本书先看看,各种经典算法,Aprior、C4.5、决策树分类等等先弄明白;
2、学习R语言,可以通过例子来渗透这门语言的语法规则等,多用help命令,有个Rstudio软件辅助学习,界面比R友好,如果英文理解有困难,网上很多博客几乎对每一个语法规则都有涉及;
3、有一些有名的网站,如统计之都,可以多逛逛。

怎么学习用R语言进行数据挖掘?

8. 怎么学习用r语言进行数据挖掘

首先R是一种专业性很强的统计语言,如果想学得快一些的话,基本的统计学知识要懂,不然很多东西会掌握的比较慢。

掌握基本语法和操作,推荐国内的已经翻译的比如《R语言实战》《R语言编程艺术》,这个过程中最好结合一些小例子来做一些分析的东西。如果需要可视化的话,强烈不推荐学习R本身的作图系统,实在是太不友好了.....还是用ggplot2吧。

掌握了上面的,就可以深入一些了,如果是做数据分析和可视化,推荐《ggplot2:数据分析与图形艺术》,这个才是作图的神器啊.....如果是空间分析相关的,推荐《Applied Spatial Data Analysis with R》,这个如果可以的话看英文版,而且要有地学的一些知识背景,中文版翻译的太次了,尽量不要看。数据挖掘机器学习之类的,可以看看比如《数据挖掘与R语言》、《机器学习——实用案例解析》,不过我觉得这几本书没上面的那几本好,但是可以大概看看是咋回事,最好还是看看专门的相关书籍,熟悉各种算法和流程,到时候搜索R的package,照着文档和例子搞定,不是特别难。
-