思科认证考试CCIE网工企业基础设施EI路由交换理论lab在线培训
0 人在学
欢迎各位阅读本篇文章,本次课课家教育平台将为大家讲解八个进行数据挖掘时的最佳开源工具,大家一定要认真阅读本篇文章,因为本篇文章是纯干货~相信大家阅读完毕文章后,一定会有意想不到的收获的!
数据挖掘,又称为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程。其中一些应用包括市场细分 - 如识别客户从特定品牌购买特定产品的特征,欺诈检测 - 识别可能导致在线欺诈的交易模式等。在本文中,我们整理了进行数据挖掘的 8 个最佳开源工具。
1、Weka如下:
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
2、Rapid Miner如下:
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
3、Orange分析:
Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。
4、Knime分析:
KNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。
5、jHepWork如下:
jHepWork是一套功能完整的面向对象科学数据分析框架。 Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具,可以用来和二维三维的科学图形进行互动。
6、Apache Mahout:
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
7、ELKI如下:
ELKI(Environment for Developing KDD-Applications Supported by Index-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。可以用来寻找离群点。
8、Rattle分析:
Rattle(易于学习的 R 分析工具)提供数据的统计和可视化摘要,将数据转换成容易建模的形式,从数据中构建无监督和监督模型,以图形方式呈现模型的性能,并得出新的数据集。
知识分享:数据挖掘用途
数据挖掘能做以下七种不同事情(分析方法):
· 分类 (Classification)
· 估值(Estimation)
· 预言(Prediction)
· 聚集(Clustering)
· 描述和可视化(Description and Visualization)
· 复杂数据类型挖掘(Text, web ,图形图像,视频,音频等)
数据挖掘分类:
以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘.
·直接数据挖掘
目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。
·间接数据挖掘
目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。
分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘.
小结:相信最后大家阅读本篇文章后,一定学习到了不少知识吧?当然如果您还想要了解更多相关方面的详细内容的话,欢迎关注课课家教育平台,在课课家这个学习大家庭中,你一定会有意想不到的收获的!