毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

分类算法在大数据时代的应用基于决策树的分类算法拓展研究

时间:2026-02-09 22:19来源:101193
介绍了主要三种决策树算法ID3、C4.5、CART,以及决策树的特征选择和剪枝算法,并进一步提出了决策树的集成方法——随机森林。最后我们针对以上提出的算法进行测试,检验各个算法的

摘    要:决策树作为数据挖掘中优秀的分类和回归算法,凭借其优秀的解释呢能力和拟合能力,深受各个领域的追捧。本篇论文主要介绍了三个决策树算法ID3、C4.5、CART,并引申出集成学习随机森林算法,最后利用泰坦尼克号乘客存活率的数据对这几种算法的分类效果进行测试,检验各个算法的鲁棒性和泛化能力。

    关键词:决策树;ID3;C4.5;CART;信息增益;基尼指数;随机森林; 

Abstract:As an excellent classification and regression algorithm in data mining, decision tree is highly sought after by various fields because of its excellent ability of interpretation and fitting ability.This paper mainly introduces three decision tree algorithms ID3, C4.5, CART, and deduce the ensemble learning random forest algorithm.Finally, the Titanic passenger survival rate data was used to test the classification effect of these algorithms, and the robustness and generalization ability of each algorithm were tested.

Keyword: decision tree;ID3;C4.5;CART;information gain;  index;random forest

目录

1 引言... 5

1.1 分类问题.5

1.2 决策树算法的概念与优势.5

2 相关工作6

2.1 决策树的基本方法 6

2.1.1 特征的选取. 6

2.1.2 决策树的生成..8

2.1.3 决策树的剪枝..9

2.2 随机森林...10

2.2.1 随机森林简介10

2.2.2 随机森林的建立10

2.2.3 随机森林的优势10

3 案例分析. 11

3.1 实验设计...11

3.2 实验步骤...12

3.2.1 缺失值处理... 12

3.3.2 数据标准化... 12

3.3.3 文本提取... 13

3.3 实验结果分析.. 13

3.3.1 评价标准13

3.3.2 评价结果14

4 结论. 15

5 参考文献. 16

6 致谢. 17

1  引言

1.1 分类问题

分类问题是数据挖掘中监督学习一个重要的研究方向。在分类问题中,输出的变量个数有限的,输入的训练数据集可以是离散或者连续的。分类问题的目标是产生一个分类器,这个分类器是通过原始训练数据集学习得到的。我们可以认为它是一个用来分类模型(例如决策树模型)或者分类判别函数(例如朴素贝叶斯算法模型)。我们把预测数据输入分类器进行预测的过程,称为分类过程,且把所有可能输出的结果称为类。分类的类别大于两个时,称为多分类问题;类别等于两个时,称为二分类问题[1]。

学习过程与分类过程是大部分分类问题要经历的两个阶段。学习过程指用已有的训练数据并结合某些分类算法构成一个分类器的过程。分类过程是指用已生成的分类器对预测数据进行分类。图1.1就详细描绘了分类问题。其中 是训练数据集, 或 是由训练数据学习生成的分类器, 是要预测的数据, 是预测出来的类[2]。

图1.1  分类问题

1.2 决策树算法的概念与优势

随着互联网的普及,我们已经进入了大数据的时代。在这些大量的数据中,我们可以运用数据挖掘算法得到其中的商业价值。决策树无论在工业届还是学术界都是十分常见的分类与回归算法,本文主要介绍分类决策树模型;

分类决策树模型是一种树状分类算法。决策树内有许多节点,这其中又会把这些节点分为两种类型——内部结点和叶节点。叶节点代表数据中的某个类别,内部节点代表数据中的某种特征和属性。

我们其实能够把决策树看作一个由许许多多个if-then所构成的整体[3]。决策树的根节点到叶节点的整一条路线就对应着一个完整的规律,这条路线上的内部结点规定了分割特征的依据,叶节点对应着最后实例所分到的类,其中内部结点作为分割特征的依据,要求特征的属性值必须完整且互斥。这就是说,每一个实例都能够被其中一条路线规律所涵盖,即实例中的每一个特征都能够满足路线所要求的规律,并且这条路线是唯一的。图1.2是一个决策树的示意图。 分类算法在大数据时代的应用基于决策树的分类算法拓展研究:http://www.chuibin.com/jisuanji/lunwen_206592.html

------分隔线----------------------------
推荐内容