到这里,不经会疑惑:这些污染物是怎么产生的呢?随着经济的飞速发展和工业的快速崛起,以及私有车的普及率的大幅度提升,在人民生活水平提高的同时,伴随着也给大气造成了严重的负担。大气污染与废气的大量排出有密不可分的关系,比如居民日常的燃煤,就是二氧化硫的主要来源之一。拿汽车来说,汽油燃烧会产生尾气,而尾气中含有大量的些氮氧化物和碳氢化合物等污染物,排放到空气中着实给空气造成很严重的污染。 本文收集了2015年度我国共31个主要城市废气中的6个主要污染物的排放量的具体数据,运用Excel表格对数据进行处理后,运用聚类分析,主成分分析,因子分析和因子旋转等多元统计分析中的学习过知识对数据进行分析,并依照结果对各城市进行分类,排名与分析,最后提出一些自己的意见或建议。
1.聚类分析
1.1 聚类分析理论知识
1.1.1 定义: 聚类分析法是一种研究“物以类聚”的现代的统计分析方法,它的目的是把需要分类对象按照一定规则分成若干类,划分类的数目和标准不是事先设定好的,而是由具体的数据的特征来决定 。在同一类里面,对象之间是具有某种共同的特征的,而在不同类里面,对象之间的差别则比较大。
1.1.2 基本思想
首先把原有的n个样品分成n类,每个样品自成为一类,然后每次依次测量距离。把距离最小的两类合并为一类,合并之后再重新计算不同类之间的距离,次过程一直进行到最终把所有的样品都归成一类为止。
1.1.3 常用方法
(1)最短距离法:类和类之间的距离与两类最近样品间的距离是相等的。
(2)最长距离法:类和类之间的距离与两类最远样品之间的距离相等。
(3)类平均法:类和类之间的距离与各类别元素两两之间的平方距离的平均相等。
(4)中间距离法:最长距离法将类间距离夸大了,最小距离法则对类间距离低估了。介于两者间的方法就是中间距离法,类和类间的距离既不采用两类之间最近距离这种方法,也不采用最远距离法,而是采用介于二者之间的中间距离法。
(5)离差平方和法(Ward法):采用方差分析作为思想,若分类是正确的,同一类样品,类内间的离差平方和的数值应当较小,类和类之间的离差平方和数值应当较大。
K-means聚类法将k作为参数,把n个对象分成k个聚类,以使聚类内部具有比较高的相似度,而聚类之间的相似度比较低。K-means算法是根据聚类里的均值进行聚类划分的,具体算法如下:
(1)从n个数据对象里任取k个对象作为初始的簇中心。
(2)循环下面的流程(3)与(4),直到结果不再发生变化为止。
(3)根据每一个簇中的对象的均值,也就是中心对象,计算每一个对象和这些中心对象间的距离,并且根据最小距离的思想重新对相应的对象进行划分。
(4)重新计算每一个(有变化的)簇的均值。
城市污染物排放量的多元统计分析(2):http://www.chuibin.com/shuxue/lunwen_206521.html
