软件工程师职称论文R软件聚类分析中的应用
期刊目录网软件开发论文发表2013-08-13 09:53关注(1)
摘要:多元统计聚类方法已被广泛应用于自然科学和社会科学的各个领域,而在现实处理多元数据聚类分析中,离不开统计软件的支持;R软件由于其免费、开源、强大的统计分析及其完美的作图功能已得到越来越多人的关注与应用;本文结合实例介绍了R软件在多元统计系统分析中的应用。文章发表在《计算机光盘软件与应用》上,是软件工程师职称论文范文,供同行参考。
关键词:R软件;系统聚类分析;多元统计
引言
多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,其中最常用聚类分析方法,由于多元统计聚类分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。
在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS,等等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍R软件在多元统计聚类分析中的应用。
一、系统聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功的聚类分析为系统聚类法,系统聚类法的基本思想为先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其他类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。
系统聚类法的基本步骤:
1、计算n个样品两两间的距离。
2、构造n个类,每个类只包含一个样品。
3、合并距离最近的两类为一新类。
4、计算新类与各当前类的距离。
5、重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
6、画聚类谱系图。
7、决定类的个数和类。
系统聚类方法:1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。
二、基于R语言的系统聚类分析程序
R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。
R软件实现系统聚类的程序如下:
hclust(d,method="complete",members=NULL)
其中,d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法average、重心法centroid、中间距离法median、最长距离法complete、最短距离法single、离差平方和法ward等,默认是最长距离法complete。
三、应用举例
表1是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。(表1)
R语言程序如下:
>X<-read.delim("clipboard",header=T)
>row.names(X)<-c("济南","青岛","淄博","枣庄","东营","烟台","潍坊","济宁","泰安","威海","日照","莱芜","临沂","德州","聊城","滨州","菏泽")
>d<-dist(scale(X))
>hc1<-hclust(d,"single")#最短距离法
>hc2<-hclust(d,"complete")#最长距离法
>hc3<-hclust(d,"median")#中间距离法
>hc4<-hclust(d,"ward")#Ward法
>opar<-par(mfrow=c(2,2))
>plot(hc1,hang=-1);plot(hc2,hang=-1)
>plot(hc3,hang=-1);plot(hc4,hang=-1)
输出结果(图1)
结果分析
由图1可以看出,不同方法的分类大体一样,结合山东省具体实际情况,最长距离法分类效果较好。
在系统聚类分析中,利用R软件是最方便、最简单、最易学的,而且根据不同的情况,可以自己修改别人的程序,比较方便;可以在处理多元数据聚类分析中,利用R软件具有很大的优势。
主要参考文献:
[1]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.
[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.
[3]高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005.
[4]李卫东.应用多元统计分析[M].北京:北京大学出版社,2008.
软件工程职称论文发表须知:《计算机光盘软件与应用》由中国科学院主管、大恒电子音像出版社主办的国内外公开发行的综合性国家级学术期刊。本刊致力于创办以创新、准确、实用为特色,突出综述性、科学性、实用性,及时报道国内外计算机技术在科研、教学、应用方面的研究成果和发展动态,为国内计算机同行提供学术交流的平台,从事计算机、电子、通讯、教育方面学习或工作的人员均可向本刊投稿。
软件工程师职称论文R软件聚类分析中的应用相关论文:
上一篇:浅谈对职业学校计算机专业数据库教学
下一篇:新世纪财务软件产业的发展趋势和展望
- 测控技术测绘技术论文发表核心期刊
- 系统仿真技术杂志国家级期刊征收论文格式核心期刊
- 电力电子技术电力工程论文核心期刊
- 电气电子教学学报电子科学论文核心期刊
- 广东电力电力工程师职称论文核心期刊
- 工程设计学报机电一体化论文核心期刊
- 光谱学与光谱分析光学论文发表核心期刊
- 电源学报电子技术论文发表核心期刊
- 热力发电杂志最新工程师论文查询核心期刊
- 《计算机研究与发展》核心电子期刊方式核心期刊
- 《计算机研究与发展》核心电子期刊方式
- 《计算机技术与发展》核心电子期刊
- 《计算机时代》电子核心论文期刊
- 计算机周刊杂志是什么级别刊物
- 自动化与信息工程杂志广东省科学院主管刊物
- 中国机电工业杂志论文字体要求
- 信息通信技术杂志是国家级期刊吗
- 今日电子杂志2017年7期论文目录查询
- 当代通信杂志通信工程师期刊
- 电力工程技术江苏电力期刊
- oa开放访问是什么意思
- 亚太生物学期刊是sci吗
- isbn是核心期刊吗
- 英文期刊的卷号和期号怎么看
- 内分泌领域的sci杂志哪些容易中
- 法学英文期刊有哪些
- 3分左右的医学杂志
- 农业SCI期刊有哪些
- 林业SCI期刊有哪些
- 生命科学领域sci期刊有哪些
- sci共第一作者可以评高级职称吗
- 政工师中级职称晋升要求
- 评职称专利和软著哪个更有用
- 评职称的论文有时间限制吗
- 一级播音员职称破格申报什么标准
- 评职称需要几年的继续教育证书
- 河北认证的中级职称北京认可吗
- 评中级需要几个业绩
- 技师转评工程师需要什么材料
- 助理政工师晋升中级认可的刊物有哪些
- 分享英文降低重复率的几个技巧
- 论文清样后还能添加作者吗
- issn是国际标准书号吗
- 英文综述字数包括参考文献吗
- 论文见刊后才有doi吗
- agronomy-basel杂志是哪个国家的,怎么样
- 论文一审会检查哪些内容
- sci论文插图有哪些要求
- sci论文被拒后修改内容还能重投吗
- 中科院分区每年几月份更新
- 英文论文撰写常用的到哪些词汇
- 国际英文论文的格式要求
- 英文论文需要查重吗
- sci的审稿人有人数限制吗
- 哪些学报被ei收录
- 电力系统自动化是SCI期刊吗
- sci论文的索引时间和出版时间一样吗
- 英语论文摘要多少字合适
- 一篇sci四区能读博吗
- sci论文引言部分查重吗
- 出书对学历有要求吗
- 合作出书与自费出书的区别
- 副主编的第一第二第三位置区别讲解
- 副主编署名一般需要注意哪些问题
- 人教统编版和部编版的区别是什么
- 出版诗集有什么要求
- 教材主编与副主编有人数限制吗
- 详解香港书号申请流程
- 申请丛书书号需要多久
- 教材和著作评职称有什么区别
- 发明专利公示期是多久
- 发明专利的转让方式有哪些
- 发明专利的实质审查一般多久
- 发明专利查重吗
- 什么是发明专利号
- 发明专利的授权条件包括哪些
- 哪些专利符合发明专利
- 什么是pct专利
- 专利主要发明人评职可以加几分
- 专利第一发明人可以有几个