试析IBM高性能计算机系统大故障电子期刊发表
期刊目录网计算机信息管理论文发表2013-12-05 11:49关注(1)
摘要:IBM(国际商业机器公司)或万国商业机器公司,简称IBM(International Business MachinesCorporation)。总公司在纽约州阿蒙克市,1911年创立于美国,是全球最大的信息技术和业务解决方案公司,目前拥有全球雇员 30多万人,业务遍及160多个国家和地区。
关键词:故障解决HPS,IBM,高性能计算机,电子期刊发表网
IBM高性能计算机系统承担中国气象局主要的天气气候业务科研模式运行,系统在2004年末安装以来,运行一直比较平稳。在整个系统中,数据交换是通过IBM HPS(High Performance Switch)网络实现的,通过SWITCH网络为用户的并行作业提供通信。
1 故障基本情况
2006年9月21日,科研分区的系统性能下降,用户作业的运算速度比较慢,检查发现HPS(High Performance Switch)[1]网络的通信状态大面积出现异常,影响了GPFS(General Parallel File System)[2]数据文件系统和作业管理软件L DLEVEL的正常运行,导致用户无法使用数据空间和正常提交用户作业,最终导致了用户无法使用科研分区;在SWITCH网络通信正常后,GPFS文件系统中的有些文件不能正常访问。
在确保业务可以稳定运行后,由于当时用户已无法使用科研分区,因此首先申请对科研分区进行停机维护,然后分析并解决故障,处理过程如下。
本篇论文发表在期刊《通信技术》上,杂志由信息产业部主管、中国电子科技集团第三十研究所主办。16开本,每月10日出版,国内外公开发行的月刊。杂志1967年创刊,是国内创办时间长、影响大的计算机专业媒体,2004版中文核心期刊。
(1)分析HPS网络通信数据,发现F45一S11和F46一S07的两块主板上的芯片内部通信不正常,决定更换这两块主板;但由于备件新损的原因,只有一块主板可用,只更换了F46一S07 SWITCH的主板。
(2)在重新加电启动完毕后,仍有大量的HPS网络不能通信,导致GPFS不能稳定工作,用户无法正常提交作业。
2 故障原因分析
2.1 控制信号传输过程
从图1可见,IBM 高性能计算机系统是通过硬件控制终端HMC(Hardware Management Console)对主机和SWITCH的硬件进行控制,通过HMC上的SNM (SWITCH Network Manager)软件管理HPS,在HMC上启动FNMD(Federation Network Manager Daemon)进程,实现对HPS网络的配置、初始化、监视、控制、恢复、分析和诊断。此功能与节点是否安装操作系统无关,因为这些指令直接由HMC发起,控制指令都是通过电源传输的,只要电源正常,就会响应执行,SWITCH的拓扑结构是在电源启动的过程中通过自检获得的。
2.2 SWITCH初始化实现的功能
在启动SWITCH之前,首先要确保HMC已经正常启动;在SWITCH 机柜加电后,由SSP(SWITCH Service Processor)控制SWITCH的加电过程,在每一个SWITCH芯片的寄存器中记录本地以及相邻芯片的机柜号、端口号等信息。
2.3 故障原因分析
GPFS文件系统不能正常读写主要是由于SWITCH网络通信不稳定,GPFS的通信频繁发生中断,所以GPFS的文件系统也会频繁异常上线或离线(mount或umount状态),使GPFS文件系统控制的有些硬盘上的NSD(Network Shared Disk)控制信息不一致,GPFS为了保证数据的安全性,系统自动对此NSD进行了隔离操作。
3 故障事件的分析和启发
从这次发生的故障情况来看,由于在系统本身设计和日常维护的过程中考虑了高可靠性和对于用户数据的一致性管理,因此在科研分区出现问题的情况下,并没有影响业务作业的正常运行,这是对系统高可靠性的一次检验;但同时通过这次故障事件,也发现了我们的许多不足,并且也为日常维护提供了一个经验和教训。
系统可靠性验证
由于在系统设计上考虑了用户文件系统高可用性的设计以及全局的用户环境一致性,发表职称论文 同时在日常维护工作中对用户文件系统都做了备份,因此对业务用户没有造成影响。
4 后续工作和建议
此次故障发生后,陆续完成和制定了一些工作计划。
(1)完成了业务分区电源微码的检查。察看了业务分区SWITCH的微码版本,发现也存在需要重新安装的警告提示,但是由于报错的机柜比较少,并没有对系统造成影响,目前已经完成对业务分区电源微码的统一刷新。
(2)制定了IBM 高性能计算机系统业务应急备份方案。当遇到紧急情况时,能够快速评估当前状况并进行处理。
5 结束语
此次故障虽然没有对我们的业务造成影响,但是通过此次故障情况,我们看到了我们还存在的许多不足,需要我们在以后的工作中加以改进。通过不断地分析和总结,维护好我们的系统,保持系统高效稳定的运行。
参考文献
[1] IBM,Inc.An Introduction to the New IBM F.server pS~‘ie8 High Performance SWITCH [EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1.
[2] IBM,Inc.General Parallel File System Administration and Pro.gramming Reference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm .clus—ter.gpfs.doc/gpfsbooks.htm1.
试析IBM高性能计算机系统大故障电子期刊发表相关论文:
- 测控技术测绘技术论文发表核心期刊
- 系统仿真技术杂志国家级期刊征收论文格式核心期刊
- 电力电子技术电力工程论文核心期刊
- 电气电子教学学报电子科学论文核心期刊
- 广东电力电力工程师职称论文核心期刊
- 工程设计学报机电一体化论文核心期刊
- 光谱学与光谱分析光学论文发表核心期刊
- 电源学报电子技术论文发表核心期刊
- 热力发电杂志最新工程师论文查询核心期刊
- 《计算机研究与发展》核心电子期刊方式核心期刊
- 《计算机研究与发展》核心电子期刊方式
- 《计算机技术与发展》核心电子期刊
- 《计算机时代》电子核心论文期刊
- 计算机周刊杂志是什么级别刊物
- 自动化与信息工程杂志广东省科学院主管刊物
- 中国机电工业杂志论文字体要求
- 信息通信技术杂志是国家级期刊吗
- 今日电子杂志2017年7期论文目录查询
- 当代通信杂志通信工程师期刊
- 电力工程技术江苏电力期刊
- oa开放访问是什么意思
- 亚太生物学期刊是sci吗
- isbn是核心期刊吗
- 英文期刊的卷号和期号怎么看
- 内分泌领域的sci杂志哪些容易中
- 法学英文期刊有哪些
- 3分左右的医学杂志
- 农业SCI期刊有哪些
- 林业SCI期刊有哪些
- 生命科学领域sci期刊有哪些
- sci共第一作者可以评高级职称吗
- 政工师中级职称晋升要求
- 评职称专利和软著哪个更有用
- 评职称的论文有时间限制吗
- 一级播音员职称破格申报什么标准
- 评职称需要几年的继续教育证书
- 河北认证的中级职称北京认可吗
- 评中级需要几个业绩
- 技师转评工程师需要什么材料
- 助理政工师晋升中级认可的刊物有哪些
- 分享英文降低重复率的几个技巧
- 论文清样后还能添加作者吗
- issn是国际标准书号吗
- 英文综述字数包括参考文献吗
- 论文见刊后才有doi吗
- agronomy-basel杂志是哪个国家的,怎么样
- 论文一审会检查哪些内容
- sci论文插图有哪些要求
- sci论文被拒后修改内容还能重投吗
- 中科院分区每年几月份更新
- 英文论文撰写常用的到哪些词汇
- 国际英文论文的格式要求
- 英文论文需要查重吗
- sci的审稿人有人数限制吗
- 哪些学报被ei收录
- 电力系统自动化是SCI期刊吗
- sci论文的索引时间和出版时间一样吗
- 英语论文摘要多少字合适
- 一篇sci四区能读博吗
- sci论文引言部分查重吗
- 出书对学历有要求吗
- 合作出书与自费出书的区别
- 副主编的第一第二第三位置区别讲解
- 副主编署名一般需要注意哪些问题
- 人教统编版和部编版的区别是什么
- 出版诗集有什么要求
- 教材主编与副主编有人数限制吗
- 详解香港书号申请流程
- 申请丛书书号需要多久
- 教材和著作评职称有什么区别
- 发明专利公示期是多久
- 发明专利的转让方式有哪些
- 发明专利的实质审查一般多久
- 发明专利查重吗
- 什么是发明专利号
- 发明专利的授权条件包括哪些
- 哪些专利符合发明专利
- 什么是pct专利
- 专利主要发明人评职可以加几分
- 专利第一发明人可以有几个