工控机磁盘工作故障的现象描述与解决方法

  仪器信息网 ·  2010-08-08 19:26  ·  48591 次点击
一、引言:
随着工业与计算机的快速发展,在自动化程度越来越高的今天,计算机也应用到自动化控制系统的方方面面。工业控制计算机(以下简称工控机)的安全也显得尤为重要。工控机与普通计算机的技术原理相同,组成结构也差不多,只是在工控机强调的是其工作稳定性。工控机一般工作在相对恶劣的环境下工作的,对环境温度、湿度、供及电压、平稳性、通风性能等要求比较高,但工作环境往往达不到要求,工控机也容易发生故障,部分硬件出现问题还能及时更换,一旦磁盘发生损坏,会造成大量记录数据丢失,控制软件破坏,短时间无法修复,造成被控参数控制不稳,往往带来巨大的经济损失。
二、故障现象描述:
工控机长时间运行后,(长时间指:包括连续工作一个标准月30天/24小时工作制及以上的时间),机箱内积集大量灰尘,机箱温度较高。通常在不关机的情况下一切工作正常,一旦因电力供应不足或需要紧急停机时,控制系统容易出现磁盘无法启动、系统无法加载、长时间处于登陆画面等故障。
三、故障分析及排除方法:
引起磁盘故障的原因非常多,我们在这里大概的分为磁盘本身的质量问题和工作环境引起的故障问题。
磁盘本身的质量问题,我们无法深入考究,只有在开始做控制系统时,选择购买质量、品牌较好硬盘,也可以利用Scandisk、NortonDisk
Doctor等软件进行磁盘表面缺陷检测。假如我们能够预知硬盘的质量和健康状态,这将为我们选择硬盘和备份重要数据赢得时间。笔者在网上发现一款名为DriveHealth软件,可以检测硬盘的使用寿命,可以帮助大家提前得知硬盘健康状态。
工作环境引起的故障问题,常见的有下面几个方面:
1、工控机工作时间长。由于正常生产的需要,部分工厂的工业控制系统需要长时间工作,给工控机操作系统带来巨大考验。据微软的操作系统运行时间报告中表明,微软声称其Windows
2000后的操作系统可以支持长时间工作,但从实际运行看,运行时间超过一周后,磁盘在庞大数据交换过程中,会积累大量的数据碎片,容易造成磁盘逻辑坏道、读写错误及系统运行和启动变慢。所以工控机在生产允许的情况下,可定时进行重启工控机和磁盘碎片整理,以减少因长时间工作导致的磁盘错误。重启时间可按工控机处理数据量的大小和生产情况而定,它不是硬性的,需要读者慢慢摸索。从笔者的实际经验来看,一个标准月(30天)重启和整理一次工控机可以减少磁盘错误的机率。
2、工控机内部温度过高。在需长时间高温运行的环境中,计算机各元件极易发生老化、硬盘故障的频率也较之升高。这就需要工厂的自动化系统维护人员在日常巡检中,密切关注机箱温度,尽量使工控机的温度保持在10--30摄氏度之间,过高、过低的温度都不适宜硬盘的保护,如果机箱温度达到30摄氏度,内部硬盘的温度会达到40度或更高。我们可以简单DIR一下自己的工控机,以达到降低环境温度的作用。一、更换大功率CPU、硬盘风扇(硬盘风扇要注意固定,不宜安装在硬盘固件架上,以防因风扇转动带来硬盘震动)加快散热;二、在机箱内部加装向机箱外抽风的风扇,增加空气对流;三、在放置工控机的机柜上,安装小型轴流风机;四、在控制室加装空调,以降低空间温度。
3、环境湿度不适宜。工控机主要是由众多电子元件的集成电路构成,其绝缘性能跟环境湿度有很大关系。湿度过大,容易造成电路板短路而烧毁;湿度过小,容易产生静电,也会击穿部分电子元件。因此,湿度过大、过小,都会给工控机带来潜在的威胁。静电防护问题上要求我们工控机上必须要有良好的仪表接地。值得说明的是,工控机接地极不同与土建上的防雷接地,接地极选址应距控制室处三米远,在室外的地坪下1700mm处用∮20镀锌角钢作垂直接地极,接地数量满足接地电阻小于1欧姆(回填时应用摇表测试),再采用40*40*4镀锌扁钢与接地体可靠焊接(每个焊接点还要做仔细的防锈处理),分至建筑物内换接25mm铜电缆至系统地端子和工控机接地点。这样可以有效的减少静电带来的危害。
4、地面震感大。很多工厂生产中需要电机产生拖动、震动等物理性位移动作,不仅带来巨大的噪音,机器工作时带来的震动会给工控机磁盘、光驱、软驱带来巨大的损害。磁盘生产的工艺越来越高,现行转速已达到7200转每秒乃至更高。在自动化控制系统中的大量数据交换中,长时间、高速度运转的磁盘,容易因磁盘震动,导致磁盘读写能力下降,磁头定位缓慢,甚至造成磁盘损坏;因此减少工控机环境震感,有利于保护磁盘。我们可以在工程设计时,尽可能的让工控机远离震源大的工作现场;如果工作地点无法更改,我们还可以在工控机柜、箱体下垫置海绵、可缓冲性物体以减小震动带来的危害。
5、空气中的可吸入颗粒物多。很多工厂的原料大多需要粉料进行加工,加上外界空气流动大、沙尘多,工控机内容易集积大量粘糊状积尘,造成工控机内局部温度过高,带来硬件损坏。这种情况多发于CPU、电源、硬盘、显卡等散热风扇周围。积尘较轻的地方,在正常生产允许的情况下,可以采用定时吹尘。积尘较严重的地方,可以工控机箱透风处安置滤尘纱布,定期清理。
6、供电电压波动大、易停电。工业和生活快速的发展,对电的需求量也日益增大,很多地区有电力供应不足、电压不稳、易停电的情况发生。电压不稳和突然停电,造成系统频繁重启,系统文件也容易因此发生丢失而无法正常启动;正在执行读写动作的磁头,有时会因为停电造成磁头回位不准带来工控机磁盘故障。因此工控机工作环境电源的稳定关系到工控机工作正常与否。我们可以采用稳压电源和UPS不间断电源进行保护,具体设备选型,要依负载功率大小、需保持工作时间多少来定。
四、故障救急策略:
很多时候,我们的工控人员做了很多保护工作,仍然有工控机磁盘发生故障的情况,下面我们就与读者探讨一下如何在发生故障前采取补救措施。建议读者先学会使用GHOST(著名的磁盘克隆软件)软件,对象版本尽可能最新,这将有助于下列方案的实施。
无需资金投入方案:GHOST克隆镜像。
方案前提:仅仅系统盘出现故障,系统盘可以被FORMAT软件正常格式化。(笔者曾遇到两次无法正常用FORMAT软件格式化系统盘,主从盘方式下,访问坏磁盘的系统盘时,提示参数错误,采用低格后恢复)
方案材料:GHOST软件、DOS系统引导盘(可光盘、软件、U盘)
方案实施:磁盘故障大多发生在系统盘(C盘),在自动化系统正式投入运行后,首先利用GHOST软件,对系统盘进行镜像,将镜像文件(*.GHO)放至FAT32磁盘格式下进行备份(因为单磁盘情况下,对系统盘进行GHOST恢复,一般在DOS下进行,DOS只能运行在FAT32、FAT16等磁盘格式下,在NTFS的分盘格式下是不能被运行的。),一旦系统盘发生故障,最快的方法可将系统盘格式化掉,利用GHOST软件可在5分钟左右将原镜像好的文件恢复到系统盘。
方案结论:无需设备投入,无需资金花销;恢复速度快。此方案只能针对于操作系统破坏而非磁盘发生物理性损坏的情况下采用;一旦磁盘物理损坏,此方案将无法进行。这也可推广至整个磁盘镜像。
经济型方案:克隆双硬盘备份+GHOST镜像
方案前提:工控机磁盘故障(无论是系统故障还是磁盘物理性损坏)
方案材料:目标工控机内同型号磁盘一块、GHOST软件、DOS系统引导盘(可光盘、软件、USB盘)
方案实施:在工控机系统投入运行之前,利用GHOST软件先将存有控制系统磁盘的系统盘(C盘)镜像至该磁盘的非系统盘FAT32磁盘格式分区下,再将其整个硬盘内容完整克隆至同型号备用磁盘内。一旦出现操作系统损坏,可将操作系统镜像文件恢复;如果发生整个磁盘故障,可将坏磁盘拆除,换上先向备份好同样内容的备用硬盘即可。
方案结论:只需投入一块磁盘的资金(约400-800元人民币之间,视磁盘大小、厂商的不同)、更换容易、恢复速度快、可排除所有磁盘问题。
安全性投入方案(经济型):采用Windows2000双硬盘RAID1或三硬盘RAID5方式的软件磁盘阵列
方案前提:此方案的实施时间,最好在工控机投入运行之前
方案材料:Windows2000系统盘或更高版本、磁盘两块(型号相同为宜)
方案实施:首先安装Windows2000系统或更高版本(因为微软在Windows
NT后对磁盘阵列比较好),启动磁盘阵列功能支持。磁盘阵列方式能在工控机运行时的写操作,同时向两块磁盘写入相同的内容,假如两块磁盘有一块发生故障时,另一块磁盘因为是同时写入的相同内容,能无扰的切换正常工作状态。也就是说,磁盘阵列方式下的两块硬盘中只要有一块磁盘没有损坏,重要数据就不会丢失。事后可再更换或维修坏磁盘,最大好处就是不会影响到生产数据的丢失,更换速度也很快。
方案结论:投入较小,安全性高,稳定性跟系统安装设置好坏有关、但技术初学者不易掌握。
安全性投入方案(稳定型):采用低端服务器硬件磁盘阵列方式(面对技术要求低、稳定生产高、数据相当重要的地方使用)
方案材料:支持硬件磁盘阵列功能的低端服务器一台约2万5千元人民币左右
方案实施:因为是采用硬件方式的磁盘阵列,所有外界对其干扰低,故障发生率低。在发生磁盘故障时,只需对坏硬盘进行拆除,补充相同型号新硬盘即可。具体实施办法,详情请咨询低端服务器提供商。
方案结论:投入相对较大、安全性高、稳定性好、技术要求低。
五、结束语:
工控机磁盘故障带来的危害不言而喻,保证它的安全是我们工控人员应该关注的问题,只有我们事先做好详细的防护措施,工控机才能稳定、高效的运行。笔者在实际工作采用上述办法,有效避免了工控机磁盘故障,能将故障的修复时间由原来的几个小时,缩短为几分钟,为正常生产提供保障。笔者水平有限,差错与不足的地方还望读者不啬指正。

0 条回复

暂无讨论,说说你的看法吧!

 回复

你需要  登录  或  注册  后参与讨论!