2013年4月30日 星期二

高鐵「重新開機」的省思


◎ 黃祈恩
上週四高鐵因為無法排除的故障,造成停擺四個小時,最後據稱只花幾分鐘重新開機就排除故障、重新營運,因此事後媒體撻伐,要高鐵檢討,甚至行政院長下令要懲處相關人員。
看到這樣的狀況,不免令人憂心。高鐵停止營運,需要檢討的是配套的疏運問題,但對於當機系統的處置,從軟體錯誤排除的角度而言,事實上是應該嘉許的。
高鐵除了是大眾運輸系統,同時也是攸關人命的軟體系統。動輒三百公里時速,任何差錯都是傷亡慘重的重大事故。歷史上,因為軟體系統的疏失,造成的損失不計其數,包括一九九六年因為一行指令的錯誤,造成歐洲太空總署的阿利安五號火箭發射失控,損失三百億台幣。二○○九年六月一日,法國航空空中巴士A330失事,造成兩百二十八人喪生,據調查是因為一連串的信號收送與處理不一致所造成。
在軟體的錯誤類型中,有所謂的海森堡不可測錯誤,導因於系統部署與偵錯有時序上的間距而無法偵測。這種問題導致的軟體失控,有可能重新開機後,因為不一致狀態的清除,而暫時恢復,但將來是否會再度被觸發,除非找到錯誤源頭,否則都將是無法斷定的未爆彈。
對於人命攸關的軟體系統,若只靠重新開機了事而暫時恢復、不去追查問題來源,才是不可取的做法。
(作者為交通大學資訊技術服務中心副教授)
用過電腦的人都知道
◎ 呂弘屏
看到「幾分鐘可解決的故障 高鐵竟停擺四小時」這則新聞,深深感受到記者對專業的不尊重。
使用過電腦或操作過資訊軟體的人應該很清楚,當系統出現問題時,第一件事情絕對不是重開機,因為,問題的出現表示有程式在特定的環境下出錯了。要找出問題,除了從原始的程式碼中尋找,還要從系統環境來找。若只是重開機直接把系統還原,如此一來,當發生相同問題的條件再度成立時,問題還是會再一次發生。
讓工程師花四個小時維修系統、找出問題,是為了維持高鐵列車的安全,以防止未來再度發生這樣的問題。如果重開機強制運轉,這些原本被延誤的三.五萬人,是很有可能因列車追撞而喪命的。
(作者為高雄大學應用數學系學生)

出處:自由時報/自由廣場
http://www.libertytimes.com.tw/2013/new/apr/30/today-o2.htm

沒有留言: