先の5月16日(2007年)午後7時前、或る会社でシステムの保守点検を行っていたが、ふと、インターネットにつながらなくなったことに気づいた。社内LANは生きてる。でも、念のためルータを再起動。だめなので、回線終端装置なるものを見ると、リセットするには電源を切って1分間待ってから電源を入れなおすとある。そうしたが、だめ。やはり、NTTに電話して聞こうと電話番号を探していると、社長さんの「(料金が)引き落としなってなかったかな・・・」との言に、あぁ、自分もそんなことがあったっけ、そうかもしれない、と妙に納得したりして・・・
結局、これはNTT東日本の(IP電話も含む)ネットワークが機能していなかったためで翌日未明にようやく復旧したわけだけど、日経インターネット・ニュースの記事によると、その原因というのが、ルータを1台取り替えたときに、そのルータが経路計算に追いつかず(?)機能を停止し、それが2000台に波及したということらしい。2000台がダウンするのに3秒!
それにしても、こんなドミノ倒しみたいな現象は、起こってはならないし、起こらないように設計してあるのが普通だと思うのに、何故起こってしまったかということが問題だと思う。まさか、ルータは壊れないという幻想のもとに設計しているわけではないだろうに・・・ いや、ひょっとして、電力会社が原子力発電所を絶対安全ですといっているわりに臨界事故を起こしたりしているのと似ているだろうか。今回のは、或る意味、ネットワークのメルトダウンだから。そもそもインターネットは、一部のネットワークが不通になっても経路を変えて情報を伝えることができることが大きな利点になっているわけだけれど、その利点を確保するためのシステムが1台のルータの故障で崩壊するというのは皮肉なもの。
どうも、ダウンしたルータは、比較的古いものらしいという情報もあり、ネットワークが当初の設計より大幅に拡張された状態では、機能、特にメモリが足りなかったということなのかもしれない。しかし、そうならば事前にそれに対する予測と手当てができたはずともいえる。少なくとも、メルトダウンのような事態は引き起こさないための手当て。今回の事故は、物理的に起こったことよりも、システムの設計と運営に対する信頼が揺らいだことの問題がより重要な意味を持っている。