放射線による回路の誤動作のメカニズムはこの辺にして、SELSE 3での注目論文の紹介に移ろう。今回のSELSE 3では20編の論文発表と、5件のポスター発表、そして2つのパネルディスカッションが行われたが、最も参加者の関心が集まったのは、IBMが発表したPOWER6のソフトエラー耐性に関する論文発表と、富士通が発表したSPARC64プロセサの中性子によるソフトエラーの加速実験の結果の論文である。
IBMは、製品としては未発表のPOWER6プロセサを使うサーバを使って、POWER6プロセサに陽子ビームを当てて発生するエラーを実測した。その結果、発生しているはずのラッチのエラーの内の95.7%は全く無害であった。そして3.5%はハードウェアがエラー検出し、訂正に成功したということで、ハードがハングしたり、ハードが検出できず誤った状態がソフトに渡されたりしたケースは全体の0.8%であったという。
POWER6は論理回路のエラー検出を行い、発生したエラーを訂正する機構をもっており、無害の数を別にすると、81%のエラー(4.3%のうちの3.5%)を訂正していることになる。
また、ソフトに渡ったエラーがどう影響するかを論理シミュレーションを使って調べ、bzip2というファイル圧縮ソフトの場合は、40%の弱の場合は結果に影響なし、50%程度はソフトが矛盾を検出、15%の場合はデータ化けになったと報告している。そして、実験とシミュレーションの結果を合わせて、データ化けが発生する確率はラッチの3400エラーに1回であり、これまでに報告されているアルファ21264での33回に1回と比較すると2桁改善されているとPOWER6の高信頼性をアピールした。
先に述べたように、現実に問題になるのは中性子であるが、IBMはガンなどの放射線治療に使う病院の装置を週末に借りて実験を行っている関係上、陽子線での実験となっている。