不良コアの置き換えで歩留まりの問題を解決

ちょっと話が変わるが、CerebrasのCEOを務めるAndrew Feldman氏は多数の小型CPUを使うサーバを作ったSeaMicro社のCEOで、Lauterbach氏もSeaMicroのCTOであり、プロセサネットワークの専門家である。この技術蓄積がWSEのチップ内ネットワークに上手く生きていると思われる。

なお、SeaMicro社はその後AMDに買収され、そのネットワーク技術は、AMDのEPYCサーバのプロセサチップ間のネットワーク接続技術として使われている。

そして、そのネットワーク技術はWSEにも使われているのではないかと思われる。WSEには40万個のAIコアを集積しており、それらを2次元メッシュのネットワークで接続している。さらに、一部のコアに不良があっても、それを避けて不良の無いコアだけを使って、2次元メッシュネットワーク接続を作れば、見かけ上不良の無い良品のWSEチップを作ることができる。

電源がショートしたコアがあったとしても、1コアだけの電源ショートで流れる電流は僅かであり、チップ全体のトランジスタのリーク電流と区別がつかず、WSEとしては致命的な不良にはならない。

WSEは約1.5%のコアを不良コアの置き換えのために作り込んでおり、これを使って大部分のWSEウェハを良品とすることができるとのことである。

WSEチップはTSMCの16nmプロセスで製造されているが、WSEのような巨大チップをテストするのは大変である。このため、CerebrasはノーテストでTSMCの製造したウェハを受け入れているという。

通常のチップの場合はウェハからチップに切り分けるためのスクライブラインという領域が取ってあるが、WSEではその領域にも配線を作り、隣のチップとの接続を行っている。これには通常とは異なるウェハ処理が必要となるが、TSMCは喜んで引き受けてくれたという。Cerebrasの幹部はSeaMicroの時代にTSMCとは良い関係を築いており、その時代の信用が役立っているという。そして、WSEチップは、TSMCのHall of Fameに飾られているという。

熱膨張でずれるチップの端子位置

そして、このような巨大チップを使う上でのもう1つの大きな問題は、熱膨張率の違いである。シリコン基板の熱膨張率は2.4×10-6/℃であり、50℃の温度差があればチップの対角線の長さである約300mmでは、36μm伸びる。しかし、WSEを搭載するFR4プリント板は熱膨張率が大きく、200μmあまり伸びてしまう。これは高密度のコネクタでは隣のピンに繋がってしまうような大きなずれが生じてしまいコネクタが壊れるという事態にもなる。

次の図はCerebrasの特許に書かれているものであるが、シリコンゴムのような弾性のある材料に微細な金属球を混ぜたシートを使ってコネクタを作っているようである。

弾性体に圧力が掛かっていない状態では、金属球同士は離れていて電流は流れない。しかし、圧力が増え、金属球の密度が高くなると、金属球同士が接触して電流が流れるようになる。

プリント板側に適当な厚みの金属パッドを作っておけば、パッドの部分には大きな圧力が掛かるので弾性体シートは導通する。一方、パッドが無い部分では圧力は小さく弾性体シートは導通しない。このようにして作られるコネクタでは、異なる熱膨張によって、シリコンチップ上の端子の位置とプリント基板上の配線パッドの位置が多少ずれても接触を保つことができる。

  • WSE

    CerebrasのUS 10,468,369 B2特許の図。金属球を含んだ弾力性のある材料を使うコネクタ