DNNアクセラレータの構造(一部)

東芝デバイス&ストレージは、人工知能(AI)技術の一つである深層学習を用いた画像認識を、高速かつ低消費電力で実行できる車載向けSoC(System on a Chip)を開発した。

新開発のSoCは、同社の従来技術と比較して、SoCの処理速度は約10倍、電力効率は約4倍を達成。今回開発した技術の詳細は、米国サンフランシスコで今月開催された国際学会「ISSCC(International Solid-State Circuits Conference) 2019」にて発表された。

深層学習は、従来のパターン認識や機械学習より高精度な認識が可能とされ、車載用途への活用が期待されているが、一方、深層学習による画像認識では、多数の積和演算を実行するため、通常のプロセッサで処理すると時間がかかり、高速で処理しようとすると多量の電力を消費してしまうというトレードオフの関係があった。

同社は、深層学習による画像認識をハードウェア上で実行するDNNアクセラレータを開発し、SoC上に実装することで、この課題を解決。今回開発したDNNアクセラレータには、3つの特長がある。

一つめは、積和演算プロセスの並列化。今回のDNNアクセラレータは、256個の積和演算ユニットを搭載したプロセッサを4つ保持し、演算を並列に処理することで効率化し、画像認識の処理速度を高めた。

二つめは、DRAMへのアクセスにより消費される電力の低減。従来のSoCでは、深層学習による画像認識を実行するユニットの近くに、演算プロセスの中間データを一時的に保持するためのメモリが配置されておらず、メモリへアクセスする度に多くの電力を消費していた。また、処理に必要な「重みデータ」を読み込む動作も、電力消費を増加させる要因だった。今回開発したSoCでは、中間データを保持する専用のSRAMを実行ユニットの近くに配置。そのSRAMに収まるように深層学習の推論処理を分割することで、DRAMへのアクセス回数を削減した。さらに、重みデータを事前に圧縮して保存し、読み込む際にそのデータを伸長する回路を追加することで、重みデータの読み込みに使用するデータ量を削減した。

三つめは、SRAMへのアクセスにより消費される電力の低減。従来では、深層学習の推論処理の各レイヤーにおいて、それぞれの処理が終わるたびに SRAMを参照していたため、メモリ動作時の消費電力が大きかった。今回開発したSoCでは、各レイヤーをパイプライン接続し、中間データをSRAMへ書き込むことなく、1回のSRAM参照で複数レイヤーの処理を実行することで、消費電力を抑制した。

なお、今回開発したSoCは、自動車の機能安全に関する国際規格であるISO 26262に対応している。

今後、同社は、SoCのさらなる精度向上や消費電力の抑制など開発を進め、車載向け画像認識AIプロセッサ「Visconti」として、2019年9月にサンプル出荷を開始する予定。

東芝デバイス&ストレージが今回開発したSoC