エッジAIコンピューティングに向けたハードウェア指向深層強化学習と対数量子化オプティマイザに関する研究
山岸 善治
2021 年度 卒 /修士(情報科学)
修士論文の概要
近年注目されているエッジコンピューティングは、クラウドの負荷を軽減できる、通信環境に左右されない、セキュリティに優れているなど、多くの利点がある。そのため多くの研究者が、様々な機械学習をエッジコンピューティングで実装しようと日々奮闘している。 まず最初に、深層強化学習の1種類であるDeep Q-Network(DQN)の特徴に着目した改良を行った。DQNは通常ソフトウェアベースのアプローチによって改良される。一方で我々は、データパスやパイプラインに関するなどをはじめとする、ハードウェア固有の知識をDQNの改良に活用し、DQNの学習フローやパラメータ探索を考慮した効率的なハードウェア設計を行った。その結果、DQNの性能向上とリソース数の削減に成功し、特に問題の規模が大きい時は、従来のDQNと比較した資源の使用量の削減量も大きい。具体的には、Block catch gameが5×10の場合、従来のDQNと比較して、必要メモリが約50%も削減された。このパートでの改良により、エッジコンピューティングで深層強化学習を実現する兆しが見えた。しかし、エッジコンピューティングの(面積や実行時間、電力などの)制約の大きさを鑑みると、この段階では未だ実用的なところまでは届いていない。特に深層強化学習の特徴の1つでもある「膨大な学習回数」は学習全体の実行時間や電力に大きな影響を与える。 よって続くパートでは、これを改善するためにDQNの学習の根幹部分でもあるニューラルネットワークの改良を行った。ニューラルネットワークは、推論部分と学習部分に分けられるが、推論部分に比べて学習部分をエッジコンピューティングに実装する研究はあまり行われていない。これは、学習部分が推論部分よりも多くのメモリと計算量を必要とするため、エッジコンピューティングで利用できるリソースの限界を容易に超えてしまうためである。この問題を解決するため、我々は学習部分の心臓部であるオプティマイザに着目し、既存のオプテイマイザにはない新たな視点を取り入れ、ハードウェアの特性や強みを考慮した新しいオプテイマイザHolmes(Hardware-oriented logarithmic momentum estimation)を発明した。このパートではHolmesの性能を、学習進度と収束速度の観点から他の最適化器と比較・評価し、最後にメモリ要件や演算要件など、ハードウェア実装の重要な側面についても議論した。その結果、Holmesは既存のオプテイマイザと比較して必要リソースが少なく、学習収束も速いのでエッジコンピューティングと相性が良いことが確認できた。このHolmesは深層強化学習に限らず、様々な機械学習をエッジコンピューティング上で実現できる可能性も秘めていると我々は考えている。