U-Netは、フライブルク大学コンピュータサイエンス学部で生物医学画像の分割用に開発された畳み込みニューラルネットワークで(CNN)ある。[1]このネットワークは完全畳み込みニューラルネットワーク[2]を基にしていて、より少ないトレーニング画像で動作し、より正確なセグメンテーションができるように、アーキテクチャが修正・拡張されている。U-Netアーキテクチャを使用した最新(2015年)のGPUでは、512×512の画像のセグメンテーションにかかる時間は1秒未満である。[1]

U-Netアーキテクチャは、反復画像ノイズ除去のための拡散モデルにも採用されています。[3]この技術は、DALL-EMidjourneyStable Diffusionなど、多くの最新の画像生成モデルの基盤となっています。

U-Netの特徴

編集

U-Netのアーキテクチャは、2014年にLong、Shelhamer、Darrellによって提案された、いわゆる「完全畳み込みネットワーク」に由来する。

基本的なアイデアは、プーリング演算をアップサンプリング演算に置き換えた連続レイヤーによって、通常の収縮ネットワークを補完することである。したがって、これらの層は出力の解像度を上げる。そして連続する畳み込み層は、この情報に基づいて正確な出力を組み立てるように学習できる。

U-Netにおける1つの重要な変更点は、アップサンプリング部分に多数の特徴チャンネルがあることで、これによってネットワークはコンテキスト情報をより高い解像度のレイヤーに伝搬することができる。その結果、拡大経路は縮小部分に対して多かれ少なかれ対称となり、U字型のアーキテクチャとなる。このネットワークは、完全連結層を持たず、各畳み込みの有効部分のみを使用する。画像の境界領域にあるピクセルを予測するために、入力画像をミラーリングすることで欠落したコンテキストを外挿する。このタイリング戦略は、ネットワークを大きな画像に適用するために重要である。

ネットワーク・アーキテクチャ

編集

このネットワークは収縮パスと拡大パスから構成され、U字型の構造を持つ。縮小パスは典型的な畳み込みネットワークであり、畳み込みの繰り返し適用と、それに続く正規化線形関数ユニット(ReLU)と最大プーリング演算から構成される。収縮の際には、空間情報は減少し、特徴情報は増加する。拡大経路は、一連のアップコンボリューションと収縮経路からの高解像度特徴との連結により、特徴情報と空間情報を結合する。

 
これは、256×256のRGB画像に対してk個の256×256の画像マスクを生成するためのU-Netのアーキテクチャ例である。
  1. ^ a b Ronneberger O, Fischer P, Brox T (2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". arXiv:1505.04597 [cs.CV]。
  2. ^ “Fully Convolutional Networks for Semantic Segmentation”. IEEE Transactions on Pattern Analysis and Machine Intelligence 39 (4): 640–651. (Nov 2014). arXiv:1411.4038. doi:10.1109/TPAMI.2016.2572683. PMID 27244717. 
  3. ^ Ho, Jonathan (2020). "Denoising Diffusion Probabilistic Models". arXiv:2006.11239 [cs.LG]。