ディープラーニング

ディープラーニングまたは深層学習: deep learning)とは、(狭義には4層以上の)多層のニューラルネットワーク(ディープニューラルネットワーク、: deep neural network)による機械学習手法である[1]。近年、ヒントンらによる多層ニューラルネットワークの学習の研究と、学習に必要な計算機の能力向上、および、Webの発達による訓練データ調達の容易化によって、音声・画像・自然言語を対象とする問題に対し、他の手法を圧倒する高い性能を示すことが分かり[2]、2010年代に普及した[3]。しかしながら、多層ニューラルネットが高い性能を示す要因の理論的な解明は進んでいない[2]

目次

概要編集

深層学習の登場以前、多層ニューラルネットは、局所最適解や勾配消失などの技術的な問題によって、充分に学習させることがでず、性能も芳しくない冬の時代が長く続いた。しかし、2006年にニューラルネットワークの代表的な研究者であるジェフリー・ヒントンらの研究チームが、制限ボルツマンマシンによるオートエンコーダの深層化に成功し、再び注目を集めるようになる。この際、発表した論文から、ディープネットワークの用語が定着した。この研究成果が、現在のディープラーニングに直接繋がる技術的ブレイクスルーと見られている。元々はジェフリー・ヒントンらの開発したディープラーニングは層が直列されたシンプルな構造をしていたが、現在のアルゴリズムは複数の分岐やループのある複雑なグラフ構造を持つ。そのため、基本技術をまとめて複雑なグラフ構造を簡単に実現できるようにしたフレームワークも公開されている。また、2012年からは急速に研究が活発となり、第三次人工知能ブームが到来したとされている[4]

深層学習では、バックプロパゲーションと呼ばれる計算手法により、大量の訓練データを多層ニューラルネットへ入力した際の出力誤差を計算し、誤差が最小となるように、学習を行う。この際、従来は、画像や音声などそれぞれのデータの研究者、技術者が手動で設定していた特徴量[5][6]一緒に抽出される。このため、手作業での特徴量抽出が不要になった点が、深層学習の大きな利点の一つである。特徴量とは、問題の解決に必要な本質的な変数であったり、特定の概念を特徴づける変数である[7]

ニューラルネットワークの多層化は、学習時間と計算コストに問題があったが[8]、近年のコンピュータの高性能化や、CPUよりも単純な演算の並列処理に優れたGPUによる汎用計算 (GPGPU) により改善されている。GPUを利用することで性能あたりの価格や消費電力をCPUの100分の1に抑えることができるとされている[9]

歴史編集

人間の脳の構造を模した機械学習における最初の手法であるパーセプトロンが考案されたのは1957年であるが、マシンスペックの大幅な不足や、排他的論理和の認識ができないなどの欠点が露呈したため、研究が大きく続けられることはなかった[10]。その後、1980年代より、排他的論理和の問題を解決したバックプロパゲーションが開発されたが、非効率的なメカニズムや、動詞の過去形など複雑な認識ができない(そもそも3層ニューラルネットで任意関数は全て近似可能であり、大脳新皮質がなぜ3層以上存在するのかが不明であった)などの要因により、1990年代後半には沈静化した[11][12]

長らく冬の時代が続いてたニューラルネットワークであるが、2006年にジェフリー・ヒントンによってスタックドオートエンコーダなど多層にネットワークを積み重ねても精度を損なわない手法が提唱され、さらに2012年には物体の認識率を競うILSVRCにおいてジェフリー・ヒントン率いるトロント大学のチームがディープラーニングによって従来の手法(エラー率26%)に比べてエラー率17%と実に10%もの劇的な進歩を遂げたことが機械学習の研究者らに衝撃を与えた。さらに同年Googleがyoutubeの画像を大量にディープラーニングに与え実に16,000のCPUコアで3日間計算したところ猫を自ら認識できるようになったと発表し、物体認識タスクにおいては従来手法より飛躍的な進歩を遂げたことが決定的となった[13][14][12][15]。その後もILSVRCでは毎年上位はディープラーニングを使ったチームが占めるようになり、エラー率はすでに5%程度にまで改善している[16]

今日のディープラーニングにつながる世界的に最も先駆的研究として、日本の福島邦彦(NHK放送技術研究所、その後大阪大学基礎工学部生物工学科)によって1979年に発表されたネオコグニトロン[17][18]が挙げられる[19][20]。ネオコグニトロンには自己組織化機能があり、自ら学習することによってパターン認識能力を獲得(概念の形成)していく。応用例として、福島らは手書き文字データベース(ビッグデータ)から自己学習によって手書き文字認識能力(各文字の概念)が獲得されることを実証した。しかし、当時は「手書き文字認識方式の一つ」と誤解され、その重要性についての認識が世間に広がらなかった。

利用編集

ディープラーニングは物体認識を中心にさまざまな分野で活用されている。また、Googleをはじめとした多くのIT企業が研究開発に力を入れている。また、自動運転車の障害物センサーにも使われている[21]

GoogleのAndroid4.3[22]は、音声認識にディープラーニング技術を活用することで、精度を25から50パーセント向上させた[23]。2012年、スタンフォード大学との共同研究であるグーグル・ブレイン英語版(Google brain)は、1,000のサーバーの16,000のコアを使い、3日間で猫の概念を獲得し、話題となった[13][14]。この研究では、200ドット四方の1,000万枚の画像を解析させている。ただし、人間の脳には遠く及ばないと指摘されている[24]。GoogleLeNetと呼ばれるチームによるトロント大学との共同研究では、画像の説明文を自動で生成できる「Image to Text」と呼ばれるシステムを開発した。これは、コンピュータビジョンと自然言語処理を組み合わせ、ユーザーがアップロードした画像を認識し、説明文を表示するもの[25][26][27]。2015年3月、Schroffらは800万人の2億枚の画像を99.6%の精度で判定した(22層)[28]。2016年1月、AlphaGoと呼ばれるシステムが欧州の囲碁チャンピオンと2015年10月に対局し、5戦全勝の成績を収めていたことが発表された。主に開発に携わったのは2013年にGoogleが買収したDeepMind。囲碁はチェスよりも盤面が広いために打てる手数の多さは比較にならないほどで人間のプロと互角に打てるようになるまでさらに10年はかかるという予測を覆した点と、囲碁に特化したエキスパートマシンではなく汎用的にも用いる事ができるシステムを使っている点に注目が集まった[29][30]。また、2016年3月、世界最強の棋士にも名が挙がる李世乭AlphaGoが5番勝負を行い、結果は4勝1敗でAlphagoの勝利であった[31]

Facebookは、ユーザーがアップロードした画像を、ディープラーニングによって認識させ、何が写っているかの判別精度を向上させている[23]。また、人工知能研究ラボを2013年に立ち上げ[32]、その成果としてディープラーニング開発環境を2015年1月16日にオープンソースで公開した。これは、GPU環境において、従来のコードの23.5倍の速度を実現しており[33]、ディープラーニングの研究開発の促進が期待されている[34]

問題点編集

2015年時点で、ディープラーニングシステムを開発できる研究者が非常に少なく、一説には50人程度、それも多くは大学院生であるとされている[35]。しかしながら、定量的な裏付けはない。

また、ディープラーニングで良好な結果を出すには、アルゴリズムよりも、質の高い大量のデータ(ビッグデータ)が重要なため、このデータを確保できない企業、国家(日本も含む)は機械学習の研究開発で大きく後れを取った、という評価がある[36]

日本では深層学習によってシンギュラリティ(技術的特異点=人工知能が自らより高性能な人工知能を作り出せるようになる段階)を突破するのではないかと報じられることがあるが、研究者の中には「深層学習は、音声や画像などに関する分類問題には一定程度役に立つがそれ以上ではない。」 [37] とする意見もあり、認識に温度差がある。

種類編集

ニューラルネットワークを多層積み重ねたモデルを機械学習させればディープラーニングであるが、有名なモデルとして以下の物がある[38]

畳み込みニューラルネットワーク編集

畳み込みニューラルネットワーク (Convolutional Neural Networks: CNN) とは、全結合していない順伝播型ニューラルネットワークの一種。特に2次元の畳込みニューラルネットワークは人間の視覚野のニューロンの結合と似たニューラルネットワークであり、人間の認知とよく似た学習が行われることが期待される。結合がスパース(疎)であるため、全結合しているニューラルネットワークに比べて学習が高速である。

1979年に福島邦彦が発表したネオコグニトロンから発展し、1988年にHomma Toshiteruらが音素の認識に[39]、1989年にYann LeCunらが文字画像の認識に使用し[40][41]、1998年にLeCunらが発表したLeNet-5へと続き、2012年にILSVRCでの物体カテゴリ認識で優勝したアルゴリズムも深層畳み込みニューラルネットワークである[42]。ネオコグニトロンの時から深層であったが、近年は深層であることを強調するため、深層が頭につき、深層畳み込みニューラルネットワークと呼ばれる事もある。自然言語処理に対する応用もなされはじめた。

再帰型ニューラルネットワーク編集

再帰型ニューラルネットワーク (Recurrent Neural Network: RNN) とは、有向閉路を持つニューラルネットワークの事。それ以前の入力によって変化する状態を保持する(オートマトン)。動画像、音声、言語など、入力データの順序によって出力が変わる場合に有効である。

1980年代から研究が始まり、1982年に発表されたホップフィールド・ネットワークが初期の研究。その後ElmanネットワークやJordanネットワークが発表され、1997年にS. HochreiterおよびJ. SchmidhuberらがLSTMネットワーク (Long Short Term Memory) を発表した。

ディープビリーフネットワーク・ディープボルツマンマシン・積層自己符号化器編集

  1. 1層目の入力データに#スパースコーディングなどで回帰直線を引き、いくつかの基底を得る。
  2. 1層目で得られた基底と1層目の入力データとの内積をとり、バイアスを足してから任意の活性化関数に代入し、2層目の入力データとする。
  3. 2層目の入力データに回帰直線を引き、いくつかの基底を得る。
  4. 2層目で得られた基底と2層目の入力データとの内積をとり、バイアスを足してから任意の活性化関数に代入し、3層目の入力データとする。
  5. 上記1~4を必要な層の数だけ繰り返す。
  6. それぞれの層で得た基底を初期値とし、誤差逆伝播法を行う。

誤差逆伝播法は種々の理由により、3層以上になると有意な解を得ることができなかったが、上記の方法で良い初期解を得ることに成功したため、多層に渡っても学習が可能となった。

基底の計算はオートエンコーダ(自己符号化器)や制限ボルツマンマシン (RBM) が用いられることも多い。オートエンコーダは評価関数の選び方により、主成分分析やスパースコーディングに結果が一致する。1~4までの、最適な基底の計算と内積を繰り返す行為は積層自己符号化器 (Stacked Denoising Autoencoder, SdA) と呼ばれる。また、これを事前学習と言う。一般に、オートエンコーダよりRBMにより得た基底のほうが良い結果をもたらすと言われるが、オートエンコーダを工夫して、RBMと同様の基底を計算するDenoisingオートエンコーダと呼ばれる手法も提案されている。

積層自己符号化器の最終層の出力はSVMなど既存の機械学習のアルゴリズムの入力として使われることもある。

Residual network編集

入力データを出力に変える変換を学習するのではなく、残差を学習する。通常の多層ニューラルネットより勾配消失がおきにくく、はるかに多層化できる。実験的には1000層まで学習されたものもある。欠点としては、入力次元数と出力次元数を変えることができない。

特有の問題編集

勾配消失問題編集

確率的勾配法は誤差から勾配を計算して中間層のウェイトを修正するが、シグモイド関数などは見てすぐにわかる通り、勾配が0に近い領域が存在する。偶然その領域に進むと勾配が0に近くなり、ウェイトがほぼ修正されなくなる。多層NNでは一カ所でも勾配が0に近い層が存在すると、それより下の層の勾配も全て0に近くなるため、確率的には層数が増えるほど学習が難しくなる。詳しくはバックプロパゲーション活性化関数も参照のこと。

過学習編集

トレーニングデータでは高識別率を達成しながら、テストデータでは識別率が低い現象。過剰適合も参照のこと。

局所最適解へのトラップ編集

学習が、最も最適な大域的最適解ではなく、局所的には最適な解へと収束し、抜け出せなくなること。

テクニック編集

データ拡張編集

深層学習以外でも広く使われているが、入力データが画像など、どのようなテストデータが来るかあらかじめある程度の想定(モデル化)ができる場合は、たとえば画像の回転や引き延ばしを行うことで入力データ数を増やすことも昔から行われている。

活性化関数編集

古くからニューラルネットワークにおいてはシグモイド関数がよく使われていたが、勾配消失問題などにより、近年では別の関数が使われるようになった。詳しくは活性化関数を参照。

ReLU編集

ReLU(rectified linear unit ランプ関数とも呼ばれる)

 

出力が0.0~1.0に規格化されないため勾配消失問題が起きにくく、またシグモイド関数に比べると単純であるために計算量が小さく学習が速く進む等のメリットがある[43]

maxout編集

複数の次元の最大値を出力する関数。CNNのプーリングと同じ計算である。高性能と言われるが、性質上、次元が減少する。特徴選択も兼ねていると言える。

ドロップアウト編集

ドロップアウトはランダムに任意のニューロン(次元)を何割か無視してしまう技術である。入力データを増やせずとも、次元を減らすことで解の有意性を上げることができる。ドロップアウトして得た学習結果は、テスト時には同時に使用し、結果は平均して用いる。これはRandom forestと同様、検出率の低い識別器でも並列化することで信頼度を上げることができるためである。

スパースコーディング編集

Lasso回帰英語版とも呼ばれる。辞書行列と係数行列の内積(線形結合)で入力データ(列ベクトル)を近似するとき、係数行列は疎行列(非零の要素が僅かしかない行列)になる。L1正則化のこと。

フレームワーク編集

  • Caffe - Python, C++
  • torch - Lua
  • Theano - Python。関数型言語。並列化に特化し、GPUのコードが自動的に生成される。
  • Pylearn2 - Python
  • Blocks - Python
  • Keras - Python。TensorFlowのラッパー。Theanoでも動作可能。
  • Lasagne - Python
  • deepy - Python
  • Deeplearning4j - Java、Scalaが使用されている。
  • EBlearn - C++で書かれているCNN用ライブラリ。
  • cuda-convnet - 基本的な機能はEBlearnと同じ。
  • Chainer - Python
  • TensorFlow - Python, C++
  • PyTorch
  • Microsoft Cognitive Toolkit - Python, C++, C#、以前はCNTKと呼ばれていた。
  • DyNet - Python, C++

応用編集

脚注・出典編集

[ヘルプ]
  1. ^ 深層学習 人工知能学会 深層学習手法の全体像xiii
  2. ^ a b 岡谷貴之 深層学習 (機械学習プロフェッショナルシリーズ)、2015年4月8日、まえがき、ISBN 978-4061529021
  3. ^ 深層学習 人工知能学会、2015年11月5日、xiv、ISBN-13: 978-4764904873
  4. ^ 【第四回】今、最も熱いディープラーニングを体験してみよう(2ページ)”. エンタープライズ (2015年1月14日). 2015年5月30日閲覧。
  5. ^ ディープラーニングの先にあるものとは? - 東大 松尾准教授が語った人工知能の未来(前編)”. biglobeニュース (2015年5月29日). 2015年5月31日閲覧。
  6. ^ 小林雅一 2015, p. 118.
  7. ^ 小林雅一 2015, p. 120.
  8. ^ 小林雅一 2015, p. 107.
  9. ^ [GTC 2014]賢い人工知能はGPUで作る。NVIDIAが取り組むGPGPUの新たな活用”. 4GAMER (2014年3月27日). 2015年5月21日閲覧。
  10. ^ 小林雅一 2013, p. 92.
  11. ^ ディープラーニングはビジネスにどう使えるか?”. WirelessWire News (2015年5月20日). 2015年5月21日閲覧。
  12. ^ a b 小林雅一 2013, p. 94.
  13. ^ a b 小林雅一 2015, p. 28.
  14. ^ a b グーグルが開発を進めている、写真を「自動的に説明する」技術”. wired (2014年11月20日). 2015年5月18日閲覧。
  15. ^ 第714回:ディープラーニングとは”. ケータイWatch ケータイ用語の基礎知識 (2015年6月30日). 2015年7月15日閲覧。
  16. ^ http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/091800010/
  17. ^ ネオコグニトロン”. 2015年6月30日閲覧。
  18. ^ 位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---”. 電子通信学会論文誌A (1979年10月1日). 2017年8月16日閲覧。
  19. ^ 「ネオコグニトロンはまだ進化する」、画像向けディープラーニング「CNN」の父に聞く” (2015年5月22日). 2015年9月3日閲覧。
  20. ^ [CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する”. 4gamer (2015年8月29日). 2015年9月1日閲覧。
  21. ^ 人とくるまのテクノロジー展2015 - 「ディープラーニング」を採用したZMPのRoboCar MiniVan”. マイナビニュース (2015年5月20日). 2015年5月26日閲覧。
  22. ^ Googleのディープラーニングはレトロゲームを自分で学習してプレイする”. ascii×デジタル (2015年3月21日). 2015年5月21日閲覧。
  23. ^ a b 小林雅一 2015, p. 29.
  24. ^ ディープラーニングというGPUの新市場”. PC Watch (2014年4月17日). 2015年5月21日閲覧。
  25. ^ 画像をアップすると自動で説明文を生成してくれる「Images to Text」”. GIGAZINE (2014年12月13日). 2015年5月21日閲覧。
  26. ^ グーグルが開発を進めている、写真を「自動的に説明する」技術”. WIRED (2014年11月20日). 2015年5月30日閲覧。
  27. ^ 人工知能は世界をもっと認識できる:グーグルのコンピューターヴィジョン”. WIRED (2014年9月9日). 2015年5月30日閲覧。
  28. ^ CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する松尾豊東京大学大学院准教授の発表スライドから
  29. ^ ITTOUSAI (2016年1月28日). “Googleの囲碁AI『AlphaGo』がプロ棋士に勝利、史上初の快挙。自己対局を機械学習して上達”. Engadget. 2016年3月2日閲覧。
  30. ^ CADE METZ (2016年1月31日). “「囲碁の謎」を解いたグーグルの超知能は、人工知能の進化を10年早めた”. WIRED. 2016年3月2日閲覧。
  31. ^ 人工知能アルファ碁が囲碁トップ棋士を3タテ! AIが人類の発想を完全に上回る2016年3月12日MdN Design Interactive
  32. ^ Facebook、人工知能研究ラボを立ち上げ”. ITMedia News (2013年12月10日). 2015年5月22日閲覧。
  33. ^ Facebook、ディープラーニング開発環境「Torch」向けモジュールをオープンソースで公開”. ITMedia News (2015年1月19日). 2015年5月22日閲覧。
  34. ^ Facebook、ディープラーニング技術をオープンソースに”. ZDNet Japan (2015年1月19日). 2015年5月22日閲覧。
  35. ^ 小林雅一 2015, p. 33.
  36. ^ 中国の人工知能研究が日本を一気に抜き去った理由 : 深読みチャンネル : 読売新聞(YOMIURI ONLINE) 2/4中国の人工知能研究が日本を一気に抜き去った理由 深読みチャンネル 読売新聞(YOMIURI ONLINE) 3/4中国の人工知能研究が日本を一気に抜き去った理由 深読みチャンネル 読売新聞(YOMIURI ONLINE) 4/4読売新聞2015年10月20日
  37. ^ 中国の人工知能研究が日本を一気に抜き去った理由 : 深読みチャンネル : 読売新聞(YOMIURI ONLINE) 2/4中国の人工知能研究が日本を一気に抜き去った理由 深読みチャンネル 読売新聞(YOMIURI ONLINE) 3/4中国の人工知能研究が日本を一気に抜き去った理由 深読みチャンネル 読売新聞(YOMIURI ONLINE) 4/4読売新聞2015年10月20日
  38. ^ 深層学習 (機械学習プロフェッショナルシリーズ) ISBN 978-4061529021
  39. ^ Homma, Toshiteru; Les Atlas; Robert Marks II (1988). “An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification”. Advances in Neural Information Processing Systems 1: 31–40. http://papers.nips.cc/paper/20-an-artificial-neural-network-for-spatio-temporal-bipolar-patterns-application-to-phoneme-classification.pdf. 
  40. ^ Yann Le Cun (June 1989). Generalization and Network Design Strategies. http://yann.lecun.com/exdb/publis/pdf/lecun-89.pdf. 
  41. ^ Y. LeCun; B. Boser; J. S. Denker; D. Henderson; R. E. Howard; W. Hubbard; L. D. Jackel (1989). “Backpropagation applied to handwritten zip code recognition”. Neural Computation 1 (4): 541-551. 
  42. ^ Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). “ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25: 1097-1105. http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-. 
  43. ^ 岡谷貴之 深層学習 p11

参考文献編集

  • 小林雅一 『AIの衝撃 人工知能は人類の敵か』 講談社〈講談社現代新書〉、2015年3月20日、第1刷。ISBN 978-4-06-288307-8
  • 小林雅一 『クラウドからAIへ アップル、グーグル、フェイスブックの次なる主戦場』 朝日新聞出版〈朝日新書〉、2013年7月30日、第1刷。ISBN 978-4-02-273515-7
  • 松尾豊 『人工知能は人間を超えるか ディープラーニングの先にあるもの』 KADOKAWA〈角川EPUB選書〉、2015年3月11日、第1刷。ISBN 978-4040800202

関連項目編集