機械学習

パターンと推論に基づくコンピュータシステムが使用するアルゴリズム・統計モデルの科学研究

機械学習(きかいがくしゅう、: machine learning)とは、経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で[1][2]人工知能の一種であるとみなされている。「訓練データ」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなす。例えば過去のスパムメールを訓練データとして用いて学習し、スパムフィルタリングというタスクをこなす、といった事が可能となる。

機械学習は以下の分野と密接に関係する:

機械学習という名前は1959年にアーサー・サミュエルによって造語された[5]

概要 編集

定義 編集

論者により定義が異なるものの、トム・M・ミッチェルによる下記の簡潔な定義は広く引用されている:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E[6]
コンピュータプログラムがタスクのクラスTと性能指標Pに関し経験Eから学習するとは、T内のタスクのPで測った性能が経験Eにより改善される事を言う。 — トム・M・ミッチェル英語版

ここでタスクとは、プログラムが解くべき課題を指し、例えば売上予測タスクであれば「明日の売上を予測せよ」といったタスクである。

経験はなんらかのデータとしてプログラムに与えられる。このデータを訓練データもしくは学習データといい、売上予測タスクであれば例えば「過去の経験」である今日までの売上が訓練データとして与えられる。訓練データを使ってプログラムの性能を改善する過程を、「プログラムを訓練する」もしくは「プログラムを学習させる」という。またプログラムの訓練に用いられるデータ全体の集合を(訓練もしくは学習)データセットデータ集合とも)という。

最後に性能指標は、プログラムがタスクをどの程度の性能で達成したかを測る指標で、前述の売上予測タスクであれば、例えば実際の売上との誤差を性能指標として用いる事ができる。

変数の種類 編集

機械学習では、データxが連続量であるとき、x量的変数(quantitative variable)といい、「イヌ」、「ネコ」といった分類カテゴリのように物の種類を表す変数を質的変数(qualitative variable)という[7][8]。質的変数はカテゴリ型変数(categorical variable)、因子(factor)とも呼ばれる[8]

量的変数、質的変数以外にも「大」「中」「小」のように順序づけられた離散値を取る順序付きカテゴリ型変数(ordered categorical variable)もある[8]。また自然言語のように質的変数とは違い連続量ではなく、カテゴリ型変数と違い有限個のカテゴリに値を取るわけではないものも機械学習では取り扱う。

機械学習タスクの種類 編集

機械学習のタスクは、以下の代表的な3種類のカテゴリーに分けられる。ただしこれらの3つで機械学習で扱う全てのタスクをカバーしているわけではないし、複数のカテゴリーに属するタスクや、どのカテゴリーに属するのか曖昧なタスクもある。

教師あり学習
入力とそれに対応すべき出力[注 2] を写像する関数を生成する。例えば、分類問題では入力ベクトルと出力に対応する分類で示される例を与えられ、それらを写像する関数を近似的に求める。
ラベルのインフォメーションが不足の場合は半教師あり学習である。
教師なし学習
入力のみ(ラベルなしの例)からモデルを構築する。データマイニング自己符号化器なども参照。
強化学習
周囲の環境を観測することでどう行動すべきかを学習する。行動によって必ず環境に影響を及ぼし、環境から報酬という形でフィードバックを得ることで学習アルゴリズムのガイドとする。例えばQ学習がある。

教師あり学習 編集

概要 編集

教師あり学習supervised learning)では、未知の確率分布 を対象にする。実応用上は何らかの意味でx入力y出力とみなせる事が多く、例えばyxに未知の関数Fを施した値F(x)に小さなノイズが載ったものである。アルゴリズムには、 に従うxyの組 が訓練データとして与えられる。アルゴリズムが解くべきタスクは訓練データに属していない(かもしれない)データxに対し、条件付き確率分布 ないしそこから決まる値(たとえば の期待値)をよく近似することである[9]。近似の精度は事前に定められた損失関数という関数を使って評価する。したがって損失関数の値の期待値を小さくする事が、教師あり機械学習の目標であると言える。

前述した機械学習の定義に沿って言えば、教師あり機械学習は以下のような機械学習であるといえる:

タスク 経験 性能指標
 ないしそこから決まる値をよく近似する事 訓練データ  損失関数の期待値

教師あり学習では事前知識である から、未知のxに対応するyの分布 を当てる事が求められる。このため、アルゴリズムが未知のxから (ないしそこから決まる値)を求める操作を汎化もしくは推論inference)と呼ぶ。タスクによっては「予測」「判断」「認識」等と呼ばれる事もある。

アルゴリズムは未知のデータxからxに対応するyの分布の情報を推測する必要があるが、この推論の為に事前知識として与えられる訓練データにはxiから推論しなければならないyiが「解答」としてついている。「教師あり学習」という名称は、このように既知の「問題」xiに対する「解答」yiを「教師」が教えてくれるというセッティングで「生徒」であるアルゴリズムが未知の「問題」xに対応する「解答」yを推論する事から名付けられたものである。同様の理由により、教師あり学習では訓練データの事を教師データとも呼ぶ。

訓練フェーズと汎化フェーズ 編集

多くの教師あり機械学習のモデルでは、実際の汎化を行う前に訓練もしくは学習と呼ばれる作業が発生し、機械学習のモデルは「訓練アルゴリズム」と「汎化アルゴリズム」のペアとして捉える事ができる。訓練アルゴリズムは訓練データを入力として受け取り、パラメータと呼ばれる値θを出力する。パラメータは直観的には訓練データから有用な情報を引き出した「学習結果」であり、汎化の際にはこの「学習結果」であるθを使って汎化を行う。すなわち、汎化アルゴリズムは入力xの他にパラメータθをも入力として受け取り、 (ないしそこから決まる値)を求める。

変数の名称 編集

教師あり機械学習において、変数x説明変数(explanation variable)、y目的変数目標変数(target variable)、もしくは標的(target)と呼ぶ[7]。これらは別の名称で呼ばれる事も多く、x予測変数(predictor)、y応答変数response variable)と呼んだり[8]x独立変数(independent variable)、y従属変数(dependent variable)と呼んだりする事もある[8]。またタスクによってはこれら以外の名称で呼ばれる事もある。

回帰と分類 編集

教師あり学習に属する代表的なタスクとして回帰と分類がある。教師あり学習において、目的変数yが量的変数である場合を回帰(regression)、有限集合に値を取るカテゴリ型変数のである場合を分類(classification)もしくは判別と呼ぶ[8][10]

回帰 編集

回帰の目標は入力xが与えられたとき、 に関する情報を予想する事である。典型的には

 

のようにyが未知の関数Fの像F(x)にランダムなノイズεを加えたデータであるケースにおいて、入力xからyの可能な限り正確な予想値 を出力する事が求められる。なお回帰で扱う目的変数yは連続量であり、典型的には実数を複数並べた数値ベクトルである。

他の教師あり機械学習アルゴリズムと同様、回帰アルゴリズムは に従って選ばれた訓練データの集合 をとして受け取る事ができ、これらの訓練データをヒントにして入力xに対応するyの予想値

 

を出力する。予想の正確さは損失関数 によって測られる。回帰では損失関数 としては自乗誤差損失

 

を用いる事が多い。

回帰の目標は、汎化誤差予測誤差予測損失とも)

 

を小さく抑える事である。ここで は汎化アルゴリズムの出力であり、E[・]は期待値を表す。

分類 編集

分類タスクでは、事前に定められた有限個のクラスが定められていて、各クラスには、「ネコ」、「イヌ」などのクラスラベル(もしくは単にラベル)と呼ばれるクラス名が割り振られている。分類タスクの目的は与えられた入力xがのいずれに属するかを当てる事である。

分類タスクを解くアルゴリズムには大まかに「決定論的アプローチ」と「確率論的アプローチ」の2種類があり[11]、前者は分類タスクでは入力xが与えられたとき、xが属すると思われるクラスラベルを出力するというものであり、損失関数としては典型的には0-1損失

 

を使う[12]

一方、後者はクラスラベルを直接出力するのではなく、確信度confidence score を出力するというものである。ここで xj番目のクラスに属しているとどの程度確信しているかを表す尺度であり、  を満たす。

確信度を出力させる分類タスクでは、訓練データ yiも確信度と整合性が取れるように符号化する。すなわち、xij番目のクラスに属している場合、 とする。ここでejj番目の成分が1でそれ以外の成分が0のベクトルである(このように1つの成分だけが1でそれ以外は0となるベクトルをone-hotベクトルとい、one-hotベクトルによりデータを表現する事をone-hot表現[13] という)。損失関数としては典型的には交差エントロピー

 

を使う[12]

回帰と分類の関係性 編集

確信度を使った分類タスクに対するアルゴリズムを設計する典型的な手法は、回帰タスクのアルゴリズムを流用するというものである。すなわちクラスをone-hotベクトルで符号化した訓練データ を使って回帰タスクのアルゴリズムを訓練し、訓練結果のアルゴリズムを分類タスクに利用するという手法である。ただし、回帰タスク出力 は、分類タスクの出力である確信度と違い、  という条件を満たさないという問題が起こる。そこで一旦ソフトマックス変換

 

をかける事でこの問題を解決する。

逆に確信度を使った分類タスクを回帰タスクに流用する事もでき、この場合は上と同様の理由でソフトマックス変換の逆変換をかける必要がある。

バイアスと分散のトレードオフ 編集

回帰では、入力xに対応するyの予測値 を出力する事を求められ、 yの期待値に近いことが望ましく、しかも のばらつきは小さい方が望ましい。しかし下記に示すようにこの2つの要件はトレードオフの関係にある[14]

定理 (バイアスと分散のトレードオフ) ― p(x,y) 上の確率分布とし、D 上の何らかの確率分布に従って選ばれた訓練データの集合とし[注 3] を回帰アルゴリズムとし、Dによってこの回帰アルゴリズムを訓練して得られた関数を とし、誤差関数を自乗誤差

 

により定義し、さらに Dとは独立に選び、

 
 

とする。

このとき、予測誤差の訓練データ集合Dに関する期待値(期待予測誤差[15]

 

は以下を満たす:

 

ここで、

 
 
 

上では回帰の場合について述べたが、確信度を出力する分類でも同様である。

ベイズ規則 編集

Lp(x,y)をそれぞれ回帰や分類といった教師あり学習のタスクに対する損失関数、データ分布とし、関数Fに関する予測損失を と書き表す。このとき、予測損失の下限

 

を損失関数Lのもとでのベイズ誤差(Bayes error)と呼び、下限を達成するFベイズ規則(Bayes rule)という[16]。ここで 可測関数全体の集合における下限である。

ベイズ規則は理論上の最良の予測関数であるが、実際には確率分布p(x,y)が未知なので、p(x,y)に関する予測損失 を計算できず、ベイズ規則を求める事ができない。このため教師あり学習では既知のデータ から可能な限りベイズ規則に近い値を出力するアルゴリズムを探索する事が求められる。

回帰 編集

自乗損失を損失関数として選んだ場合、次の定理が成り立つ[17]

定理 (自乗損失に関する回帰のベイズ規則) ― p(x,y) 上の確率分布とし、

 

とする。このとき、汎化誤差 を最小にする は、

 

である。ここでEp(x,y)から定まる条件付き確率分布 からランダムにyを選んだときの期待値である。

関数 回帰関数と呼ぶ事もある[17]

分類 編集

(確信度ではなくクラスを直接出力するタイプの)分類タスクにおいて、0-1損失関するベイズ規則は以下のようになる:

教師なし学習 編集

教師なし学習unsupervised learning)では、教師あり学習と違い、目的変数yに相当するものがそもそも存在しないか、あっても知る事ができない。

教師なし機械学習では、未知の確率分布 に従う変数 が訓練データとしてアルゴリズムに与えられる。アルゴリズムが解くべきタスクは、確率分布 やその重要な性質を何らかの形で学習し、 の特性を直接推定する事である[9][18]。教師あり学習と違い、明確な「正解」yが存在しないので、教師なし学習では出力の妥当性を直接評価する評価尺度は存在せず[18]、妥当か否かの判断は主観的なものになり[18]、ヒューリスティックな議論が必要となる[18]

教師なし学習の興味の一つは確率密度関数 それ自身を推定する密度推定のタスクであり、カーネル密度推定など統計学で様々なノンパラメトリック密度推定の手法が知られている[18]。しかしxの次元が高い場合は次元の呪いが原因でこうした推定はうまくいかず[18]、それゆえ多くの教師なし学習では、 の何らかのパラメトリックなモデルで を近似することを試みたり、訓練データから の何らかの重要な性質を抽出するといったアプローチが取られる。

具体的な例として以下のようなものがある。

強化学習 編集

強化学習(きょうかがくしゅう、: reinforcement learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習Q学習が知られている。

  • 強化学習とは、試行錯誤を通じて「価値を最大化するような行動」を学習する 手法
  • あらかじめ正しい答えが分かっていなくても(=教師データが存在しない) 学習が可能
  • 対戦ゲームやロボットなどでの応用例が多い
  • 深層学習を用いた強化学習のことを深層強化学習(deep reinforcement learning)という
  • 強化学習という名前は、Skinner博士の 提唱した脳の学習メカニズムである オペラント学習に由来する
  • Skinner博士は、スキナー箱と呼ばれる ラット実験によって、「特定の動作に 対して報酬を与えると、その動作が 強化される」ことを発見し、これを オペラント学習と呼んだ (1940年頃)

その他の機械学習 編集

 
サポートベクターマシンは、データを線形境界で区切られた領域に分割する教師付き学習モデルである。ここでは、線形境界が黒丸と白丸を分けている。

例えば以下のものがある

半教師あり学習英語版
ラベルありの例とラベルなしの例をどちらも扱えるようにしたもので、それによって近似関数または分類器を生成する。
トランスダクション英語版(トランスダクティブ推論)
観測された具体的な(訓練)例から具体的かつ固定の(テスト)例の新たな出力を予測しようとする。
マルチタスク学習英語版
関連する複数の問題について同時に学習させ、主要な問題の予測精度を向上させる。

能動学習アルゴリズムは、予算に基づいて限られた入力のセットに対して所望の出力(訓練ラベル)にアクセスし、訓練ラベルを取得する入力の選択を最適化する。インタラクティブに使用される場合、これらはラベリングのために人間のユーザーに提示することができる。強化学習アルゴリズムは、動的な環境で正または負の強化の形でフィードバックを与えられ、自動運転車や人間の対戦相手とゲームをするための学習に使用される[19]。機械学習における他の専門的なアルゴリズムには、コンピュータプログラムに自然言語文書のセットを与え、類似したトピックをカバーする他の文書を見つけるトピックモデリングがある。機械学習アルゴリズムは、密度推定問題において、観測不可能な確率密度関数を求めるために使用することができる。メタ学習アルゴリズムは、過去の経験に基づいて独自の帰納バイアスを学習する。発達ロボティクスでは、ロボット学習アルゴリズムは、カリキュラムとも呼ばれる学習経験のシーケンスを独自に生成し、自己誘導型の探索や人間との社会的相互作用を通じて、新しいスキルを累積的に獲得する。これらのロボットは、能動的学習、成熟、運動相乗効果、模倣などの誘導メカニズムを使用する

人間との相互作用 編集

機械学習システムによっては、人間の直観によるデータ解析の必要性を排除しようとしているが、人間と機械の協調的相互作用を取り入れたものもある。しかし、そもそもシステムのデータ表現方法やデータの特徴を探る機構は、人間が設計したものであり、人間の直観を完全に排除することはできない。

データマイニングとの関係 編集

機械学習とデータマイニングは交差する部分が大きく、技法も同じなので混同されることが多いが、次のように定義できる。

  • 機械学習の目的は、訓練データから学んだ「既知」の特徴に基づく予測である。
  • データマイニングの目的は、それまで「未知」だったデータの特徴を発見することである。

この2つは、さまざまな面でオーバーラップしている。データマイニングは、機械学習の技法を使うが、その目的は若干異なることが多い。一方、機械学習もデータマイニングの技法を「教師なし学習」として、あるいは学習者の正確性を向上させる前処理として用いる。2つの研究領域は、ECML PKDD という例外はあるが、基本的に学会も学術誌も別々である。それらの間の混同の最大の原因は、それらの基本的前提に由来する。機械学習では、既知の知識を再生成できるかどうかで性能を評価するが、データマイニングではそれまで「未知」だった知識を発見することが重視される。したがって、既知の知識によって評価するなら「教師なしの技法」よりも「教師ありの技法」の方が容易に優れた結果を示すことができる。しかし、典型的なデータマイニングでは、訓練データが用意できないので、「教師ありの技法」を採用することができない。

理論 編集

機械学習アルゴリズムとその性能についての分析は、理論計算機科学の一分野であり、計算論的学習理論英語版と呼ばれている。訓練例は有限であるのに対して、未来は不確かであるため、学習理論は一般にアルゴリズムの性能を保証できない。その代わりに、性能の確率的範囲を与える。 Wassily Hoeffding英語版によるヘフディングの不等式英語版など統計的学習理論という表現もある。[20]

それに加えて、学習の時間複雑性と実現可能性についても研究している。計算論的学習理論では、多項式時間で終了する計算を実現可能とみなす。

機械学習と統計学は、多くの点で似ているが、使用する用語は異なる。

統計的機械学習 編集

 

統計的機械学習とは、機械学習のうちデータの確率的な生成規則を学習するもの[21] を指す。

統計学母集団と標本、そこに存在する確率分布に着目した方法論である。統計的機械学習ではデータが母集団から確率的に得られると考え、データの生成過程を確率分布を用いてモデル化し、実際のデータに基づいてモデルの学習(あるいはモデル選択自体の学習)をおこなう。母集団からデータが得られる、母集団からのサンプリングによってデータが生成されると解釈できるため、統計的機械学習のモデルは生成モデル・統計モデルとも呼ばれる[22]

標本に基づいた母集団(パラメータ)の推定・選択は統計学において長く研究され、多くの理論が存在する。統計的機械学習における学習はまさに母集団の推定・選択であるため、統計学の理論が機械学習に適用できる。学習の収束や汎化性能など様々な機械学習の課題が統計学の知識体系を用いて研究されている。

統計的機械学習の例としては、ニューラルネットワークにおける生成モデル、例えば自己回帰型生成ネット、変分オートエンコーダー(VAE)、敵対的生成ネットワーク(GAN)などが挙げられる。これらのモデル(=母集団)から実際にサンプリングすれば画像や音声といったデータが生成できるため、特にニューラルネットワークの分野では2010年代後半に非常によく研究され大きな成果をあげている(WaveNet、VQ-VAE-2、BigGANなど)。

数理最適化 編集

多くの機械学習手法はデータに対するモデル出力の誤差を定義し、誤差を最小化するようにパラメータの更新(学習)をおこなう。誤差を計算する関数、すなわち損失関数を最小化する学問体系は応用数学において数理最適化(解かれる問題は最適化問題)と呼ばれる。

例えばニューラルネットワークでは損失関数に対して微分をおこなう勾配法確率的勾配降下法など)で学習がしばしばおこなわれる。勾配法による最適化が最適解に収束するか否かは数理最適化の理論によって研究される。また用いられる最適化法によってニューラルネットワークに課される制約も異なり、勾配法を用いるには連続する関数適用がすべて微分可能である(バックプロパゲーションが可能である)ことが求められる(生成モデルのサンプリングに強く制約を与える)。

技法 編集

決定木学習
決定木予測モデル英語版として使用した学習であり、アイテムについての観測をそのアイテムの目標値についての結論とマッピングする。具体例としてID3Random forestがある。
相関ルール学習英語版
大規模データベースにおける変数間の興味深い関係を発見するための技法。
ニューラルネットワーク
階層的な非線形変換からなるネットワーク。一般に誤差逆伝播法で学習される。非線形性による高い表現能力をもち、分類・回帰・生成など様々なタスクに用いられる。
遺伝的プログラミング (GP)
生物の進化を模倣した進化的アルゴリズムに基づく技法であり、ユーザーが定義したタスクを実行するプログラムを探索する。遺伝的アルゴリズムを拡張・特化させたものである。所定のタスクを実行する能力によって適応度地形を決定し、それによってコンピュータプログラムを最適化させていく機械学習技法である。
帰納論理プログラミング英語版 (ILP)
例、背景知識、仮説を一様な表現とし、論理プログラミングを使って学習を規則化する技法である。既知の背景知識と例の集合をコード化して事実の論理データベースとし、全てのポジティブな例を含み、ネガティブな例を全く含まない仮説的論理プログラムを生成する。
サポートベクターマシン (SVM)
分類回帰に使われる一連の教師あり学習技法である。訓練例のラベルは二値分類(2つに分類される)であり、訓練アルゴリズムによってモデルを構築し、新たな例がどちらに分類されるかを予測する。
クラスタリング
クラスタリングは、観測された例をクラスタと呼ばれる部分集合に振り分けるもので、振り分けは事前に指示された基準に従って行う。クラスタリングはデータの構造についての仮説(基準)の立て方によって結果が異なる。仮説は「類似尺度」で定義され、「内部コンパクト性」(同一クラスタ内のメンバー間の類似性)や異なるクラスタ間の距離によって評価される。「推定密度」や「グラフ接続性」に基づく技法もある。クラスタリングは教師なし学習技法であり、統計的データ解析でよく使われる。
ベイジアンネットワーク
確率変数群とそれらの条件付き独立性英語版有向非巡回グラフ (DAG) で表した確率論的グラフィカルモデルである。例えば、病気と症状の関係を確率的に表すことができる。そのネットワークに症状を入力すれば、考えられる病気の一覧を確率付きで出力できる。これを使って推論と学習を行う効率的アルゴリズムが存在する。
表現学習英語版
教師なし学習アルゴリズムの一部は、訓練中に提供された入力のよりよい表現を発見しようとする。古典的な例として主成分分析クラスタ分析がある。入力の持つ情報は保持したまま、分類や予測の前に入力をより便利な表現に変換するアルゴリズムもある。その際に入力データが従っている未知の確率分布から入力を再建できるようにするが、その確率分布においては信じがたい例も忠実に再現する必要はない。例えば多様体学習英語版アルゴリズムは、何らかの制約下で入力の次元を低く変換して表現する。スパースコーディング英語版アルゴリズムでは、入力が疎ら(ゼロが多い)という制約下で同様の表現の変換を行う。ニューラルネットワークの深層学習は複数レベルの表現または特徴の階層を発見するもので、低いレベルで抽出した特徴から高いレベルの抽象化した特徴までを求める。知的機械は、観測されたデータを説明する偏差の潜在的要因を解きほぐす表現を学習するものだという主張もある[23]
エクストリーム・ラーニング・マシン (ELM)
1層もしくは複数の隠れ層を有する順伝播型ニューラルネットワークであり,分類や回帰,クラスタリングへ適用できる。

モデルおよび学習規則に加え、様々なデータ前処理技法が採用される。

応用分野 編集

機械学習には以下のような応用分野がある。

2006年、オンラインDVDレンタル会社ネットフリックスは、同社のレコメンダシステムより10%以上高性能な(ユーザーの好みをより正確に予測する)プログラムを捜す競技会 Netflix Prize を開催した。この競技会は数年かけて行われ、AT&T Labs のチームが「プラグマティック・ケイオス」[24] という機械学習プログラムで2009年に優勝し100万ドルを獲得した[25]

実応用 編集

以下のものがある:

分類 具体例
認識[26] 画像認識 顔認証[27]
監視業務[27]
検査・検品[27]
画像の整理[27]
医療診断[27]
音声認識 音声入力[28]
議事録の自動作成[28]
コールセンターの補助または代替[28]
文章解析・文章認識 不正文章検知[29]
ニーズの把握[29]
過去の類似事例検索[29]
異常検知 故障の検知[30]
不審行動検知[30]
デフォルトの検知[30]
分析[26](多くは予測[31] 数値の予測 売上げなどの需要予測[32]
株価や経済指標の予測[32]
所要時間の予測[32]
劣化の予測[32]
品質の予測[32]
イベント発生の予測 購買や解約の予測[33]
故障の予測[33]
疾病の予測[33]
相性の予測[33]
対処[26] 行動の最適化 在庫の最適化[34]
広告の最適化[34]
キャンペーンの最適化[34]
出店の最適化[34]
配送の最適化[34]
作業の最適化 自動運転[35]
ロボット制御[35]
Q&Aの自動化[35]
表現の生成 翻訳[36]
要約[36]
画像生成[36]

ソフトウェア 編集

各種機械学習アルゴリズムを備えたソフトウェアスイートとして、SASRapidMinerLIONsolverKNIMEWekaODMShogun toolboxOrangeApache Mahoutscikit-learnmlpyMCMLLOpenCVXGBoostJubatus などがある。

データロボット社[37] による複数の手法を並列計算させて比較する方法がある[38]

学術誌と国際学会 編集

脚注 編集

注釈 編集

  1. ^ Machine learning and pattern recognition "can be viewed as two facets of the same field."[3]:vii
  2. ^ 人間の専門家が訓練例にラベル付けすることで提供されることが多いのでラベルとも呼ばれる。
  3. ^ 典型的には、p(x,y)に従って独立にDの各データを選ぶが、Dをどのような確率分布から選んだかによらず、定理は証明できる。

出典 編集

  1. ^ Machine Learning textbook”. www.cs.cmu.edu. 2020年5月28日閲覧。
  2. ^ Harnad, Stevan (2008), “The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence”, in Epstein, Robert; Peters, Grace, The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer, Kluwer, pp. 23–66, ISBN 9781402067082, http://eprints.ecs.soton.ac.uk/12954/ 
  3. ^ #bishop2006
  4. ^ Friedman, Jerome H. (1998). “Data Mining and Statistics: What's the connection?”. Computing Science and Statistics 29 (1): 3–9. 
  5. ^ Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi:10.1147/rd.33.0210. 
  6. ^ Mitchell, T. (1997). Machine Learning. McGraw Hill. pp. 2. ISBN 978-0-07-042807-2 
  7. ^ a b #瀧 p.20.
  8. ^ a b c d e f #ESL p11-12
  9. ^ a b #GBC 5.1.3節
  10. ^ #金森 p.3.
  11. ^ #瀧 p.8.
  12. ^ a b #瀧 p.36.
  13. ^ #瀧 p.30.
  14. ^ Lecture 12: Bias-Variance Tradeoff”. CS4780/CS5780: Machine Learning for Intelligent Systems [FALL 2018]. コーネル大学. 2020年11月10日閲覧。
  15. ^ #金森 p.13.
  16. ^ #金森 p.9.
  17. ^ a b #ESL p22-23
  18. ^ a b c d e f #ESL p559-561
  19. ^ Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, ISBN 978-0-387-31073-2 
  20. ^ 統計的学習理論, 金森敬文, 機械学習プロフェッショナルシリーズ, 講談社, 2015, ISBN 9784061529052
  21. ^ "統計的機械学習理論と ボルツマン機械学習" 安田 宗樹. 山形大学
  22. ^ 上田. "統計的機械学習入門" NII. https://www.youtube.com/watch?v=wqb3k22toFY&t=478
  23. ^ Yoshua Bengio (2009). Learning Deep Architectures for AI. Now Publishers Inc.. p. 1–3. ISBN 978-1-60198-294-0. https://books.google.co.jp/books?id=cq5ewg7FniMC&pg=PA3&redir_esc=y&hl=ja 
  24. ^ : Pragmatic Chaos
  25. ^ "BelKor Home Page" research.att.com
  26. ^ a b c #本橋2018 1.3章「人工知能の利用用途」「人工知能の3つの役割」の冒頭付近。
  27. ^ a b c d e #本橋2018 1.4章「認識の具体例」図1-4「画像認識の具体例」
  28. ^ a b c #本橋2018 1.4章「認識の具体例」図1-5「音声入力の具体例」
  29. ^ a b c #本橋2018 1.4章「認識の具体例」図1-6「文章解析・文章認識の具体例」
  30. ^ a b c #本橋2018 1.4章「認識の具体例」図1-7「異常検知の具体例」
  31. ^ #本橋2018 1.5章 「分析とは?」冒頭
  32. ^ a b c d e #本橋2018 1.5章「分析の具体例」図1-8「数値の予測の具体例」
  33. ^ a b c d #本橋2018 1.5章「分析の具体例」図1-9「イベントの発生の予測の具体例」
  34. ^ a b c d e #本橋2018 1.6章「対処の具体例」図1-10「行動の最適化の具体例」
  35. ^ a b c #本橋2018 1.6章「対処の具体例」図1-12「作業の具体化の具体例」
  36. ^ a b c #本橋2018 1.6章「対処の具体例」図1-13「表現の生成の具体例」
  37. ^ : DataRobot
  38. ^ DataRobot: https://www.datarobot.com

参考文献 編集

  • Christopher M. Bishop (2006). Pattern Recognition And Machine Learning. Springer-Verlag. ISBN 978-0387310732  (中上級の教科書) →サポートページ(ここから、第8章 "Graphical Models" をpdf形式で入手可能)
  • 後藤正幸,小林学:「入門 パターン認識と機械学習」コロナ社(2014)ISBN 978-4-339-02479-1
  • 本橋, 洋介 (2018/2/15). 人工知能システムのプロジェクトがわかる本 企画・開発から運用・保守まで (AI & TECHNOLOGY). 翔泳社. ASIN B078JMLVR2. ISBN 978-4798154053 
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville 翻訳:黒滝紘生, 河野慎, 味曽野雅史, 保住純, 野中尚輝, 冨山翔司, 角田貴大, 監訳:岩澤有祐, 鈴木雅大, 中山浩太郎, 松尾豊訳 (2018/8/27). 深層学習(kindle版). ドワンゴ. ASIN B07GQV1X76 
  • 著者:Trevor Hastie, Robert Tibshirani, Jerome Friedman, 翻訳:杉山 将 , 井手 剛 , 神嶌 敏弘 , 栗田 多喜夫 , 前田 英作 , 井尻 善久 , 岩田 具治 , 金森 敬文 , 兼村 厚範 , 烏山 昌幸 , 河原 吉伸 , 木村 昭悟 , 小西 嘉典 , 酒井 智弥 , 鈴木 大慈 , 竹内 一郎 , 玉木 徹 , 出口 大輔 , 冨岡 亮太 , 波部 斉 , 前田 新一 , 持橋 大地 , 山田 誠 (2014/6/25). 統計的学習の基礎 ―データマイニング・推論・予測. 共立出版. ISBN 978-4320123625 
  • 瀧 雅人 (2017/10/21). これならわかる深層学習入門. KS情報科学専門書 機械学習スタートアップシリーズ. 講談社. ISBN 978-4061538283 
  • 金森 敬文 (2015/8/8). 統計的学習理論. KS情報科学専門書 機械学習スタートアップシリーズ. 講談社. ISBN 978-4061529052 
  • 有賀 康顕、中山 心太、西林 孝『仕事ではじめる機械学習』株式会社オライリー・ジャパン、2018年1月15日。ISBN 978-4-87311-825-3 
  • 鈴木 顕:「機械学習アルゴリズム」、共立出版、ISBN 978-4-320125179(2021年6月9日)。
  • 岡留 剛:「機械学習 1:入門的基礎/パラメトリックモデル」、共立出版、ISBN 978-4-320124882 (2022年8月26日)。
  • 岡留 剛:「機械学習 2:ノンパラメトリックモデル/潜在モデル」、共立出版、ISBN 978-4-320124899(2022年8月26日) 。

Further reading 編集

関連項目 編集

外部リンク 編集