「Good–Turing推定」の版間の差分

削除された内容 追加された内容
m Category:統計学を除去 (HotCat使用)
Momijiro (会話 | 投稿記録)
m {{Template:Cite journal → {{Cite journal, Removed namespace in template ∵Check Wikipedia #1
4行目:
Good–Turing推定は[[アラン・チューリング|アラン・チューリング (Alan Turing)]] と彼の助手I. J. グッド (I. J. Good)により、[[第二次世界大戦]]中[[ブレッチリー・パーク|ブレッチリー・パーク (Bletchley Park)]]における[[ドイツ]]軍の[[エニグマ暗号]]を解読する試みの中で提案された。チューリングははじめ頻度を[[多項分布]]でモデル化したが、そのモデルは不正確だとわかった。グッドはその推定法の精度を改善すべく、平滑化アルゴリズムを考案した。
 
その発見はグッドにより1953年に公開され、多大な注目をあつめることとなった<ref>{{Template:Cite journal|last = Good|first = I.J.|authorlink = I.J. Good|year = 1953|title = The population frequencies of species and the estimation of population parameters|journal = [[Biometrika]]|volume = 40|issue = 3&ndash;4|pages = 237&ndash;264|doi = 10.1093/biomet/40.3-4.237|jstor = 2333344|mr = 61330}}</ref> 。しかしその計算は難しく、それほど広く使用されることはなかった<ref>[http://www.newswise.com/articles/view/501440/ Newsise: Scientists Explain and Improve Upon 'Enigmatic' Probability Formula], a popular review of {{Template:Cite journal|journal = Science (New York, N.Y.).|volume = 302|issue = 5644|pages = 427–31|year = 2003|author = Orlitsky A, Santhanam NP, Zhang J.|title = Always Good Turing: asymptotically optimal probability estimation.|pmid = |doi = 10.1126/science.1088284}}</ref> 。ただ、グッドの手法は[[ロバート・ハリス (1957年生)|ロバート・ハリス (Robert Harris]]) の小説『暗号機エニグマへの挑戦 (''Enigma)』により文学的な名声をいくらか得ることとなった。''
 
1990年代、Geoffrey Sampsonは[[AT&T]]のWilliam A. Galeと共に、次に述べるシンプルで使いやすいGood–Turing推定の手法を考案、実現した<ref>Sampson, Geoffrey and Gale, William A. (1995) [[doi:10.1080/09296179508590051|Good‐turing frequency estimation without tears]]</ref><sup class="noprint Inline-Template noprint Template-Fact" style="white-space: nowrap;">''[[Wikipedia:独自研究は載せない|<span title="This claim needs references to reliable secondary sources. (February 2012)">non-primary source needed</span>]]''</sup>。
38行目:
 
そして両対数グラフに対して線形単回帰 (simple linear regression) を行う。小さい ''r'' に対しては、<math>S(N_r) = N_r</math>
(つまり、平滑化を行わない) としてよい。一方で大きい ''r に対しては、''<math>S(N_r)</math> の値は回帰線から取る。(ここでは記述しないが) 自動的な手続きによってどの点でその平滑化無しから線形平滑化への切替が行われるべきかを特定することができる<ref>{{Template:Cite journal|last = Church, K and Gale, W|title = A comparison of the enhanced Good–Turing and deleted estimation methods for estimating probabilities of English bigrams|year = 1991}}</ref> 。その手法のソースコードはパブリックドメインで使用可能である<ref>Sampson, Geoffrey (2005) [http://www.grsampson.net/D_SGT.c Simple Good–Turing Frequency Estimator] (code in C)</ref>。
 
== 関連項目 ==