リーディング・スキル・テスト

リーディングスキルテスト（略称RST）とは、一般社団法人教育のための科学研究所により実施されている、読解力（基礎的な「読む」力）を測定・診断するテストである。東ロボくんプロジェクトの副産物として、新井紀子らのグループによって2016年に開発された。

開発経緯編集

東ロボくんの開発にあたり、プロジェクトチームがぶつかった問題が「過去問が圧倒的に少なすぎる」ということだった。AIの深層学習のために同じ形式の問題を数千は用意しなければならない。加えて、センター試験の問題は自然言語処理の課題として解くには複雑すぎ、もっと単純で、一貫性が担保されており、より広範囲に難易度も分布している問題群をつくらないと、AI技術の真の限界をあぶりだすことが難しい。

こうした問題意識から、「一貫性が保たれていて、公平で、高品質で、読解力を多面的に診断することができる大量の問題からなるベンチマーク」を求めていった結果、人間の読解力を診断し得るような高品質なベンチマークをつくり、人間がそれを受検する傍らで、AIにもそれを解かせてみるという研究をするのが最善だ、という結論に至り、リーディングスキルテストが生まれた^[1]。

概要編集

「事実について書かれた短文を正確に読むスキル」を6分野に分類してテストが設計されている。

係り受け解析
- 文の基本構造（主語・述語・目的語など）を把握する力
照応解析
- 指示代名詞が指すものや、省略された主語や目的語を把握する力
同義文判定
- 2文の意味が同一であるかどうかを正しく判定する力
推論
- 小学校6年生までに学校で習う基本的知識と日常生活から得られる常識を動員して文の意味を理解する力
イメージ同定
- 文章を図やグラフと比べて、内容が一致しているかどうかを認識する能力
具体例同定
- 辞書 - 辞書的な定義を用いて新しい語彙とその用法を獲得できる能力
- 理数 - 理数的な定義を理解して、その用法を獲得できる能力

RSTの試行版をつくった2015年の段階では自然言語処理の読解力ベンチマークを参考に作成した1 - 4しかなかったが、パターンマッチや知識で解こうとすると容易にAIが正答率60 %を超えないように3、4の作問を工夫し、さらに近未来AIには到底解けそうにない問題群として5、6を追加し、現行のRSTとなった。

実施形態編集

リーディングスキルテストは、テスト形態としてはComputer Adaptive Test（CAT）に区分される。コンピュータのWebブラウザ上で行われ、約35分で上記6分野7項目にわたって出題される。

それぞれの分野の例題が初めに示される。これは回答形式の慣れによる影響を小さくするためである。本回答の前半では難易度中程度の問題がいくつか出題され、受験者の大まかなレベルを把握する。この時、項目応答理論を用い、受験者のレベルを大まかに決める。その後、受験者の能力値を用い、その後の問題を受験者のレベルに見合った難易度に変え、回答させる。このようにすることで、受験者の能力を打倒的に測定する。そのため、RSTのスコアは、古典的テスト理論に見られる点や正答数（正答率）ではなく、項目応答理論の能力値であることが特徴的である。

「項目応答理論」も参照