未知語(みちご、英語: unknown words)は、自然言語処理において、辞書中に登録されていない語句や表記のことである[1]。未知語は大きく「既知語から派生したもの」と「既知語と直接的な関係性を持たない純粋な未知語」の2つに分類することができる[2]。TwitterなどのSNSにも数多くの未知語が見られており、それらの未知語を分析する研究も行われている[3]

未知語とみなされやすい表現 編集

脚注 編集

  1. ^ 1文字未知語を核とする未知語候補の抽出”. 石原吉晃、山田佳裕、松本忠博、池田尚志. 2021年8月19日閲覧。
  2. ^ 笹野遼平, 黒橋禎夫, 奥村学「日本語形態素解析における未知語処理の一手法―既知語から派生した表記と未知オノマトペの処理―」『自然言語処理』第21巻第6号、言語処理学会、2014年、1183-1205頁、doi:10.5715/jnlp.21.1183ISSN 1340-7619NAID 1300048524622021年12月12日閲覧 
  3. ^ 牛久保佑樹、藤田茂 (2011). “Twitter 上の未知語の意味推定方式”. 平成23年度情報処理学会関西支部 支部大会.