幽霊文字

JIS基本漢字に含まれる、典拠不明の文字の総称

幽霊文字(ゆうれいもじ、:ghost letter)は、JIS基本漢字に含まれる、典拠不明の文字漢字)の総称。幽霊漢字(ゆうれいかんじ)、幽霊字(ゆうれいじ)とも呼ぶ。

概説 編集

 
河内𡚴原地区(滋賀県犬上郡多賀町)の地名看板。幽霊漢字「妛」は「𡚴」の誤字である可能性が指摘されている。

1978年に当時の通商産業省が制定したJIS C 6226(後のJIS X 0208)では、いわゆるJIS第1・第2水準漢字として6349字が規定された。この漢字集合を「JIS基本漢字」と呼ぶ。このとき典拠として次の4つの漢字表に含まれる漢字が採用された[1]

  1. 標準コード用漢字表(試案): 情報処理学会漢字コード委員会(1971年
  2. 国土行政区画総覧: 国土地理協会1972年
  3. 日本生命収容人名漢字: 日本生命1973年、現存せず)
  4. 行政情報処理用基本漢字: 行政管理庁1975年

しかし、制定当時は各文字の典拠が規格の中に明示されなかったため、音義・使用例の不明な文字があることが指摘され、辞書類に収録されながら実用例のない単語を意味する「幽霊語」をもじって「幽霊文字」と呼ばれるようになった[2]。代表的なものに「」や「」などがあり、これらは古字書を網羅的に収録した『康熙字典』や『大漢和辞典』にも記載がなかった。

こうした状況を踏まえて、1997年制定の改定規格では、その原案作成委員会において委員長の芝野耕司国立国語研究所笹原宏之らが中心となり、1978年規格の原案作成時に参照された文献を調査した。その結果、幽霊文字とされてきたものの多くは、地名などに実際に使われていた漢字であることが明らかになった。

調査によると、1978年規格原案作成に先立って、行政管理庁は1974年に上記の1 - 3を含む8つの漢字表をとりまとめた『行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果』を作成しており、これには漢字表と元の典拠が併せて記載されている。当時のJIS基本漢字の選定の際には、元の典拠ではなくこの対応分析結果が参照されており、このうち『国土行政区画総覧』『日本生命収容人名漢字』を典拠とするものに幽霊文字が多く含まれていることが判明した。特に『日本生命収容人名漢字』は第1次規格の原案作成時点で既に原典が存在せず、内容に不備が指摘されている[3]

この結果を受け、改定規格の委員会は『国土行政区画総覧』の1972年版を校正履歴から復元したうえで、そこに現れる漢字を全ページにわたって照合し、用例を確認した。このほか、現存しない『日本生命収容人名漢字』に代わる人名用例として、NTT電電公社電話帳データベースを比較調査したり、30以上にわたる古今の字書を調査対象としたりするなど、徹底的な文献参照を行った。

しかしこうした綿密な調査を経てもなお、12の漢字については典拠不明のまま残される結果となった。この中には、資料の写し間違いが推察されるなどの手がかりが発見されたものも含まれる。また、典拠不明の文字の多くは古字書に同形衝突した文字が見えるが、唯一「彁」に関しては同形の文字を発見することはできなかった[4]。したがって、現在では本当に幽霊文字とみなされるのはこれら12文字、狭い意味では「彁」1文字のみである。

幽霊文字は既にUnicode等の国際規格に採用されており、これらの規格変更は互換性の問題を起こす可能性が高いため、幽霊文字の修正や削除は事実上不可能になっている。

幽霊文字とされた漢字の調査結果 編集

前述の笹原宏之らによる調査の成果は、JIS X 0208:1997の附属書7「区点位置詳説」にまとめられている。本節ではその一部を抜粋する。

典拠が不明なもの 編集

JIS X 0208:1997では、前述の4つの漢字表のうちいずれかを典拠とするものか確信を得られないため、下表の12文字について「典拠不詳」「不明」「同定不能」として扱っている。これらは規格制定上に参照された文献が特定できないものをすべて不明として扱ったものであり、前述の漢字表のいずれかの文字を誤収録した可能性が高い。また、その多くは偶然に同形のものが歴史的に存在していることが確認されている。

調査結果 偶然に一致した(暗合)例
文字 区点 典拠 字書 読み・字義
52-55 対応分析結果になし(典拠不明)[注釈 1] 集韻』鈔本にあるが誤写か 」の異体字
52-63 対応分析結果になし(典拠不明)[注釈 1]。「㕓」の誤写か。 倭玉篇』にあり 」の異体字
54-12 国土行政区画総覧典拠とあるが発見できず。「𡚴」の誤認か。 字鏡集』などにあるが誤写か 」の異体字
55-27 対応分析結果になし(典拠不明)[注釈 1]。「彊」などの誤写か。 同定不能 -
57-43 国土行政区画総覧典拠とあるが発見できず。「栩」の誤写か。 中華字海』などにあり 読み:ウ、人名用途
58-83 国土行政区画総覧典拠とあるが発見できず。「杲」などの誤写か。 法華三大部難字記』にあり 」の異体字
59-91 国土行政区画総覧典拠とあるが発見できず。「橳」の誤写か。 一切経音義 (玄応)』にあり 」の異体字
60-57 国土行政区画総覧典拠とあるが発見できず。「橦」の誤写か。 宋元以来俗字譜』などにあり 」の異体字
74-12 行政情報処理用基本漢字典拠(明治生命保険相互会社漢字コード表)とあるが用例なし[注釈 1] 新撰字鏡』にあり 読み:もむ・せむ
74-57 国土行政区画総覧典拠とあるが発見できず。「祢」の誤写か。 新撰字鏡』『類聚名義抄』などにあり 」の異体字
79-64 国土行政区画総覧典拠とあるが発見できず。「閏」の誤字か。 宋版『広韻』の一部にあるが誤写か[注釈 2] 」の異体字
81-50 日本生命人名表典拠とあるが原典不在。 類聚名義抄』にあり 読み:シュウ、尻の白い馬

誤写の可能性があるもの 編集

典拠不明の文字のうち、典拠資料に存在しながら規格収録されなかった文字を誤写し、誤った字体で登録した可能性があるものとして、以下のものが挙げられる。

  • 「壥」は、対応分析結果に含まれている「」がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[5]。「㕓」はJIS X 0213にも収録されていない。
  • 「妛」は、滋賀県犬上郡多賀町河内にある「𡚴原」(あけんばら)の「𡚴」(「山女(あけび)」の合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある。典拠である国土行政区画総覧において、版下作成時に異なる文字の一部を切って貼り合わせることで作字したと見られる重ね目の影のような印刷跡があり、それを横画と見誤って転記したものと推測されている[5][6]。「𡚴」はJIS X 0213に収録された。
  • 「椦」は、群馬県前橋市にある「橳島」(ぬでじま)[7]の「」(植物のヌルデの別名カチノキの合字)がJIS基本漢字に未収録となっているため、これを誤った字体で登録した可能性がある[5]。「」はJIS X 0213に収録された。

典拠が判明したもの 編集

JIS X 0208:1997では、典拠の明らかになった文字のうち、諸橋『大漢和辞典』、角川『新字源』の両方に掲載されていないものを中心に典拠詳細をまとめている。ただし、附属書7で「原典典拠」と付された区点一覧には72文字が掲載されているが、詳説本文には「(82-60)」が記載されておらず、71文字にとどまっている。

下表にその一部を例示した。この中には、原典による誤字と判明しているものも含まれる。

文字 区点 典拠・用例
52-18 国土行政区画総覧に用例あり。藤垈(ふじぬた)・相垈(あいぬた)[注釈 3]・大垈(おおぬた)/山梨県
52-21 国土行政区画総覧に用例あり。垉六(ほうろく)/愛知県
54-19 国土行政区画総覧に用例あるが現存せず。広岾町(ひろやまちょう)→広町(こうちょうちょう)/京都府[注釈 4]
55-78 日本生命人名表典拠。NTT電話帳に人名用例あり。
60-81 日本地名大辞典[注釈 5]に用例あり。石橸(いしだる)[注釈 6]/静岡県
61-73 国土行政区画総覧に用例あり。汢の川(ぬたのかわ)[注釈 7]/高知県
66-83 日本生命人名表典拠。NTT電話帳に人名用例あり。
67-46 国土行政区画総覧に用例あるが原典誤字。穃原→原(ようばる)/沖縄県
68-68 国土行政区画総覧に用例あり。粐蒔沢(ぬかまきざわ)[注釈 8]/秋田県
68-70 国土行政区画総覧に用例あり。粭島(すくもじま)/山口県
68-72 国土行政区画総覧に用例あるが原典誤字。粫田(うるちだ)→田(もちだ)[注釈 9]/福島県
68-84 国土行政区画総覧に用例あり。糘尻(すくもじり)/広島県
71-19 国土行政区画総覧に用例あり。膤割(ゆきわり)[注釈 10]/熊本県
77-32 国土行政区画総覧に用例あるが現存せず。軅飛(たかとぶ)→飛(たかとび)/福島県
78-93 国土行政区画総覧に用例あり。小鍄(こがすがい)/山形県
82-94 国土行政区画総覧に用例あるが原典誤字。鵈沢→沢(みさごさわ)/福島県

辞書での扱い 編集

規格制定以降、辞書編纂の方針としてJIS基本漢字を全掲載することが前提となった字書類が出版されている。JIS基本漢字に収録された幽霊文字については、過去の出典を参照することができないため、その取り扱いは字書や個別の文字によって以下のように異なった。

読みを便宜的に割り当てる
JIS基本漢字を実装した情報機器では、幽霊文字といえども実装されている以上は変換してその文字が出てこないというのは具合が悪く、便宜的に形声文字として解釈した「音読み」を割り当てることがある[注釈 11]。これに倣い、辞書でもこれらの便宜的な読みを掲載するものもある(彁=カ・セイ、暃=ヒなど)。笹原宏之は、日本電子工業振興協会による調査報告(1982年)や、NEC(1982年)・日本IBM(1983年)の発行資料に基づいてこれらの読みが与えられた可能性を指摘している[12]
似た文字の異体字とする
「駲」を「馴」の異体字[13]、「軅」を「軈」の異体字[14]とするものがある。しかし、いずれも典拠を示したものがない。
「妛」は大漢和辞典康熙字典に非常に似た文字「」(上部の「山」が「屮」となるもの)が収録されており、その異体字とするものがあった[15]。これはJIS X 0208:1997での調査でも典拠つきで暗合例が紹介されている。また、Unicodeでもこれら2文字は同一コードポイントに統合されている(#幽霊文字が残されている理由を参照)。
暗合した別の文字として解説する
「槞」を「櫳」の異体字、「鵈」を「とび」の意の国字として解説するものがある。これらはJIS X 0208:1997での調査でも典拠つきで暗合例が紹介されているものである。規格の収録意図とは異なる可能性が高いが、このような扱いは幽霊文字に限らず、収録文字の解説に汎用性を持たせるために行われる。
音義未詳字として解説する
読みや意義が不明であることをありのままに記述する。

前述の調査結果が判明してからは、その内容を採るものが一般的である。『大漢和辞典』は2000年に補巻を、角川『新字源』は2017年に改訂新版を刊行しており、いずれも典拠の判明した文字の一部を含めて収録している。

幽霊文字が残されている理由 編集

Unicodeで他国規格収録文字と統合された例
Unicode 1.1 U+5788 U+599B U+5CBE
JIS X 0208-1990(日本)
(52区18点)

(54区12点)

(54区19点)
CNS 11643-1992(台湾) -
(3面2553)
-
KS C 5601-1987(韓国)
(535C)
-
(6F40)

笹原宏之らによって幽霊文字の調査が行われたが、これはJIS X 0208の第4次規格(1997年)改正の一環であった。第2次規格(1983年)のいわゆる「83JIS改正」では、区点の入れ替えを主とする非互換の改変がされたために大きな混乱を招いた過去があり、それを再び起こすわけにはいかなかった。

また、Unicodeとの互換性を維持する必要もあった。調査時点において1993年制定のUnicode 1.1には既にJIS基本漢字がすべて収録されており、この時期になっての変更は、単に国内だけの問題に留まるものではなかった。またUnicodeでは、source separation rule(原規格分離規則、例えばJIS X 0208で別々に収録されているものは分離を維持する)という原則の一方で、CJK統合漢字ではその規則に反しない範囲で包摂(en:Han unification包摂 (文字コード) の記事も参照)を行うという複雑な経緯を経て、またそれ以降においても、Unicode収録文字に基づいて中国GB 16500-1995、台湾CNS 11643-2004などといった他国内規格が追加拡張を行っており、これら規格内にも幽霊文字が含まれている。以上のような把握困難な複雑さから、変更という形での対処は事実上不可能であったと言える。

結果として、幽霊文字はいまなおJIS基本漢字やUnicodeに残され、フォントさえ用意すれば世界中の情報機器で利用可能となっている。

使用例 編集

幽霊文字は元来典拠不明であり、過去の用例が発見されていないものであるが、規格制定以降はその普及に伴い幽霊文字の用例が現れている。

規格に収録されたことで幽霊文字と似た形の漢字との誤用を誘発しやすくなり、代表的な例に「祢宜」「栩谷」を「宜」「谷」などと誤用する例が散見する[16]。また、丹羽基二の著書では幽霊文字「妛」を用いた「妛芸凡(あきおうし)」という苗字を出典なしに掲載している[17]が、これも「𡚴」または「安」の誤植の可能性が高い[2]。笹原宏之はこうした誤用例を「幽霊用法」と呼び、曖昧な用例の不用意な引用により情報が独り歩きすることについて注意喚起している。

朝日新聞データベースにおいては、1923年(大正12年)2月23日付の朝日新聞朝刊の記事に対応する検索キーワードとして幽霊文字「彁」を用いた「埼玉自彁会」が含まれていたが、その後「埼玉自彊会」の誤用と結論付けられ、検索キーワードも修正された[18]

誤字の可能性が高いもののうち、本来の文字がJIS X 0208に収録されなかったものは、幽霊文字をその代用とする用例がある(「𡚴原」→「原」、「島」→「島」)。規格上はこれらも誤用の範疇であるが、JIS X 0213では異なる区点位置で本来の文字が登録されたため、JIS X 0213の普及に伴ってこうした用例は少なくなっていくものと予想される。

そのほか、調査以前から用例のある検証可能性の高いものは、以下のものがある。

  • 蟐 - 蟐蛾ノ瀬戸航路(じょうがのせとこうろ)
    長崎県壱岐市沖合から出ている航路の一つ。沖合に位置する「嫦娥島」の別表記として「蟐蛾島」が見られる[19][20]
  • 岾 - 大岾(おおはけ)
    埼玉県所沢市南永井小字[19][21]
    「岾」はもともと京都市左京区浄土寺広岾町(ひろやまちょう)を用例として採用されたものだが地名としては現存しておらず、暗合用例である「はけ」として使用される。
  • 挧 - 道士・嘉挧(どうし・かく)
    1993年東映制作『五星戦隊ダイレンジャー』に登場する架空の人物名。名前は賈詡からとられているが、テロップや雑誌では「挧」と表示されており公式表記である。当時は既にJIS基本漢字を実装した情報機器が普及しており、収録文字を利用して選定したか、誤植がそのまま公式表記になったものと思われる。

調査以降に判明した幽霊文字としての特性を利用し、主に創作などに用いられるものがある。

  • 暃 - 詠坂雄二の小説『5A73』
    2022年発表。作中で発生する事件でこの文字が登場する。タイトルの『5A73』は「暃」のJISコードポイントに相当する[22]
  • 彁 - Diver Down社が運営する匿名メッセージサービス「マシュマロ」で使われる絵文字出力コマンド
    2018年実装。メッセージ中に含まれる「彁」をマシュマロ絵文字に自動変換して出力する[23]。この絵文字は本来は卑語などを差し替える伏せ字であるが、ユーザが任意に使える機能として実装され、通常のメッセージでは用途がないことを利用して幽霊文字が選定された。
  • 音楽ゲーム『Beatmania IIDX 28』の収録曲『閠槞彁の願い』
    2020年発表。楽曲コメントに「人間には発音できない読み」とあり、仮の読みを「ぎょくろうかのねがい」としている[24]。なお、「閠」「槞」は規格制定の誤収録ではあるが、古字書に用例があるため発音自体は存在する。
  • - 音楽ゲーム『太鼓の達人』の収録曲『彁』
    2021年発表。読みは「か」[25]

なお、実用例ではないが、幽霊文字そのものを紹介するための用例が多々ある。本記事もその一例であるが、幽霊文字について解説する以上、具体例としてそのうちの何文字かを挙げる必要があるため、規格制定以前に用例が見つかっていない幽霊文字にとっては、必然的にこれが主な用途となっている。

Unicodeでの類似事例 編集

UnicodeのCJK統合漢字にも収録経緯が不明な文字があり、こちらも「幽霊文字」と呼ばれることがある。これは中国がCJK統合漢字の制定時に、各国が合意した規格に含まれない多くの漢字を既存規格収録文字として提出したことによるものである[26]

このほかUnicodeのCJK統合漢字拡張Fには住基統一文字に由来する読みや意味が不明な文字が幾つか含まれている[27]

脚注 編集

注釈 編集

  1. ^ a b c d 対応分析結果に含まれないにもかかわらず規格収録された文字は全部で13字あり、典拠不明の「墸・壥・彁・蟐」のほかに「」が収録されている[2]
  2. ^ 笹原宏之はその後の調査で『正字通』に異体字として掲載されているのを確認している[2]
  3. ^ 山梨県韮崎市藤井町相垈。交差点名および山梨交通(旧:山交タウンコーチ)のバス停名「相垈」として現存する[8][9][10]
  4. ^ 京都市左京区浄土寺広岾町(ひろやまちょう)→広帖町(こうちょうちょう)。
  5. ^ 国土行政区画総覧典拠とあるが発見できないため、ここでは別の地名資料を典拠としている。
  6. ^ 静岡県静岡市葵区井川。2006-06-29の入札結果表静岡市公式ウェブサイト)にて、「南アルプス公園線(井川字石橸工区)地すべり調査・観測・測量業務委託」という委託業務の説明がある。
  7. ^ 高知県高岡郡四万十町。四万十町役場によれば、本来はにすい(冫)の「 」であるとの報告がされている[11]が、以降の版でも国土行政区画総覧は修正されていない。2002年1月1日に利便性と明治時代の用例を考慮して「 の川」→「汢の川」に改めている[11]
  8. ^ JIS X 0208:1997の附属書7「区点位置詳説」では「粐薪沢」と誤植している。
  9. ^ 福島県白河市大字本沼。
  10. ^ 熊本県水俣市栄町・野口町。
  11. ^ MS-IME単漢字辞書、ATOKGoogle 日本語入力など。なお、MS-IMEの逆引き機能では空白文字を返す。

出典 編集

  1. ^ JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、pp.269f頁。 
  2. ^ a b c d 笹原宏之『国字の位相と展開』三省堂、2007年、212, 788頁。ISBN 978-4-385-36263-2 
  3. ^ 名字・名前と漢字 第9回 WEB国語教室、大修館書店
  4. ^ JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、pp.291f頁。 
  5. ^ a b c JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、p.288, pp.289f, p.292頁。 
  6. ^ 笹原宏之『日本の漢字』岩波書店岩波新書〉、2006年、p.82頁。ISBN 4-00-430991-3 
  7. ^ 漢字の写真字典 国字(木 12)”. Yoshio Yoshida (2013年4月). 2016年12月13日閲覧。
  8. ^ 山梨県韮崎市藤井町相垈(Googleマップ)
  9. ^ 相垈(あいぬた)バス停留所 山梨交通 ジョルダン乗換案内NEXT
  10. ^ 相垈(あいぬた)増富温泉郷線〔増富温泉郷行き〕山交タウンコーチ NAVITIME
  11. ^ a b 町内ぶら~り散歩 汢の川(ぬたのかわ) 四万十町
  12. ^ 比留間直和 (2011年8月22日). “幽霊文字の読み、どこから ― 変換辞書のはなし5”. 朝日新聞デジタル. 2017年4月14日閲覧。
  13. ^ 戸川芳郎『漢辞海』(第四版)三省堂、2016年。ISBN 978-438-5-14048-3 
  14. ^ 鎌田正, 米山寅太郎『新漢語林』(第二版)大修館書店、2011年。ISBN 978-446-9-03163-8 
  15. ^ 新村出広辞苑』(第五版)岩波書店、1998年。ISBN 978-400-0-80111-9 
  16. ^ JIS X 0208:1997『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会、1997年、292, 304頁。 
  17. ^ 丹羽基二『苗字のはなし2』芳文館、1998年、165頁。ISBN 978-4-990-05847-0 
  18. ^ 比留間直和 (2011年9月5日). “ことばマガジン 大正十二年の幽霊文字”. 朝日新聞デジタル. http://www.asahi.com/special/kotoba/archive2015/moji/2011082400019.html 
  19. ^ a b 稀少地名漢字リスト - 検証重視のサイトで、現地レポートや考証資料が充実している。
  20. ^ 稀少地名漢字リスト
  21. ^ 稀少地名漢字リスト
  22. ^ 5A73 詠坂雄二”. 光文社. 2023年2月2日閲覧。
  23. ^ marshmallow_qaのツイート(1073829388725116928)
  24. ^ beatmania IIDX 28 BISTROVER NEW SONG 閠槞彁の願い
  25. ^ @7eaF (2021年4月1日). "【新曲/告知】「彁」". X(旧Twitter)より2023年2月2日閲覧
  26. ^ 安岡孝一・安岡素子『「唡」はなぜJIS X 0221に含まれているのか ―Unicode幽霊字研究―情報処理学会研究報告、1997年http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications/1997-08-29.pdf 
  27. ^ 安岡孝一 (2012年). “UCSにない住民基本台帳ネットワーク統一文字”. 京都大学. 2023年5月17日閲覧。

関連項目 編集