文字化け

コンピュータのバグのひとつ、文字が正しく表示されなくなる現象

文字化け(もじばけ)とは、コンピュータで文字が正しく表示・印刷されず、 本来とは異なる不規則で意味不明な記号や文字の連なりとして現れること[1]。あるシステムで符号化された文字列が、別のシステムで復号されたときに発生する[2]

文字化けの模式図。UTF-8でエンコードされた文字列「文字化け」をShift JISとしてデコードした場合、「譁?ュ怜喧縺?」と文字化けする。

用語

編集

「文字化け」は文字が変形することを意味する日本語であるが[2]、英語においても借用されている[1]久保芳之はこれについて、「アメリカで行われた最初の日本語アプリケーション」である PageMaker の開発時、「英語で文字化けを説明するよりも、 MOJIBAKEとは何かを理解させることの方が簡単であると考え、英語としてMOJIBAK(英語)を定着させました」と述懐している[3]

「文字化け」に相当する用語は他言語にも存在する。たとえば、中国語では同様の現象を乱碼と呼称する[4]。また、ロシア語では同様の現象をБНОПНЯと呼称した[5]

原因

編集

文字コード

編集
 
UTF-8でエンコードされたWikipedia日本語版の「文字化け」の記事をWindows-1252として表示したときの文字化け

文字化けは、特定の文字符号化方式で符号化された文字列を、異なる方式で解釈・表示しようとしたときに発生する[1][2]。たとえば、ASCIIには curly apostrophe( ’ )が収録されていないため、Unicodeに準拠する文字符号化方式で入力した「that’s」といった文字列を、ASCIIで解釈すると「thata.™ s」と表示される[2]

文字化けの問題は、特に日本語をはじめとする東アジアの言語環境において顕著に発生した[6]。日本語環境において文字化けは、電子メールの送受信で起きるケースが多かった[7]。ASCII文字が7ビットであるのに対して、コンピューターでやり取りするデータの最小単位が8ビットであったことを背景に、インターネット黎明期のメーラーは最上位ビットを無視することがあり、8ビットすべてを利用するShift JISEUC-JPで入力された文字列を送受信する際に支障をきたした。また、その後もヘッダーに記載された文字コードの情報に問題があった場合には、文字化けの問題がおこった[8]。また、HTMLを記述する際、そのメタ情報に問題があった場合[9]、ファイルを圧縮・解凍する際の文字コードが異なった場合などにも、文字化けが発生した[10]

フォント

編集
 
日本語をサポートしていない環境での文字化け

文字コードの解釈に問題がなかったとしても、文字列の表示にあたって利用するフォントに問題があれば、文字化けが発生する。これはたとえば、日本語フォントがインストールされていない環境で日本語のウェブサイトを閲覧した際などに生じる[1]。また、丸囲い数字といった一部の文字(機種依存文字)は、標準化に先んじて各企業が独自に文字コードを割りふったため、互換性のうえで問題を生じさせた[11]携帯電話の絵文字についても同様であり、2006年には各キャリアが自社の絵文字を他社の絵文字に変換するサービスを公開していた[12]

ほかに、ビルマ語のコンピュータ環境においては、Unicodeに準拠しないフォントであるZawgyiが広く用いられていたため、Unicodeに準拠するフォントで入力した文字が、Zawgyiを用いた環境では文字化けする現象がおこった[13]。ミャンマー政府はZawgyiからUnicodeへの移行を実行すべく、2019年4月には政府機関で利用されるフォーマットをすべてUnicode準拠のものに変更した。政府は10月1日を「Uデー」に指定し、9月に国内メディアやプロバイダなどに、この日までにUnicodeに対応するよう指示をおこなった[14]

大衆文化への影響

編集

廣田龍平は2020年の論考において、日本語環境において「現在では、対策が周知されていることに加え、多くの環境でUTF-8が標準となっている」ことを背景として、文字化けは珍しいものとなっている一方、ホラー作品においてはなお文字化けが広く用いられていると述べている。廣田は2ちゃんねる(5ちゃんねる)の「怖い話」を渉猟し、2000年代には「パソコンや携帯端末の表示が(心霊スポットを訪れるなど)思わぬタイミングで文字化けしていた」といった記述がほとんどであったのに対して、2009年頃より異常な世界に入ってしまった語り手が同地で判読不明な文字を見る、といったストーリーがあらわれるようになったと論じる。廣田は文字コード・文字化けの仕組みに触れながら「非人間的な視点から見れば、文字化けも世界の正常な働きの一環なのである」と論じ、同じものを異なる方式で読み取った結果、まったく判断不能なものが立ち現れる文字化けという現象は、現実世界と異世界の差異を端的に示す「多自然主義的グリッチ」として理解できると総括している[15]

脚注

編集
  1. ^ a b c d 文字化けとは - IT用語辞典”. IT用語辞典 e-Words. 2025年4月17日閲覧。
  2. ^ a b c d King, Ritchie S. (2012-07). “Will unicode soon be the universal code? [The Data”]. IEEE Spectrum 49 (7): 60–60. doi:10.1109/MSPEC.2012.6221090. ISSN 1939-9340. https://ieeexplore.ieee.org/document/6221090. 
  3. ^ "漢字トーク KanjiTalk". 2014年3月13日時点のオリジナルよりアーカイブ。2009年8月30日閲覧久保芳之からの説明メールが掲載されている。
  4. ^ 文字化け”. www3.cuc.ac.jp. 千葉商科大学デジタル中国語教室. 2025年4月17日閲覧。
  5. ^ Что такое БНОПНЯ”. www.internetslovar.ru. 2025年4月17日閲覧。
  6. ^ Ueda, Paul; Law, Ka Fai; Chan, Marjorie K. M. (2024-08) (英語). Creating a Corpus: Issues in the Digital Text Processing of Cantonese, Hakkanese, and Taigi. ISSN 2378-9387. https://kb.osu.edu/items/d60512ea-9e01-4d87-965c-7591e5b68277. 
  7. ^ 【NTT西日本】文字化け|ICT用語集|法人・企業向けICTサービス・ソリューション”. business.ntt-west.co.jp. 2025年4月17日閲覧。
  8. ^ 柴田, 淳 (2000-10). “いんさいどまっきんとっしゅ メール・クライアントの謎:メール・クライアントの謎:【第4回】メールデータの保存形式”. 日経MAC 8 (10): 126–134. ISSN 0918-8894. https://cir.nii.ac.jp/crid/1520290883354680832. 
  9. ^ 平岡信之. “日本語文字コードについて”. www2.nagano.ac.jp. 長野大学. 2025年4月17日閲覧。
  10. ^ 圧縮・展開ソフトの文字化け対策 注目4品を比較する”. 日本経済新聞 (2020年6月24日). 2025年4月17日閲覧。
  11. ^ 日本語文字コードと変換”. はいぱーワークブック. 東京大学教養学部. 2025年4月17日閲覧。
  12. ^ 安岡, 孝一 (2007). “ケータイの絵文字と文字コード”. 情報管理 50 (2): 67–73. doi:10.1241/johokanri.50.67. https://www.jstage.jst.go.jp/article/johokanri/50/2/50_2_67/_article/-char/ja/. 
  13. ^ はた (2020年10月22日). “ミャンマー語フォント『Zawgyi-one』の問題に直面した話 - GMO Research & AI Tech Blog”. gmor-sys.com. 2025年4月17日閲覧。
  14. ^ Su, Eaint Thet (2019年9月28日). “Zawgyi to Unicode: the big switch” (英語). Frontier Myanmar. 2024年10月21日閲覧。
  15. ^ 廣田, 龍平 (2020-12). “非人間的な文字列 : 譁・ュ怜喧縺代・螟夊・然主義的概念化”. ユリイカ = Eureka 52 (15): 319–326. ISSN 1342-5641. https://cir.nii.ac.jp/crid/1523669555997433472. 

関連項目

編集
  • 絶頂集 - 椎名林檎のライブ・シングル集。一部の曲名を演出的意図として文字化けさせている。
  • 清水義範 - 文字化けを題材とした小説「文字化けの悦楽」を発表している(講談社文庫『私は作中の人物である』収録)。
  • 幽霊語
  • -「実在しない、あるいはコードが割り当てられていない」の意味を持つ記号
  • Bush hid the facts(ブッシュは事実を隠蔽した)