基本多言語面

ISO/IEC 10646およびUnicodeの字面の一つ
Unicode > 面 (文字コード) > 基本多言語面

基本多言語面(きほんたげんごめん、: Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。

最もよく使う、基本的な文字・記号のほとんどが含まれる。

UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。

符号化

編集

BMPの符号位置は、UTF-16UTF-8では、他の面より少ないオクテットバイト)数で符号化される。

  • UTF-8では、1〜3オクテットで符号化される。
  • UTF-16では、2オクテットで符号化される。サロゲートペア(代用対)は必要がないため使われない。
  • UTF-32では、他の面と同様、4オクテットで符号化される。

歴史

編集

BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016~7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。

一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。

1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。

配置領域

編集

BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)

主な配置領域
開始 終了 配置領域名
0000 1FFF 一般スクリプト
2000 2DFF 記号
2E00 33FF CJKの表音文字と記号
3400 9FFF CJK統合漢字
A000 A4CF 彝文字
AC00 D7AF ハングル音節
D800 DFFF 代用符号位置
E000 F8FF 私用
F900 FFFD 互換文字と特殊文字

当初基本多言語面は以下のような4つの「領域」に分けられていた[1]

  • 0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域
  • 3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域
  • A000 DFFFを将来の標準化のために使うO領域
  • E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域

しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである[2]

  • D800 DFFFを代用符号位置に使用するS領域
  • E000 F8FFを私用領域

収録されている用字系

編集

記号類、Unicode範囲は拡張や補助等を省略。

BMPの主な用字系
英語表記 日本語表記 Unicode範囲
Latin ラテン文字 U+0041–U+0070
IPA IPA U+0250–U+02AF
Greek ギリシア文字 U+0370–U+30FF
Coptic コプト文字 U+2C80–U+2CFF
Cyrillic キリル文字 U+0400–U+04FF
Glagolitic グラゴル文字 U+2C00–U+2C5F
Armenian アルメニア文字 U+0530–U+058F
Georgian グルジア文字 U+10A0–U+10FF
Hebrew ヘブライ文字 U+0590–U+05FF
Arabic アラビア文字 U+0600–U+06FF
Syriac シリア文字 U+0700–U+074F
Thaana ターナ文字 U+0780–U+07BF
Samaritan サマリア文字 U+0800–U+083F
Mandaic マンダ文字 U+0840–U+085F
Tifinagh ティフィナグ文字 U+2D30–U+2D7F
N’Ko ンコ文字 U+07C0–U+07FF
Vai ヴァイ文字 U+A500–U+A63F
Bamum バムン文字 U+A6A0–U+A6FF
Ethiopic エチオピア文字 U+1200–U+137F
Cherokee チェロキー文字 U+13A0–U+13FF
Unified Canadian Aboriginal Syllabics 統合カナダ先住民文字 U+1400–U+167F
Ogham オガム文字 U+1680–U+169F
Runic ルーン文字 U+16A0–U+16F0
Devanagari デーヴァナーガリー文字 U+0900–U+097F
Bengali ベンガル文字 U+0980–U+09FF
Gurmukhi グルムキー文字 U+0A00–U+0A7F
Gujarati グジャラート文字 U+0A80–U+0AFF
Oriya オリヤー文字 U+0B00–U+0B7F
Tamil タミル文字 U+0B80–U+0BFF
Telugu テルグ文字 U+0C00–U+0C7F
Kannada カンナダ文字 U+0C80–U+0CFF
Malayalam マラヤーラム文字 U+0D00–U+0D7F
Sinhala シンハラ文字 U+0D80–U+0DFF
Meetei Mayek メイテイ文字 U+ABC0–U+ABFF
Ol Chiki オル・チキ文字 U+1C50–U+1C7F
Saurashtra サウラーシュトラ文字 U+A880–U+A8DF
Syloti Nagri シロティナーガリー文字 U+A800–U+A82F
Tibetan チベット文字 U+0F00–U+0FFF
Phags-pa パスパ文字 U+A840–U+A87F
Lepcha レプチャ文字 U+1C00–U+1C4F
Limbu リンブ文字 U+1900–U+194F
Tagalog タガログ文字 U+1700–U+171F
Hanunoo ハヌノオ文字 U+1720–U+173F
Buhid ブーヒッド文字 U+1740–U+175F
Tagbanwa タグバンワ文字 U+1760–U+177F
Javanese ジャワ文字 U+A980–U+A9DF
Balinese バリ文字 U+1B00–U+1B7F
Sundanese スンダ文字 U+1B80–U+1BBF
Batak バタク文字 U+1BC0–U+1BFF
Rejang ルジャン文字 U+A930–U+A95F
Buginese ブギス文字 U+1A00–U+1A1F
Cham チャム文字 U+AA00–U+AA5F
Thai タイ文字 U+0E00–U+0E7F
Lao ラーオ文字 U+0E80–U+0EFF
Myanmar ビルマ文字 U+1000–U+109F
Khmer クメール文字 U+1780–U+17FF
Kayah Li カヤー文字 U+1000–U+109F
Tai Le タイ・ナ文字 U+1950–U+197F
New Tai Lue タイ・ロ文字 U+1980–U+19DF
Tai Viet タイ・ヴィエト文字 U+AA80–U+AADF
Tai Tham ラーンナー文字 U+1A20–U+1AAF
Braille Patterns ブライユ点字 U+2800–U+28FF
Hiragana ひらがな U+3040–U+309F
Katakana カタカナ U+30A0–U+30FF
Mongolian モンゴル文字 U+1800–U+18AF
Bopomofo 注音字母 U+3100–U+312F
CJK Unified Ideographs CJK統合漢字 U+4E00–U+9FFF
Yi Syllables 彝文字 U+A000–U+A4CF
Lisu リス文字 U+A4D0–U+A4FF
Hangul Syllables ハングル U+AC00–U+D7A3

参考資料

編集

用語の日本語表記は原則として次にならった。Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。

関連項目

編集

脚注

編集
  1. ^ JIS X 0221:1995「国際符号化文字集合(UCS)ー第1部 体系及び基本多言語面」 p.9
  2. ^ JIS X 0221:2007「国際符号化文字集合(UCS)」 p.10

外部リンク

編集