特殊用途文字 (Unicodeのブロック)

特殊用途文字(とくしゅようともじ 英語: Specials)は、UnicodeにおいてU + FFF0 〜 FFFFの基本多言語面の最後に割り当てられる短いブロックである。 これらの16個のコードポイントのうち、5個がUnicode 3.0以降に割り当てられている。

Specials
範囲 U+FFF0..U+FFFF
(16 個の符号位置)
基本多言語面
用字 共通
割当済 5 個の符号位置
未使用 9 個の保留
2 個の非文字
Unicodeのバージョン履歴
1.0.0 1 (+1)
2.1 2 (+1)
3.0 5 (+3)
備考: [1][2]
テンプレートを表示

概要 編集

U+FFF9 interlinear annotation anchor
注釈付きテキストの開始を示す。
U+FFFA interlinear annotation separator
注釈文字の開始
U+FFFB interlinear annotation terminator
注釈ブロックの終わり
U+FFFC object replacement character
複合ドキュメントなど、指定されていない別のオブジェクトのテキスト内を置換する記号
U+FFFD replacement character
不明な文字、認識できない文字、表現できない文字を置き換えるために使用される
U+FFFE <noncharacter-FFFE>
非文字
U+FFFF <noncharacter-FFFF>
非文字

FFFEとFFFFは通常の意味で割り当てられていないが、Unicode文字ではないことが保証されている。これらはテキストの符号化を推測するために使用できる。これらの文字を含むテキストはすべて、正しく符号化されたUnicodeテキストではないとされる。Unicodeの U+FEFF byte order mark文字をUnicodeテキストの先頭に挿入してエンディアンを示すことができる。そのようなテキストを読み取り、0xFFFEに遭遇したプログラムは、次のすべての文字の符号の順序を切り替える必要があることを認識する。

 
置換文字

�(多くの場合、白い疑問符の付いた黒い菱形または空の四角)は、 Unicode規格のSpecialsにおいてコードポイントU + FFFDに割り当てられている記号であり、システムがデータ内の文字列を正しいシンボルにレンダリングできない場合の問題を示すために使用される。通常はデータが無効であるか、どの文字とも一致しない場合に表示される。

仮に、UTF-8での入力を想定したテキストエディタで、ISO-8859-1エンコード( 0x66 0xFC 0x72 )でドイツ語の単語 "für"を含むテキストファイルを開いたとする。最初と最後のバイトはASCIIにおいて有効なUTF-8エンコードであるが、中間のバイト( 0xFC )はUTF-8で有効なバイトではない。したがって、テキストエディターはこのバイトを置換文字記号に置き換えて、有効なUnicode コードポイントの文字列を生成できる。このときf�rと表示される。さらに、この状態でファイルの保存を行ったとき、正しく実装されていないテキストエディタにおいては、この置換文字符号のコードポイントが(UTF-8形式で)保存される可能性がある。このときテキストファイルのデータは0x66 0xEF 0xBF 0xBD 0x72となり、ISO-8859-1では「fï¿1/2r」として表示される(文字化けを参照)。置換はすべてのエラーで同じであるため、元の文字を復元することはできない。

文字コード表 編集

Specials[1][2][3]
Official Unicode Consortium code chart (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+FFFx  IA 
A
 IA 
S
 IA 
T
備考
1.^Unicode バージョン 13.0 現在
2.^灰色のエリアはコードポイントが割り当てられていないことを示す。
3.^黒のエリアは非文字(Unicode規準において文字コードが割り当てられないことが保証されているコードポイント)であることを示す。

歴史 編集

以下に示す文書群は、Specialsブロックに特定の文字を定義する目的と過程を示したものである。

バージョン コードポイント[a] 文字数 UTC ID L2 ID WG2 ID ドキュメント
1.0.0 U+FFFD 1 (to be determined)
U+FFFE..FFFF 2 (to be determined)
L2/01-295R Moore, Lisa (2001-11-06), Minutes from the UTC/L2 meeting #88 
L2/01-355 N2369 (html, doc) Davis, Mark (2001-09-26), Request to allow FFFF, FFFE in UTF-8 in the text of ISO/IEC 10646 
L2/02-154 N2403 Umamaheswaran, V. S. (2002-04-22), Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore, 2001-10-15/19 
2.1 U+FFFC 1 UTC/1995-056 Sargent, Murray (1995-12-06), Recommendation to encode a WCH_EMBEDDING character 
UTC/1996-002 Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), UTC #67 Minutes 
N1365 Sargent, Murray (1996-03-18), Proposal Summary – Object Replacement Character 
N1353 Umamaheswaran, V. S.; Ksar, Mike (1996-06-25), Draft minutes of WG2 Copenhagen Meeting # 30 
L2/97-288 N1603 Umamaheswaran, V. S. (1997-10-24), Unconfirmed Meeting Minutes, WG 2 Meeting # 33, Heraklion, Crete, Greece, 20 June – 4 July 1997 
L2/98-004R N1681 Text of ISO 10646 – AMD 18 for PDAM registration and FPDAM ballot, (1997-12-22) 
L2/98-070 Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 
L2/98-318 N1894 Revised text of 10646-1/FPDAM 18, AMENDMENT 18: Symbols and Others, (1998-10-22) 
3.0 U+FFF9..FFFB 3 L2/97-255R Aliprand, Joan (1997-12-03), Approved Minutes – UTC #73 & L2 #170 joint meeting, Palo Alto, CA – August 4-5, 1997 
L2/98-055 Freytag, Asmus (1998-02-22), Support for Implementing Inline and Interlinear Annotations 
L2/98-070 Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 
L2/98-099 N1727 Freytag, Asmus (1998-03-18), Support for Implementing Interlinear Annotations as used in East Asian Typography 
L2/98-158 Aliprand, Joan; Winkler, Arnold (1998-05-26), Draft Minutes – UTC #76 & NCITS Subgroup L2 #173 joint meeting, Tredyffrin, Pennsylvania, April 20-22, 1998 
L2/98-286 N1703 Umamaheswaran, V. S.; Ksar, Mike (1998-07-02), Unconfirmed Meeting Minutes, WG 2 Meeting #34, Redmond, WA, USA; 1998-03-16--20 
L2/98-270 Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Suggestion to the inline and interlinear annotation proposal 
L2/98-281R (pdf, html) Aliprand, Joan (1998-07-31), Unconfirmed Minutes – UTC #77 & NCITS Subgroup L2 # 174 JOINT MEETING, Redmond, WA -- July 29-31, 1998 
L2/98-363 N1861 Sato, T. K. (1998-09-01), Ruby markers 
L2/98-372 N1884R2 (pdf, doc) Whistler, Ken (1998-09-22), Additional Characters for the UCS 
L2/98-416 N1882.zip Support for Implementing Interlinear Annotations, (1998-09-23) 
L2/98-329 N1920 Combined PDAM registration and consideration ballot on WD for ISO/IEC 10646-1/Amd. 30, AMENDMENT 30: Additional Latin and other characters, (1998-10-28) 
L2/98-421R Suignard, Michel; Hiura, Hideki (1998-12-04), Notes concerning the PDAM 30 interlinear annotation characters 
L2/99-010 N1903 (pdf, html, doc) Umamaheswaran, V. S. (1998-12-30), Minutes of WG 2 meeting 35, London, U.K.; 1998-09-21--25 
L2/98-419 (pdf, doc) Aliprand, Joan (1999-02-05), Approved Minutes -- UTC #78 & NCITS Subgroup L2 # 175 Joint Meeting, San Jose, CA -- December 1-4, 1998 
UTC/1999-021 Duerst, Martin; Bosak, Jon (1999-06-08), W3C XML CG statement on annotation characters 
L2/99-176R Moore, Lisa (1999-11-04), Minutes from the joint UTC/L2 meeting in Seattle, June 8-10, 1999 
L2/01-301 Whistler, Ken (2001-08-01), Analysis of Character Deprecation in the Unicode Standard 
  1. ^ 提案されたコードポイントと文字の名前は、最終決定と異なる場合がある。

参照 編集

参考文献 編集

  1. ^ Unicode character database”. The Unicode Standard. 2016年7月9日閲覧。
  2. ^ Enumerated Versions of The Unicode Standard”. The Unicode Standard. 2016年7月9日閲覧。