削除された内容 追加された内容
m Category:RFCを追加
編集の要約なし
143行目:
** ただし、他のUnicodeの符号化と同様に、単にバイト列の比較では文字列が同一か判断できない場合がある。詳細は、[[Unicodeの等価性]]及び[[Unicode正規化|正規化]]を参照のこと。
* [[UTF-16]]や[[UTF-32]]と異なり、バイト単位の入出力を行うため、[[エンディアン|バイト順]]の影響がない。
* 31bit21bitまで表現できるため、[[サロゲートペア]]を使用する必要がない。
* ASCII文字が主体の文書であれば、ほとんどデータサイズを増やさずにUnicodeのメリットを享受できる。UTF-16やUTF-32では、データサイズはほぼ2倍、4倍となる。
* 複数のUTF-8文字列を、単なる符号なし8ビット整数の配列とみなして辞書順ソートした結果は、Unicodeの符号位置の辞書順のソート結果(すなわちUTF-32に変換した後にソートした結果)と等しくなる。これに対して、サロゲートペアを含むUTF-16文字列を符号なし16ビット整数の配列とみなしてソートした結果は、Unicodeの符号位置の辞書順のソート結果と異なりうる。