削除された内容 追加された内容
m編集の要約なし
252行目:
UTF-8で符号されたテキストデータは[[エンディアン]]に関わらず同じ内容になるので、[[バイトオーダーマーク|バイト順マーク]] (BOM) は必要ない。しかし、テキストデータがUTF-8で符号化されていることの標識として、データの先頭にEF BB BF(16進。UCSでのバイト順マークU+FEFFのUTF-8での表現)を付加することが許される。一部のテキスト処理アプリケーション(エディタなど)がこのような動作をする([[TeraPad]]、[[EmEditor]]エディタのように付加するかどうかを選択できるものもある)。
 
なお、日本の特殊事情として、このシーケンスがある方を'''UTF-8'''、ない方を特に'''UTF-8N'''と呼ぶこともあるが、このような呼び分けは日本以外ではほとんど知られておらず、また公的規格などによる裏付けもない<ref>このため、UTF-8という呼び名を使っていれば情報交換の相手が文書先頭にこのシーケンスがあると見なすと期待すべきではないし、また、UTF-8Nという呼び名は情報交換の際に用いるべきではない。</ref>。
 
このシーケンスを通常の文字と認識するプログラムでは、先頭に余分なデータがあるとみなされて問題となることがある。例えば、[[Unix系]]OSにおける実行可能[[スクリプト言語|スクリプト]]は、ファイル先頭が「[[シバン_(Unix)|#!]]」から始まるとき、それに続く文字列を[[インタプリタ]]のコマンドとして認識するが、多くのシステムでは、このシーケンスが存在するとこの機能が働かず実行できない。