「異体字セレクタ」の版間の差分

削除された内容 追加された内容
Kesuuko (会話 | 投稿記録)
Wdpp (会話) による ID:73122836 の版を取り消し (文字化けのため)
タグ: 取り消し
m HTTPS URLへの変更(再実施)
6行目:
 
== 解説 ==
[[Unicode]]では抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときは[[フォント]]の指定などによって行うのが原則である<ref>{{cite web|url=httphttps://www.unicode.org/reports/tr17/|title=Unicode Technical Report #17 - Character Encoding Model|date=2004-09-09|accessdate=2008-02-02}}</ref><ref>正確には「原則」というよりも、当初の目論見であった16ビットの体系に、CJKそれぞれの漢字を独立に並べることは空間のサイズ的に不可能、という所から来た成行き上の都合に合わせ、そのようなルールが作られた。</ref>。
 
この原則は、たとえば[[ラテン文字]]の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとんど問題ない。しかし例えば、[[CJK統合漢字]]において、Han unification ([[:en:Han unification]]) や各国内標準の都合を理由として、運用上しばしば「別の字」とされる字形を、様々な経緯の結果「詳細/デザイン差」として同じ符号位置としてしまっているのは、問題がしばしば発生する (初期のUnicodeが提案された当初から危惧されていた通りに)。そのため、状況によっては、フォントの指定などを含めることができない[[プレーンテキスト]]上で字形の区別を保存したいという需要も存在する。
18行目:
このような字形の区別にかかわる需要は、Unicodeの[[CJK統合漢字|漢字統合]]の規則が国内での運用の実情に沿っていない日本では特に顕著であり、JISの各文字集合 ([[JIS X 0208]]、[[JIS X 0212]]、[[JIS X 0213]]) やUnicodeで満たせない需要に対応するため、官庁では[[戸籍統一文字]]や[[住民基本台帳ネットワーク]]統一文字など、民間では[[今昔文字鏡]]や[[GT書体|GTプロジェクト]]などといった独自の[[大規模文字セット]]が繰り返し作成され、一部で運用されてきた。しかしそれらは独自であるがゆえに、Unicodeを使用している既存の大多数の[[パーソナルコンピュータ|PC]]環境と[[相互運用性]]がない。
 
異体字セレクタは以上のような問題をUnicode上で解決するために考案された特殊な「文字」([[符号点|符号位置]]が与えられているもの、という意味では「文字」) である。異体字セレクタが利用できる文字は規格で定められており、先行する1文字 (基底文字) の後に規格で定義された異体字セレクタを付けることで異なる字形が選択できる。異体字セレクタを用いれば、異体字は文字コードとして表現できるため、プレーンテキスト上でも字形の区別をつけることができる。[[HyperText Markup Language|HTML]]や[[Cascading Style Sheets|CSS]]などの[[Web標準]]を管理している[[World Wide Web Consortium]]は、HTMLなどの[[マークアップ言語]]においても字形を指定するために異体字セレクタを使うことを想定している<ref>{{cite web|url=httphttps://www.w3.org/TR/2003/NOTE-unicode-xml-20030613/#Format|title=Format Characters Suitable for Use with Markup|date=2003-06-13|accessdate=2008-02-02}}</ref>。なお異体字セレクタは、付加された文字の字形をより詳細に指定する機能を持つが、異体字セレクタそのものが表示されることはない。
 
== 種類 ==
24行目:
 
SVSは非漢字や[[CJK互換漢字]]などで利用され、その字形コレクションはUnicodeのStandardized Variants<ref>
{{Cite web | title=StandardizedVariants.txt | url=httphttps://www.unicode.org/Public/UCD/latest/ucd/StandardizedVariants.txt | publisher=Unicode Consortium | date=2015-11-20 | accessdate=2017-06-01 }}
</ref>にて定義されている。Standardized Variantsへの字形の追加は、[[ユニコードコンソーシアム]]が行なっている。
 
一方、IVSは漢字専用で、字形コレクションは Ideographic Variation Database (漢字異体字データベース、略称 '''IVD''') にて定義されている。IVDへ字形コレクションを登録するには、定められた手続きに則ってユニコードコンソーシアムへ申請を行う必要がある<ref name="tr37">
{{Cite web | title=Unicode® Technical Standard #37 UNICODE IDEOGRAPHIC VARIATION DATABASE | url=httphttps://www.unicode.org/reports/tr37/| publisher=Unicode Consortium | date=| accessdate=2017-10-05 }}
</ref>。
 
62行目:
* IVSで利用される異体字セレクタ:U+E0100〜U+E01EF (VS17~VS256) (240個) ([[追加特殊用途面|追加特殊用途面 (SSP) ]]に定義)
 
異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。利用者が独自に考えた未登録の字形を利用したい場合には[[私用領域]]を用いる。私用の異体字セレクタ (Private Use Variation Selectors) を追加する提案もあった<ref>httphttps://www.unicode.org/L2/L2003/03293-puvs.html</ref>が、取り入れられていない。
 
IVSでは拡張領域である[[追加特殊用途面|追加特殊用途面 (SSP) ]]に定義された異体字セレクタ (U+E0100〜U+E01EF, VS17~VS256) を使用する<ref name="tr37"/>。このためIVSに対応し、[[UTF-16]]を使用するアプリケーションは、[[Unicode#サロゲートペア|サロゲートペア]]を正常に扱えなければならない。逆にSVSではUnicode 10の時点では全て基本多言語面 (BMP) の異体字セレクタ (U+FE00〜U+FE0F, VS1~VS16) を使用している。なお[[CJK互換漢字]]は、漢字でありながらIVSではなく非漢字と同じSVSとして登録されたため、基本多言語面 (BMP) の異体字セレクタを使用する。
73行目:
[[Image:ufa30.svg|thumb|right|120px|CJK互換漢字を使うと<U+FA30>、異体字セレクタを使うと<U+4FAE E0101>,<U+4FAE E0103>,<U+4FAE FE00>のいずれかで符号化される]]
[[JIS X 0213]]や[[CNS 11643]]などの各国の[[文字コード]]では区別されているが、Unicodeでは統合されている文字を区別するため、Unicodeではこれまで[[CJK互換漢字]]を使ってきた。しかし技術的な制約により、漢字の異体字セレクタは[[CJK統合漢字]] (正確にはUnified_Ideographプロパティを持つ文字) にしか付けることができない。これは[[Unicode正規化]]に対する安定性の問題 ([[CJK互換漢字#日本語処理における問題点]]を参照) を改善するが<ref>
{{cite web|url=httphttps://www.unicode.org/mail-arch/unicode-ml/y2007-m03/0122.html|title=Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)|date=2007-03-20|accessdate=2008-02-02}}
</ref>、同じ字形を意図していても異体字セレクタに対応した[[実装]]と対応していない実装との間で異なる符号化表現が採用され、混乱を招く可能性も指摘されている<ref>
{{cite web|url=httphttps://www.unicode.org/mail-arch/unicode-ml/y2007-m03/0144.html|title=Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)|date=2007-03-25|accessdate=2008-02-02}}</ref>。
 
また、2006年1月にIVDへの字形コレクションの登録手続きが制定され<ref name="tr37"/>、登録が可能になった後にも[[ARIB外字]]や汎用電子情報交換環境整備プログラムで収集された漢字の一部をCJK互換漢字として収録することが要望される<ref>{{cite web|url=http://www.cse.cuhk.edu.hk/~irg/irg/irg29/IRGN1347_wg2n3318-ARIB_CJK.pdf|title=Proposal to encode six CJK Ideographs in UCS|date=2007-09-07|accessdate=2008-02-02}}</ref><ref name="hanyo"/>など、足並みは必ずしもそろっていなかった。
90行目:
 
== 歴史 ==
Unicodeは主に米国企業の集まりからなる[[ユニコードコンソーシアム]]が定める私的な[[文字コード]]規格だが、国際符号化文字集合 ([[ISO/IEC 10646]], UCS) との間で、収録文字と符号の割り当てに関して常に同期を取ることで合意がなされている<ref>{{cite book|author=The Unicode Consortium|authorlink=ユニコードコンソーシアム|date=2006-11-03|title=The Unicode Standard, Version 5.0|publisher=Addison-Wesley Professional|pages=p.1097|id=ISBN 978-0321480910|url=httphttps://www.unicode.org/versions/Unicode5.0.0/appC.pdf#G1864}}</ref>。国際符号化文字集合は[[国際標準化機構]] (ISO) と[[国際電気標準会議]] (IEC) の合同技術委員会 ([[ISO/IEC JTC 1]]) 第2小委員会 (SC2) 第2作業部会 (WG2) で制定作業が行われている。以下、WG2での動きを中心に異体字セレクタの収録にかかわる歴史を概観する。
 
2000年9月15日、ISO/IEC 10646-1が改訂され、[[中華人民共和国|中国]]の提案によりUCSに収録されたモンゴル文字の一部としてモンゴル自由字形選択子 (Mongolian free variation selector) 3文字が規定された<ref>{{cite book|date=2000-09-15|title=ISO/IEC 10646-1:2000 Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane}}</ref>。
100行目:
2001年8月17日、WG2の[[リエゾン会員]]であるユニコードコンソーシアムが、活動報告として255文字の異体字セレクタを追加で承認したことを述べた<ref>{{cite web|url=http://anubis.dkuug.dk/jtc1/sc2/wg2/docs/n2370.doc|title=Unicode Liaison Report|date=2001-08-17|accessdate=2008-02-02}}</ref>。UCSとUnicodeの同期の原則により、これらはUCSにも収録される必要があった。
 
2002年3月27日にUnicode 3.2が<ref>{{cite web|url=httphttps://www.unicode.org/reports/tr28/tr28-3.html|title=Unicode Standard Annex #28 - Unicode 3.2|date=2002-03-27|accessdate=2008-02-02}}</ref>、7月15日にISO/IEC 10646-1:2000 追補1が制定された<ref>{{cite web|url=http://www.itscj.ipsj.or.jp/sc2/open/02n36513.htm|title=ISO/IEC JTC 1 SC 2 N 3651 3. Prgramme of Work|accessdate=2008-02-02}}</ref>。これらは256文字の異体字セレクタのうち[[基本多言語面]]に含まれる16文字を収録していた。
 
2002年4月1日、[[日本]]はWG2に、[[万寿 (書)|万寿]]の表現には少なくとも10000種類の異体字セレクタが必要であるから、UCSの第13[[面 (文字コード)|面]]をまるまる漢字の異体字セレクタに割り当てるべきであるとする文書を提出した<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2429.doc|title=Proposal: Use full plane-13 for the Han variation selector|date=2002-04-01|accessdate=2008-02-02}}</ref>。ただしこれは大真面目に書かれてはいるものの[[ジョークRFC]]に似た[[エイプリルフール]]文書で、なぜかWG2の第42回会議の議題にまで上ってしまったが<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2469r.htm|title=Updated Agenda – Meeting 42|date=2002-05-19|accessdate=2008-02-02}}</ref>、実際には審議されていない<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2453.pdf|title=Dublin Meeting 42 Minutes|pages=p.36|date=2002-10-30|accessdate=2008-02-02}}</ref>。
106行目:
2002年5月20日、日本は上記アメリカの提案が異体字セレクタを漢字に使うつもりであったことに関して、議論が全く深められておらず導入は時期尚早であると懸念を表明した<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2468r.doc|title=Concerns on the VARIATION SELECTORS in ISO/IEC 10646-2, PDAM-1|date=2002-05-20|accessdate=2008-02-02}}</ref> (モンゴル文字や数学記号の収録に伴う異体字セレクタの導入ではそれまで長い時間を掛けて検討が重ねられていた)。
 
2003年4月にUnicode 4.0が<ref>{{cite web|url=httphttps://www.unicode.org/standard/versions/components-4.0.0.html|title=Components of Unicode 4.0|date=2003-04|accessdate=2008-02-02}}</ref>、12月にISO/IEC 10646:2003が制定され<ref>{{cite web|url=http://www.itscj.ipsj.or.jp/sc2/open/02n37373.htm|title=JTC 1/SC 2 Programme of Work|accessdate=2008-02-02}}</ref>、[[追加面]]に含まれる異体字セレクタの残り240文字が両規格に収録された。
 
2003年6月25日、[[ドイツ]]が[[ウムラウト]]と[[トレマ]]を区別するための異体字セレクタの追加を要望したが<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2593.doc|title=German request to encode the characters "LATIN VARIATION SELECTOR UMLAUT" and "LATIN VARIATION SELECTOR TREMA"|date=2003-06-25|accessdate=2008-02-02}}</ref>、技術的制約により異体字セレクタでは実現不可能であったため却下された<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2613.doc|title=UTC response to N2593|date=2003-09-04|accessdate=2008-02-02}}</ref>。
 
2005年7月16日、アメリカの企業[[アドビシステムズ]]の[[エリック・ミューラー]]とアメリカの企業[[サン・マイクロシステムズ]]の[[樋浦秀樹]] (当時) より、異体字セレクタを実際に漢字で運用するための漢字字形データベース ({{lang-en-short|Ideographic Variation Database}}、IVD) の規格草案がユニコードコンソーシアムに提案され<ref>{{cite web|url=httphttps://www.unicode.org/reports/tr37/tr37-1.html|title=Proposed Draft Unicode Technical Standard #37 - Registration of Ideographic Variation Sequences|date=2005-07-16|accessdate=2008-02-02}}</ref>、2006年1月13日正式版が発行された<ref>{{cite web|url=httphttps://www.unicode.org/reports/tr37/tr37-3.html|title=Unicode Technical Standard #37 - Ideographic Variation Database|date=2006-01-13|accessdate=2008-02-02}}</ref>。
 
2006年7月4日にISO/IEC 10646:2003 追補2が、14日にUnicode 5.0が制定され<ref>{{cite web|url=httphttps://www.unicode.org/versions/components-5.0.0.html|title=Components of Unicode Standard 5.0|date=2006-07-14|accessdate=2008-02-02}}</ref>、両規格へのパスパ文字の収録に合わせてパスパ文字と異体字セレクタの組み合わせが追加された<ref name="u5stdvars">{{cite web|url=httphttps://www.unicode.org/Public/5.0.0/ucd/StandardizedVariants.html|title=Standardized Variants Revision 5.0.0|date=2006-07-14|accessdate=2008-02-02}}</ref>。
 
{{Double image aside|right|u93ad.svg|120|cid-13370.svg|120|{{Unihan|93AD}}|{{Unihan|93AD}}ではなく、{{Unihan|93AE}}にVS18を付けて表す}}
2007年12月14日、[[CID (文字コード)|Adobe-Japan1]]が最初の漢字字形コレクションとして正式に承認され、IVDに登録された<ref name="ivd">{{cite web|url=httphttps://www.unicode.org/ivd/index.html|title=Ideographic Variation Database|accessdate=2011-02-01}}</ref>。ただし2度の公開レビューにもかかわらず割り当てに疑問が残る組み合わせの存在も指摘されている (右図はその一例)<ref>{{cite web|url=https://srad.jp/~yasuoka/journal/426907|title=IVDのダブリ|date=2008-01-07|accessdate=2008-02-02}}</ref>。
 
2008年10月10日、日本は汎用電子情報交換環境整備プログラムの成果として収集・整理された、[[戸籍]]や[[住民基本台帳ネットワーク]]の処理に必要とされる異体字を、[[CJK互換漢字|互換漢字]]として追加提案した<ref name="hanyo">{{cite web|url=http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3530-cover.doc|title=Proposal to Add a Set of Compatibility Ideographs for Government Use|date=2008-10-10|accessdate=2011-02-01}}</ref>。これに対しUnicode Technical Committee (UTC)と米国は、互換漢字は正規化に際して区別が保存されず、また統合漢字の字形の一意性は保証されないため、IVDによる登録を推奨するとコメントした<ref>{{cite web|url=http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3590.pdf|title=Handling Glyph Shapes for Government Use in WG2/N3530 via Variation Sequences|date=2009-02-09|accessdate=2011-02-01}}</ref>。またUTCは、SC2からの登録に対して通常IVDへの登録にかかる登録料を免除すると伝えた<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3591.pdf|title=Information on the Unicode Ideographic Variation Database – Letter to SC2 Unicode Consortium|date=2009-03-12|accessdate=2011-02-01}}</ref>。これを受け、2009年10月16日、日本は互換漢字の追加提案を取り下げた<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/N3706.doc|title=Follow-up on N3530 (Compatibility Ideographs for Government Use)|date=2009-10-16|accessdate=2011-02-01}}</ref>。
 
2010年3月31日、日本は取り下げた互換漢字の追加提案に代わってIVDへ登録を申請し<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3796.pdf|title=N3796 Announcement of Japan's IVD Registration Japan NB|date=2010-03-31|accessdate=2011-02-01}}</ref>、2010年11月14日正式にHanyo-Denshiとして登録された<ref>{{cite web|url=httphttps://blogs.adobe.com/CCJKType/2010/11/the-hanyo-denshi-ivd-collection-has-been-registered.html|title=The “Hanyo-Denshi” IVD Collection has been registered!|author=Ken Lunde|date=2010-11-25|accessdate=2011-02-01}}</ref>。
 
2010年12月6日、[[アドビシステムズ]]、イースト、[[ジャストシステム]]、[[大日本スクリーン製造|大日本スクリーン]]、[[マイクロソフト]]、[[モリサワ]]の6社共同で、IVSの普及推進を目的としてIVS技術促進協議会が設立された<ref>{{cite web|url=https://internet.watch.impress.co.jp/docs/news/412176.html|title=人名などの異体字もデータ交換可能に、MSなどが「IVS技術促進協議会」発足 |publisher=INTERNET Watch|date=2010-12-06|accessdate=2011-02-01}}</ref>。
125行目:
2011年4月2日、UTCから[[簡体字]]をIVSで表す登録申請の準備をしていることが告知された<ref>{{cite web |url=http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg36/IRGN1757_ProposedIVDRegistration.pdf |title=Preliminary Proposal for an Ideographic Variation Database Registration |date=2011-04-02 |accessdate=2014-09-17 }}</ref>。しかしCJK統合漢字の既存の符号化モデルと矛盾する上に、21字中符号化済みの漢字が6字も含まれるというずさんな提案であり、[[Ideographic Rapporteur Group|IRG]]<ref>{{cite web |url=http://std.dkuug.dk/JTC1/SC2/WG2/docs/n4021.pdf |title=Summary Report of IRG #36 |date=2011-04-20 |accessdate=2014-09-17 }}</ref>・韓国<ref>{{cite web |url=http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg36/IRGN1757ROKFeedback.pdf |title=R.O.Korea's comments RE: IRG N1757 (UTC Preliminary Proposal for an IVD Registration) |date=2011-06-01 |accessdate=2014-09-17 }}</ref>・イギリス<ref>{{cite web |url=http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg37/IRGN1783_WG2n4075.pdf |title=Comments on issues raised in N4021 |date=2011-05-22 |accessdate=2014-09-17 }}</ref>などから懸念が寄せられ、登録申請は中止された。
 
2012年1月31日、Unicode 6.1が制定。絵文字のテキストスタイルと絵文字スタイル切り替えのための異体字セレクタの組合せが登録された<ref>{{cite web |url=httphttps://www.unicode.org/Public/6.1.0/ucd/StandardizedVariants.html |title=Standardized Variants Revision 6.1.0 |date=2011-11-27 |accessdate=2014-09-17 }}</ref>。
 
2012年3月2日、IVDがバージョンアップ。Hanyo-DenshiとAdobe-Japan1のこれまで登録されていなかった異体字のうち一部が追加登録された<ref name="ivdversions">{{cite web |url=httphttps://www.unicode.org/ivd/#versions |title=Ideographic Variation Database |accessdate=2014-09-17 }}</ref>。
 
2013年9月30日、Unicode 6.3が制定。CJK互換漢字の字形コレクションがSVSに登録された<ref>{{cite web |url=httphttps://www.unicode.org/Public/6.3.0/ucd/StandardizedVariants.html |title=Standardized Variants Revision 6.3.0 |date=2013-03-03 |accessdate=2014-09-17 }}</ref>。
 
2014年5月16日、IVDがバージョンアップ。文字情報基盤整備事業のMoji_Johoが登録された<ref name="ivdversions"/>。
269行目:
 
== 参考資料 ==
* {{cite book|author=The Unicode Consortium|authorlink=ユニコードコンソーシアム|date=2006-11-03|title=The Unicode Standard, Version 5.0|publisher=Addison-Wesley Professional|id=ISBN 978-0321480910|url=httphttps://www.unicode.org/versions/Unicode5.0.0/}}{{en icon}}
* {{cite book|author=ISO/IEC JTC 1|authorlink=ISO/IEC JTC 1|date=2003-12-15|title=ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS)|url=http://std.dkuug.dk/jtc1/sc2/wg2/}}{{en icon}}
* {{cite book|author=ISO/IEC JTC 1|authorlink=ISO/IEC JTC 1|date=2005-11-18|title=ISO/IEC 10646:2003/Amd 1:2005 Glagolitic, Coptic, Georgian and other characters|url=http://std.dkuug.dk/jtc1/sc2/wg2/}}{{en icon}}
283行目:
 
== 外部リンク ==
* [httphttps://www.unicode.org/Public/UNIDATA/StandardizedVariants.txt Standardized Variants - Unicode]{{en icon}} (登録されているSVSの一覧)
* [httphttps://www.unicode.org/reports/tr37/ Unicode Technical Standard #37 - UNICODE IDEOGRAPHIC VARIATION DATABASE]{{en icon}} (IVDの構成と登録手順)
* [httphttps://www.unicode.org/ivd/index.html Ideographic Variation Database - Unicode]{{en icon}} (IVDについて)
* [httphttps://www.unicode.org/ivd/data/2017-12-12/IVD_Sequences.txt IVD Sequences - Unicode] (2017-12-12版) {{en icon}} (IVDに登録されている漢字の組み合わせ一覧)
* [https://747.github.io/vsselector/ 異体字セレクタセレクタ] - SVS・IVSで利用できるすべての異体字の検索ができる。
{{文字コード}}