「異体字セレクタ」の版間の差分

削除された内容 追加された内容
Rinrr (会話 | 投稿記録)
加筆した内容が間違っていたので修正した
Rinrr (会話 | 投稿記録)
細かい箇所の修正
3行目:
'''異体字セレクタ'''<ref>
JIS X 0221:2007の規格票では「字形選択子」という訳語を当てているが、全く意味の異なる"Character shaping selectors"などにも全く同じ訳語を当てているので、混乱を避けるため本項では「異体字セレクタ」という訳語を用いる。
</ref> ({{lang-en-short|Variation Selector}}) は、[[Unicode]] および [[ISO/IEC 10646|ISO/IEC 10646 (UCS) ]]における[[文字]]の[[字体]]をより詳細に指定するためのセレクタ (選択子) である。
 
== 解説 ==
<!--
Unicodeは[[文字コード]] ([[コンピュータ]]上で文字を扱うための電子的な表現) の規格であり、[[Microsoft Windows|Windows]]や[[OS X|Mac OS X]]など、[[パーソナルコンピュータ|PC]]の[[オペレーティングシステム]]で広く使われている<ref>{{cite web|url=http://www.unicode.org/onlinedat/products.html|title=Unicode Enabled Products|accessdate=2008-02-02}}</ref>。
--><!--
↑たとえば、図書館のカード式目録において難読な字についてその字がどのような字であるかを示すために、「字」(U+5B57)というようにして使う、といったように、コンピュータと全く無関係にUnicodeを使うこともあり得る。また、Unixのように(歴史的理由により制限はあるものの)、任意の文字コード体系を利用できるいわゆるコードセット独立(CSI)なOSも多く、文字コードが「...のOSで広く使われている」という表現は、(Unicodeを宣伝する目的か)よく見られるものの、適切ではない。
-->
[[Unicode]]では抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときは[[フォント]]の指定などによって行うのが原則である<ref>{{cite web|url=http://www.unicode.org/reports/tr17/|title=Unicode Technical Report #17 - Character Encoding Model|date=2004-09-09|accessdate=2008-02-02}}</ref><ref>正確には「原則」というよりも、当初の目論見であった16ビットの体系に、CJKそれぞれの漢字を独立に並べることは空間のサイズ的に不可能、という所から来た成行き上の都合に合わせ、そのようなルールが作られた。</ref>。
 
26 ⟶ 21行目:
 
== 種類 ==
異体字セレクタには2つのタイプがあり、Standardized Variation Sequence (標準化された異体字シーケンス、略称 SVS<ref>一般にはSVSが略称として使われることが多いが、公式な略称ではない</ref>) と、Ideographic Variation Sequence (漢字異体字シーケンス、略称 '''IVS''') がある。
Unicodeにおける異体字セレクタには2つのタイプがあり、
 
Standardized Variation Sequences (標準化された異体字シーケンス、略称SVS) と、Ideographic Variation Sequences (漢字異体字シーケンス、略称IVS) がある。SVSは非漢字や[[CJK互換漢字]]などで利用され、その字形コレクションはUnicodeのStandardized Variants<ref>
{{Cite web | title=StandardizedVariants.txt | url=http://www.unicode.org/Public/UCD/latest/ucd/StandardizedVariants.txt | publisher=Unicode Consortium | date=2015-11-20 | accessdate=2017-06-01 }}
</ref>にて定義されている。Standardized Variantsへの字形の追加は、[[ユニコードコンソーシアム]]が行なっている。

一方、IVSは漢字専用で、字形コレクションは Ideographic Variation Database (漢字異体字データベース、略称 '''IVD''') にて定義されている。IVDへ字形コレクションを登録するには、定められた手続きに則ってユニコードコンソーシアムへ申請を行う必要がある<ref name="tr37">
{{Cite web | title=Unicode® Technical Standard #37 UNICODE IDEOGRAPHIC VARIATION DATABASE | url=http://www.unicode.org/reports/tr37/| publisher=Unicode Consortium | date=| accessdate=2017-10-05 }}
</ref>。
58 ⟶ 56行目:
 
== 符号位置 ==
異体字セレクタは、[[モンゴル文字]]専用のモンゴル自由字形選択子 ({{lang-en-short|Mongolian Free Variation Selector}}、略称 FVS) が{{U+}}180B〜U+180Dに3個、SVSで利用される異体字セレクタが[[基本多言語面|基本多言語面 (BMP) ]]のU+FE00〜U+FE0F (VS(異体字セレクタ)1~VS16VS1~VS16) に16個、IVSで利用される異体字セレクタが[[追加特殊用途面|追加特殊用途面 (SSP) ]]のU+E0100〜U+E01EF (VS17~VS256) に240個が定められている。異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。利用者が独自に考えた未登録の字形を利用したい場合には[[私用領域]]の文字{{要出典範囲|date=2013年5月|私の異体字セレクタとして}}使ういる領域として私用の異体字セレクタ (Private Use Variation Selectors) を追加する提案もあった<ref>http://www.unicode.org/L2/L2003/03293-puvs.html</ref>が、取り入れられていない。
 
IVSでは[[基本多言語面]]の異体字セレクタ拡張領域はなくある[[追加特殊用途面|追加特殊用途面 (SSP) ]]に定義された異体字セレクタ (U+E0100〜U+E01EF, VS17~VS256) を使用する<ref name="tr37"/>。このためIVSに対応し、[[UTF-16]]を使用するアプリケーションは、[[Unicode#サロゲートペア|サロゲートペア]]を正常に扱えなければならない。逆にSVSでは2017年5月現在Unicode 10の時点では全て基本多言語面 (BMP) の異体字セレクタ (U+FE00〜U+FE0F, VS1~VS16) を使用している。なお[[CJK互換漢字]]は、漢字でありながらIVSではなく非漢字と同じSVSとして登録されたため、基本多言語面 (BMP) の異体字セレクタを使用する。
 
2012年1月には[[携帯電話の絵文字|絵文字]]としても使われる107文字がStandardized Variantsに追加され、テキストスタイル (普通の文字のように白黒で表示) と絵文字スタイル (カラーで表示したり、アニメーションする) の切替をSVSで行えるようになった。使用する異体字セレクタは基本多言語面に規定されたもので、テキストスタイルがU+FE0E (VS15)、絵文字スタイルがU+FE0F (VS16) となっている。
68 ⟶ 66行目:
== CJK互換漢字との関係 ==
[[Image:ufa30.svg|thumb|right|120px|CJK互換漢字を使うと<U+FA30>、異体字セレクタを使うと<U+4FAE E0101>,<U+4FAE E0103>,<U+4FAE FE00>のいずれかで符号化される]]
[[JIS X 0213]]や[[CNS 11643]]などの各国の[[文字コード]]では区別されているが、Unicodeでは統合されている文字を区別するため、Unicodeではこれまで[[CJK互換漢字]]を使ってきた。しかし技術的な制約により、漢字の異体字セレクタは[[CJK統合漢字]] (正確にはUnified_Ideographプロパティを持つ文字) にしか付けることができない。これは[[Unicode正規化]]に対する安定性の問題 ([[CJK互換漢字#日本語処理における問題点]]を参照) を改善するが<ref>
{{cite web|url=http://www.unicode.org/mail-arch/unicode-ml/y2007-m03/0122.html|title=Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)|date=2007-03-20|accessdate=2008-02-02}}
</ref>、同じ字形を意図していても異体字セレクタに対応した[[実装]]と対応していない実装との間で異なる符号化表現が採用され、混乱を招く可能性も指摘されている<ref>
80 ⟶ 78行目:
[[Image:R188 font.gif|thumb|right|250px|国によって異なる骨の異体字 ({{lang|zh|骨}}・骨)。異体字セレクタでは対応していない例]]
* [[フォント]]を指定できない[[プレーンテキスト]]での使用を想定されているにもかかわらず、異体字セレクタに対応したフォントを指定できる環境以外では、異体字セレクタを使用しても対象の環境で意図した異体字が表示されるとは限らない。ただし外字と異なり、異体字セレクタは文字コード上で指定されるため、どのような字形を意図していたかの情報は失われない。
 
* すべての環境で異体字セレクタに対応しているとは限らず、対応した環境であっても対応範囲はフォントによって必ずしも一様ではない。たとえば[[Microsoft Windows 8.1|Windows 8.1]]搭載の日本語フォントのうち[[游書体|游明朝・游ゴシック]]はAdobe-Japan1によるIVSを完全にサポートするが、[[MS 明朝]]・[[MS ゴシック]]はおおむね[[JIS X 0213|JIS X 0213:2004]]で例示字形が変更される以前の字形 (いわゆる[[JIS漢字コード|JIS90]]での字形) のみをIVSでサポートする。
* IVDでは当初、登録者が異なれば同一の字形の漢字であってもそれぞれでIVSが割り当てられることになっていたため、Adobe-Japan1とHanyo-Denshi同士で、同一の字形の漢字に重複してIVSが割り当てられる事態が発生した。例えば、{{JIS2004フォント|葛飾区の葛}} (U+845B, JIS2004字形) には、Adobe-Japan1のVS(異体字セレクタ)18 (U+E0101, cid-7652) の他にHanyo-DenshiのVS20 (U+E0103, FT1769)、{{JIS90フォント|葛城市の葛}} (U+845B, JIS90字形) にはAdobe-Japan1のVS17 (U+E0100, cid-1481) の他にHanyo-DenshiのVS19 (U+E0102, JA1975) が与えられてしまった。なお、2011年8月17日のUTS #37の改訂で登録者同士で合意があればIVSの共有が可能となり、実際にその後IVDに追加されたMoji_Johoでは既存のHanyo-Denshiと同一字形ではIVSを共有している<ref name="tr37"/>。
 
* Unicode 6.3ではIVSとは別にCJK互換漢字にSVSとしても異体字セレクタが与えられた (詳細は前述の[[#CJK互換漢字との関係]]を参照) ため、例えば侮 (U+4FAE) の異体字「&#xFA30;」(U+FA30, CJK互換文字) にはAdobe-Japan1のVS18 (U+E0101, cid-13382) とHanyo-DenshiのVS20 (U+E0103, JC1424) に加え、CJK互換漢字「U+FA30」に対応するVS1 (U+FE00) が与えられるなど同じ字体に異体字セレクタが3つ、符号位置としては4つも与えられることとなった。
* IVDでは当初、登録者が異なれば同一の字形の漢字であってもそれぞれでIVSが割り当てられることになっていたため、Adobe-Japan1 Hanyo-Denshi / Moji_Joho 同士で、同一の字形の漢字に重複してIVSが割り当てられる事態が発生した。例えば「葛」の場合、{{JIS2004フォント|葛飾区の}} (U+845B, JIS2004字形) の字形では、Adobe-Japan1 VS(異体字セレクタ)18 VS18 (U+E0101, cid-CID+7652) の他にと、Hanyo-Denshi / Moji_Joho VS20 (U+E0103, FT1769 / MJ022336)が割り当てられまた{{JIS90フォント|葛城市の}} (U+845B, JIS90字形) の字形でAdobe-Japan1 VS17 (U+E0100, cid-CID+1481) の他にHanyo-Denshi / Moji_Joho VS19 (U+E0102, JA1975 / MJ022335) が与えられてしまった。なお、2011年8月17日のUTS #37の改訂で登録者同士で合意があればIVSの共有が可能となり、実際にその後IVDに追加されたMoji_Johoでは既存のHanyo-Denshiと同一字形ではIVSを共有している<ref name="tr37"/>。
 
* Unicode 6.3ではIVSとは別にCJK互換漢字にSVSとしても異体字セレクタが与えられた (詳細は前述の[[#CJK互換漢字との関係]]を参照) ため、例えば侮 (U+4FAE) の異体字「&#xFA30;」(U+FA30, CJK互換文字) には「侮」 (U+4FAE) のIVSとして、Adobe-Japan1のVS18 (U+E0101, cid-CID+13382) とHanyo-Denshi / Moji_JohoのVS20 (U+E0103, JC1424 / MJ030244) に加えが割り当てられた他、CJK互換漢字U+FA30 に対応するSVSとして VS1 (U+FE00) が与えられるなど同じ字体に異体字セレクタが3つ、符号位置としては4つも与えられることとなった。
 
* 現状では国によって異なる骨の異体字 (図参照) のようなケースを異体字セレクタで区別することができない。
 
113 ⟶ 115行目:
2007年12月14日、[[CID (文字コード)|Adobe-Japan1]]が最初の漢字字形コレクションとして正式に承認され、IVDに登録された<ref name="ivd">{{cite web|url=http://www.unicode.org/ivd/index.html|title=Ideographic Variation Database|accessdate=2011-02-01}}</ref>。ただし2度の公開レビューにもかかわらず割り当てに疑問が残る組み合わせの存在も指摘されている (右図はその一例)<ref>{{cite web|url=http://slashdot.jp/~yasuoka/journal/426907|title=IVDのダブリ|date=2008-01-07|accessdate=2008-02-02}}</ref>。
 
2008年10月10日、日本は[[汎用電子情報交換環境整備プログラム]]の成果として収集・整理された、[[戸籍]]や[[住民基本台帳ネットワーク]]の処理に必要とされる異体字を、[[CJK互換漢字|互換漢字]]として追加提案した<ref name="hanyo">{{cite web|url=http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3530-cover.doc|title=Proposal to Add a Set of Compatibility Ideographs for Government Use|date=2008-10-10|accessdate=2011-02-01}}</ref>。これに対しUnicode Technical Committee (UTC)と米国は、互換漢字は正規化に際して区別が保存されず、また統合漢字の字形の一意性は保証されないため、IVDによる登録を推奨するとコメントした<ref>{{cite web|url=http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3590.pdf|title=Handling Glyph Shapes for Government Use in WG2/N3530 via Variation Sequences|date=2009-02-09|accessdate=2011-02-01}}</ref>。またUTCは、SC2からの登録に対して通常IVDへの登録にかかる登録料を免除すると伝えた<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3591.pdf|title=Information on the Unicode Ideographic Variation Database – Letter to SC2 Unicode Consortium|date=2009-03-12|accessdate=2011-02-01}}</ref>。これを受け、2009年10月16日、日本は互換漢字の追加提案を取り下げた<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/N3706.doc|title=Follow-up on N3530 (Compatibility Ideographs for Government Use)|date=2009-10-16|accessdate=2011-02-01}}</ref>。
 
2010年3月31日、日本は取り下げた互換漢字の追加提案に代わってIVDへ登録を申請し<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3796.pdf|title=N3796 Announcement of Japan's IVD Registration Japan NB|date=2010-03-31|accessdate=2011-02-01}}</ref>、2010年11月14日正式にHanyo-Denshiとして登録された<ref>{{cite web|url=http://blogs.adobe.com/CCJKType/2010/11/the-hanyo-denshi-ivd-collection-has-been-registered.html|title=The “Hanyo-Denshi” IVD Collection has been registered!|author=Ken Lunde|date=2010-11-25|accessdate=2011-02-01}}</ref>。
141 ⟶ 143行目:
以下は和文フォントでの異体字セレクタへの対応状況である。
* [[MS 明朝]]・[[MS ゴシック]]・[[メイリオ|メイリオ・Meiryo UI]] - OSバンドルフォント。[[Windows 8]]に搭載のバージョンから、[[JIS X 0213|JIS X 0213:2004]]で例示字形が変更される以前の字形 (いわゆる[[JIS漢字コード|JIS90]]の字形) 122文字をIVSによりサポートしている<ref>{{cite web|url=https://www.microsoft.com/ja-jp/business/industry/gov/ivs/|title=Windows 8 の IVS 対応と IVS Add-in for Microsoft Office|publisher=マイクロソフト|accessdate=2017-10-05}}</ref>。
 
* [[ヒラギノ|ヒラギノ角ゴシック/明朝/丸ゴシック]] ProN (Adobe-Japan1) - OSバンドルフォント及び市販フォント。[[Mac OS X Lion|Mac OS X Lion (10.7) ]]に搭載のバージョン (8.10) からAdobe-Japan1によるIVSに対応した<ref>
{{cite web|url=http://www.screen.co.jp/ga_product/sento/support/otf_ver_hiragino.html|title=ヒラギノフォントとMac OS Xのバージョン相関表|publisher=SCREENグラフィックソリューションズ|accessdate=2017-10-05}}</ref>。
 
* [[游書体|游明朝体・游ゴシック体]] Pr6N (Adobe-Japan1) - OSバンドルフォント及び市販フォント。[[OS X Mavericks]] (10.9) 以降と[[Windows 8.1]]以降、および[[一太郎|一太郎2014プレミアム]]にバンドルされているバージョンで対応。Adobe-Japan1のIVSをサポートしている<ref name="jiyu">
{{cite web|url=http://www.jiyu-kobo.co.jp/wp@test/wp-content/uploads/2016/10/compatibility_1610.pdf|title=OS搭載の游書体の互換性|publisher=字游工房|format=PDF|accessdate=2017-10-05}}</ref>。
 
* [[小塚明朝]]・[[小塚ゴシック]] Pr6N (Adobe-Japan1) - 市販フォント。2007年8月1日のバージョン6.003でAdobe-Japan1のIVSに対応した<ref name="IRGN1374">{{cite web|url=http://www.cse.cuhk.edu.hk/~irg/irg/irg29/IRGN1374_IUC.pdf|title=Ideographic Variation Sequences|pages=p.10|date=2007-10-17|accessdate=2008-03-10}}</ref>。
 
* [[Source Han Sans|源ノ角ゴシック]] ([[Noto#Noto Sans CJK|Noto Sans CJK]])・[[Source Han Serif|源ノ明朝]] ([[Noto#Noto Serif CJK|Noto Serif CJK]]) - フリーフォント。[[Adobe]]と[[Google]]の共同開発。日本語部分ではAdobe-Japan1のIVSおよびCJK互換漢字のSVSに対応している。なおAdobe-Japan1-6文字セットの漢字グリフは網羅しているが、Adobe-Japan1との互換性がとくに考慮されているわけではない。
 
* [[IPAフォント]] - フリーフォント。
** IPAexフォント - JIS X 0213:2004で例示字形が変更される以前の字形など352文字をIVSによりサポートしている。また、搭載しているCJK互換漢字93文字にSVSを実装している<ref>{{cite web|url=http://ipafont.ipa.go.jp/node21#ja|title=IPAexフォント リリースノート |accessdate=2017-10-07}}
153 ⟶ 160行目:
{{cite web|url=http://www.atmarkit.co.jp/flinux/rensai/osstopics/01/01.html|title=連載:OSS界のちょっと気になる話 第1回 どんな人名も正しく表示? IPAの新フォントを試そう!|accessdate=2012-01-05}}
</ref><ref>{{cite web|url=http://mojikiban.ipa.go.jp/1300.html|title=IPAmj明朝フォント 文字情報基盤整備事業|accessdate=2017-10-06}}
</ref>。2017年12月に文字情報基盤整備事業の漢字の[[ISO/IEC 10646|UCS]]での符号規格化は完了したが、符号位置とグリフとの関連付けやIVSの実装などフォント側の対応はまだ完了していない<ref>{{cite web|url=http://mojikiban.ipa.go.jp/1309.html|title=IPAmj明朝フォント符号化の状況 文字情報基盤整備事業|accessdate=2017-10-05}}
</ref>。
 
* [[花園フォント]] (Adobe-Japan1) - フリーフォント。2009年12月1日版よりIVSのサポートを開始し、2010年2月22日版でAdobe-Japan1のIVSを完全収録した<ref>{{cite web|url=http://fonts.jp/hanazono/|title=花園フォント|accessdate=2011-01-19}}</ref>。
 
* [[Y.OzFont]] - フリーフォント。2008年2月8日のバージョン12.04以降、IVSに対応している<ref>{{cite web|url=http://yozvox.web.infoseek.co.jp/|title=Y.Oz Vox|date=2008-03-10|accessdate=2008-03-10}}</ref>。
 
* [[和田研フォント]] - フリーフォント。IVSに対応したものは「和田研細丸ゴシックProN」がある。JIS X 0213:2004で例示字形が変更される以前の字形をこれによりサポートしている<ref>{{cite web|url=http://sourceforge.jp/projects/jis2004/wiki/FrontPage|title=和田研細丸ゴシック2004フォントの公開|accessdate=2012-01-05}}</ref>。
 
* [[モリサワ]]、[[イワタ]]、[[フォントワークス]]が販売しているフォントでは、Adobe-Japan1-6 (Pr6N/Pr6) の多くのフォントでIVS (Adobe-Japan1) に対応している<ref>
{{cite web|url=https://citpc.jp/product_font.html|title=IVS対応製品 - 文字情報技術促進協議会|accessdate=2017-10-07}}</ref>。