「異体字セレクタ」の版間の差分

削除された内容 追加された内容
Rinrr (会話 | 投稿記録)
軽微な修正
Rinrr (会話 | 投稿記録)
内部リンク追加、表記ゆれの修正、項目の整理、その他軽微な修正
27行目:
Standardized Variation Sequences(標準化された異体字シーケンス、略称SVS)とIdeographic Variation Sequences(漢字異体字シーケンス、略称IVS)がある。SVSには非漢字や[[CJK互換漢字]]などが登録され、字形のコレクションはUnicodeのStandardizedVariants.txt<ref>
{{Cite web | title=StandardizedVariants.txt | url=http://www.unicode.org/Public/UCD/latest/ucd/StandardizedVariants.txt | publisher=Unicode Consortium | date=2015-11-20 | accessdate=2017-06-01 }}
</ref>にて定義されており、追加は[[ユニコードコンソーシアム]]が行なっている。IVSは漢字専用で字形のコレクションが Ideographic Variation Database (漢字異体字データベース、略称IVD) にて定義されており、コレクションは定められた手続きに則ってユニコードコンソーシアムへ申請を行うことで字形コレクションをIVDに登録することができる<ref>
{{Cite web | title=Unicode® Technical Standard #37 UNICODE IDEOGRAPHIC VARIATION DATABASE | url=http://www.unicode.org/reports/tr37/| publisher=Unicode Consortium | date=| accessdate=2017-10-05 }}
</ref>。
 
2017年5月現在Unicodeに登録されている異体字セレクタで利用できる異体字は、SVSに登録されている組み合わせで[[数学記号の表|数学記号]]が25通り、[[モミャゴル文字]]が64通り、マーの[[ビルマ文字]]が27通り、[[パスパ文字]]が6通り<ref name="u5stdvars"/>、[[マニ文字]]が5通り、[[携帯電話の絵文字|絵モンゴル文字]]が48660通り(テキストスタイルと絵文字スタイルが243通りずつ)、[[CJK互換漢字]]に対応するものが10021,002通りIVDに登録されているコレクションが[[CID (携帯電話の絵文字コード)|Adobe-Japan1絵文字]]コレクションに含まれる約14,600が702通り、汎用電子コレクション ({{lang-en-short|Hanyo-Denshi collection}}) に含まれる約13,000通り<ref name="ivd"/>、(テキストスタイルと絵文字情報基盤コレクション ({{lang-en-short|Moji-Joho collection}}) に含まれる約10,000通り、マカオ特別行政区(MSARG)コレクションに含まれる21スタイルが351通りずつ)ある。ただし汎用電子コレクションには、Adobe-Japan1コレクションと多数の重複がある<ref>
{{Cite web | title=emoji-variation-sequences.txt| url=https://unicode.org/Public/emoji/6.0/emoji-variation-sequences.txt| publisher=Unicode Consortium | date=| accessdate=2017-10-06}}
</ref>。IVDに登録されている字形コレクションは、[[CID (文字コード)|Adobe-Japan1]]コレクションに含まれる14,681通り<ref>なおAdobe-Japan1-6の文字セットに含まれる漢字は14,664個である</ref>、汎用電子情報交換環境整備プログラムのHanyo-Denshiコレクションに含まれる13,047通り<ref name="ivd"/>、文字情報基盤整備事業のMoji_Johoコレクションに含まれる10,711通り、[[マカオ|マカオ特別行政区]]のMSARGコレクションに含まれる21通りである。ただしHanyo-Denshiコレクションには、Adobe-Japan1コレクションと多数の重複がある(後述の[[#問題点]]も参照)<ref>
{{cite web|url=http://itpro.nikkeibp.co.jp/article/COLUMN/20110124/356398/|title=UnicodeのIVSがもたらすメリットとデメリット - 新常用漢字が引き起こす文字コード問題|author=安岡孝一|date=2011-01-24|accessdate=2011-02-01}}
</ref>。汎用電子Hanyo-Denshiコレクションと文字情報基盤Moji_Johoコレクションは同一の字形は異体字セレクタを共有している。漢字Adobe-Japan1コレクションで[[常用漢、文]]セット字形など日本において標準的な字形も登録されており、Adobe-Japan1-6に含まれるものなら、漢字であれば「一」(U+4E00) のように単一の字形しか存在しないものでもその単一の字形が登録されている。汎用電子Hanyo-Denshiコレクションの方は、Adobe-Japan1-6コレクションとは異なり同一コードポイント符号位置で複数の字形を持つもののみ登録されており、単一の字形しか存在しないものは登録されていない。
 
==符号位置==
異体字セレクタは、[[モンゴル文字]]専用のモンゴル自由字形選択子が{{U+}}180B〜U+180Dに3文字、SVSで利用される異体字セレクタが[[基本多言語面]]のU+FE00〜U+FE0F(異体字セレクタ1~16 (VS1-VS16))に16文字、IVSで利用される異体字セレクタが[[追加特殊用途面]]のU+E0100〜U+E01EF(異体字セレクタ17~256 (VS17-VS256))に240文字存在し、選択した個が定められて字形に応じて異なる異体字セレクタを付加する。異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。利用者が独自に考えた未登録の字形を利用したい場合には、[[私用領域]]の文字を{{要出典範囲|date=2013年5月|私用の異体字セレクタとして}}使う。領域として私用の異体字セレクタ(Private Use Variation Selectors)を追加する提案もあった<ref>http://www.unicode.org/L2/L2003/03293-puvs.html</ref>が、取り入れられていない。
 
IVSでは[[基本多言語面]]の異体字セレクタを使わず、ではなく[[追加特殊用途面]]のセレクタを使用する<ref>{{cite web|url=http://www.unicode.org/reports/tr37/|title=Unicode Technical Standard #37 - Ideographic Variation Database|date=2006-01-13|accessdate=2008-02-02}}</ref>。このためIVSに対応し、[[UTF-16]]を使用するアプリケーションは、[[Unicode#サロゲートペア|サロゲートペア]]を正常に扱えなければならない。逆にSVSでは2017年5月現在全て基本多言語面の異体字セレクタのみ使用している。なお[[CJK互換漢字]]は、漢字でありながらIVSではなく非漢字と同じSVSとして登録されたため、基本多言語面の異体字セレクタを使用する。
 
2012年1月には[[携帯電話の絵文字|絵文字]]としても使われる107文字について、テキストスタイル(普通の文字のように白黒で表示)と絵文字スタイル(カラーで表示したり、アニメーションする)の切替を異体字セレクタで行えるようになった。使用する異体字セレクタは基本多言語面に規定されたもので、テキストスタイルがU+FE0E(VS15)、絵文字スタイルがU+FE0F(VS16)となっている。
 
なお、U+303EにIDEOGRAPHIC VARIATION INDICATOR(直訳すると漢字異体字表示子)という似たような名称で、かつ例示字形が点線で囲まれている(通常は不可視である制御文字などを示す)ものが存在するが、これはこれに続く漢字が異体字であることを示す可視の記号 ([[下駄記号]]の異体字版) であり、異体字セレクタではない<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n1728.doc|title=Ad-Hoc Report on Ideographic Variation Indicator|date=1998-03-18|accessdate=2008-02-21}}</ref>。
46 ⟶ 48行目:
== CJK互換漢字との関係 ==
[[Image:ufa30.svg|thumb|right|120px|CJK互換漢字を使うと<U+FA30>、異体字セレクタを使うと<U+4FAE E0101>,<U+4FAE E0103>,<U+4FAE FE00>のいずれかで符号化される]]
[[JIS X 0213]]や[[CNS 11643]]などの各国の従来[[文字コード]]では区別されているがUnicodeでは統合されている文字を区別するため、Unicodeではこれまで[[CJK互換漢字]]を使ってきた。しかし技術的な制約により、漢字の異体字セレクタは[[CJK統合漢字]] (正確にはUnified_Ideographプロパティを持つ文字) にしか付けることができない。これは[[Unicode正規化]]に対する安定性の問題 ([[CJK互換漢字#問題点]]を参照) を改善するが<ref>
{{cite web|url=http://www.unicode.org/mail-arch/unicode-ml/y2007-m03/0122.html|title=Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)|date=2007-03-20|accessdate=2008-02-02}}
</ref>、同じ字形を意図していても異体字セレクタに対応した[[実装]]と対応していない実装との間で異なる符号化表現が採用され、混乱を招く可能性も指摘されている<ref>
{{cite web|url=http://www.unicode.org/mail-arch/unicode-ml/y2007-m03/0144.html|title=Re: Comment on PRI 98: IVD Adobe-Japan1 (pt.2)|date=2007-03-25|accessdate=2008-02-02}}</ref>。
 
また、2006年1月にIVDへの漢字字形コレクションの登録手続きが制定され<ref name="uts37"/>、登録が可能になった後にも[[ARIB外字]]や汎用電子コレクション情報交換環境整備プログラムで収集された漢字の一部をCJK互換漢字として収録することが要望される<ref>{{cite web|url=http://www.cse.cuhk.edu.hk/~irg/irg/irg29/IRGN1347_wg2n3318-ARIB_CJK.pdf|title=Proposal to encode six CJK Ideographs in UCS|date=2007-09-07|accessdate=2008-02-02}}</ref><ref name="hanyo"/>など、足並みは必ずしもそろっていなかった。
 
2013年9月30日制定のUnicode 6.3では、CJK互換漢字が正規化でCJK統合漢字に置き換えられ、字形等の情報を失ってしまう問題を解消するために、SVSとしてCJK互換漢字と等価なCJK統合漢字と異体字セレクタの組合せがIVSとは別に登録された。IVSとは異なり基本多言語面にあるU+FE00(VS1)~U+FE02(VS3)を使う。IVSにある字形と同じものでも登録されている。例えば、「侮」の康煕別掲の字体であるU+FA30の「&#xFA30;」は、SVSではU+4FAEとU+FE00(VS1)の組合せで登録された。CJK互換漢字ブロックおよびその補助集合のうち、CJK統合漢字扱いするものを除いた1002字全てが登録された。字体の違いでなく韓国[[KS X 1001]]の読みの違いで分離されているものや台湾[[Big5]]の誤って重複収録されたものに対応するCJK互換漢字にも異体字セレクタが与えられている。例えば、U+F90Aの「금」(Geum、クム)と読む「金」には、U+91D1(KS X 1001では「김」(Gim、キム)と読む「金」に対応)と字体が全く同じであるが、これにU+FE00(VS1)を付け加える組合せが与えられた。
 
== 問題点 ==
[[Image:R188 font.gif|thumb|right|250px|国によって異なる骨の異体字({{lang|zh|骨}}・骨)。異体字セレクタでは対応していない例]]
* [[フォント]]を指定できない[[プレーンテキスト]]での使用を想定されているにもかかわらず、確実異体字セレクタ対応したフォントを指定できる環境以外では、異体字セレクタを使用しても対象の環境で意図した異体字が表示されるとは限らない。ただし外字と異なり、異体字セレクタは文字コード上で指定されるため、どのような字形を意図していたかの情報は失われない。
* 漢字の場合、出典が異なれば同一字形であっすべも別環境で異体字セレクタが割り当に対応しられとなは限らず、対応した環境であっても対応範囲はフォントによって必ずしも一様ではな。たとえば[[Microsoft Windows 8.1|Windows 8.1]]搭載の日本語フォントのうち[[游書体|游明朝・游ゴシック]]はAdobe-Japan1コレクションによるIVSを完全にサポートするが、[[MS 明朝]]・[[MS ゴシック]]はおおむね[[JIS X 0213|JIS X 0213:2004]]で例示字形が変更される以前の字形のみをIVSでサポートする。
* IVDため字形コレクションやSVSのCJK互換漢字で、同一字形の漢字重複して複数の異体字セレクタが割り当てられる事態が発生しており、検索等において支障が生ずる場合がある。例えば、{{JIS2004フォント|葛飾区の葛}} (U+845B, JIS2004字形) には、Adobe-Japan1コレクションの異体字セレクタSV18 (U+E0101, cid-7652) の他に汎用電子Hanyo-Denshiコレクションの異体字セレクタSV20 (U+E0103, FT1769)、{{JIS90フォント|葛城市の葛}} (U+845B, JIS90字形) にはAdobe-Japan1コレクションのSV17 (U+E0100, cid-1481) の他に汎用電子Hanyo-DenshiコレクションのSV19 (U+E0102, JA1975) が与えられてしまった。また、Unicode 6.3ではIVSとは別にCJK互換漢字にSVSとして異体字セレクタが与えられたため、例えば侮 (U+4FAE) の異体字「&#xFA30;」(CJK互換文字) にはAdobe-Japan1コレクションのSV18 (U+E0101, cid-13382) と汎用電子Hanyo-DenshiコレクションのSV20 (U+E0103, JC1424) に加え、CJK互換漢字「U+FA30」に対応するSV1 (U+FE00) が与えられるなど同じ字体に3つの異体字セレクタが与えられることとなった。
* 現状では国によって異なる骨の異体字(図参照)のようなケースを異体字セレクタで区別することができない。
 
またすべての環境で異体字セレクタに対応しているとは限らず、対応した環境であっても対応範囲はフォントによって必ずしも一様ではない。たとえばWindows 8.1搭載の日本語フォントのうち游明朝・游ゴシックはAdobe-Japan1コレクションによるIVSをサポートするが、MS 明朝・MS ゴシックはおおむねJIS X 0213:2004で例示字形が変更される以前の字形のみをIVSでサポートする。また、国によって異なる骨の異体字(図参照)のようなケースを異体字セレクタで区別することができない。
 
== 歴史 ==
92 ⟶ 94行目:
2008年10月10日、日本は[[汎用電子情報交換環境整備プログラム]]の成果として収集・整理された、[[戸籍]]や[[住民基本台帳ネットワーク]]の処理に必要とされる異体字を、[[CJK互換漢字|互換漢字]]として追加提案した<ref name="hanyo">{{cite web|url=http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3530-cover.doc|title=Proposal to Add a Set of Compatibility Ideographs for Government Use|date=2008-10-10|accessdate=2011-02-01}}</ref>。これに対しUnicode Technical Committee (UTC)と米国は、互換漢字は正規化に際して区別が保存されず、また統合漢字の字形の一意性は保証されないため、IVDによる登録を推奨するとコメントした<ref>{{cite web|url=http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3590.pdf|title=Handling Glyph Shapes for Government Use in WG2/N3530 via Variation Sequences|date=2009-02-09|accessdate=2011-02-01}}</ref>。またUTCは、SC2からの登録に対して通常IVDへの登録にかかる登録料を免除すると伝えた<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3591.pdf|title=Information on the Unicode Ideographic Variation Database – Letter to SC2 Unicode Consortium|date=2009-03-12|accessdate=2011-02-01}}</ref>。これを受け、2009年10月16日、日本は互換漢字の追加提案を取り下げた<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/N3706.doc|title=Follow-up on N3530 (Compatibility Ideographs for Government Use)|date=2009-10-16|accessdate=2011-02-01}}</ref>。
 
2010年3月31日、日本は取り下げた互換漢字の追加提案に代わってIVDへ登録を申請し<ref>{{cite web|url=http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3796.pdf|title=N3796 Announcement of Japan's IVD Registration Japan NB|date=2010-03-31|accessdate=2011-02-01}}</ref>、2010年11月14日正式に汎用電子Hanyo-Denshiコレクションとして登録された<ref>{{cite web|url=http://blogs.adobe.com/CCJKType/2010/11/the-hanyo-denshi-ivd-collection-has-been-registered.html|title=The “Hanyo-Denshi” IVD Collection has been registered!|author=Ken Lunde|date=2010-11-25|accessdate=2011-02-01}}</ref>。
 
2010年12月6日、[[アドビシステムズ]]、イースト、[[ジャストシステム]]、[[大日本スクリーン製造|大日本スクリーン]]、[[マイクロソフト]]、[[モリサワ]]の6社共同で、IVSの普及推進を目的としてIVS技術促進協議会が設立された<ref>{{cite web|url=http://internet.watch.impress.co.jp/docs/news/20101206_412176.html|title=人名などの異体字もデータ交換可能に、MSなどが「IVS技術促進協議会」発足 |publisher=INTERNET Watch|date=2010-12-06|accessdate=2011-02-01}}</ref>。
100 ⟶ 102行目:
2012年1月31日、Unicode 6.1が制定。絵文字のテキストスタイルと絵文字スタイル切り替えのための異体字セレクタの組合せが登録された<ref>{{cite web |url=http://www.unicode.org/Public/6.1.0/ucd/StandardizedVariants.html |title=Standardized Variants Revision 6.1.0 |date=2011-11-27 |accessdate=2014-09-17 }}</ref>。
 
2012年3月2日、IVDがバージョンアップ。汎用電子Hanyo-DenshiコレクションとAdobe-Japan1コレクションのこれまで登録されていなかった異体字のうち一部が追加登録された<ref name="ivdversions">{{cite web |url=http://www.unicode.org/ivd/#versions |title=Ideographic Variation Database |accessdate=2014-09-17 }}</ref>。
 
2013年9月30日、Unicode 6.3が制定。CJK互換漢字のコレクションがSVSに登録された<ref>{{cite web |url=http://www.unicode.org/Public/6.3.0/ucd/StandardizedVariants.html |title=Standardized Variants Revision 6.3.0 |date=2013-03-03 |accessdate=2014-09-17 }}</ref>。
 
2014年5月16日、IVDがバージョンアップ。文字情報基盤整備事業のMoji_Johoコレクションが登録された<ref name="ivdversions"/>。
 
2016年6月21日、Unicode 9.0が制定。絵文字の追加等があった。
 
2016年8月15日、IVDがバージョンアップ。マカオ特別行政区(MSARG)のMSARGコレクションが登録された。日本以外がソース登録者のIVS登録は初である。
 
== 実装 ==
漢字の異体字セレクタに対応した[[実装]]には以下のようなものがある。
 
=== フォント仕様 ===
* [[OpenType]] 1.5では、Unicodeの異体字セレクタによる字形切り替えをサポートするため、cmapテーブルでFormat 14 "Unicode Variation Sequences"を規定した<ref>
{{cite web|url=http://www.microsoft.com/typography/otspec150/default.htm|title=Microsoft Typography - OpenType Specification|date=2008-01-29|accessdate=2008-03-10}}</ref>。
* [[Scalable Vector Graphics|SVG]]フォントはIVSに限らず、任意のUnicode符号列に対してグリフを割り当て可能である<ref>{{cite web|url=http://www.w3.org/TR/SVG/fonts.html#GlyphElement|title=Fonts – SVG 1.1 (Second Edition)|accessdate=2011-02-01}}</ref>。
 
=== フォント ===
以下は和文フォントでのIVSへの対応状況である。大別すると、Adobe-Japan1コレクションのIVSに完全対応したもの、[[JIS X 0213|JIS X 0213:2004]]で例示字形が変更される以前の字形(いわゆるJIS90字形)のみIVSで対応したもの<ref>IVSの実装上ではAdobe-Japan1コレクションのごく一部のみに対応した形である</ref>の2つとなる。
* [[MS 明朝]]・[[MS ゴシック]]・[[メイリオ|メイリオ・Meiryo UI]] - [[Windows 8]]に搭載のバージョンから、JIS X 0213:2004で例示字形が変更される以前の字形をIVSによりサポートしている<ref>{{cite web|url=https://www.microsoft.com/ja-jp/business/industry/gov/ivs/|title=Windows 8 の IVS 対応と IVS Add-in for Microsoft Office|publisher=マイクロソフト|accessdate=2017-10-05}}</ref>。
* [[ヒラギノ|ヒラギノ角ゴシック/明朝/丸ゴシック]] ProN(Adobe-Japan1) - [[Mac OS X Lion|Mac OS X Lion 10.7]]に搭載のバージョン(8.10)からIVSに対応した<ref>
128 ⟶ 125行目:
* [[IPAフォント]]
** IPAexフォント - JIS X 0213:2004で例示字形が変更される以前の字形をIVSによりサポートしている。サポート文字数はVer.001.02の時点で172文字<ref>{{cite web|url=http://www.ipa.go.jp/software/open/ossc/ipafont/releasenote.html|title=IPAフォントリリースノート |accessdate=2011-01-19}}</ref>。
** IPAmj明朝 - 汎用電子Hanyo-DenshiコレクションによるIVSに対応していたが、最新バージョンでは文字情報基盤Moji_Johoコレクションでの実装となっている<ref>
{{cite web|url=http://www.atmarkit.co.jp/flinux/rensai/osstopics/01/01.html|title=連載:OSS界のちょっと気になる話 第1回 どんな人名も正しく表示? IPAの新フォントを試そう!|accessdate=2012-01-05}}
</ref><ref>{{cite web|url=http://mojikiban.ipa.go.jp/13091300.html|title=IPAmj明朝フォント符号化の状況 文字情報基盤整備事業|accessdate=2017-10-0506}}
</ref>。なおIPAexフォントのIVSで対応している字形はサポートしていないものも多い。2017年10月現在ではまだMoji_Johoコレクションの符号化完了していないが、2017年度中に完了する見込みである<ref>{{cite web|url=http://mojikiban.ipa.go.jp/1309.html|title=IPAmj明朝フォント符号化の状況 文字情報基盤整備事業|accessdate=2017-10-05}}
</ref>。
* [[源ノ角ゴシック]]・[[源ノ明朝]] - [[Adobe]]と[[Google]]の共同開発。Adobe-Japan1コレクションのIVSに対応しており、Adobe-Japan1-6文字セットの漢字グリフは網羅しているが、Adobe-Japan1との互換性がとくに考慮されているわけではない。
* [[花園フォント]](Adobe-Japan1) - 2009年12月1日版よりIVSのサポートを開始し、2010年2月22日版でAdobe-Japan1コレクションのIVSを完全収録した<ref>{{cite web|url=http://fonts.jp/hanazono/|title=花園フォント|accessdate=2011-01-19}}</ref>。
* [[Y.OzFont]] - [[フリーフォント]]のY.OzFontは2008年2月8日のバージョン12.04以降、IVSに対応している<ref>{{cite web|url=http://yozvox.web.infoseek.co.jp/|title=Y.Oz Vox|date=2008-03-10|accessdate=2008-03-10}}</ref>。
* [[和田研フォント]] - IVSに対応したものは「和田研細丸ゴシックProN」がある。JIS X 0213:2004で例示字形が変更される以前の字形をこれによりサポートしている<ref>{{cite web|url=http://sourceforge.jp/projects/jis2004/wiki/FrontPage|title=和田研細丸ゴシック2004フォントの公開|accessdate=2012-01-05}}</ref>。
 
=== フォント仕様規格 ===
* [[OpenType]] 1.5では、Unicodeの異体字セレクタによる字形切り替えをサポートするため、cmapテーブルでFormat 14 "Unicode Variation Sequences"を規定した<ref>
{{cite web|url=http://www.microsoft.com/typography/otspec150/default.htm|title=Microsoft Typography - OpenType Specification|date=2008-01-29|accessdate=2008-03-10}}</ref>。
* [[Scalable Vector Graphics|SVG]]フォントはIVSに限らず、任意のUnicode符号列に対してグリフを割り当て可能である<ref>{{cite web|url=http://www.w3.org/TR/SVG/fonts.html#GlyphElement|title=Fonts – SVG 1.1 (Second Edition)|accessdate=2011-02-01}}</ref>。
 
=== フォント作成ツール ===