Wikipedia‐ノート:井戸端/subj/Unicodeの基本多言語面にない文字をタイトルに含むページの作成解禁に向けて

最新のコメント:4 年前 | トピック:転記 20200529 | 投稿者:本日晴天

転記 20200529

編集

  情報 以下の内容はWikipedia:井戸端/subj/Unicodeの基本多言語面にない文字をタイトルに含むページの作成解禁に向けてにおける2020年5月9日 (土) 17:50 (UTC)から2020年5月10日 (日) 04:01 (UTC)までの、Uminokawausoさんと本日晴天のやり取りを転記したものです。--本日晴天会話2020年5月29日 (金) 11:34 (UTC)返信


リダイレクトを除く記事名に使う漢字はJISX0213の漢字からU+20B9F(JISX0213 1-47-52)を除外した10,049字とする。ただし、これ以外のBMP領域の漢字も使用を許容される。 ということでいかがでしょうか。

JISX0213の漢字は10,050字です。

第1水準漢字2,965
第2水準漢字3,390
第3水準漢字1,259
第4水準漢字2,436
合計   10,050

このうち、第3水準にあるU+20B9F(JISX0213 1-47-52)口+七は、第1水準にあるU+53F1(JISX0213 1-28-24)叱と混用されており、日本語コーパス上はJISX0213の漢字数は10,049字とされているようです[1](10ページ参照)。

日本語に使われる漢字の範囲として次の3つが基準だと考えています。

(範囲1)JISX0208プラスJISX0212の漢字
(範囲2)JISX0213の漢字
(範囲3)MJ文字の漢字

(範囲1)について

JISX0212の漢字つまりJIS補助漢字は、印刷会社の漢字表などを基礎資料としていたため[2]、ほとんど使われていない漢字が入っている一方で日本の地名に使われる漢字の漏れがあるなど問題点があり、JISX0213が新たに定められました。 しかしながら、ユニコードがCJK統合漢字を定める時にあったのはJISX0212だったため、BMPにすべて採用されているわけです。 JISX0213に採用されていない補助漢字でなじみがあるのは、始皇帝の「おんりょうしゃ」の「りょう」車+京(JU+8F2C)でしょうか。 そして、日本語でよく見かける補助漢字にもJISX0213にも入ってないBMPの漢字は、「せん」魚3つ (U+9C7B)でしょうか。 BMPの漢字は、JISX0213に入っていなくても見かけますし、いままで使えたものを使えなくするというのも問題があるので、BMP領域の漢字は使用を許容されるべきと考えます。

(範囲3)について

MJ文字の漢字は、ユニコードの包摂基準で同じ漢字とされているものをIVSで区別しているものもあるわけで[3]、ソフトウェアがIVSに対応していなければ使えないし、ソフトで対応していても、IPAmj明朝フォントでないと、文字の異同が見てわからないわけで、記事名に使うには不適当と考えます。

(範囲2)について

JISX0213の漢字が良いと思うのは、これが日本語に使われる漢字の範囲として定着しつつあるためです。 独立行政法人情報処理推進機構(IPA)は、MJ縮退マップを公開しています[4]。縮退することで、日本語の漢字をJIS第1水準~第4水準にしていこうという試みだと思います。記事本文に使える文字は多い方が良いですが、記事名に使える漢字を大幅に増やすのは必ずしも便利になるとは思えません。 JISX0213の漢字の範囲に含まれないときは「記事名の制約」を使うことでよいと思います。 このような、設定にするのは、システムに携わるボランティアの方の負担になるかもしれません。しかしながら、いったん拡大した文字の範囲をあとから制限することは難しいと思います。技術的に難しい場合には、立ち止まるというのも一つのあり方ではないでしょうか。

私は、MediaWikiをよく知らず、見当違いのところもあるのではと心配していますが、私見を書かせて頂きました。--Uminokawauso会話) 2020年5月9日 (土) 17:50 (UTC)(誤字訂正。)--Uminokawauso会話2020年5月9日 (土) 18:23 (UTC)返信

  •   返信 (Uminokawausoさん宛) ご意見ありがとうございます。リダイレクトを除く記事名に使う漢字について、丁寧に書いてくださったところ申し訳ないのですが、その話題についてはWikipedia:井戸端/subj/WP:NCにおけるJIS X 0208規定の撤廃についてにて議論が行われているので、そちらでお願いできないでしょうか。この井戸端サブページでは、BMP範囲外の文字を「リダイレクトを含めたページ名」(現時点で両議論で出ている意見を踏まえると「リダイレクト限定」となりそう)に使用可能とした場合に技術的にどのように扱うか、事前にどのような手順を踏むべきかを議論しています。--本日晴天会話2020年5月10日 (日) 03:37 (UTC)返信
プロジェクトページ「井戸端/subj/Unicodeの基本多言語面にない文字をタイトルに含むページの作成解禁に向けて」に戻る。