Wikipedia:井戸端/subj/Unicodeの基本多言語面にない文字をタイトルに含むページの作成禁止は継続すべきか

Unicodeの基本多言語面にない文字をタイトルに含むページの作成禁止は継続すべきか編集

日本語版ウィキペディアでは現在のところ、ページ名にはUnicodeの基本多言語面(BMP)にある文字のみが使用できることになっており、基本多言語面にない文字(追加面)はいかなる名前空間であろうと、リダイレクトであってもページ名に含めてはいけないことになっています。Help:ページ名#Unicode文字の使用可能範囲によると、この制限が設けられている理由はMySQL4.0の制約によるもので、サーバーに障害が起きた場合の復旧に失敗する可能性があるとのことです。

ここで皆様にご意見を伺いたいのですが、ページ名におけるBMP外の文字の全面的な使用禁止は継続するべきでしょうか。特別:バージョン情報#インストール済みソフトウェアによると、日本語版ウィキペディアのデータベース管理システムには現在、MariaDBのバージョン10.1.38を使用しているようです。もしMySQL4.0にあった制約が今はなくなっており、BMP外の文字をページ名に使用してもシステム的に問題ないということであれば、用途をある程度限定してでも作成可能にした方がいいと思われます。

許される用途としては例えば𠮷野家など、「𠮷」( )を含むリダイレクトを作成するといったものが考えられます(なお𠮷野家ノート / 履歴 / ログ / リンク元については個別に無期限の全保護が掛けられています。過去の保護解除依頼も参照)。BMP外の文字の表示に関しては依然として機種依存性が強く、記事名はおろか本文での使用も極力避けた方がいいという気がしますが、この手のリダイレクトは少なくとも検索には有用であると考えます。

ちなみに英語版ウィキペディアでも日本語版と同じくBMP外の文字はTitleblacklistで制限されていますが、理由はVery few characters outside the Basic Multilingual Plane are useful in titlesとなっており、技術的理由によるものとはしていないようです。日本語版ウィクショナリーやメタウィキなどでは制限されておらず、wikt:𠮷といったものも作成されています。

なお、皆様から頂いた意見次第ではページ名におけるBMP外の文字の使用を(条件付きで)解禁するという流れになるかと思いますが、ここでの議論をもって記事名に使用可能な文字の範囲については変更するつもりはないことをあらかじめ申し上げておきます。--本日晴天会話) 2019年3月16日 (土) 15:21 (UTC)

  情報 英語版でのTitleblacklist追加はen:MediaWiki:Titleblacklist oldid=218391737(10 June 2008, 13:22 (UTC)の版)で追加されたものですが、特に議論を経ておらずen:MediaWiki talk:Titleblacklist/Archive 2#BMP-centrism and multilingual nonsupportといった異議も出ています(結局変更はされませんでしたが)。--ネイ会話) 2019年3月16日 (土) 16:18 (UTC)
  コメント en:🌰en:Chestnutへのリダイレクトとなっているように、Unicodeの1文字からその意味合いを説明する記事へのリダイレクトは解禁すべきと考えます(その際、en:Template:R from Unicodeの移入も検討すべきと考えます)。𠮷野家の例も含めると、リダイレクトのみという条件付きで解禁できると思います。一般的な記事では入力が困難である可能性も考えて、避けたほうがいいのではないかと思います。--ネイ会話) 2019年3月16日 (土) 16:18 (UTC)
  • (コメント)参考までに、僕の環境では『□野家』というように表示されている事を言及しておきます。--119.224.169.154 2019年3月16日 (土) 22:54 (UTC)
  • Wikipedia:記事名の付け方#記事名に使用できる文字には、「ページ名に使える文字はJIS X 0208」と書かれていますので、認識違いがあるのではないでしょうか?
    • 「Unicodeの基本多言語面」←システム上使える文字だけど日本語Wikipediaではルール上許可していない文字も含まれる(例:丸数字の①(U+2780)など)
    • 「JIS X 0208」←システム上も使えるし、日本語Wikipediaでもルール上許可している文字。
    • 現状では、丸数字「①」などはシステム上は使えますが、ルール上許可していないのでページ名には使われてなかったと思います。 --bcxfu75k会話) 2019年3月17日 (日) 04:16 (UTC)
  • 2mini〜生きるという力〜は、「②」が許可されていないので、「2」になったページです。--bcxfu75k会話) 2019年3月17日 (日) 04:23 (UTC)
  •   コメント 「技術的な制限」というと語弊があるのかもしれませんね。「{」や「#」とはわけが違います。「②」などは技術的な制限ではなく、方針や慣習による制限ですよね。なお𠮷(U+20BB7)はUnicode正規化の対象ではありません。すなわち吉(U+5409)と𠮷(U+20BB7)は別の文字として扱われ、これはMediaWikiの仕様上ページ名に使用できます。Unicode正規化により同じ文字位置におかれるもの、すなわちページ名で使用できないものは、例えば「者」の旧字体・繁体字(U+FA5B)や「勤」の旧字体・繁体字(U+FA34)などです。CJK互換漢字は基本的に使えません。 -Naggy Nagumo会話) 2019年3月18日 (月) 04:56 (UTC)
  • (追伸)少し誤解していたのですが、古いバージョンのMySQLではU+FFFFを超える文字はバグがあるので使わないということだったのですね。私にはどうやったらMySQLのバージョンが特定できるのかわかりませんが、日本語版ウィキペディアのMySQLのバージョンが十分に新しければ、リダイレクトページの作成くらいはよいと思います。バージョンが古い場合は「技術的な制限」という言い方も妥当です。 -Naggy Nagumo会話) 2019年3月18日 (月) 06:43 (UTC)
  •   コメント 少なくともMySQLの仕様による制約はもうないんじゃないでしょうか? 件の制約は2010年のバージョン5.5で取り除かれています[1]。今のjawpはMySQLではなくMariaDBですが、MySQL5.5の変更はMariaDB5.5にも取り込まれているはずで(MariaDB参照)、今のjawpはそれよりもさらに新しいバージョンです。--Yukida-R会話) 2019年3月19日 (火) 08:57 (UTC)
  •   情報 特別:バージョン情報で確認できる通り、現在はMariaDB 10.1.38となっています。--ネイ会話) 2019年3月19日 (火) 10:28 (UTC)
  • Yukida-Rさんのコメントを受け、念のためMariaDBのサイトも調べてみたところ、MySQL5.5で追加されたutf8mb4などの文字セットがMariaDB5.5でも追加されていることが確認できました[2]。すると現在はウィキペディアのページ名にBMP外の文字を使用してもシステム上の問題はなさそうですね。あと数日ほど待って「待った」がかからないようであれば、ページ名におけるBMP外の文字の使用を解禁する提案を出そうと思います。--本日晴天会話) 2019年3月19日 (火) 11:14 (UTC)
  •   情報 制約がつけられた当時の議論はWikipedia‐ノート:記事名の付け方/過去ログ6#基本多言語面にない字の使用制限にありました。ご参考までに。--Yukida-R会話) 2019年3月19日 (火) 12:18 (UTC)
    •   情報 Yukida-Rさん、ありがとうございます。ご提示の過去ログでも触れられていたページ名を格納するカラムのデータ型についてですが、mw:Manual:Page_table/ja#Schema summaryによると、Mediawikiのバージョン1.25にて、pageテーブルのpage_titleの型がvarcharからvarbinaryに変更になっているようです。--本日晴天会話) 2019年3月20日 (水) 14:51 (UTC)
      •   3/1のダンプデータで確認しましたが、確かにpage_titleの型はvarbinaryになっていました。つまり、MediaWikiのDBの使い方が当時とは変わっていて、ページ名は文字列としてではなく単なる数値データとして格納するようになった(本文と同じ考え方で、DB側では文字列と認識していない)ということですね。であれば、なおさら制約はなさそうですね。--Yukida-R会話) 2019年3月21日 (木) 11:52 (UTC)

ページ名にBMP外の文字を使用できるようにする提案編集

  提案 日本語版ウィキペディアではページ名におけるUnicodeの基本多言語面(BMP)にない文字(「 」(U+20BB7)や「🌰」(U+1F330)など)の使用は名前空間やリダイレクトであるかを問わず全面的に禁止されています(参照:Help:ページ名#Unicode文字の使用可能範囲)が、これを(条件付きで)解禁する提案をします。上の議論においてBMP外の文字をページ名に使用しても現在はシステム上問題はなさそうという意見が複数の方から寄せられ、かつ現在でもシステム上問題があるという意見は出なかったからです。特定のケースでリダイレクトにBMP外の文字を使用することに有用性があるという意見も出ています。ただし追加特殊用途面(U+E0000 - U+E0FFF)と私用面(U+F0000 - U+10FFFF)にある文字の使用は引き続き禁止するものとします。

なおこの提案は記事名に使用可能な文字の範囲を変更するものではないのでご注意ください。したがって標準名前空間のページ名にBMP外の文字を使用するのであれば、ほとんどの場合リダイレクトにするか、文字(漢字以外)そのものについての記事にするということになろうかと思います。標準名前空間のリダイレクト用に利用者:本日晴天/sandbox/Template:R with non-BMPを試作しています。--本日晴天会話) 2019年3月30日 (土) 06:52 (UTC)

  •   賛成 過去に存在していた技術的な問題が解決したのであれば、禁止すべき理由はないと考えます。 --SuFlyer会話) 2019年4月1日 (月) 15:23 (UTC)
  •   賛成 上にも書いた通り、当時あった技術面の問題は解消されていると見られます。DBの制約にコンテンツを合わせる自衛ルールはもう必要ないでしょう。--Yukida-R会話) 2019年4月2日 (火) 12:12 (UTC)
  •   賛成 古い無用な制約。リダイレクトは有用であり、これに及んで禁止するのはデメリットの方が大きいと考えます。 -Naggy Nagumo会話) 2019年4月3日 (水) 03:07 (UTC)
  •   コメント リダイレクトに限るなら良いんじゃないですか?--119.224.172.244 2019年4月3日 (水) 10:58 (UTC)
  •   コメント 大筋は賛成ですが、日本語版は乱造を含む荒らしに対して脆弱なので絵文字と「使えない正式表記」には、作成保護に代わって編集保護・移動保護をかけるぐらいは欲しいです。絵文字の記事を作る場合でも、「X (絵文字)」のような記事名になるでしょう。作業としては、1は最後に回す(これが先行すると荒らしのおもちゃです)、4は「記事名に使用できる文字」の改訂も必要になります。8は、先ほど述べた理由で保護解除より管理者伝言板案件であろうと考えます。--Open-box会話) 2019年4月6日 (土) 02:33 (UTC)
  •   賛成  多くのデバイスで、同じように表示できるのであれば問題はないものと考え、提案に賛成します。--Wikimakerjpn会話) 2019年7月7日 (日) 10:40 (UTC)