Wikipedia:井戸端/subj/ひらがな / カタカナ—Mapping Hiragana and Katakana

ひらがな / カタカナ—Mapping Hiragana and Katakana 編集

Sorry for posting in English. Translation help is appreciated.

On English wiki projects, someone has suggested[1] automatically mapping between hiragana and katakana when searching wikis. Other major commercial search engines like Google.jp, Bing, Yahoo Japan, DuckDuckGo, and Goo do not do this. (Data from my small experiment is here.) Is this mapping a good idea for Japanese-language projects? Would it be helpful, or would it cause problems? Should it be automatic, or should it require a special search keyword, similar to "intitle:"? Thanks. TJones (WMF)会話2017年9月20日 (水) 14:20 (UTC)[返信]

(抄訳)phablicatorに、ウィキ内の検索に際してひらがなとカタカナの自動変換をしてはどうかという提案がありました。ただ、GoogleやBing、Yahoo! Japanなどのメジャーな検索エンジンでこのような対応をしているところはありません。さて、日本語版にもこのような変換を入れることは有用でしょうか、それともじゃまになるでしょうか。特殊なパラメータ入力をすれば有効になる、という手段もありかもしれません。--Jkr2255 2017年9月20日 (水) 14:34 (UTC)[返信]
@Jkr2255: Thanks! TJones (WMF)会話2017年9月20日 (水) 14:38 (UTC)[返信]
  コメント I think this is not much helpful in jawiki.
  1. Besides biological species names, there are not so many words written in both hiragana and katakana.
  2. Like あみん (musician) and アミン (amine, chemical functional group), there are different words only different in hiragana/katakana. Some words have special meaning written in katakana , like ヒロシマ. (it implies atomic bomb on Hiroshima)
  3. Many of Japanese article has sortkeys, which is recommended to write in hiragana. (Wikipedia:カテゴリの方針#ソートキー) Search in hiragana will hit sortkey on articles with katakana titles.--Jkr2255 2017年9月20日 (水) 14:48 (UTC)[返信]
  コメント(和訳)日本語版ウィキペディアではあまり役に立たないと考えます。
  1. 生物の和名を除けば、ひらがなでもカタカナでも書く単語はそう多くありません。
  2. あみんアミンのようにひらがな/カタカナで別の事物となったり、ヒロシマのようにカタカナで書くことで特別な意味の加わる単語があります。
  3. 日本語版の記事にはひらがなでソートキーを振ることになっており、ひらがなで検索をかければカタカナの記事名でもソートキーのひらがなにヒットする。--Jkr2255 2017年9月20日 (水) 14:48 (UTC)[返信]
Jkrさん、もしかしてソートキーではヒットしないのでは?「おおかみおうろほ」でもヒットしなかったので、たまたま目にしたフクシマハルカを「ふくしまはるか」と「ふくしま はるか」で検索してみたのですが、やはりヒットしませんでした。--miya会話2017年9月21日 (木) 06:35 (UTC)[返信]
  コメント有用だと思います。もし簡単に実装できるものなら、実装していただければ、読者に大きなプラスになると思います。読者が検索するときに、うろ覚えor記憶違いのために カタカナなのにひらがなで(または その逆で)探した場合、「ひらがなとカタカナの自動変換」は有用でしょう。◆(例)「狼王ロボ」を「狼王ろぼ」で検索すると、現在は「問い合わせに合致する検索結果はありませんでした。」という結果になります。ソートキーはたしかにありますが、ひらがなとカタカナが混在する場合は濁点・半濁点がある場合など、有効でない場合もあるようです(例「おおかみおうろぼ」では項目にたどり着けません。ソートキーは「おおかみおうろほ」なので)。◆ひらがなとカタカナの区別は、よく知っている人には自明でも、その分野に詳しくない人や子供には、案外難しい場合もあるはずです。--miya会話) 2017年9月21日 (木) 03:38 (UTC)(追記)あるいは、ひらがなとカタカナが混在している項目名で、混在場所を間違って入力した場合:たとえば「といザらす」と入力した場合も、この自動変換があれば、ちゃんと項目にたどり着けるのではないかと思います。--miya会話) 2017年9月21日 (木) 03:47 (UTC)誤記を訂正。すみません、ソートキーは 「おおかみおうろほ」でした。--miya会話) 2017年9月21日 (木) 06:08 (UTC)ソートキー「ひらがなとカタカナが混在する場合は」を「濁点・半濁点がある場合など」に訂正(何度もすみません)--miya会話2017年9月21日 (木) 06:19 (UTC)[返信]
  •   コメント 他の電子事典だと、全文検索では一致のみだが、見出し語はどちらのカナでも有効というのをよく見かけます。例えば、コトバンクで「はむすた」または「はむすたー」を全文検索すると、「ハムスター」を本文だけに含む項目は見つかりませんが、「ハムスター」を含む見出し語は表示されます。一方、Wikipediaで「はむすた」や「はむすたー」で検索した場合、「ハムスター」にたどりつけません。(コトバンクは両かなでデータを持ってるだけのようだが、辞書ソフトやアプリによっては変換して同一視する実装もある)。最低限、見出し語と冒頭の読み仮名だけでも変換一致する仕組みは必要でないかと思います。--Yhiroyuki会話2017年9月21日 (木) 04:47 (UTC)[返信]
  コメント “Other major commercial search engines like Google.jp, Bing, Yahoo Japan, DuckDuckGo, and Goo do not do this.”ということですが、これは100%真ではないような気がします。Online game は日本語では「オンラインゲーム」と書きますが、「おんらいんげーむ」でググっても勝手に「オンラインゲーム」で検索を掛けてくれます。miyaさんがお示しになっている「Google:といざらす」は上よりも決めつけが過ぎて、「次の検索結果を表示しています」という表示すらなくなります。「といざらす」で調べている人は「トイザらス」についての情報をほしがっているというのをGoogle先生は分かってくれているのです。ここまでウィキ先生も頑張ってくれると閲覧者にとっては非常に便利になるでしょうね。でも、さすがにそれは現実的ではないのでとりあえず、平仮名で検索しても片仮名にヒットする、というのは悪くないと思います。ちなみに、「といさらす」でウィキ内検索しても「トイザらス」はヒットしませんでした。insource検索すればもちろんヒットはしますが、一般閲覧者にとってはいささか上級テクニックな感が否めませんね。--Kkairri[][] 2017年9月23日 (土) 14:11 (UTC)[返信]
@Kkairri: I meant that the major search engines do not have simple one-to-one mappings between hiragana and katakana, because they give different numbers of results. The examples where they do show overlap are helpful. TJones (WMF)会話2017年9月25日 (月) 16:23 (UTC)[返信]
  賛成 理由はすでにみなさんが(事実上の賛成よりの意見で)述べられているとおりです。「あみん」で検索して「あみん」と「アミン」の両方がヒットしてなんら不便を感じませんしごく普通の挙動に思います。検索エンジンはひらがな・カタカナ・漢字・表記の揺れなどもふくめて内部でいろいろやってるみたいなので、「メジャーな検索エンジンではこれ以上の複雑な(よくわからない)対応をしている」ですよね。SEOな分野で耳にする話題です。蛇足ですが、細かい事いうと「ひらがなとカタカナを自動変換」するというより、ひらがなとカタカナをマッピングさせることで検索時にどちらもヒットするようにするという実装レベルの(内部的な)話で、利用面に関する話ではありません。--Backblow会話2017年9月23日 (土) 14:48 (UTC)[返信]