日本語文字列照合順番
日本語文字列照合順番(にほんごもじれつしょうごうじゅんばん)は、日本語の文字列のソート順を示し、日本のJIS規格のJIS X 4061で定められている。一般には辞書順(じしょじゅん)、五十音順(ごじゅうおんじゅん)やあいうえお順と呼ばれることが多い。
概要
編集日本語の国語辞典などの多くの辞書類や各種書物の索引において、この規格で決められた順序で並べ替えが行われる。一般には日本語での読みについて濁点や半濁点を無視し、小書き仮名を清音文字(濁点などが付かない文字)に変更し長音符は前の文字の母音にして並べた後、同一の並び順になる場合は小書き文字→清音文字→濁点のある文字→半濁点のある文字の順に並べる。
仮名での並べ替え
編集通常辞書で扱われるよみがなに変更してから並べ替える場合について記載する。
- 一般に辞書などで並べ替える時は、漢字などがある場合は該当の文字の読み仮名に変更し、その後で並べ替えを行う。辞書ではアルファベットで表記される文字列も全て読み仮名に変更する。
- 仮名に対し、次のように置き換える
- 長音符「ー」を次のルールで置き換える。
- 前の文字が「あ」「か」「さ」「た」「な」「は」「ま」「や」「ら」「わ」→「あ」
- 前の文字が「い」「き」「し」「ち」「に」「ひ」「み」「り」「ゐ」→「い」
- 前の文字が「う」「く」「す」「つ」「ぬ」「ふ」「む」「ゆ」「る」→「う」
- 前の文字が「え」「け」「せ」「て」「ね」「へ」「め」「れ」「ゑ」→「え」
- 前の文字が「お」「こ」「そ」「と」「の」「ほ」「も」「よ」「ろ」「を」→「お」
- 前の文字が「ん」→「ん」[1]
- 前の文字が上記以外→置き換えない
- 繰り返し記号の「ゝ」を次のルールで置き換える。
- 直前の文字があり、上記変換後も繰り返し記号あるいは長音符以外の場合は直前の文字に置き換える。
- 直前の文字がない場合は置き換えない。
- 上記置き換えて出来た文字列に付いて、文字列の先頭より次の順序で比較して先にあるものが先になるように並べ替える。
- 「あ」「い」「う」「え」「お」「か」「き」「く」「け」「こ」「さ」「し」「す」「せ」「そ」「た」「ち」「つ」「て」「と」「な」「に」「ぬ」「ね」「の」「は」「ひ」「ふ」「へ」「ほ」「ま」「み」「む」「め」「も」「や」「ゆ」「よ」「ら」「り」「る」「れ」「ろ」「わ」「ゐ」「ゑ」「を」「ん」「ゝ」「ー」
- 上記で文字列の並べ替えを行った後、一致する順位となる文字列は、次のルールで並べる。
- 清音文字→濁点付き文字→半濁点付き文字
- 長音符→小書き文字→繰り返し記号→通常文字[2]
- 平仮名→片仮名
読み仮名は一般に決まるものであるが、読みが別に示されていない場合は機械的に正しい読みを判断することは困難であることが多い。その場合は1つの漢字に対し1つの読みを定義しその読みの順序で並べる代表読み照合を用いるか、その漢字の代表読みの先頭文字だけで判断する簡易代表読み照合を用いる。
汎用的に扱う場合
編集仮名に変換せずに並べ替える場合について記載する。
- 文字クラスで下記順序に並べ替える。
- 同一クラスも文字は各クラスごとの規定に従い並べ替え順を決める。
規定以外の文字を使用する場合は上記クラスのいずれかに含めるか、新たなクラスを作成して並べ替え順を決める。ただし、下駄記号より後ろのクラスを作成しては行けないなどの規定が存在する。
雑記
編集- Wikipediaでは上記実装が出来ないため、仮想的に項目名の基底文字のみの文字列を個々の記事に定義して並べ替えを行っている。
関連項目
編集脚注
編集- ^ 「んー」の文字は一般の発音通り「んん」になる
- ^ 上記で先に並べその後で行うため、仮にJIS X 0213にある小書き片仮名「プ」 にあてはめた場合は「ブ」の後で、「プ」の前に並ぶ。