デフォルトソートキー

出典: 謎の百科事典もどき『エンペディア(Enpedia)』
ナビゲーションに移動 検索に移動

デフォルトソートキーとは、「プライマリーキー」とも呼ばれる昇順整列用の文字列である。これに「キー文字列として用いられてはいない、キー文字列よりも小さい文字のうち最大の文字」を挟んだ「セカンダリーキー(アトリビュート文字列)」を接続したキー文字列を機械的にバイト昇順に整列すると、「まぁ、なんということでしょう!」という感じで「辞書的整列」が行われる。

概要[編集]

日本語の「ひらがな」は、3041の「ぁ」から3093の「ん」までがある。そんなわけで、そこから濁音・半濁音・拗音・促音・撥音を除いた濁音・半濁音・拗音・促音・撥音を除いた文字で表記したキー文字列を整列キーとして単純に「長さのあるバイトコード列」として機械的に整列すると、“ほぼ”辞書順配列となる。これがデフォルトソートキーである。
ところが、「カタカナ字で表記したキー文字列を整列キーとして単純に「長さのあるバイトコード列」として整列すると、“ほぼ”辞書順配列になる。これがデフォルトソートキーである。
ところが、「カタカナとひらがなのどっちを先に辞書の見出し語として持ってくるか」「濁音や半濁音や拗音や促音や撥音は?」まで考えると、その情報を持った「アトリビュート・キー文字列を生成して、くっつけてから機械的に整列する」ということをすると、より望ましい辞書順配列になる。このときデフォルトソートキとして「あ」から「ん」を用いるとすると、デフォルトソートキー文字列とアトリビュートキー文字列を句切るときに3041の「ぁ」を用いるとより自然である。
ただし「@」や「・」(中黒)の扱いまではフォローしきれないので、そこはデータベースで個別に管理したほうがよい。

脚注[編集]

関連項目[編集]