日本語の辞書
日本語の辞書(にほんごのじしょ)とは、日本語処理用のアプリケーシの開発や、辞書引きシステムで利用するための日本語の辞書である。問題は、国語辞典を引くためには日本語の読みがわからないといないと辞書が引けないという点である。
概要[編集]
一般的な(紙媒体の)辞書(国語辞典)は、大雑把にいって「見出し語+漢字表記 +品詞分類+語釈」といった情報がデータ語彙ごとに並んでいるものであるのが一般的である。
ただし、その国語辞典のためデータを管理するのは人間なので、パソコンの都合に合わせてプレーンテキストとして管理するのには不便である。
これをパソコンで利用したいと思うとけっこう面倒臭い。たとえば「日本」「日本語」「日本語処理」は「ニホン/ニッポン」「ニホンゴ/ニッポンゴ」「ニホンゴショリ」なので、それをどうにかしてしまおないと、プログラマは困るのである。
そこで見出し語は「{日本|にほん}」「{日本|にっぽん}」「{日本語|にほん}」「{日本語|にほんご}」「{日本語|にっぽんご}」「{日本語処理|にほんごしょり}」といった、本サイトの編集者ならどこかで見たことがあるような形になる。
つぎは品詞分類ということになり、「日本」「日本語」は「『お』『ご』のつかない名詞」となり(「お日本」とか「ご日本」とかは使われない)、「『お』『ご』のつかないタイプの名詞」ということになる。二字の漢語であれば、「『~する』という形としても使われるタイプの語」といった話になる。
こんな作業を、大雑把でもいいから「一応は動く」レベルでいいから動かしてテキストデータ(ネット上に大量に転がっている)を淘(よな)げてゆくと、だいたい一万五千語彙を越したあたりで頭打ちになって、「たぶん二万語を越えないだろう」という見当がつく。
ここまでくると後は「力仕事」と「職人としての勘」だ。かといって一人でやっていると半年一年どころが「何年かかるか分からない」という話になるので、ツール職人と辞書管理担当者をどこかから引っ張ってこないといけない。
語彙蒐集のためヒント [編集]
長尾の方法[編集]
長尾の方法とは、「日本語は、『頭から見ていって漢字以外の文字から漢字に変わるところで切ると、そこが文節の切れ目と一致する確率が高い』という経験測」である。そのうちに「もっと精密化できないか?」という助平根性が首をもたげてくるのだが、精密化していっても「カタカナ語」「二文字漢語」とかいったあたりになると、だいたい一万語彙を越えたあたりで「辞書で篩って残った奴の処理」になるので用済みとなる。基本辞書と辞書引きシステムをセットで貰っても、「自前の辞書を一から作る」のでもないかぎり用途がない。せいぜい「同一分野の論文から専門用語を抽出し、各論文に出てくる語彙の頻度の近似度を順位相関係数で表して、『この論文との近似度から、似たような論文を探す』」くらいしか役立たない。それはそれで役には立つが、辞書の校正のためにシソーラスとかを作るとかいう話になると、その分野の学生をバイトで集めても三百万円くらい(これでも良心的な価格設定である。普通に発注すると一千万円とかいった見積書が出てくる)はかかる。
インデックス文字列の蒐集[編集]
正確な名前は不明だが、「大雑把にいって文節らしきものを見つけたら、そこから接続語尾を取りさった残りががインデックス文字列(いわゆる「語幹」)であるかもしれないという方法。「やまと」という日英双方向機械翻訳システムはこの方法でインデックス文字列の切出しを行なってISAMで検索して訳語の候補文字列を推定していた。用言の辞書の蒐集は このあたりの話になる。
Zipf の法則[編集]
「出現頻度が高い語は語彙数が少ない」という、ごくあたりまえの法則。新語彙数の発見速度が頭打ちになってくると総語彙数のだいたいの数が推定できる」ので、別ジャンルのデータを集めると、「その分野での出現頻度の高い語が見つかる」という話でもある。
これによると、「辞書語彙数が一万語を越えるとそこそこ実用になる」ことが分かる。形容詞三百語からら四百語、動詞が千五百語程度が集まったら、出現語の九十九パーセントは引っかけられる。このあたりでもう普通の人間はそこいらのパソコンに太刀打ちできない。
また、名詞は分野ごとに固まって出現するグループの集まりであるという傾向があるため、名詞辞書はなるべく分野別のファイルにしておこう。
大数の法則[編集]
個人の語彙数は、十人の語彙数のじゅうぶんの語彙数の十分の一よりも大きい。一万語の辞書の管理の手間は千語の辞書管理の手間の十倍よりもずっと多い。
したがって辞書管理者は頭数を揃えること。「敵戦力の分断と、集中攻撃による各個撃破は戦術の基本である」というのはトラファルガルの海戦の分析から得られたランチェスター戦略の教訓である。「ゲリラ戦に引きずりこむ」という手はあまり効果がない。正規軍 VS 正規軍の正面からのぶつかり合いだと思え(命令形)。
その他[編集]
たとえば、
- カーター カーター
- かしたに 樫谷
- かしま 鹿島
- かしむら 樫村
- かしやま 樫山
- かじ 梶
- かじかざわ 鰍沢
- かじま 鹿島
- かじむら 梶村
- かじゃ 嘉謝
- かじや 梶谷
- かじやま 梶山
- かた 加太
- かただ 堅田
- かった 苅田
- かつた 勝田
はバイト単位で辞書的に整列されているが、国語辞典における辞書順整列のは親和性に乏しい(要するに「紙の辞書との突合せに手間がかかる」)。
- かしぁたか 梶
- かしかさわぁかたかた 鰍沢
- かしたにぁかかかか 樫谷
- かしまぁかかか 鹿島
- かしまぁかたか 鹿島
- かしむらぁかかたか 樫村
- かしやぁあたか 嘉謝
- かしやぁかたか 梶谷
- かしやまぁかかかか 樫山
- かしやまぁかかたか 梶山
- かたぁかか 加太
- かたぁがが カーター
などとすると、整列キーのバイト順と(紙の)辞書順が一致する。