かな漢字変換
かな漢字変換とは、記号処理技術のひとつ。
「かな又は漢字変換」ではなく「かな⇒漢字変換」でもない。「記号列⇔漢字かな交じり文字列」というデータ構造の双方変換技術である。
概要[編集]
- うんぬ(Wnn。「私の名前は中野です」の略)
- たまご(「たいへん待たせてごめんなさい」の略)
- かんな
- ことえり
- VJE
など、いくつもある(あった)。
人間生活との関わり・利用[編集]
革命的であったのは、立教大学の数学者である島内剛一(しまうち・たかかず)による「島内式ローマ字かな変換」である。これは「文法属性の定義と文字列のパターンマッチだけで、英語ローマ字交じり文字列⇔かな文字列」という変換をおこなうことができた。
たとえば、「sinyou → 信用/屎尿」「sinai → 親愛/市内/竹刀」ができ、「program → pろgらm」ではなく「program/プログラム」が出せた。ただし、「“文法属性の定義と文字列のパターンマッチだけ”で、日本語の文法が記述できるかどうか」という「絶壁」というか「絶望の壁」の前で、大抵の人間は諦めてしまった。ところがナノピコ教室で、『動詞の活用』という問題が出て、「ひらがな文字列を曖昧性のないローマ字文字列にいちど変換してから処理すると、日本語の動詞の活用形が簡単に処理することができる」ということが分かり、最終的には文法定義数千行、辞書語彙数万語(つーても一万語もあればそこそこ実用になる)で「かな漢字変換」ができてしまうことがわかった。この処理系のいいところは、「⇔(双方向)」の部分で、「漢字かな交じりの日本語文」から「語彙抽出」と「辞書に載っていない語の品詞の推定」ができる点である。
近年の IME の困った点は、「辞書登録語彙数を上げると狙った候補が下の方に沈んでしまって、入力効率が落ちる」点である。パソコンの性能が上がっても人間の反応速度は変わらんのだから候補選択の手間が増えるぶんだけ入力に時間がかかるわけだ。ところが「すでにあるテキストデータをくべて出現頻度が分かれば、辞書のチューニングによって第一候補のヒット率が向上する」ということが可能になる。
その他[編集]
ellispは島内式ローマ字かな変換の実装のために作られものである。その後日本語の全件検索システムに利用され、性能向上のためにトリプル配列法を加えたという非常に素朴なシステムであった。開発にはアスキーとアップル・コンピュータが手を挙げたが、アスキーがソフトウェア開発から撤退したこととジョブスの退陣によって受けたダメージのせいで塩漬け案件となっていた。
現在ではパソコンの性能向上によって実装は容易であるため情報系の大学生が三人くらいで下準備三ヶ月・開発三ヶ月くらいで動くはずである。1992/12 ごろに「小型のコンパイラと同じくらいの規模だから、工数は二十人月くらい」と言っていたが、トイ・プログラムではなくてそこそこ実用となるツール程度の水準を目指すとそれくらいはかかるはずである。