トーカナイズ

出典: 謎の百科事典もどき『エンペディア(Enpedia)』
ナビゲーションに移動 検索に移動

トーカナイズとは、テキストデータから意味のある「かたまり」を切出すことである。
テキストが日本語である場合は「文字ごと」であったり「括弧で括られた部分」であったり「文節」であったりもする。いずれにせよ再帰的な処理が必要になってくる。
プログラミング言語であるFORTHは、「括弧を使わない」「一個以上の空白がトークンの切れ目である」ことから、トーカナイズが楽な言語ではある。ただし、それでも行頭と行末の処理で手こずったりするので、いちど自分でプログラムを書いて実感していただきたい。