トーカナイズとは、テキストデータから意味のある「かたまり」を切出すことである。 テキストが日本語である場合は「文字ごと」であったり「括弧で括られた部分」であったり「文節」であったりもする。いずれにせよ再帰的な処理が必要になってくる。 プログラミング言語であるFORTHは、「括弧を使わない」「一個以上の空白がトークンの切れ目である」ことから、トーカナイズが楽な言語ではある。ただし、それでも行頭と行末の処理で手こずったりするので、いちど自分でプログラムを書いて実感していただきたい。