第5章 分割統治――決定木と分類ルールを使った分類
給与や福利厚生の水準がまちまちのポストの選択権を与えられたとき、多くの人々は長所、短所のリストを作り、単純な規則に基づいて選択肢を絞っていく。たとえば、「通勤に1時間以上かかるようなところではイヤだな」とか、「年収5万ドル以下では、家族を養っていけない」といったことだ。このような作業を進めていくと、将来の幸福を予測するという複雑で難しい問題も、単純な選択肢に圧縮されていく。
この章では、決定木と分類ルールを使う学習器を取り上げる。この2つは、一連の単純な選択肢から複雑な判断をする機械学習テクニックである。2つの手法は、統計学の知識がなくても理解できるような論理構造の形で知識を表現する。このような性格を持つこれらのモデルは、ビジネス戦略やプロセスの改善で特に役に立つ。
この章を読み終わる頃には、次のことが身に付いているはずだ。
- 決定木や分類ルールが「貪欲に」データをセグメントに分割する仕組み
- C5.0、1R、RIPPERアルゴリズムなど、もっともよく使われている決定木、分類ルール学習器の使い方
- 銀行から見て危険な融資や毒キノコなどを識別する実世界の分類タスクでのこれらのアルゴリズムの使い方
まず、決定木を見てから、分類ルールを見ていく。そして、より高度な機械学習テクニックの基礎として決定木と分類ルールを使う以降の章を予習しながら、学んだことをまとめていく。
第6章 数値データの予測――回帰法
数学的な関係は、日常生活のさまざまな側面を理解するために役に立っている。たとえば、体重はカロリー摂取の関数であり、収入は教育と職務経験と関連していることが多く、世論調査の数字は大統領候補が再選される確率を予測するために役立つ。
数学的な関係が正確な数値で表現されれば、明確性が上がる。たとえば、毎日250Kcalずつ余分に消費すると、1か月で約1kgの体重増を引き起こす場合がある。1年の職務経験は、年俸で$1,000分に値する場合がある。経済が好調なら、大統領は再選される可能性が高くなる。当然ながら、これらの式がいつも完璧な答えを出してくれるわけではないが、平均的には大体正しいだろうと思うのが普通だ。
この章では、今まで取り上げてきた分類法の1歩先に進み、数値データ間の関係を予測するためのテクニックを導入して、機械学習のツールキットを拡張する。実世界の数値予測のタスクをいくつか取り上げる間に、あなたは次のことを学ぶ。
- 数値の関係の規模と強さをモデリングする回帰テクニックの統計的な基本原理。
- 回帰分析のためのデータの準備方法と回帰モデルの推測、解釈方法。
- 回帰木、モデル木と呼ばれるハイブリッドテクニック。これらは、決定木による分類器を数値予測のタスクのために修正したものである。
この章の手法は、統計学の分野での豊富な成果を基礎としているため、今までの章よりも数学寄りだが、心配する必要はない。代数のスキルが少し錆び付いているとしても、面倒な部分はRが引き受けてくれる。
第7章 ブラックボックス的な手法――ニューラルネットワークとサポートベクトルマシン
亡くなったSF作家のアーサーC.クラークは、「十分に発達した科学技術は、手品と区別できない」と書いた。この章では、一見したところ手品のように見える機械学習手法を2つ取り上げる。これらはきわめて強力だが、内部の仕組みを理解するのは難しいかもしれない。
工学の世界では、こういったものはブラックボックスプロセスと呼ばれている。入力を出力に変換するメカニズムが想像上の箱によって不明瞭にされているということである。たとえば、クローズドソースソフトウェアのブラックボックスは意図的にプロプライエタリアルゴリズムを隠し、立法プロセスのブラックボックスプロセスは官僚主義に根ざす。ソーセージ製造のブラックボックスには意図的な(しかしおいしい)謎が含まれている。機械学習の場合、ブラックボックスは機械学習を機能させるための複雑な数学によるものである。
簡単に理解できないからといって、何も考えずにブラックボックスモデルを適用するのは危険だ。そこで、この章ではブラックボックスのなかを覗いて、そのようなモデルの統計学的ソーセージ作りの仕組みを探る。この章を読むと、以下のことが明らかになる。
- ニューラルネットワークは動物の脳の構造を真似て、任意の機能をモデリングする。
- サポートベクトルマシンは、フィーチャーと結果の関係を定義するために多次元サーフェスを使う。
- 複雑ではあるものの、これらは実世界の問題に簡単に応用できる。
うまくすれば、ブラックボックス的な機械学習手法に挑戦するために統計学の黒帯である必要はないということがわかるだろう。恐れる必要はないのだ。
第8章 パターンの検出――相関ルールを使った買い物かご分析
最後に衝動買いをしたときのことを思い出そう。スーパーのレジの行列に並んでガムやキャンディのパックを買っちゃったとか、夜遅くにおむつとミルクを買いに行ってカフェイン飲料かビールの6本パックを買っちゃったといったことだ。こういった衝動買いは偶然ではない。商店は、高度なデータ分析テクニックを駆使して、客が消費行動に走るようなパターンを見つけている。
以前の消費誘導システムは、マーケティングのプロや在庫管理の責任者、バイヤーなどの主観的な考えを基礎としていたが、最近は、バーコードスキャナ、コンピュータ化された在庫システム、オンラインショッピングのトレンドなどから、販売(トランザクション)データが豊富に蓄積され、購入パターンを学習するために機械学習が応用されるようになってきている。この分野は、スーパーマーケットのデータでよく使われてきたために、買い物かご分析と呼ばれるようになっている。
このテクニックはショッピングデータから始まったが、ほかの場面でも同じように役に立つ。この章を読み終える頃には、読者も自分の仕事のために買い物かご分析を応用できるようになっているだろう。一般に、必要な仕事は次の通りだ。
- 大規模なデータベースのなかで、単純な測定値を使って結び付きを見つける。
- トランザクションデータの特異性を理解する。
- アクショナブルで役に立つパターンの見つけ方を覚える。
買い物かご分析の結果は、アクショナブルなパターンである。この章でテクニックを使っていくうちに、たとえ小売販売チェーンと無関係であっても、自分の仕事にどのように応用できるかがわかってくるだろう。