ノートにメモ書き

自分が困ったことの解決方法をひたすらメモするブログ。口調が安定しない。まとめ→トップページの1番上

主成分分析の意味と計算②

前回は主成分分析の意味と次元の意味について解説しました。その記事はこちら↓
lablabkun.hatenablog.com
今回は主成分分析はどのように次元を縮約するのかについて説明します。

次元縮約の方法を考えよう

次元縮約(次元削減・次元圧縮などとも呼びます)にはどんな方法があるでしょうか。

データの種類を一つ消す

これでも次元を減らすことができちゃう(/・ω・)/例えばこんな感じ(4次元→2次元とかはめんどくさいうまい図が書けなかったので、2次元→1次元の例)
f:id:lablabkun:20171113220145p:plain:w500
これはxとyというデータの種類があって、それを1つにまとめようとしているものです。色がついている点が次元削減後のものになります。①はxのデータのみ使用、②はyのデータのみ使用することになります。わーい次元減らせた((((oノ´3`)ノ

…はたしてこれでいいのでしょうか。この方法を使うと、片方のデータを丸々無視してしまうことになります。それでもいい時はありますが(全部のデータのyの値が同じなど)、この場合ではあまりよくない方法といえると思います。

新しい軸を作ってみる

どういうことだ??と思う人も多いと思うので最初に図を載せます。
f:id:lablabkun:20171113222432p:plain:w500
データの種類を一つ減らすのがだめなら、適当に線を引いてそれを新しい軸にしちゃえばいいんじゃん?っていう発想です。③と④は実際に適当に軸を引いてみた結果です。そして新しく引いた軸に点をうつしました。これを射影といいます。射影した点を見てみると、③は点同士がかさなっていること、④は点同士が離れていることがわかると思います。では、この2つのうち射影した後の点を見分けやすいのはどちらでしょうか。
もちろん④のほうですよね。では、③と④の新しい軸の違いはなんでしょうか。これは先ほど④の説明で言ったことと同じ意味になるのですが、④の軸のほうが射影後の点のばらつきがより大きくなるようなところにひかれています。
このばらつきのことを分散と呼びます。先ほどのことを言い換えると④では射影後の点の分散がより大きくなるように新しい軸を設定しています。
なんと、これが主成分分析なのです(/・ω・)/オオー

まとめ

・次元削減の方法は色々ある
・その中でも射影後の点の分散がより大きくなるように新しい軸を設定する方法を主成分分析という


今回でなんとなく主成分分析の意味を説明できたかな?( 一一)
じゃあ実際にどうやって新しい軸をつくるかどうかを次回から説明していこうと思います。