AIの基礎（強化学習と敵対的生成ネットワーク）

こんにちは。ウェブ解析士の佐藤佳です。
今回は、AIの基礎（強化学習と敵対的生成ネットワーク）の学びをシェアします。

※情報源は「窪田望のアンテナ！」です

■強化学習とは
「行動を学習する仕組み」、ある「環境下」で目的とする「報酬」を最大化するために
どのような「行動」を取っていけばいいかを学習していく。

＜ポイント＞
教師あり学習とは大きくことなる。
「状態をいかに表現できるか」が課題。

例）ロボットの歩行
教師あり：関節の角度や動かす速度と、歩幅の入出力のペアを逐一用意。
強化学習：歩けた距離を「報酬」として与えるのみ。

→閉じられた環境を設定さえできれば、強化学習はいい感じにできる。

＜強化学習の事例＞
2013年　Deep Mind社のブロック崩し。人間を上回る記録を出した。→Q学習
2015-2017年　Alpha Goが囲碁の世界チャンピョンを打ち破った。モンテカルロ探索。
2017年　完全に自己対極で学習していくAlpha Zeroが発表。

■GAN：敵対的生成ネットワーク
データから特徴を学習することで、実在しないデータを生成したり、
存在するデータの特徴に沿って変換できる生成モデルの一種。
正解データを与えることなく特徴を学習する「教師なし学習」の一手法として注目されている。

2014年、イアン・グッドフェローが提唱。
2つのネットワークを競わせながら学習させるアーキテクチャとして提案された。

・ジェネレーター
入力として潜在空間のランダムベクトルを受け取り、画像を生成して出力する。

・ディスクリミネーター
入力として画像を受け取る。ジェネレーターが生成した画像が本物か偽物化を予測して出力する。

今回はここまでです。
また次回のブログでお会いしましょう。

Follow me!

@keichannels