写真イメージ

AIの基礎(強化学習と 敵対的生成ネットワーク )

投稿者:

こんにちは。ウェブ解析士の佐藤佳です。
今回は、AIの基礎(強化学習と 敵対的生成ネットワーク )の学びをシェアします。

※情報源は「窪田望のアンテナ!」です


■強化学習とは
「行動を学習する仕組み」、ある「環境下」で目的とする「報酬」を最大化するために
どのような「行動」を取っていけばいいかを学習していく。

<ポイント>
教師あり学習とは大きくことなる。
「状態をいかに表現できるか」が課題。

例)ロボットの歩行
教師あり:関節の角度や動かす速度と、歩幅の入出力のペアを逐一用意。
強化学習:歩けた距離を「報酬」として与えるのみ。

→閉じられた環境を設定さえできれば、強化学習はいい感じにできる。

<強化学習の事例>
2013年 Deep Mind社のブロック崩し。人間を上回る記録を出した。→Q学習
2015-2017年 Alpha Goが囲碁の世界チャンピョンを打ち破った。モンテカルロ探索。
2017年 完全に自己対極で学習していくAlpha Zeroが発表。


■GAN:敵対的生成ネットワーク
データから特徴を学習することで、実在しないデータを生成したり、
存在するデータの特徴に沿って変換できる生成モデルの一種。
正解データを与えることなく特徴を学習する「教師なし学習」の一手法として注目されている。

2014年、イアン・グッドフェローが提唱。
2つのネットワークを競わせながら学習させるアーキテクチャとして提案された。

・ジェネレーター
入力として潜在空間のランダムベクトルを受け取り、画像を生成して出力する。

・ディスクリミネーター
入力として画像を受け取る。ジェネレーターが生成した画像が本物か偽物化を予測して出力する。


今回はここまでです。
また次回のブログでお会いしましょう。

Follow me!

この記事を書いた人

Kei Sato
面白いと思ったモノ・コトを解析して、広く報せることに喜びと生きがいを感じる人です。ブログではウェブ解析のことや、日々の気づきを綴っています。現在は海外赴任でオレゴン州ポートランド在住。Global Business Strategic マネージャー。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください