チェス、囲碁に続きポーカーでもAIが人に勝利 「不完全な情報」でも戦略を練ることが可能

 

f:id:ronnieeda:20170201153945j:plain

 

「リブラタス」と呼ばれたソフトウェアと、カジノゲームのトップ4人との対決が行われた。

結果は、最後の数時間でリブラタスが150万ドルを勝ち取って終了した。

 

人にとっては大きな敗北となったが、人工知能にとっては画期的な勝利となった瞬間である。

 

 

【不十分な情報に基づくゲーム】 

人口知能はすでにチェスや囲碁などのゲームで人に勝利をおさめてきた。

しかしポーカーは情報を十分に得られない状態で戦略を練るゲームであり、難易度は高いと考えられていた。

 

チェスや囲碁の場合はプレーヤーはボード全体を見ることができるが、ポーカーは相手の手の動きを見ることができない。

さらに、ポーカーでは「分かったふり」をしてみたり、相手が誘導しようと仕掛けてくる流れを読み取ったりするなどのパフォーマンスが要求される。

 

このリブラタスを開発したカーネギーメロン大学の教授は、2015年に同じくAI搭載の「クローディコ」という別のポーカーゲームソフトを開発していた。 

クローディコも4人のプロポーカー選手と対決をしたが、このときは敗北を喫した。

 

リブラタスはこのクローディコのリベンジを遂げたことになる。

 

リブラタスは単に計算機能が向上しただけではない。 

アルゴリズムを用いたアプローチも進歩しており、これは特にポーカーのような不十分な情報、隠された情報を取り扱うゲームについて効力を発揮するものだ。

 

開発を担当した研究者たちによると、リブラタスにポーカーの勝ち方を教えてはいないという。

単にルールだけを覚えこませ、あとは独自に学ぶようコマンドを下した。

 

その結果ロボット自体が自動でポーカーを始めるようになり、何兆という数のゲームをこなしてゆくうちにアプローチ方法を身につけ、勝つために必要な戦略を獲得したのだという。

 

 

【ソフトのアップデート vs. 深夜におよぶ対策会議】 

今回のポーカー選手権では、数日間にわたってリブラタスとプロの選手たちとの間でゲームが続けられた。

 

複数のゲームをこなした一日が終わると、研究者たちはリブラタスをピッツバーグ大学のコンピュータに接続しアルゴリズムを走らせる。

その晩のうちに戦略ソフトのアップデートを終わらせ、翌朝2時間かけて更新が完了したリブラタスを起動する、ということを繰り返した。

 

一方プロのポーカー選手たちも夜の10時までゲームを続け、その後夕食。

さらに数時間かけてAIがゲームでどういう手をつかってくるかをレビューしたり、対策を立てたりし、深夜の2時にベッドに入る、という毎日が続いた。

もちろん選手たちにとってはきつい毎日だった。

 

 

リブラタスに用いられたアルゴリズムは、ポーカーだけに特化したものではない。

 

たとえばビジネス取引や軍事・サイバーセキュリティの戦略策定、病院での治療方法選定など、人が不完全な情報をもとに戦略を練らなければいけない場合に活用できるものだ。

 

 

 

 

www.theguardian.com