Intel·ligència artificial que aprèn sense humans

El joc del go es va inventar a la Xina fa més de 2.500 anys i és dels més difícils de dominar per a la intel·ligència artificial. A diferència dels escacs, en què el programa Deep Blue d’IBM va vèncer l’any 1997 Garri Kaspàrov, el millor jugador del món en aquell moment, gràcies al seu potencial de càlcul, per jugar al go cal una visió estratègica i una intuïció que van més enllà de la potència de càlcul i que no s’havia sabut programar fins ara. Per aquesta raó, l’any passat tant els especialistes en go com els investigadors en intel·ligència artificial es van sorprendre quan el programa AlphaGo, de la companyia DeepMind, va guanyar el campió sud-coreà Lee Sedol.

Però el nou programa, AlphaGo Zero, també de l’empresa DeepMind, és qualitativament diferent, ja que ha après tot sol. Tant AlphaGo com dues versions més noves d’aquest, AlphaGo Lee i AlphaGo Master, van aprendre basant-se en els moviments de jugadors experts. Els programadors de DeepMind li van ensenyar milions de partides i, a partir d’aquí, AlphaGo va deduir quin tipus de jugades eren les més avantatjoses i va començar a jugar de manera autònoma. El mateix va passar amb les altres versions millorades que van anar millorant amb la mateixa estratègia.

A AlphaGo Zero, en canvi, únicament se li van ensenyar les regles del joc i, a partir d’aquest moment, va anar jugant contra si mateix, fent les primeres jugades a l’atzar i aprenent amb assaig i error. Passades tres hores va començar a jugar i tenia nocions bàsiques del go, capturava a cada jugada tantes peces com podia i buscava beneficis immediats, mentre es despreocupava del desenvolupament de la partida a llarg termini. Després de 19 hores va començar a jugar amb visió de futur i intentava dominar el tauler a llarg termini. A les 70 hores de joc, havia arribat al que els investigadors anomenen un nivell sobrehumà, amb un joc disciplinat que no queia en la temptació de captures fàcils i que teixia una xarxa de control per tot el tauler.

Així, el programa ha anat progressant per si mateix des de zero, sense cap supervisió humana. Aquest tipus d’aprenentatge es coneix com aprenentatge per reforç, perquè les decisions que porten a resultats positius, com guanyar una partida, en resulten reforçades.

Un dels principals avenços ha estat que AlphaGo Zero utilitza una única xarxa neural per valorar de manera simultània quins moviments cal fer i quina probabilitat té d’aconseguir la victòria. Les versions anteriors d’AlphaGo necessitaven dues xarxes neurals independents, una per decidir la jugada i l’altra per avaluar-la, cosa que era menys eficient.

L’objectiu de DeepMind no és disposar d’una màquina que jugui bé al go, sinó desenvolupar la intel·ligència artificial basada en l’aprenentatge per reforç, que no és condicionat pels límits del coneixement humà.

Aquesta tecnologia pot ser especialment útil en àrees en què no hi ha una base de coneixement expert humà sobre el qual poder construir programes d’intel·ligència artificial.

El contingut d'aquest camp es manté privat i no es mostrarà públicament.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.