Intel·ligència artificial que aprèn sense humans

Per Redacció, 14 desembre, 2017

El joc del go es va inventar a la Xina fa més de 2.500 anys i és dels més difícils de dominar per a la intel·ligència artificial. A diferència dels escacs, en què el programa Deep Blue d’IBM va vèncer l’any 1997 Garri Kaspàrov, el millor jugador del món en aquell moment, gràcies al seu potencial de càlcul, per jugar al go cal una visió estratègica i una intuïció que van més enllà de la potència de càlcul i que no s’havia sabut programar fins ara. Per aquesta raó, l’any passat tant els especialistes en go com els investigadors en intel·ligència artificial es van sorprendre quan el programa AlphaGo, de la companyia DeepMind, va guanyar el campió sud-coreà Lee Sedol.

Però el nou programa, AlphaGo Zero, també de l’empresa DeepMind, és qualitativament diferent, ja que ha après tot sol. Tant AlphaGo com dues versions més noves d’aquest, AlphaGo Lee i AlphaGo Master, van aprendre basant-se en els moviments de jugadors experts. Els programadors de DeepMind li van ensenyar milions de partides i, a partir d’aquí, AlphaGo va deduir quin tipus de jugades eren les més avantatjoses i va començar a jugar de manera autònoma. El mateix va passar amb les altres versions millorades que van anar millorant amb la mateixa estratègia.

A AlphaGo Zero, en canvi, únicament se li van ensenyar les regles del joc i, a partir d’aquest moment, va anar jugant contra si mateix, fent les primeres jugades a l’atzar i aprenent amb assaig i error. Passades tres hores va començar a jugar i tenia nocions bàsiques del go, capturava a cada jugada tantes peces com podia i buscava beneficis immediats, mentre es despreocupava del desenvolupament de la partida a llarg termini. Després de 19 hores va començar a jugar amb visió de futur i intentava dominar el tauler a llarg termini. A les 70 hores de joc, havia arribat al que els investigadors anomenen un nivell sobrehumà, amb un joc disciplinat que no queia en la temptació de captures fàcils i que teixia una xarxa de control per tot el tauler.

Així, el programa ha anat progressant per si mateix des de zero, sense cap supervisió humana. Aquest tipus d’aprenentatge es coneix com aprenentatge per reforç, perquè les decisions que porten a resultats positius, com guanyar una partida, en resulten reforçades.

Un dels principals avenços ha estat que AlphaGo Zero utilitza una única xarxa neural per valorar de manera simultània quins moviments cal fer i quina probabilitat té d’aconseguir la victòria. Les versions anteriors d’AlphaGo necessitaven dues xarxes neurals independents, una per decidir la jugada i l’altra per avaluar-la, cosa que era menys eficient.

L’objectiu de DeepMind no és disposar d’una màquina que jugui bé al go, sinó desenvolupar la intel·ligència artificial basada en l’aprenentatge per reforç, que no és condicionat pels límits del coneixement humà.

Aquesta tecnologia pot ser especialment útil en àrees en què no hi ha una base de coneixement expert humà sobre el qual poder construir programes d’intel·ligència artificial.

Més Actualitat

Actualitat

El Port de Barcelona impulsa l’electrificació dels ports per reduir emissions

05/06/2026 - 10:27 per Xènia Freixas
Actualitat

L’AEQT, guardonada a l’Engineers Day del Col·legi d’Enginyers

05/06/2026 - 09:44 per Redacció
Actualitat

El record de Gabriel Ferraté Pascual

03/06/2026 - 12:28 per Redacció
Actualitat

El SRAD entra en una nova etapa: menys preu, més exigència i més valor per a la flexibilitat

29/05/2026 - 13:57 per Laura Garcia
Actualitat

La transformació i regeneració de les destinacions centren el Forum TurisTIC 2026

29/05/2026 - 10:38 per Redacció
Actualitat

BCN eMotorsport presenta el CAT18x per competir a la Formula Student

29/05/2026 - 09:51 per Xènia Freixas

Intel·ligència artificial que aprèn sense humans

El Port de Barcelona impulsa l’electrificació dels ports per reduir emissions

L’AEQT, guardonada a l’Engineers Day del Col·legi d’Enginyers

El record de Gabriel Ferraté Pascual

El SRAD entra en una nova etapa: menys preu, més exigència i més valor per a la flexibilitat

La transformació i regeneració de les destinacions centren el Forum TurisTIC 2026

BCN eMotorsport presenta el CAT18x per competir a la Formula Student

Darrers articles

Renovables i agricultura: i si replantegem el debat a partir de les dades?

Un TFM darrere les STEM

Energia, electricitat i motors en problemes reals: enginyeria a les PAU

Etiquetes


		Membre de: