El problema
El que sembla senzill als humans: identificar el "tema principal" d'una foto, és sorprenentment complex per als ordinadors. Una imatge és només una graella de píxels de colors. No hi ha cap etiqueta inherent que digui "aquest píxel és la persona" i "aquest píxel és la paret darrere d'ells."
Els enfocaments tradicionals utilitzaven tècniques com ara el llindar de color (eliminar tots els píxels d'un color determinat) o la detecció de vores (trobar límits entre objectes). Aquests van funcionar per a casos senzills, però van fallar amb escenes complexes, colors similars entre el tema i el fons o detalls complexos.
Introduïu l'aprenentatge automàtic
L'eliminació de fons d'IA moderna utilitza aprenentatge profund, concretament, models de segmentació d'imatges. Aquí teniu la versió simplificada de com funciona:
1. Formació
Una xarxa neuronal es mostra milions d'imatges on el subjecte ja ha estat identificat manualment (etiquetat). Amb el temps, el model aprèn patrons: com són les persones, com es donen forma als objectes, com es diferencien els subjectes dels fons. Aprèn a reconèixer vores, textures i context.
2. Inferència (utilitzant el model)
Quan li doneu al model entrenat una imatge nova que no havia vist mai abans, analitza les dades de píxels i produeix una "màscara" — un mapa que assigna a cada píxel una probabilitat de ser en primer pla (subjecte) o en segon pla. Es mantenen els píxels de primer pla d'alta confiança; s'eliminen els píxels de fons d'alta confiança.
3. Manipulació de vores
La transició entre el primer pla i el fons és crucial. Els models moderns generen vores suaus (transparència parcial) en lloc de talls binaris durs. Això crea resultats d'aspecte natural, especialment al voltant de les vores complexes.
Per què són importants les GPU
Les xarxes neuronals processen imatges mitjançant milers d'operacions matemàtiques simultàniament. Les GPU (Unitats de processament gràfic) estan dissenyades exactament per a aquest tipus de càlcul paral·lel. Una tasca que pot trigar 30 segons en una CPU es pot completar en 2-3 segons en una GPU.
És per això que eines com QuickRemove admeten l'acceleració de GPU de les GPU de NVIDIA, AMD i Intel. El model d'IA s'executa directament a la GPU per a un processament ràpid. Si no hi ha una GPU compatible disponible, el programari torna al processament de la CPU; encara funciona, només triga més.
En què és bona la IA
- Persones i retrats: aquest és el cas d'ús més comú i els models estan ben entrenats
- Animals i mascotes: els models manegen bé la pell i les formes dels animals
- Productes i objectes: objectes ben definits amb límits clars
- Vehicles: cotxes, bicicletes i objectes similars
- Fons complexos: l'IA pot separar els temes dels fons ocupats i detallats
Reptes per a la IA
- Els objectes transparents: el vidre, l'aigua i altres materials transparents són complicats (QuickRemove inclou un maneig especial per a això)
- Similitud de color: quan el color del subjecte i el fons són molt semblants, els límits són més difícils de detectar
- Escenes extremadament complexes: diversos temes superposats o primer pla/fons ambigu
Postprocessament
Després que la IA generi la màscara inicial, el postprocessament perfecciona el resultat. Eines com QuickRemove ofereixen:
- Eclosió de les vores: suavitza la transició entre el tema i el fons
- Allisat: redueix les vores irregulars
- Descontaminació del color: elimina el vessament de color on el color de fons original sagna a les vores del subjecte
- Raspall/goma d'esborrar manual: per a correccions fines, la IA pot perdre's
La línia de fons
L'eliminació de fons d'IA ha arribat a un punt en què produeix resultats de qualitat professional en qüestió de segons. Tot i que no és perfecte en tots els escenaris, gestiona la gran majoria dels casos d'ús habituals amb una precisió impressionant, fent que l'eliminació de fons sigui accessible a tothom, no només als experts de Photoshop.