Problem
To, co dla człowieka wydaje się proste — określenie „głównego tematu” zdjęcia — jest zaskakująco skomplikowane dla komputerów. Obraz to po prostu siatka kolorowych pikseli. Nie ma nieodłącznej etykiety z informacją „ten piksel to osoba”; oraz „ten piksel to ściana za nimi”.
Tradycyjne podejścia wykorzystywały techniki takie jak progowanie kolorów (usuwanie wszystkich pikseli określonego koloru) lub wykrywanie krawędzi (znalezienie granic między obiektami). Sprawdzały się one w prostych przypadkach, ale zawiodły w przypadku złożonych scen, podobnych kolorów obiektu i tła lub skomplikowanych szczegółów.
Wejdź do uczenia maszynowego
Nowoczesne usuwanie tła AI wykorzystuje głębokie uczenie się – w szczególności modele segmentacji obrazu. Oto uproszczona wersja tego, jak to działa:
1. Szkolenie
Sieć neuronowa wyświetla miliony obrazów, na których obiekt został już ręcznie zidentyfikowany (oznaczony etykietą). Z biegiem czasu model uczy się wzorców: jak wyglądają ludzie, jak kształtują się obiekty, jak bohaterowie różnią się od tła. Uczy się rozpoznawać krawędzie, tekstury i kontekst.
2. Wnioskowanie (przy użyciu modelu)
Kiedy dasz wyszkolonemu modelowi nowy obraz, którego nigdy wcześniej nie widział, analizuje on dane pikseli i tworzy „maskę” — mapę, która przypisuje każdemu pikselowi prawdopodobieństwo, że będzie na pierwszym planie (obiekt) lub w tle. Zachowane zostaną piksele pierwszego planu o dużej pewności; wysoce pewne piksele tła są usuwane.
3. Obsługa krawędzi
Przejście między pierwszym planem a tłem jest kluczowe. Nowoczesne modele generują miękkie krawędzie (częściowa przezroczystość), a nie twarde cięcia binarne. Pozwala to uzyskać naturalnie wyglądające rezultaty, szczególnie w przypadku skomplikowanych krawędzi.
Dlaczego procesory graficzne mają znaczenie
Sieci neuronowe przetwarzają obrazy poprzez tysiące operacji matematycznych jednocześnie. Procesory graficzne (jednostki przetwarzania grafiki) są przeznaczone właśnie do tego rodzaju obliczeń równoległych. Zadanie, które na procesorze może zająć 30 sekund, na GPU może zostać ukończone w 2-3 sekundy.
Właśnie dlatego narzędzia takie jak QuickRemove obsługują akcelerację GPU z procesorów graficznych NVIDIA, AMD i Intel. Model AI działa bezpośrednio na GPU, zapewniając szybkie przetwarzanie. Jeśli nie jest dostępny kompatybilny procesor graficzny, oprogramowanie wraca do przetwarzania procesora — nadal działa, tylko trwa dłużej.
W czym sztuczna inteligencja jest dobra
- Ludzie i portrety — to najczęstszy przypadek użycia, a modele są w tym zakresie dobrze przeszkoleni
- Zwierzęta i zwierzaki — modele dobrze radzą sobie z futrem i kształtami zwierząt
- Produkty i przedmioty — dobrze zdefiniowane obiekty z wyraźnymi granicami
- Pojazdy — samochody, rowery i podobne przedmioty
- Złożone tła — sztuczna inteligencja może oddzielić obiekty od ruchliwych, szczegółowych tła
Wyzwania dla sztucznej inteligencji
- Przezroczyste obiekty — szkło, woda i inne przezroczyste materiały są trudne (funkcja QuickRemove obejmuje specjalną obsługę w tym przypadku)
- Podobieństwo kolorów — gdy kolor obiektu i tła jest bardzo podobny, granice są trudniejsze do wykrycia
- Niezwykle złożone sceny — wiele nakładających się obiektów lub niejednoznaczny pierwszy plan/tło
Przetwarzanie końcowe
Gdy sztuczna inteligencja wygeneruje maskę początkową, przetwarzanie końcowe poprawia wynik. Narzędzia takie jak oferta QuickRemove:
- Wtapianie krawędzi — zmiękczanie przejścia między obiektem a tłem
- Wygładzanie — redukcja postrzępionych krawędzi
- Dekontaminacja kolorów — usuwanie rozlanych kolorów w miejscach, gdzie oryginalny kolor tła rozlewa się na krawędzie obiektu
- Ręczny pędzel/gumka — w przypadku drobnych poprawek sztuczna inteligencja może umknąć
Konkluzja
Usuwanie tła AI osiągnęło punkt, w którym zapewnia profesjonalną jakość wyników w ciągu kilku sekund. Chociaż nie jest doskonały w każdym scenariuszu, radzi sobie z zdecydowaną większością typowych zastosowań z imponującą dokładnością, dzięki czemu usuwanie tła jest dostępne dla każdego, nie tylko ekspertów Photoshopa.