პრობლემა
ის, რაც ადამიანებისთვის მარტივი ჩანს - ფოტოს "მთავარი სუბიექტის" იდენტიფიცირება - საოცრად რთულია კომპიუტერებისთვის. სურათი არის მხოლოდ ფერადი პიქსელების ბადე. არ არსებობს თანდაყოლილი ეტიკეტი, რომელიც ამბობს: "ეს პიქსელი არის ადამიანი" და "ეს პიქსელი არის კედელი მათ უკან".
ტრადიციული მიდგომები იყენებდნენ ტექნიკებს, როგორიცაა ფერის ზღურბლის (გარკვეული ფერის ყველა პიქსელის ამოღება) ან კიდეების ამოცნობა (ობიექტებს შორის საზღვრების პოვნა). ისინი მუშაობდნენ მარტივ შემთხვევებზე, მაგრამ ვერ მოხერხდა რთული სცენებით, მსგავსი ფერებით საგანსა და ფონს შორის, ან რთული დეტალებით.
შედით Machine Learning-ში
თანამედროვე ხელოვნური ინტელექტის ფონის მოცილება იყენებს ღრმა სწავლებას - კონკრეტულად, გამოსახულების სეგმენტაციის მოდელებს. აქ არის გამარტივებული ვერსია, თუ როგორ მუშაობს:
1. ტრენინგი
ნერვულ ქსელში ნაჩვენებია მილიონობით სურათი, სადაც სუბიექტი უკვე ხელით იდენტიფიცირებულია (ეტიკეტირებული). დროთა განმავლობაში მოდელი სწავლობს შაბლონებს: როგორ გამოიყურებიან ადამიანები, როგორ აყალიბებენ საგნებს, როგორ განსხვავდებიან საგნები ფონისგან. ის სწავლობს კიდეების, ტექსტურების და კონტექსტის ამოცნობას.
2. დასკვნა (მოდელის გამოყენებით)
როდესაც გაწვრთნილ მოდელს აძლევთ ახალ სურათს, რომელიც აქამდე არასდროს უნახავს, ის აანალიზებს პიქსელის მონაცემებს და აწარმოებს "ნიღაბს" - რუკას, რომელიც თითოეულ პიქსელს ანიჭებს წინა პლანზე (სუბიექტი) ან ფონის ალბათობას. მაღალი საიმედო წინა პლანზე პიქსელები ინახება; მაღალი საიმედო ფონის პიქსელები ამოღებულია.
3. Edge Handling
წინა პლანზე და ფონს შორის გადასვლა გადამწყვეტია. თანამედროვე მოდელები წარმოქმნიან რბილ კიდეებს (ნაწილობრივი გამჭვირვალობა) ვიდრე მყარი ორობითი ჭრილები. ეს ქმნის ბუნებრივ შედეგს, განსაკუთრებით რთული კიდეების გარშემო.
რატომ არის მნიშვნელოვანი GPU-ები
ნერვული ქსელები ამუშავებენ გამოსახულებებს ათასობით მათემატიკური ოპერაციის საშუალებით ერთდროულად. GPU (გრაფიკული დამუშავების ერთეულები) შექმნილია ზუსტად ასეთი პარალელური გამოთვლებისთვის. ამოცანა, რომელსაც შესაძლოა 30 წამი დასჭირდეს CPU-ზე, შეიძლება შესრულდეს 2-3 წამში GPU-ზე.
სწორედ ამიტომ ინსტრუმენტები, როგორიცაა QuickRemove, მხარს უჭერს GPU აჩქარებას NVIDIA, AMD და Intel GPU-ებიდან. AI მოდელი მუშაობს პირდაპირ თქვენს GPU-ზე სწრაფი დამუშავებისთვის. თუ თავსებადი GPU არ არის ხელმისაწვდომი, პროგრამული უზრუნველყოფა უბრუნდება პროცესორის დამუშავებას - ის კვლავ მუშაობს, უბრალოდ უფრო მეტი დრო სჭირდება.
რაშიც AI არის კარგი
- ხალხი და პორტრეტები - ეს არის ყველაზე გავრცელებული გამოყენების შემთხვევა და მოდელები კარგად არიან გაწვრთნილი მასზე
- ცხოველები და შინაური ცხოველები - მოდელები კარგად უმკლავდებიან ბეწვის და ცხოველების ფორმებს
- პროდუქტები და ობიექტები - კარგად განსაზღვრული ობიექტები მკაფიო საზღვრებით
- მანქანები - მანქანები, ველოსიპედები და მსგავსი ობიექტები
- რთული ფონი — AI-ს შეუძლია საგნების გამიჯვნა დატვირთული, დეტალური ფონისგან
გამოწვევები AI-სთვის
- გამჭვირვალე ობიექტები - მინა, წყალი და სხვა გამჭვირვალე მასალები სახიფათოა (QuickRemove მოიცავს ამისთვის სპეციალურ დამუშავებას)
- ფერის მსგავსება - როდესაც საგანი და ფონი ძალიან ჰგავს ფერს, საზღვრების ამოცნობა უფრო რთულია
- უკიდურესად რთული სცენები - მრავალი გადახურული საგანი ან ორაზროვანი წინა პლანი/ფონი
შემდგომი დამუშავება
მას შემდეგ, რაც AI წარმოქმნის საწყის ნიღაბს, შემდგომი დამუშავება აუმჯობესებს შედეგს. ინსტრუმენტები, როგორიცაა QuickRemove შეთავაზება:
- კიდეების ბუმბული - რბილდება გადასვლის საგანსა და ფონს შორის
- გლუვი - დაკბილული კიდეების შემცირება
- ფერის დეკონტამინაცია — ფერის დაღვრის მოცილება იქ, სადაც საწყისი ფონის ფერი მიედინება საგნის კიდეებზე
- მექანიკური ფუნჯი/საშლელი — წვრილმანი შესწორებისთვის შესაძლოა AI გამოტოვოს
ქვედა ხაზი
ხელოვნური ინტელექტის ფონის მოცილება მიაღწია იმ დონეს, რომ წამებში იძლევა პროფესიონალური ხარისხის შედეგებს. მიუხედავად იმისა, რომ ეს არ არის სრულყოფილი ყველა სცენარში, ის შთამბეჭდავი სიზუსტით უმკლავდება საერთო გამოყენების შემთხვევების დიდ უმრავლესობას - ფონის ამოღებას ყველასთვის ხელმისაწვდომს ხდის და არა მხოლოდ Photoshop-ის ექსპერტებს.