समस्या
मनुष्यों को जो सरल लगता है - "मुख्य विषय" की पहचान करना; एक फोटो का - कंप्यूटर के लिए आश्चर्यजनक रूप से जटिल है। एक छवि रंगीन पिक्सेल का एक ग्रिड मात्र है। ऐसा कोई अंतर्निहित लेबल नहीं है जो कहता हो कि "यह पिक्सेल व्यक्ति है" और "यह पिक्सेल उनके पीछे की दीवार है."
पारंपरिक तरीकों में कलर थ्रेशोल्डिंग (एक निश्चित रंग के सभी पिक्सेल हटाएं) या एज डिटेक्शन (वस्तुओं के बीच की सीमाएं ढूंढना) जैसी तकनीकों का उपयोग किया जाता है। ये साधारण मामलों के लिए काम करते थे लेकिन जटिल दृश्यों, विषय और पृष्ठभूमि के बीच समान रंगों या जटिल विवरणों के साथ विफल रहे।
मशीन लर्निंग दर्ज करें
आधुनिक एआई पृष्ठभूमि हटाने में गहन शिक्षण का उपयोग किया जाता है - विशेष रूप से, छवि विभाजन मॉडल। यह कैसे काम करता है इसका सरलीकृत संस्करण यहां दिया गया है:
1. प्रशिक्षण
एक तंत्रिका नेटवर्क में लाखों छवियां दिखाई जाती हैं जहां विषय को पहले ही मैन्युअल रूप से पहचाना (लेबल) किया जा चुका है। समय के साथ, मॉडल पैटर्न सीखता है: लोग कैसे दिखते हैं, वस्तुओं का आकार कैसा होता है, विषय पृष्ठभूमि से कैसे भिन्न होते हैं। यह किनारों, बनावट और संदर्भ को पहचानना सीखता है।
2. अनुमान (मॉडल का उपयोग करके)
जब आप प्रशिक्षित मॉडल को एक नई छवि देते हैं जो उसने पहले कभी नहीं देखी है, तो यह पिक्सेल डेटा का विश्लेषण करता है और एक "मास्क" तैयार करता है। - एक मानचित्र जो प्रत्येक पिक्सेल को अग्रभूमि (विषय) या पृष्ठभूमि होने की संभावना निर्दिष्ट करता है। उच्च-आत्मविश्वास वाले अग्रभूमि पिक्सेल रखे जाते हैं; उच्च-विश्वसनीय पृष्ठभूमि पिक्सेल हटा दिए जाते हैं।
3. एज हैंडलिंग
अग्रभूमि और पृष्ठभूमि के बीच संक्रमण महत्वपूर्ण है। आधुनिक मॉडल कठोर बाइनरी कट के बजाय नरम किनारे (आंशिक पारदर्शिता) उत्पन्न करते हैं। यह प्राकृतिक दिखने वाले परिणाम बनाता है, विशेष रूप से जटिल किनारों के आसपास।
जीपीयू क्यों मायने रखते हैं
तंत्रिका नेटवर्क एक साथ हजारों गणितीय परिचालनों के माध्यम से छवियों को संसाधित करते हैं। जीपीयू (ग्राफिक्स प्रोसेसिंग यूनिट) बिल्कुल इसी प्रकार की समानांतर गणना के लिए डिज़ाइन किए गए हैं। जिस कार्य को CPU पर 30 सेकंड का समय लगता है वह GPU पर 2-3 सेकंड में पूरा हो सकता है।
यही कारण है कि QuickRemove जैसे उपकरण NVIDIA, AMD और Intel GPU से GPU त्वरण का समर्थन करते हैं। तेज़ प्रोसेसिंग के लिए AI मॉडल सीधे आपके GPU पर चलता है। यदि कोई संगत जीपीयू उपलब्ध नहीं है, तो सॉफ्टवेयर सीपीयू प्रोसेसिंग पर वापस आ जाता है - यह अभी भी काम करता है, इसमें अधिक समय लगता है।
एआई किसमें अच्छा है?
- लोग और चित्र - यह सबसे आम उपयोग का मामला है, और मॉडल इस पर अच्छी तरह से प्रशिक्षित हैं
- जानवर और पालतू जानवर - मॉडल फर और जानवरों की आकृतियों को अच्छी तरह से संभालते हैं
- उत्पाद और वस्तुएं - स्पष्ट सीमाओं के साथ अच्छी तरह से परिभाषित वस्तुएं
- वाहन - कार, बाइक और इसी तरह की वस्तुएँ
- जटिल पृष्ठभूमि - एआई विषयों को व्यस्त, विस्तृत पृष्ठभूमि से अलग कर सकता है
एआई के लिए चुनौतियाँ
- पारदर्शी वस्तुएँ - कांच, पानी और अन्य पारदर्शी सामग्री मुश्किल होती हैं (QuickRemove में इसके लिए विशेष हैंडलिंग शामिल है)
- रंग समानता - जब विषय और पृष्ठभूमि रंग में बहुत समान होते हैं, तो सीमाओं का पता लगाना कठिन होता है
- अत्यधिक जटिल दृश्य - एकाधिक अतिव्यापी विषय या अस्पष्ट अग्रभूमि/पृष्ठभूमि
प्रोसेसिंग के बाद
एआई प्रारंभिक मास्क उत्पन्न करने के बाद, पोस्ट-प्रोसेसिंग परिणाम को परिष्कृत करता है। QuickRemove जैसे टूल ऑफ़र:
- एज फेदरिंग - विषय और पृष्ठभूमि के बीच संक्रमण को नरम करना
- स्मूथिंग - दांतेदार किनारों को कम करना
- रंग परिशोधन - उस रंग के फैलाव को हटाना जहां मूल पृष्ठभूमि का रंग विषय किनारों पर बह जाता है
- मैनुअल ब्रश/इरेज़र - बारीक सुधार के लिए एआई चूक सकता है
तल - रेखा
एआई पृष्ठभूमि निष्कासन एक ऐसे बिंदु पर पहुंच गया है जहां यह सेकंडों में पेशेवर-गुणवत्ता वाले परिणाम उत्पन्न करता है। हालांकि यह हर परिदृश्य में सही नहीं है, यह प्रभावशाली सटीकता के साथ आम उपयोग के अधिकांश मामलों को संभालता है - पृष्ठभूमि हटाने को केवल फ़ोटोशॉप विशेषज्ञों के लिए ही नहीं, बल्कि सभी के लिए सुलभ बनाता है।