問題
對人類來說看似簡單的事情——識別照片的“主要主題”——對計算機來說卻異常複雜。圖像只是彩色像素的網格。沒有固有的標籤說“這個像素是人”和“這個像素是他們後面的牆”。
傳統方法使用顏色閾值處理(刪除某種顏色的所有像素)或邊緣檢測(查找對象之間的邊界)等技術。這些方法適用於簡單的情況,但不適用於復雜的場景、主題和背景之間的相似顏色或複雜的細節。
進入機器學習
現代人工智慧背景去除使用深度學習—特別是影像分割模型。這是其工作原理的簡化版本:
1. 培訓
向神經網路顯示數百萬張圖像,其中主題已被手動識別(標記)。隨著時間的推移,模式會學習模式:人的樣子、物體的形狀、主體與背景的不同。它學習識別邊緣、紋理和上下文。
2. 推理(使用模型)
當你給訓練好的模型一個它以前從未見過的新圖像時,它會分析像素數據並生成一個“掩模”——一張為每個像素分配前景(主體)或背景概率的地圖。保留高置信度的前景像素;高置信度背景像素被刪除。
3. 邊緣處理
前景和背景之間的過渡至關重要。現代模型產生軟邊緣(部分透明)而不是硬二元切割。這會產生看起來自然的結果,尤其是在複雜的邊緣周圍。
為什麼 GPU 很重要
神經網路同時透過數千個數學運算處理影像。 GPU(圖形處理單元)正是為這種平行運算而設計的。在 CPU 上可能需要 30 秒的任務在 GPU 上只需 2-3 秒即可完成。
這就是 QuickRemove 等工具支持 NVIDIA、AMD 和 Intel GPU 加速的原因。 AI 模型直接在 GPU 上運行以實現快速處理。如果沒有兼容的 GPU 可用,軟件就會退回到 CPU 處理——它仍然可以工作,只是需要更長的時間。
AI擅長什麼
- 人物和肖像——這是最常見的用例,模型在這方面訓練有素
- 動物和寵物-模型可以很好地處理皮毛和動物形狀
- 產品和對象——邊界清晰、定義明確的對象
- 車輛——汽車、自行車和類似物體
- 複雜的背景——人工智能可以將主題與復雜、詳細的背景分開
人工智能面臨的挑戰
- 透明物體 - 玻璃、水和其他透明材料很棘手(QuickRemove 對此進行了特殊處理)
- 顏色相似度——當主體和背景的顏色非常相似時,邊界更難檢測
- 極其複雜的場景 - 多個重疊的主題或模糊的前景/背景
後處理
人工智能生成初始掩模後,後處理會完善結果。 QuickRemove 等工具提供:
- 邊緣羽化——柔化主體和背景之間的過渡
- 平滑-減少鋸齒狀邊緣
- 顏色去污 - 去除原始背景顏色滲入主題邊緣的顏色溢出
- 手動畫筆/橡皮擦——人工智能可能會錯過的精細修正
底線
人工智慧背景去除已經達到了可以在幾秒鐘內產生專業品質結果的程度。雖然它並非在每種情況下都是完美的,但它能夠以令人印象深刻的準確性處理絕大多數常見用例 - 使每個人都可以進行背景去除,而不僅僅是 Photoshop 專家。