SAM (Segment Anything Model)

어떤 object던지, 어떤 Image던지 또 다른 task specific한 training 없이 segmentation 할 수 있는 tool

웹 규모 데이터셋에서 사전학습 된 대규모 언어모델은 강력한 zero-shot 및 few-shot 일반화로 NLP를 혁신하고 있다(=foundation model).

위와 같은 foundation model은 학습 중 볼 수 있는 것 이상으로 task와 데이터 분포를 일반화할 수 있다.

목표: Image segmentation을 위한 foundation model을 구축하는 것. 즉 일반화를 가능하게 하는 task를 사용하여 광범위한 데이터셋에서 promptable model을 개발하고 사전학습 하는 것

질문

위와 같은 질문은 얽혀있으며 포괄적인 해결책이 필요함
모델을 학습시키려면 대규모의 데이터 소스가 필요하지만 segmentation을 위한 대규모 데이터 소스가 없다. 이 문제를 해결하기 위해 “데이터 엔진”을 구축한다. 즉, 효율적인 모델을 사용하여 데이터 수집과 새로운 데이터를 사용하여 모델을 개선하는 것 사이를 반복한다.

Task

프롬프트의 아이디어를 segmentation으로 변환하는 것으로 시작

프롬프트: 전경, 배경, 대략적인 박스, segmentation 대상을 나타내는 모든 정보

Promptable segmentation task는 프롬프트가 주어지면 유효한 segmentation task를 반환하는 것이다.

유효한 마스크의 요구사항: 프롬프트가 모호한 경우에 출력이 그 객체 중 적어도 하나에 대한 합리적인 마스크여야함을 의미함

이 요구사항은 모호한 프롬프트에 대해 일관된 응답을 출력하는 언어모델을 기대하는 것과 유사함

Pre-training

Promptable segmentation task는 각 학습 샘플에 대한 일련의 프롬프트를 시뮬레이션하고 모델이 예측한 마스크를 ground truth와 비교하는 사전 학습 알고리즘을 제안한다.

prompt가 모호한 경우에도 항상 유효한 마스크를 예측하는 것이 목표이다.

Zero-shot transfer

사전학습 task는 모델이 모든 프롬프트에 적절하게 응답할 수 있는 능력을 부여한다. 그러므로 하위 task는 적절한 프롬프트를 엔지니어링하여 해결할 수 있다.

예를 들어 고양이에 대한 boundary box detector가 있는 경우 예측된 boundary box를 모델에 프롬프트로 제공하여 고양이 instatnce segmentation을 해결할 수 있다.

일반적으로 실용적인 segmentation task는 프롬프트로 캐스팅될 수 있다.

Segment Anything Model

SAM에는 위 그림처럼 세 가지 구성요소가 있다.

이미지 인코더
유연한 프롬프트 인코더
빠른 마스크 디코더
이미지 인코더
- 확장성과 강력한 사전학습 방법에 동기를 부여받아 고해상도 입력을 처리하도록 최소한으로 조정된 MAE pre-trained ViT를 사용한다. 이미지 인코더는 이미지 당 한 번 실행되며 모델을 프롬프트하기 전에 적용할 수 있다.
프롬프트 인코더
- Sparse(점, 박스, 텍스트), Dense(마스크)의두 가지 집합의 프롬프트를 고려한다.
- CLIP의 텍스트 인코더를 사용하여 각 프롬프트 타입과 자유형식 텍스트에 대해 학습된 임베딩으로 합산된 위치 인코딩을 사용하여 점과 박스를 나타낸다.
마스크 디코더
- 이미지 임베딩, 프롬프트 임베딩, 출력 토큰을 마스크에 매핑한다. Transformer 디코더 블록을 수정하고 dynamic mask prediction head를 사용한다. 수정된 디코 블록은 모든 임베딩을 업데이트하기 위해 Prompt Self-Attention과 Cross-Attention을 두 방향으로 사용한다. 두 블록을 실행한 후 이미지 임베딩을 upsampling하고 MLP는 출력 토큰을 dynamic linear classifier로 매핑한 다음 각 이미지 위치에서 마스크 전경확률을 계산한다.

Data engine: segmentation의 ground truth를 포함하는 dataset

SAM은 대규모 데이터셋이 중요한데, web에서 쉽게 얻을 수 없다.

Data endine has three stages: Assisted-manual stage, Semi-automatic stage, Fully automatic stage

Assisted-manual stage
- 쉽게 찾을 수 있는 segmentation dataset으로 훈련 시작
- Annotator가 배경과 전경을 labeling한다.
- Annotator가 mask를 정제한다.
- 충분한 데이터 annotation이 주어지면, SAM은 새롭게 주어진 마스크로만 재학습한다.
Semi-automatic stage
- 마스크의 다양성 증가에 초점을 맞춤
- Confident mask를 자동으로 감지하여 눈에 잘 띄지 않는 물체에 annotator를 집중한다.
- Faster-RCNN detector를 모든 first-stage mask generic object 카테고리를 사용하는 confident mask를 탐지하도록 훈련한다.
- confident mask를 탐지하기 위해 generic “object” categories를 사용하는 모든 first-stage masks 위에서 Faster-RCNN detector를 학습한다.
- 5번 이내의 새로운 데이터에 대해서 모델을 존치시킨다.
Fully automatic stage
- Prompt the model with a 32$\times$32 regular grid of points and point별로 마스크를 예측한다.