week07_CV 기초프로젝트

내가 한 일

Dataset, DataLoader 만들기 → 못씀
Checkpoint 찍기 → 늦음
K-Fold Cross Validation → 잘 되는진 모름 돌아가긴 함
- 완성: 0926
- 잘되는듯 → ㄴㄴ 잘못 만듦 : 1 fold를 val 데이터 놓고 전체 epoch - 2 fold를 val 데이터 놓고 전체 epoch - ... - k fold를 val 데이터 놓고 전체 epoch
- 최종제출 이후 완성 : 아쉽
  - 모든 검토 완료 후 푸시 하세요 ㄹㅇ 개민폐
  - 별개로 k-fold 쓰려면 초기에 만드는게 민폐 끼칠 확률 다운다운
- K-Fold는 학습을 위한 기법이 아니다. 데이터셋에 대한 앙상블
깊은 모델 + 적은 데이터셋이면 overfit 날 것이라고 생각함 → pretrain + transfer learning(fine tuning x)이므로 overfit 피한다.
Augmentation은 모델 고정하고 진행할 것. 모델과 적합한 augmentation 존재한다.

주말 숙제

다음 프로젝트에서 계획 미리 짜자!!

다른팀은 하고 우리팀 안한거

비슷한 테스크에의 리더보드 보고 어떤 모델이 내가 쓸 데이터들과 부합한지 리스트업 한 뒤 논문 읽기

kaggle, daycon, timm, papers with code 등
EDA: 데이터의 특징을 본다.
- 자연 그대로의 데이터로 모델 돌려보기
- 학습 데이터의 분포가 테스트 데이터와 잘 맞아떨어지는가 → 맞지 않으면 분포를 덮어쓸 수 있는 augmentation을 찾아야한다. → PCA / t-sne: 모델 마지막 전 layer의 output 데이터로 분포 보는거 맞나??
- 원래 데이터 분포 PCA/t-sne vs. 테스트 데이터 PCA/t-sne → 증강 데이터 분포 PCA/t-sne vs. 테스트 데이터 PCA/t-sne

멘토님 조언

랩업 리포트: 각자가 한 일 적고 무슨 생각 했는지 적는 것. “뭘 해서 뭘 배웠다”가 중요
- 나 뭐 못함 깍두기함
코드 슥 읽히게 주석 다는게 좋다.
스케치 이미지는 “디테일” 중요하다. 블러처리 절대 BAD | 뚝 짤라내는거랑 매우 별개임. 뚝 짤라내는건 모든 데이터에서 좋은 Augmentation이다. (data2vec)

이력서

우리 성능 안늘어나요: resnet50 : 너무 작고 오래됐어요 큰 모델 쓰세요

스케치 데이터: 디테일한 포인트를 판별하는게 중요하다.

augmentation: GAN 같은 생성 모델

augmentation 데이터를 모델 태워서 featuremap 뽑아내서 PCA같은걸 봤을 때 할 일: train/val 데이터셋의 분포를 확장시켜서 test 데이터셋의 분포를 덮도록 만들어야됨

초기: 최소 ViT, Masked, Auto Encoder, EfficientNet, ConvNext → 자연 그대로 돌려볼 필요 있었다.