새소식

AI/Computer Vision

[논문 리뷰] U-Net: Convolutional Networks for Biomedical Image Segmentation

  • -

논문 제목은 U-Net: Convolutional Networks for Biomedical Image Segmentation 입니다.

이 논문은 Medical 분야에서 Baseline으로 통하는 기저가 되는 논문으로 2015년 CVPR에 발표되었고 2022.11.30 기준 인용 횟수가 무려 5만회가 넘습니다. Segmentation에서 쓰이며 이후 wide unet, unet++, unet3+으로 더욱 개선을 시도한 논문들이 발표되었습니다.

 

 

 PPT 자료입니다. 슬라이드 메모에 설명을 적어놓았는데 slideshare에 pdf로 올라가면서 메모 노출이 안되는게 에러네요.

 

 

 

주요 특징으로는

1) Medical 분야에서 상대적으로 적은 이미지 데이터셋에 대한 해결책을 제시하고자 했습니다.

2) Contracting Path(Encoder)에서 Down-sampling을 하며 채널은 늘고 해상도는 줄여서 전체적인 Context을 얻고자 하고 Expanding Path(Decoder)에서는 Up-sampling을 하며 채널은 줄고 해상도는 높이는 과정을 거친다. Skip Architecture를 통해 이전의 얕은 layer의 feature와 이후의 깊은 layer의 feature를 결합하고자 했습니다. 이러한 Contracting Path, Expanding Path, Skip Architecture를 포함한 U-Net 구조를 제안했습니다.

3) 적은 데이터셋을 Data Augmentation을 적용하여 해결하고자 하였습니다.(e.g. Elastic Deformation)

4) 이전 FCN과 같은 연구 방식보다 연산량에서 보다 효율적이었습니다.

5) Medical Segmentation의 기저 논문(Baseline)이 되었고, 이후 여럿 논문들(e.g. U-Net++, U-Net3+)이 발표되었습니다.

 

 

 

이 하단부터는 기존 논문을 단순 번역한 것입니다.

Abstract
심층 네트워크의 성공적인 훈련에는 수천 개의 주석이 달린 훈련 샘플이 필요하다는 데 큰 동의가 있다. 본 논문에서, 우리는 주석이 달린 사용 가능한 샘플을 더 효율적으로 사용하기 위해 데이터 증강의 강력한 사용에 의존하는 네트워크 및 훈련 전략을 제시한다. 아키텍처는 컨텍스트를 캡처하기 위한 수축 경로와 정확한 지역화를 가능하게 하는 대칭 확장 경로로 구성된다. 우리는 그러한 네트워크가 매우 적은 이미지에서 종단 간으로 훈련될 수 있으며 전자 현미경 스택에서 신경 구조의 분할을 위한 ISBI 과제에 대한 이전의 최상의 방법(슬라이딩 윈도우 컨볼루션 네트워크)을 능가한다는 것을 보여준다. 전송된 광현미경 이미지(위상 대비 및 DIC)에 대해 훈련된 동일한 네트워크를 사용하여 우리는 2015년 ISBI 셀 추적 도전에서 큰 차이로 이겼다. 게다가, 네트워크는 빠르다. 최근 GPU에서 512x420 이미지를 분할하는 데 1초도 걸리지 않는다. 전체 구현(Caffe 기반)과 훈련된 네트워크는 http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net에서 이용할 수 있다.


1. Introduction
지난 2년 동안 심층 컨볼루션 네트워크는 많은 시각적 인식 작업(예: [7, 3])에서 최첨단 기술을 능가했다. 컨볼루션 네트워크는 이미 오랫동안 존재했지만[8] 사용 가능한 훈련 세트의 크기와 고려된 네트워크의 크기로 인해 성공이 제한되었다. 크리제프스키 외 연구진의 돌파구. [ 7] 훈련 이미지 100만 개가 있는 ImageNet 데이터 세트에서 8개의 레이어와 수백만 개의 매개 변수를 가진 대규모 네트워크의 감독된 훈련 때문이었다. 그 이후로, 훨씬 더 크고 깊은 네트워크가 훈련되었다[12].

컨볼루션 네트워크의 일반적인 사용은 이미지에 대한 출력이 단일 클래스 레이블인 분류 작업에 있다. 그러나 많은 시각적 작업, 특히 생물의학 이미지 처리에서 원하는 출력에는 지역화가 포함되어야 한다. 즉, 클래스 레이블이 각 픽셀에 할당되어야 한다. 게다가, 수천 개의 훈련 이미지는 보통 생물의학 작업에서 도달할 수 없다. 따라서, Ciresan 외 연구진. [ 1] 슬라이딩 픽셀 설정에서 네트워크를 훈련시켜 각 픽셀 주변의 로컬 영역(픽셀)을 입력으로 제공하여 각 픽셀의 클래스 레이블을 예측합니다. 첫째, 이 네트워크는 지역화될 수 있다. 둘째, 패치 측면에서 훈련 데이터는 훈련 이미지의 수보다 훨씬 크다. 결과 네트워크는 ISBI 2012에서 EM 세분화 도전을 큰 차이로 이겼다.

분명히, Ciresan 등의 전략입니다. [1] 에는 두 가지 단점이 있습니다. 첫째, 패치별로 네트워크를 별도로 실행해야 하기 때문에 속도가 상당히 느리고, 패치가 중복되어 중복되는 부분이 많다. 둘째, 현지화 정확도와 컨텍스트 사용 사이에는 절충이 있다. 패치가 클수록 로컬라이제이션 정확도를 낮추는 최대 풀링 계층이 더 많이 필요한 반면, 작은 패치는 네트워크에서 거의 컨텍스트를 볼 수 없습니다. 보다 최근의 접근 방식[11,4]은 여러 계층의 특징을 고려한 분류기 출력을 제안했다. 좋은 현지화와 콘텍스트 사용이 동시에 가능하다.

본 논문에서, 우리는 소위 "완전 컨볼루션 네트워크"라는 더 우아한 아키텍처를 기반으로 한다[9]. 우리는 이 아키텍처를 수정하고 확장하여 매우 적은 수의 교육 이미지로 작동하고 보다 정확한 분할을 산출한다. 그림 1을 참조하십시오. [9]의 주요 아이디어는 풀링 운영자가 업샘플링 운영자로 대체되는 연속적인 계층들에 의해 일반적인 계약 네트워크를 보완하는 것이다. 따라서, 이러한 계층들은 출력의 해상도를 증가시킨다. 지역화를 위해 수축 경로의 고해상도 기능이 업샘플링된 출력과 결합된다. 그런 다음 연속적인 컨볼루션 레이어는 이 정보를 기반으로 더 정확한 출력을 조립하는 방법을 배울 수 있다.

우리 아키텍처의 중요한 수정 사항 중 하나는 업샘플링 부분에 많은 수의 기능 채널도 있다는 것인데, 이는 네트워크가 컨텍스트 정보를 더 높은 해상도 계층으로 전파할 수 있게 한다. 결과적으로, 팽창 경로는 수축 경로와 다소 대칭적이며, u자형 구조를 생성한다. 네트워크에는 완전히 연결된 레이어가 없으며 각 컨볼루션의 유효한 부분만 사용합니다. 즉, 분할 맵에는 입력 이미지에서 전체 컨텍스트를 사용할 수 있는 픽셀만 포함됩니다. 이 전략을 사용하면 오버랩 타일 전략에 의해 임의로 큰 영상을 원활하게 분할할 수 있습니다(그림 2 참조). 이미지의 테두리 영역에 있는 픽셀을 예측하기 위해 입력 이미지를 미러링하여 누락된 컨텍스트를 추정합니다. 이 타일링 전략은 네트워크를 큰 이미지에 적용하는 데 중요합니다. 그렇지 않으면 GPU 메모리에 의해 해상도가 제한되기 때문입니다.

우리의 작업에 대해서는 사용 가능한 훈련 데이터가 매우 적기 때문에 사용 가능한 훈련 이미지에 탄성 변형을 적용하여 과도한 데이터 증강을 사용한다. 이를 통해 네트워크는 주석이 달린 이미지 말뭉치에서 이러한 변환을 볼 필요 없이 이러한 변형에 대한 불변성을 학습할 수 있다. 변형은 조직의 가장 일반적인 변형이었고 현실적인 변형은 효율적으로 시뮬레이션할 수 있기 때문에 이것은 생물의학 분할에서 특히 중요하다. 학습 불변성을 위한 데이터 증강의 가치는 Dosovitskiy 등에 나타났다. [2] 감독되지 않은 기능 학습의 범위에서.

많은 셀 분할 작업에서 또 다른 과제는 동일한 클래스의 접촉하는 개체를 분리하는 것입니다. 그림 3을 참조하십시오. 이를 위해, 우리는 접촉하는 셀 사이의 분리 배경 레이블이 손실 함수에서 큰 가중치를 얻는 가중 손실의 사용을 제안한다.

결과 네트워크는 다양한 생물의학 세분화 문제에 적용할 수 있다. 본 논문에서는 EM 스택(ISBI 2012에서 시작된 지속적인 경쟁)에서 신경 구조의 분할에 대한 결과를 보여주는데, 여기서 우리는 Ciresan 등의 네트워크를 능가했다. [1]. 또한, 우리는 ISBI 세포 추적 도전 2015의 빛 현미경 이미지에서 세포 분할 결과를 보여준다. 여기서 우리는 가장 까다로운 2D 전송 라이트 데이터 세트 두 개를 큰 차이로 이겼다.


2. Network Architecture
네트워크 아키텍처는 그림 1에 설명되어 있습니다. 그것은 수축 경로(왼쪽)와 확장 경로(오른쪽)로 구성된다. 수축 경로는 컨볼루션 네트워크의 전형적인 아키텍처를 따른다. 그것은 다운샘플링을 위한 정류 선형 유닛(ReLU)과 스트라이드 2의 2x2 최대 풀링 연산이 각각 이어지는 2개의 3x3 컨볼루션(무첨가 컨볼루션)의 반복 적용으로 구성된다. 각 다운샘플링 단계에서 피처 채널 수를 두 배로 늘린다. 확장 경로의 모든 단계는 기능 맵의 업샘플링에 이어 기능 채널의 수를 절반으로 줄이는 2x2 컨볼루션("업 컨볼루션")과 수축 경로에서 해당 크롭된 기능 맵과의 연결, 그리고 각각 ReLU를 따르는 2개의 3x3 컨볼루션으로 구성된다. 모든 컨볼루션에서 테두리 픽셀의 손실로 인해 크롭이 필요합니다. 최종 레이어에서 1x1 컨볼루션(convolution)은 각 64개 구성 요소 특징 벡터를 원하는 클래스 수에 매핑하는 데 사용된다. 네트워크에는 총 23개의 컨볼루션 레이어가 있다.

출력 분할 맵을 원활하게 타일링하려면(그림 2 참조), 모든 2x2 최대 풀링 작업이 짝수 x 및 y 크기의 레이어에 적용되도록 입력 타일 크기를 선택하는 것이 중요합니다.

 


3. Training
입력 이미지와 해당 분할 맵은 Caffe[6]의 확률적 경사 하강 구현으로 네트워크를 훈련하는 데 사용된다. 추가되지 않은 나선형으로 인해 출력 이미지는 입력보다 일정한 테두리 너비만큼 작습니다. 오버헤드를 최소화하고 GPU 메모리를 최대한 활용하기 위해 큰 배치 크기보다 큰 입력 타일을 선호하기 때문에 배치를 단일 이미지로 줄인다. 따라서 우리는 높은 운동량(0.99)을 사용하여 이전에 본 많은 수의 훈련 샘플이 현재 최적화 단계에서 업데이트를 결정한다.

3.1 Data Augmentation
사용 가능한 훈련 샘플이 거의 없을 때 네트워크에 원하는 불변성과 견고성 특성을 가르치기 위해서는 데이터 증강이 필수적이다. 현미경 이미지의 경우 변형 및 회색 값 변화에 대한 견고성뿐만 아니라 시프트 및 회전 불변성이 주로 필요합니다. 특히 훈련 샘플의 무작위 탄성 변형은 주석이 달린 이미지가 매우 적은 분할 네트워크를 훈련시키는 핵심 개념으로 보인다. 우리는 거친 3x3 그리드에서 무작위 변위 벡터를 사용하여 부드러운 변형을 생성한다. 변위는 10픽셀 표준 편차의 가우스 분포에서 샘플링됩니다. 그런 다음 픽셀당 변위는 바이큐빅 보간법을 사용하여 계산된다. 수축 경로의 끝에 있는 드롭아웃 계층은 추가적인 암묵적 데이터 증강을 수행한다.


4. Experiments
우리는 세 가지 다른 분할 작업에 u-net을 적용하는 것을 보여준다. 첫 번째 작업은 전자 현미경 기록에서 신경 구조를 분할하는 것입니다. 데이터 세트와 획득한 분할의 예는 그림 2에 나와 있습니다. 우리는 전체 결과를 보충 자료로 제공합니다. 데이터 세트는 ISBI 2012에서 시작되어 여전히 새로운 기여에 개방된 전자파 세분화 과제[14]에 의해 제공된다. 훈련 데이터는 드로소필라 제1성 유충 복부 신경 코드(VNC)의 직렬 섹션 전송 전자 현미경에서 얻은 이미지 30개(512x512픽셀)의 세트입니다. 각 이미지는 세포(흰색) 및 막(검은색)에 대해 완전히 주석이 달린 해당 지상 실측 분할 맵과 함께 제공됩니다. 테스트 세트는 공개적으로 사용 가능하지만 분할 맵은 비밀로 유지됩니다. 예측된 멤브레인 확률 맵을 주최자에게 전송하여 평가를 얻을 수 있다. 평가는 10개의 다른 수준에서 지도를 임계값화하고 "뒤틀림 오류", "랜드 오류" 및 "픽셀 오류"를 계산함으로써 수행됩니다 [14].

u-net(입력 데이터의 평균 회전 버전 7개 이상)은 추가 전/후 처리 없이 0.0003529의 뒤틀림 오류(새로운 최고 점수, 표 1 참조)와 0.0382의 무작위 오류 없이 달성됩니다.

이는 Ciresan 등이 수행한 슬라이딩 윈도우 컨볼루션 네트워크 결과보다 훨씬 낫다. [1]이 경우, 최고 제출물의 뒤틀림 오차는 0.000420이고 오차 오차 오차는 0.0504이다. 랜드 오류의 측면에서 이 데이터 세트에서 유일하게 더 나은 성능을 발휘하는 알고리듬은 Ciresan 등의 확률 맵에 적용된 매우 구체적인 후 처리 방법 1을 사용한다. [1]

우리는 또한 u-net을 가벼운 현미경 이미지의 세포 분할 작업에 적용했다. 이 세분화 작업은 2014년과 2015년 ISBI 셀 추적 과제[10,13]의 일부입니다. 첫 번째 데이터 세트 "PhC-U373"2는 위상 대비 현미경으로 기록된 폴리아크릴이미드 기판에 교모세포종-아스트로사이토마 U373 세포를 포함하고 있다(그림 4a, b 및 Supp 참조). 재료). 부분 주석이 달린 훈련 이미지 35개를 포함하고 있다. 여기서 우리는 92%의 평균 IOU("결합에 대한 교차")를 달성하는데, 이는 83%의 두 번째 최상의 알고리즘보다 훨씬 낫다(표 2 참조). 두 번째 데이터 세트 "DIC-HeLa"3는 차동 간섭 대조(DIC) 현미경으로 기록된 평평한 유리 위의 HeLa 세포이다(그림 3, 그림 4c, d 및 Supp 참조). 재료). 여기에는 부분적으로 주석이 달린 20개의 훈련 이미지가 포함되어 있다. 여기서 우리는 평균 IOU가 77.5%로 46%의 두 번째 최상의 알고리듬보다 훨씬 낫다.


5. Conclusion

  • Bio-medical에서 우수한 성능 달성
  • Elastic deformation을 통한 data augmentation으로 annotation image가 거의 필요하지 않음
  • NVidia Titan GPU(6GB) 환경에서 6시간의 합리적인 학습 시간
  • Caffe 기반의 학습된 네트워크 제공

→ 더 많은 task들에 적용 가능하다고 확신

 

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.