ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 논문 읽기) Transformer tracking (TransT)
    deep learning/Tracking 2022. 1. 19. 06:09

    논문 링크
    https://arxiv.org/abs/2103.15436
    코드
    https://github.com/chenxin-dlut/TransT


    Abstract
    • correlation은 tracking 분야에서 중요한 역할을 하는데, 특히 Siamese 기반의 tracker들이 그러하다.
    • correlation 연산 방식은 template과 search region 간의 유사성을 고려하는 간단한 fusion 방법이다.
    • 그러나 correlation 연산 자체는 local linear matching 방식이기 때문에 semantic 정보가 사라지고 쉽게 local optimuim에 빠지게 되는데, 이는 high-accuracy tracking algorithms를 설계한 것의 병목현상(bottleneck)일 수 있다.
    • 그렇기에 이 논문은 상관 관계보다 더 좋은 기능 융합 방법은 없을까? 하는 의문에서 시작하였다.
    • Transformer에서 영감을 받아 이 문제를 해결하기 위해서 이 논문은 attention만을 사용하여 template과 region features를 효율적으로 결합하는 새로운 attention 기반의 feature fusion network를 제시한다.
    • 구체적으로 말하면, 제안된 방법은 self-attention을 기반으로 한 ego-context agument 모듈과 cross-attention기반의 cross-feature agument 모듈을 포함한다.
    • 마지막으로 Siamese-like feature extraction backbone, attention-based fusion mechanism의 설계, 그리고 classification과 regression head를 기반으로 하는 Transformer tracking방법을 제시한다.
    • TransT는 6개의 까다로운 dataset, 특히 LaSOT, TrackingNet 및 GOT-10k 벤치마크에서 매우 유망한 결과를 얻었다.
    • TransT 는 GPU 상에서 대략 50fps에서 작동하였거고, 코드는 공개되었다.


    Introduction
    • Visual object tracking은 각 video frame에서 position과 주어진 traget의 모양을 예측하는 것의 목적을 둔 computer vision에서 중요한 일이다.
    • 이건 robot vision이나, video surveillance, 자율주행, etc등 여러 분야에서 활용된다.
    • tracking에서 주요 challenge는 몇가지 예를 들자면 large occlusion, severe deformation, 유사한 객체로부터의 interference 등이 있다.
    • 최근 몇년간 많은 노력에도 불구하고 높은 성능과 실시간 tracker를 제작하는 것은 여전히 어려운 일이다.
    • 대부분의 인기 tracker(예를 들어 SiamFC, SiamRPN, 그리고 ATOM) corrlelation은 template 또는 target information을 ROI에 통합하는 데 중요한 역할을 한다.
    • 그러나 correlation 연산 자체는 linear matching process이며 이것은 semantic information loss로 이어져 tracker가 template과 ROI들 사이에 복잡한 비선형 상호 작용을 캡쳐하도록 제한한다.
    • 따라서 이전 모델들은 fashion 구조를 도입하고, 효과적인 online updaters를 설계하여 비선형 표현 능력을 개선해야 한다.
    • This naturally introduces an interesting question:
    • any better feature fusion method than correlation?
    이 논문에서 Transformer의 핵심 아이디어에서 영감을 받아 attention 기반 feature fusion network를 설계하여 앞서 언급한 문제를 해결하고, 새로운 Transformer tracking algorithm을 제안한다.
    제안된 feature fusion network는 self-attention을 기반으로 한 ego-context augment 모듈과 cross-attention을 기반으로 한 cross-feature agument 모듈로 구성된다.
    이 fusion mechanism은 template과 ROI features들을 효과적으로 통합하여 correlation보다 semantic feature map들을 더 많이 생성한다.
    Fig1)은 대표적인 visual 결과를 제공하며, TransT 방법이 대상에 통찰력 있는 attention maps를 생성하고 다른 경쟁 tracker보다 성능이 우수하다는 것을 보여주었다.
    Contribution summarize
    • feature extraction, Transformer와 같은 fusion, 그리고 head prediction modules들로 구성된 Transformer tracking framework를 제안한다.
    • Transformer 유사 fusion은 correlation 없이 attention만 사용하여 template과 search region features를 결합한다.
    • We develop our feature fusion network based on an ego-context augment module with self-attention as well as a cross-feature augment module with cross-attention.
    • Correlation-based feature fusion방식과 비교하여, attention-based 방식은 tracker가 더 나은 분류 및 회귀 결과를 얻을 수 있도록 가장자리 및 유사한 대상과 같은 유용한 정보에 적응적으로 초점을 맞추고 멀리 있는 특정 간의 연관성을 설정한다.
    • Numerous experimental results on many benchmarks show that the proposed tracker performs significantly better than the state-of-the-art algorithms, especially on large-scale LaSOT, TrackingNet, GOT-10k datasets. Besides, our tracker runs at about 50 fps in GPU, which meets the real-time requirement.


    Related Work
    Visual Object Tracking
    • 최근 Siamese-based method는 tracking 분야에서 가장 인기가 많다.
    • SiamFC은 Siamese framwork와 함께 naive feature correlation을 결합한 선구자적인 작업이다.
    • 이후 SiamRPN은 RPN과 Siamese network를 결합하고, 더 정확한 tracking 결과를 얻기 위해 depthwise correlation을 사용하여 feature fusion을 행한다.
    • 추가적인 branches의 추가, 더 깊은 아키텍처 사용, anchor-free 아키텍처를 이용하는 등과 같은 몇 가지의 추가적인 개선이 이루어 졌다.
    • These mainstream tracking architectures can be divided into two parts
    • image feature를 추출하는 backbone network
    • template와 the search region 사이의 유사성을 계산하는 correlation-based network가 뒤따랏다.
    또한, 일부 인기있는 online trackers도 correlation에 크게 의존한다.
    However, two issues have been overlooked.
    1. 이 correlation-based network는 global context를 충분히 활용하지 못하기 때문에 local optimum에 빠지기 쉽다.
    2. correlation을 통해 semantic information은 어느 정도 손실되어 target’s boundaries에 대한 부정확한 예측으로 이어질 수 있다.
    따라서 이 논문에서는 feature fusion을 수행하기 위한 correlation-based network를 대체하기 위해 attention을 기반으로 한 Transformer의 변형 구조를 설계한다.
    Transformer and Attention
    • Transformer는 Vaswani et al에 의해 처음 등장하였고, machine translation에 적용되었다.
    • 간단히 말해서 Transformer는 attention-based encoder와 decoder의 도움을 받아 한 sequence를 다른 sequence로 변환하는 아키텍처이다.
    • attention mechanism은 input sequence를 살펴보고 각 단계에서 sequence의 다른 부분이 중요한지 결정하며, 따라서 입력 sequence에서 전역 정보를 capture하는 것을 용이하게 한다.
    • Transformer는 많은 sequential tasks( NLP, speech processing, 그리고 computer vision)에서 RNN을 대체하였으며, 점차 non-sequential 문제를 처리하도록 확장되었다.
    • Carion et al.는 object detection를 set 예측 문제로 간주하고 [38]의 encoder-decoder 아키텍처를 detection head로 채택하였다.
    • COCO에 대한 실험에서는 DETR 접근방식이 최적화된 Faster R-CNN baseline과 유사한 결과를 달성한다는 것을 입증하였다.
    • DETR의 성공과 detection과 tracking 사이의 밀접한 관계에 자극을 받아 Transformer를 tracking field에 도입하려고 하였다.
    • DETR과 달리 우리는 tracking 작업은 매우 일치하지 않기 때문에 원본 Transformer의 encoder-decoder아키텍처를 곧장 따르지 않는다.
    • 우리는 Transformer의 핵심 아이디어를 채택하고 attention mechanism을 활용하여 eco-context agument(ECA)및 cross-feature augment module(CFA)을 설계한다.
    • ECA와 CFA의 통합은 한 이미지의 정보만 추출하기 보다는 template과 the search region간의 융합에 초점을 맞추고 있다.
    • 이 설계 철학은 vot에 더 적합하다.
    • Tracking field에서 attention mechanism을 도입하기 위한 여러 노력들이 있었다.
    • ACF는 서로 다른 correlation filter간에 전환을 수행하기 위한 attention network를 학습한다.
    • MLT는 채널별 attention을 채택하여 대상별 정보를 matching network에 제공한다.
    • 위 두 작업은 단지 모델이나 feature 선택을 수행하기 위해 attention 개념을 차용할 뿐이다.
    • tracking 성능을 개선하기 위해 서로 다른 attention layer(such as channel-wise attention [41, 17], spatial-temporal attention [50], and residual attention [41])를 활용하여 correlation matching framework 내의 template information를 강화한다.
    • SiamAttn은 깊이별 cross correlation을 적용하기 전에 self-attention과 cross branch attention을 모두 탐색하여 대상 기능의 차별적 능력을 향상시켰다.
    • CGACD는 template과 search region의 correlation 결과에서 attention을 학습한 다음, 추가 분류 및 회귀를 위해 검색 영역 기능을 향상시키기 위해 학습된 attention을 채택한다.
    • 이러한 작업은 attention mechanism의 tracking 정확도를 향상시켰지만, 이 작업들은 여전히 template과 region features의 기능을 융합할 때 correlation에 크게 의존하였다.
    • 이 작업에서는 Transformer의 핵심 아이디어를 활용하고 correlation을 사용하지 않고 template과 search region을 직접 융합할 수 있는 새로운 attention 기반 network를 설계한다.


    Transformer Tracking
    • 이 섹션에서 TransT라는 이름의 Transformer Tracking method를 제안합니다.
    • 그림 2와 같이 TransT는 세가지 요소로 구성되어 매우 간결하다.
    • backbone network, feature fusion network and prediction head
    • backbone network는 template과 search region의 feature를 별도로 추출한다.
    • 그런 다음 제안된 feature fusion network에 의해 기능이 향상되고 융합된다.
    • 마지막으로 prediction head는 향상된 기능에 대해 이진 분류 및 경계 상자 회귀 분석을 수행하여 추적 결과를 생성한다.
    • TransT의 각 구성 요소에 대한 세부 정보를 소개하고, feature fusion network의 두 가지 중요한 모듈을 소개한 다음, 몇가지 그림과 논의를 제공한다.
    3.1 Overall Architecture
    Feature Extraction
    • Siamese-based tracker들과 같이, transT 방법도 backbone network의 input으로써 image patches(template과 search region 모두 각각HW3)의 쌍을 받는다.
    • 비디오 sequence의 첫 번째 frame에서 template patch가 대상의 중심으로 부터 측면 길이의 2배 까지 확장되며 대상과 주변 장면의 외관 정보가 포함된다.
    • search region pathch는 이전 frame에서 대상의 중심 좌표에서 측면 길이의 4배로 확장되며 일반적으로 search region은 대상의 가능한 이동 범위를 포함한다.
    • search region과 template이 정사각형으로 바뀐 다음 backbone에서 처리된다.
    • feature 추출을 위해 수정된 ResNet50을 사용하였다.
    • 특히 ResNet50의 마지막 단계를 제거하고 4단계의 출력을 최종 출력으로 취한다.
    • 또한, 더 큰 feature resolution을 얻기 위해 4단계의 down sampling 장치의 convolution의 보폭을 2단계에서 1단계로 변경한다.
    • 게다가, 우린 4간계의 3*3 convlution을 2단계의 확장 컨볼루션으로 수정하여 receptive field를 높인다.
    • back bone은 search region과 template을 처리하여 fz와 fx의 feature map을 가져온다.(fz = R^(CHzWz), fx = R^(CHxWx) , Hz = Hz0/8 ... ,and C= 1024)
    Feature Fusion Network
    • 우리는 fz와 fx를 효율적으로 결합하기 위해 feature fusion 방식을 설계했다.
    • 첫 번째로 1X1 convolution은 fz와 fx의 채널 치수를 감소시켜 두개의 낮은 dimension feature maps을 얻는다.
    • 우리는 구현에 d = 256을 사용한다.
    • ,attention 기반 feature fusion network는 일련의 형상 벡터를 입력으로 사용하기 때문에 , fz1와 fx1을 포함하여 공간 차원에서 fz0와 fx0를 평탄화한다.
    • fz1과 fx1은 길이가 d인 feature vector의 집합으로 간주될 수 있다.
    • 그림 2와 같이 feature fusion network는 fz1과 fx1을 각각 template branch 및 search region branch의 입력으로 사용한다.
    • 첫 째, 두개의 ECA 모듈은 feature representation을 강화하기 위해 multi-head self-attention에 의해 적응적으로 유용한 semantic context에 초점을 맞춘다.
    • 그런 다음 두 개의 CFA 모듈이 자체 및 다른 branch의 feature map을 동시에 수신하고 multi-head cross-attention을 통해 이 두가지 feature map을 융합한다.
    • 이런 방식으로 그림 2의 점상자와 같이 두개의 ECA와 CFA가 융합 층을 형성한다.
    • fusion layer가 N회 반복된 다음, 두 branch의 feature map을 융합하기 위한 추가 CFA를 수행하여 feature map을 decoding 한다.(this paper adopted 4 repetition)
    Prediction Head Network
    • The prediction head는 classification branch와 regression branch로 구성되며, 여기서 각 branch는 숨겨진 차원 d와 ReLU 활성화 함수를 가진 3층 퍼셉트론이다.
    • feature fusion network에 의해 생성된 feature map의 경우 Head는 search region 크기와 관련하여 HxWx 전경/배경 classification 결과를 얻기 위해 각 벡터에 대해 예측하고 HxWx 정규화 된 좌표를 얻는다.
    • 우리의 Tracker는 anchor point 또는 anchor box를 조정하는 대신 정규화된 좌표를 직접 예측하여 사전 지식을 기반으로 앵커 포인트 또는 앵커 박스를 완전히 폐기하므로 tracking framework를 더욱 간결하게 만든다.
    3.2. Ego-Context Augment and Cross-Feature Augment Modules
    Multi-head Attention
    • Attention은 이 논문의 feature fusion network를 설계하는데 근본적인 구성요소이다.
    • 쿼리 Q, 키 K, 값 V가 주어지면 attention 함수는 등식(1)에 정의된 scale dot-product attention이다. (dk는 주요 치수이다.)
    • [38]에서와 같이 attention mechanism을 여러 head로 확장하면 mechanism이 다양한 주의 분포를 고려하고 모델이 다양한 정보 측면에 주의를 기울이게 할 수 있다.
    • multi-head attention은 등식(2)에 정의되어 있다.
    Ego-Context Augment(ECA)
    • ECA는 multi-head self-attention을 사용하여 feature map의 다양한 위치에서 정보를 적응적으로 통합한다.
    • attention의 수식과 같이 attention mechanism은 input feature sequence의 위치 정보를 구별할 수 없다.
    • 그렇기에 입력에 Spatial positional encoding을 도입한다.
    • spatial positional encoding을 생성하기 위해 sine함수를 사용한다.
    Cross-Feature Augment(CFA)
    • CFA는 multi-head cross-attention을 이용하여 두 Feature vector를 융합한다.
    • ECA와 유사하게 spatial positional encoding을사용한다.
    • 추가적으로 FFN(feed-forward-network)은 model의 fitting 능력을 향상시키기 위해 사용되며, 이는 ReLU가 사이에 있는 두 개의 linear transformation, 즉 각각의 가중치 행렬과 기준 벡터를 나타내는 기호 W와 b로 구성된 FFN이다.
    • 식 (6)에 따라 CFA는 Xkv와 ㅌXq사이의 다중 스케일 곱에 따라 feature map을 계산한 다음 attention map에 따라 Xkv를 재측정하고 Xq에 더하여 feature map의 표현력을 높인다.
    Differences with the original Transformer
    • 이 논문은 Transformer의 핵심 아이디어를 사용하였지만, DETR에서 transformer의 구조를 직접 채택하지 않았다.
    • tracking task는 template과 search region들을 융합하는데 중점을 두기 때문에 Cross-attention operation은 DETR보다 더 중요한 역할을 한다.
    What does attention want to see?
    • attention module이 어떻게 작동하는지 확인하기 위해, attention module이 어떤 것을 보고 싶은지 확인하기 위해 각 모듈에 대해 attention map을 시각화 하였다.
    • 우리는 fusion layer의 현재 번호를 나타내기 위해 n을 사용하였다.
    • 첫 번째 줄에는 search region의 self-attention map인데 n=1일 경우 template의 정보가 없을 경우 attention module은 환경과 다른 모든 개체를 보려고 시도한다.
    • 두 번째 줄, template self-attention map에서도 동일한 현상이 발생한다.
    • 흥미롭게도, 개미의 꼬리에 있는 빨간 점과 같은 주요 정보에 관심이 더 집중된다.
    • 세, 네 번째 줄은 search region과 template에 각각 적용되는 cross-attention map이다. 이때 attention module은 template과 검색 영역 모두에서 feature를 받게 된다.
    • 유사한 대상의 간섭 하에서 대상을 찾기 위해 attention module은 중요한 정보, 즉 개미의 꼬리에 있는 색칠된 점에 주의를 기울이는 경향이 있다.
    • n=2일 때, 이 시점에서 모든 attention module의 입력이 search region 및 template의 정보를 융합하게 된다. 유사한 산만 요소에 대한 search region self-attention 맵의 초점이 감소하였고, 모델이 대상을 인식한 것으로 보인다. search region의 cross-attention map은 그 것의 추정을 꽤 확신하는 것처럼 보인다.
    • template의 경우 attention모듈의 경우 경계 정보에 초점을 맞추기 시작한다.
    • 융합층이 깊어질 수록 search region self-attention map은 대상 위치를 강화하는 경향이 있는 반면 search region cross-attention map은 식별된 대상의 경계에 초점을 맞춘다.
    • 이러한 방식으로 template feature는 대상의 경계 정보를 많이 포함하는 information bank가 되지만, search region feature는 공간 정보를 유지한다.
    • template에 대한 마지막 몇 개의 attention map은 더 이상 초기 공간 위치를 따르지 않고 혼란스러운 분포를 따르는 것을 볼 수 있다. 이는 대상이 식별된 후에 template branch의 feature가 더 이상 template 자체의 정보를 유지할 필요가 없고 대상의 경계 정보를 많이 저장하여 regression 기능을 하는 feature 라이브러리가 되기 때문일 수 있다.
    • attention map의 시각화를 통해 attention module이 유용한 정보를 자동으로 찾아 tracker가 좋은 결과를 얻을 수 있음을 알 수 있다.
    3.3 Training Loss
    • prediction head 는 Hx * Wx feature vector를 수신하고 Hx * Wx 이진 분류 및 회귀 결과를 출력한다.
    • ground-truth bounding box의 pixel에 해당하는 feature vector의 예측을 양의 샘플로 선택하고, 나머지는 음의 샘플로 취급한다.
    • 모든 sample들은 classification loss에 기여하는 반면 양의 표본만 regression loss에 기여한다.
    • 양성 표본과 음성 표본 사이의 불균형을 줄이기 위해, 우리는 음성 표본에서 발생하는 손실을 16 인자로 축소한다.
    • Class Loss(yj : j 번째 샘플의ground trounth label, yj=1은 전경을 나타내고 pj는 학습된 모델에 의해 예측된 전경에 속하는 확률을 나타낸다.
    • Regression Loss(l1-norm의 선형 결합을 사용하고 일반화된 IoU loss을 채택 )(yj=1은 positive sample을 나타내고, bj는 j번째 예측된 bounding box, b_hat은 nomalized된 ground-truth box를 나타낸다, lambda_G는 2 lambda_1 = 5로 직접 설정한 학습 parameter이다.)


    Experiments
    4.1 Implementation
    offline Training
    • 사용한 dataset
    • COCO
    • TrackingNet (video)
    • LaSOT (video)
    • GOT-10k (video)
    train sample을 수집하기 위해 하나의 video sequence에서 이미지 쌍을 직접 샘플링한다.
    COCO detection datasets의 경우 원본 이미지에 몇 가지 변환을 적용하여 이미지 쌍을 생성
    common data augmentation은 train set를 확대하기 위해 적용된다.
    search region patch와 template patch의 크기는 각각 256256 및 128128이다.
    backbone parameter는 ImageNet이 사전에 지정한 ResNet-50으로 초기화 되며, 도델의 다른 매개변수는 Xavier init으로 초기화 된다.
    AdamW를 사용하여 모델을 Train하고, backbone의 learning rate를 1e-5로, 다른 매개 변수의 learning rate를 1e-4로, 가중치를 1e-4로 설정한다.
    Nvidia Titan RTX GPU 2개에서 batch size는 38를 설정하고 네트워크를 epoch당 1000회 반복하여 총 1000회 동한 train한다. 이후 500 epochs 이후에는 learning rate는 10배만큼 감소한다.
    Online Tracking
    • online tracking에서 prediction head는 신회도 점수가 포함된 1024개의 box를 출력한 다음 이러한 점수를 후 처리 할 때 window penalty를 채택한다.
    • 구체적으로,32*32 모양의 hanning window는 매개변수 w(0.49)에 의해 가중치가 부여되어 점수에 적용된다.(score는 tracker 출력의 original score, score_h는 해당 위치의 값을 Hanning 창에 표시 )
    • window penalty를 기준으로 이전 프레임에서 목표와 동떨어진 feature point의 신뢰도가 처벌된다.
    • 마지막으로 신뢰도 점수가 가장 높은 상자를 추적 결과로 선택한다.
    4.2 Evaluation on TrackingNet, LaSOT and GOT-10k Datasets
    • 2020년에 발표된 12개의 최신 tracker와 비교한다.
    • Table 1에서 SiamR-CNN을 제외한 다른 tracker보다 훨씬 나은 최고의 성능을 얻지만, SiamR-CNN은 5fps 미만에서 작동하는 반면 TransT는 50 fps에서 실행된다는 것을 보여준다.
    4.3 Ablation study and Analysis
    Post-processing
    • SiamRPN, SiamRPN++, Ocean과 같은 tracker는 이전의 작업들은 cosine window penalty, scale change penalty, 그리고 bounding box smoothing 과 같은 후 처리 후에 최종 추적 결과를 선택한다.
    • 그러나 이런 후처리 방식은 서로 다른 testset에 대해 세심하게 조정해야 하는 세 가지 하이퍼파라미터가 있기 때문에 매개 변수에 민감하다.
    • 이런 문제를 피하기 위해 본 연구에서는 모든 test set에 대해 기본 매개 변수를 사용하여 후처리를 수행하기 위해 window 페널티를 채택할 뿐이다.
    • 후처리의 효과를 보여주기 위해 표2의 후 처리 단계와 TransT 변형을 비교한다.
    • TransT는 우리 tracker를 의미하고, transT-np는 후처리 없는 우리 추적기를 의미
    • 첫 째, 표2에서 후처리가 없는 TransT가 transformer와 같은 fusion 방법에 기인하여 여전히 최첨단 성능을 달성한다고 결론을 내릴 수 있다.
    • 둘 째, 후 처리 단계는 추적 정확도를 더욱 향상시켜 이런 벤치 마크의 거의 모든 metric 중 최상의 기록을 생성한다.
    Comparison with the original Transformer
    • feature fusion network의 우수성을 보여주기 위해 original transformer를 사용하여 추적기를 설계한다.
    • 특히, 그림 2의 FFN을 원래의 transformer 구조로 교체하고 다른 구성 요소를 변경하지 않고 유지한다.
    • Transformer의 출력 크기는 decoder의 입력 크기와 같기 때문에 template feature는 encoder에, search region feature는 decoder에 입력한다. (train data와 train 전략은 동일)
    • 첫 번째로 original transformer를 사용한 tracker는그래도 기존 최첨단 알고리즘 보다 우수하다. 이는 Feature Fusion을 처리할 때 transformer 구조가 단순한 correlation 연산보다 더 잘 작동하는 것을 나타낸다.
    • 두 번째로 TransT vs TransT(ori) 및 TransT-np vs TransT(ori)-np를 관찰함으로써, 제안된 transformer가 원래의 transformer 구조보다 큰 폭으로 더 잘 수행된다는 결론을 내릴 수 있다.게다가, 후처리를 한 결과는 제안된 방식이나 기존 방식 모두에서 잘 작동하는 것도 확인할 수 있다.
    Comparison with Correlation
    • 이전 siamese tracker들은 template과 search region 사이의 유사성을 계산하기 위해 cross correlation을 사용한다. 그러나 correlation은 similarity map을 출력하는 linear local comparision이다.
    • 이 간단한 방법은 semantic loss를 초래하고, global information이 부족하다.
    • correlation 방식과 비교하여 첫번째로 attention-based 방법은 template 및 search region의 전역 정보를 효과적으로 집계하는 장거리 기능 연관성을 설정할 수 있다.
    • 두 번째로 우리의 방법은 similarity map 뿐만 아니라 풍부한 semantic 정보를 가진 feature를 출력한다.
    • 다음으로 CFA와 상관 관계를 비교하고 ECA의 영향을 탐구하기 위한 실험을 수행한다.
    • 공정한 비교를 위해 CFA가 없는 TransT의 경우 CFA의 FFN을 변경하지 않고 cross-attention layer만 제거하고 마지막 CFA 모듈을 depth-wise correlation으로 변경한다.
    • 비교 결과 CFA를 correlation 계층으로 대체한 후 성능이 크게 저하된 것을 볼 수 있고 ECA가 없어도 tracker의 성능이 저하된다. 만약에 ECA와 CFA가 모두 없을 경우 후처리가 미치는 영향이 더 커지게 된다.
    • 이러한 결과는 attention module이 없으면 tracker의 위치 파악 능력이 현저히 저하되고 후처리에서 사전 정보에 더 의존하는 결과를 보여준다.
    4.4 Evaluation on Other Datasets


    Conclusion
    • 이 논문은 feature fusion network같은 transformer를 기반으로 한 새롭고 간단하며 높은 성능의 tracking framework를 제안하였다.
    • 이 network는 단지 attention mechanism을 사용하여 feature fusion을 처리하였다.
    • attention mechanism중에 self-attention을 기반으로 한 ego-context augment module과 cross-attention을 기반으로 한 cross-feature agument module을 사용한다.
    • 이 attention mechanism은 long-distance feature association을 설정하여 tracker가 유용한 정보에 적응적으로 초점을 맞추고 풍부한 semantic imformation을 추출하도록 한다.
    • 제안된 fusion network는 template과 search region feature에 대한 상관 관계를 대체하여 object localization과 bounding box regression을 용이하게 할 수 있다.
    • 많은 실험 결과들의 벤치마크는 TransT가 SOTA 알고리즘 보다 훨씬 더 나은 성능을 발휘하며 실시간으로 작동되었다고 한다.


    댓글

Designed by Tistory.