A SIMPLE INTERPRETABLE TRANSFORMER FOR FINEGRAINED IMAGE CLASSIFICATION AND ANALYSIS

Paul, Dipanjyoti; Chowdhury, Arpita; Xiong, Xinqi; Chang, Feng-Ju; Carlyn, David; Stevens, Samuel; Provost, Kaiya; Karpatne, Anuj; Carstens, Bryan; Rubenstein, Daniel; Stewart, Charles; Berger-Wolf, Tanya; Su, Yu; Chao, Wei-Lun

Citation Details

We present a novel usage of Transformers to make image classification interpretable. Unlike mainstream classifiers that wait until the last fully connected layer to incorporate class information to make predictions, we investigate a proactive approach, asking each class to search for itself in an image. We realize this idea via a Transformer encoder-decoder inspired by DEtection TRansformer (DETR). We learn “class-specific” queries (one for each class) as input to the decoder, enabling each class to localize its patterns in an image via cross-attention. We name our approach INterpretable TRansformer (INTR), which is fairly easy to implement and exhibits several compelling properties. We show that INTR intrinsically encourages each class to attend distinctively; the cross-attention weights thus provide a faithful interpretation of the prediction. Interestingly, via “multi-head” cross-attention, INTR could identify different “attributes” of a class, making it particularly suitable for fine-grained classification and analysis, which we demonstrate on eight datasets. Our code and pre-trained models are publicly accessible at the Imageomics Institute GitHub site: https://github.com/Imageomics/INTR. more »

Award ID(s):: 2118240

PAR ID:: 10530247

Author(s) / Creator(s):: Paul, Dipanjyoti; Chowdhury, Arpita; Xiong, Xinqi; Chang, Feng-Ju; Carlyn, David; Stevens, Samuel; Provost, Kaiya; Karpatne, Anuj; Carstens, Bryan; Rubenstein, Daniel; Stewart, Charles; Berger-Wolf, Tanya; Su, Yu; Chao, Wei-Lun

Publisher / Repository:: ICLR

Date Published:: 2024-05-07

Format(s):: Medium: X

Location:: Vienna, Austria

Sponsoring Org:: National Science Foundation

Free Publicly Accessible Full Text
Accepted Manuscript1.0
Conference Paper:
The DOI is not currently available.

More Like this