Visual Studio Tool Box MaskedTextBox

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training

Abstract: Learning joint and coordinated features across modalities is essential for many audio-visual tasks. Existing pre-training methods primarily focus on global information, neglecting ...

Some results have been hidden because they may be inaccessible to you

Show inaccessible results

Feedback

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training

Trending now