请前往标签设置摘要
在Vision Transformer(ViT)中,将图像划分为不重叠的patches(图像块)是一个关键设计选择,这一选择具有多重优势。不重叠的patches简化了计算过程,避免了因图像块之间重叠而导致的复杂计算。...