Quickstart

Installation: pip install diffusers>=0.33.0 torch>=2.3.1

Quick Start

Loading the VAE is as easy as:

from diffusers import AutoencoderKL

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-flux-vae").to("cuda")

Complete Example

Full workflow for encoding and decoding images:

from io import BytesIO
import requests
from diffusers import AutoencoderKL
import numpy as np
import torch
from PIL import Image

response = requests.get("https://raw.githubusercontent.com/End2End-Diffusion/fuse-dit/main/assets/example.png")
device = "cuda"

image = torch.from_numpy(
    np.array(
        Image.open(BytesIO(response.content))
    )
).permute(2, 0, 1).unsqueeze(0).to(torch.float32) / 127.5 - 1
image = image.to(device)

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-flux-vae").to(device)

with torch.no_grad():
    latents = vae.encode(image).latent_dist.sample()
    reconstructed = vae.decode(latents).sample

Installation: pip install diffusers>=0.33.0 torch>=2.3.1

Quick Start

Loading the VAE is as easy as:

from diffusers import AutoencoderKL

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-sd3.5-vae").to("cuda")

Complete Example

Full workflow for encoding and decoding images:

from io import BytesIO
import requests
from diffusers import AutoencoderKL
import numpy as np
import torch
from PIL import Image

response = requests.get("https://raw.githubusercontent.com/End2End-Diffusion/fuse-dit/main/assets/example.png")
device = "cuda"

image = torch.from_numpy(
    np.array(
        Image.open(BytesIO(response.content))
    )
).permute(2, 0, 1).unsqueeze(0).to(torch.float32) / 127.5 - 1
image = image.to(device)

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-sd3.5-vae").to(device)

with torch.no_grad():
    latents = vae.encode(image).latent_dist.sample()
    reconstructed = vae.decode(latents).sample

Installation: pip install diffusers>=0.35.0 torch>=2.5.0

Quick Start

Loading the VAE is as easy as:

from diffusers import AutoencoderKLQwenImage

vae = AutoencoderKLQwenImage.from_pretrained("REPA-E/e2e-qwenimage-vae").to("cuda")

Complete Example

Full workflow for encoding and decoding images (note the frame dimension handling):

from io import BytesIO
import requests
from diffusers import AutoencoderKLQwenImage
import numpy as np
import torch
from PIL import Image

response = requests.get("https://raw.githubusercontent.com/End2End-Diffusion/fuse-dit/main/assets/example.png")
device = "cuda"

image = torch.from_numpy(
    np.array(
        Image.open(BytesIO(response.content))
    )
).permute(2, 0, 1).unsqueeze(0).to(torch.float32) / 127.5 - 1
image = image.to(device)

vae = AutoencoderKLQwenImage.from_pretrained("REPA-E/e2e-qwenimage-vae").to(device)

# Add frame dimension (required for QwenImage VAE)
image_ = image.unsqueeze(2)

with torch.no_grad():
    latents = vae.encode(image_).latent_dist.sample()
    reconstructed = vae.decode(latents).sample

# Remove frame dimension
latents = latents.squeeze(2)
reconstructed = reconstructed.squeeze(2)

Installation: pip install diffusers>=0.33.0 torch>=2.3.1

Quick Start

Loading the VAE is as easy as:

from diffusers import AutoencoderKL

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-sdvae-hf").to("cuda")

Complete Example

Full workflow for encoding and decoding images (512×512 resolution):

from io import BytesIO
import requests
from diffusers import AutoencoderKL
import numpy as np
import torch
from PIL import Image

response = requests.get("https://raw.githubusercontent.com/End2End-Diffusion/fuse-dit/main/assets/example.png")
device = "cuda"

image = torch.from_numpy(
    np.array(
        Image.open(BytesIO(response.content)).resize((512, 512))
    )
).permute(2, 0, 1).unsqueeze(0).to(torch.float32) / 127.5 - 1
image = image.to(device)

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-sdvae-hf").to(device)

with torch.no_grad():
    latents = vae.encode(image).latent_dist.sample()
    reconstructed = vae.decode(latents).sample

Installation: pip install diffusers>=0.33.0 torch>=2.3.1

Quick Start

Loading the VAE is as easy as:

from diffusers import AutoencoderKL

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-vavae-hf").to("cuda")

Complete Example

Full workflow for encoding and decoding images (512×512 resolution):

from io import BytesIO
import requests
from diffusers import AutoencoderKL
import numpy as np
import torch
from PIL import Image

response = requests.get("https://raw.githubusercontent.com/End2End-Diffusion/fuse-dit/main/assets/example.png")
device = "cuda"

image = torch.from_numpy(
    np.array(
        Image.open(BytesIO(response.content)).resize((512, 512))
    )
).permute(2, 0, 1).unsqueeze(0).to(torch.float32) / 127.5 - 1
image = image.to(device)

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-vavae-hf").to(device)

with torch.no_grad():
    latents = vae.encode(image).latent_dist.sample()
    reconstructed = vae.decode(latents).sample

Installation: pip install diffusers>=0.33.0 torch>=2.3.1

Quick Start

Loading the VAE is as easy as:

from diffusers import AutoencoderKL

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-invae-hf").to("cuda")

Complete Example

Full workflow for encoding and decoding images (512×512 resolution):

from io import BytesIO
import requests
from diffusers import AutoencoderKL
import numpy as np
import torch
from PIL import Image

response = requests.get("https://raw.githubusercontent.com/End2End-Diffusion/fuse-dit/main/assets/example.png")
device = "cuda"

image = torch.from_numpy(
    np.array(
        Image.open(BytesIO(response.content)).resize((512, 512))
    )
).permute(2, 0, 1).unsqueeze(0).to(torch.float32) / 127.5 - 1
image = image.to(device)

vae = AutoencoderKL.from_pretrained("REPA-E/e2e-invae-hf").to(device)

with torch.no_grad():
    latents = vae.encode(image).latent_dist.sample()
    reconstructed = vae.decode(latents).sample

For complete usage examples and integration with diffusion models, see the individual model cards on Hugging Face.

1. E2E Leads to Faster Training

REPA-E dramatically accelerates diffusion model training while achieving superior generation quality. We demonstrate consistent improvements across different model scales and VAE architectures.

Better performance with fewer epochs: REPA-E achieves gFID of 4.07 in just 80 epochs, significantly outperforming MaskDiT (5.69 with 1600 epochs) and FasterDiT (7.91 with 400 epochs)
Robust across architectures: Performance improvements remain consistent across different model scales (SiT-B/L/XL) and VAE architectures (SD-VAE, IN-VAE, VA-VAE)
Enhanced image quality across training: Using identical noise and labels, REPA-E generates structurally superior images compared to REPA baseline at 50K, 100K, and 400K training iterations

Comparison of methods with and without end-to-end tuning
Method	Tokenizer	Epochs	gFID↓	sFID↓	IS↑
Without End-to-End Tuning
MaskDiT [54]	SD-VAE	1600	5.69	10.34	177.9
DiT [34]		1400	9.62	6.85	121.5
SiT [30]		1400	8.61	6.32	131.7
FasterDiT [49]		400	7.91	5.45	131.3
REPA [52]	SD-VAE	20	19.40	6.06	67.4
		40	11.10	6.06	67.4
		80	7.90	5.06	122.6
		800	5.90	5.73	157.8
With End-to-End Tuning (Ours)
REPA-E	SD-VAE*	20	12.83	5.04	88.8
		40	7.17	4.39	123.7
		80	4.07	4.60	161.8

Scalability across diffusion model sizes
Diff. Model	gFID↓	sFID↓	IS↑	Prec.↑	Rec.↑
SiT-B (130M)	49.5	7.00	27.5	0.46	0.59
+REPA-E (Ours)	34.8	6.31	39.1	0.57	0.59
SiT-L (458M)	24.1	6.25	55.7	0.62	0.60
+REPA-E (Ours)	16.3	5.69	75.0	0.68	0.60
SiT-XL (675M)	19.4	6.06	67.4	0.64	0.61
+REPA-E (Ours)	12.8	5.04	88.8	0.71	0.58

Generalization across different VAE architectures
Autoencoder	gFID↓	sFID↓	IS↑	Prec.↑	Rec.↑
SD-VAE [39]	24.1	6.25	55.7	0.62	0.60
+REPA-E (Ours)	16.3	5.69	75.0	0.68	0.60
IN-VAE (f16d32)	22.7	5.47	56.0	0.62	0.62
+REPA-E (Ours)	12.7	5.57	84.0	0.69	0.62
VA-VAE [48]	12.8	6.47	83.8	0.71	0.58
+REPA-E (Ours)	11.1	5.31	88.8	0.72	0.61

Visual comparison at different iterations — **Qualitative comparison between REPA and REPA-E.** Images generated at different training iterations using identical noise and labels.

Finding 1: REPA-E achieves 17× speedup over REPA and 45× over vanilla training while delivering superior generation quality across all tested configurations.

3. E2E VAEs are Better than Regular VAEs

The end-to-end tuned E2E-VAE serves as a universal drop-in replacement for standard VAEs, delivering consistent improvements across diverse diffusion model architectures without requiring any modifications to the training pipeline.

Universal improvement: E2E-VAE serves as a drop-in replacement for original VAEs, delivering superior performance across diverse diffusion architectures
State-of-the-art generation quality: Achieves gFID of 1.12 (w/ CFG) and 1.69 (w/o CFG) when training with REPA for 800 epochs
Comprehensive performance superiority: Achieves gFID of 3.46 with SiT-XL and REPA (vs. 4.88 with VA-VAE and 7.90 with SD-VAE)
Architecture-robust performance: E2E-VAE maintains strong generation quality across diffusion models with and without REPA

Drop-in VAE Performance Comparison — **E2E-VAE as drop-in replacement.** Comparison showing E2E-VAE delivers consistent improvements across different diffusion architectures.

From-Scratch Training

REPA-E enables effective joint training of both VAE and LDM from scratch, eliminating the need for separate VAE pre-training while still achieving superior performance compared to traditional approaches.

End-to-end training from scratch: REPA-E can jointly train both VAE and LDM from scratch in an end-to-end manner, without requiring VAE pre-training
Strong performance even without initialization: While initializing the VAE with pretrained weights helps slightly improve results, from-scratch training still achieves gFID of 4.34 at 80 epochs, significantly outperforming REPA (7.90)

From-scratch training results. REPA-E enables effective joint training without VAE pre-training.
Method	gFID↓	sFID↓	IS↑	Prec.↑	Rec.↑
100K Iterations (20 Epochs)
REPA [52]	19.40	6.06	67.4	0.64	0.61
REPA-E (scratch)	14.12	7.87	83.5	0.70	0.59
REPA-E (VAE init.)	12.83	5.04	88.8	0.71	0.58
200K Iterations (40 Epochs)
REPA [52]	11.10	5.05	100.4	0.69	0.64
REPA-E (scratch)	7.54	6.17	120.4	0.74	0.61
REPA-E (VAE init.)	7.17	4.39	123.7	0.74	0.62
400K Iterations (80 Epochs)
REPA [52]	7.90	5.06	122.6	0.70	0.65
REPA-E (scratch)	4.34	4.44	154.3	0.75	0.63
REPA-E (VAE init.)	4.07	4.60	161.8	0.76	0.62

Finding 3: E2E-VAE serves as a universal drop-in replacement, achieving SOTA FID of 1.12 (w/ CFG) and 1.69 (w/o CFG) across diverse diffusion architectures.

REPA-E: Unlocking VAE for

End-to-End Tuning of Latent Diffusion Transformers

Key Findings

News

Quickstart

Quick Start

Complete Example

Quick Start

Complete Example

Quick Start

Complete Example

Quick Start

Complete Example

Quick Start

Complete Example

Quick Start

Complete Example

Overview

1. E2E Leads to Faster Training

2. E2E Leads to Improved Latent Space

3. E2E VAEs are Better than Regular VAEs

From-Scratch Training

Conclusion

BibTeX

References