publications | 王通

2026

ICML

MiVE: Multiscale Vision-Language Features for Reference-Guided Video Editing

Tong Wang, Meng Zou, Chengjing Wu, Xiaochao Qu, Luoqi Liu, Xiaolin Hu, and Ting Liu

In International Conference on Machine Learning, 2026

Abs arXiv HTML

Reference-guided video editing uses a source video, text instruction, and reference image. We observe that VLM layers encode complementary information hierarchically — early layers capturing spatial details and deeper layers encoding global semantics. MiVE repurposes VLMs as multiscale feature extractors, integrating hierarchical features from Qwen3-VL into a unified self-attention Diffusion Transformer, eliminating the modality mismatch inherent in cross-attention designs. MiVE achieves state-of-the-art performance by ranking highest in human preference.
ICML

Self-Prompting Diffusion Transformer for Open-Vocabulary Scene Text Editing via In-Context Learning

Hongxi Li, Tong Wang, Chengjing Wu, Tianbao Liu, Jiangtao Yao, Xiaochao Qu, Xinxiao Wu, Luoqi Liu, and Ting Liu

In International Conference on Machine Learning, 2026

Abs arXiv HTML

We propose a method that constructs style and glyph prompts directly from the original image without introducing additional encoders. A two-stage training strategy is used: the diffusion transformer is first trained on large-scale self-supervised data and then refined using a small set of paired images. By leveraging the in-context learning capability of the Multi-Modal Diffusion Transformer (MM-DiT), it achieves open-vocabulary and style-consistent text editing with state-of-the-art performance across various languages.

2025

CVPR

GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing

Tong Wang, Ting Liu, Xiaochao Qu, Chengjing Wu, Luoqi Liu, and Xiaolin Hu

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

Abs HTML

A specialized glyph encoder for scene text editing that addresses the character structure modeling bottleneck in diffusion models. Achieves state-of-the-art generation quality with 18.02% improvement in sentence accuracy and 53.28% reduction in text-region FID.

2022

ICPR

DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor Points

Zhengfei Kuang, Jiaman Li, Mingming He, Tong Wang, and Yajie Zhao

In 26th International Conference on Pattern Recognition (ICPR Oral), 2022

Abs DOI arXiv HTML

Graph-structured dense correspondence learning method that improves cross-view matching robustness.