Jacob Zhiyuan Fang

Member of Technical Staff, Microsoft AI, Super Intelligence Team

LinkedIn Google Scholar X

About

I am a member of technical staff in Microsoft AI's Super Intelligence Team, focusing on visual generation and multi-modal learning. My recent focus includes controllable video generation, large scale training for diffusion models, and representation learning.

News

[2026 June] - MAI-Image-2.5 released. Top-2 Image generation model on LMArena.
[2026 March] - Joined Microsoft AI's Super Intelligence Team.
[2025 Sep] - New video generation model (Seedance-1.0-mini - TikTok production model) trained by us is online. Check out its first effect - AI Flower (2M+ posts on TikTok in one week).
AI Mermaid Effect is online, more than 35M post on TikTok - best TikTok Global AI effect since 2023!
[2025 Jan] - AI Alive is online, check out Shou's demo video on our product.

Research Areas

Generative modeling (Image/Video diffusion model)
Vision-Language models (video-language, VLM)
Representation learning & efficient pretraining

Experience

Superintelligence Lab, Microsoft AI

Member of Technical Staff · March, 2026 — Present

Mountain View, USA

Image Generation; Diffusion Model; Post-Training and RL

Diffusion Model RL

MAI-Image-2.5 : Post-training and RL, Reward Model Development

Global GenAI, ByteDance / TikTok

Senior Research Scientist · June, 2024 — March, 2026

San Jose, USA

Video Generation Model

ID/IP Perservation in Video Gen; Video Editing; Controllable Video Gen；
Seedance 1.0 mini Production Model Pre-train; (billions+ videos over ~2K GPUs) ;
Video Gen Post-Training/RLHF;

Highlighted projects

AI Mermaid - Video Generation & XFN

2025 · TikTok Effect
(Best AI Effect on TikTok since 2023 )

MAGREF — Any-Reference Video Generation

2025 · Research Work

ATI — Motion-Controlled Video Generation

2025 · Research Work

AI Flower 2.0 — Effect Powered by our Seedance 1.0 TikTok Version

2025 · TikTok Effect

AI Live Photo — Image to Video Generation

2025 · Production

Amazon AGI

Applied Scientist · 2022 — 2024

Sunnyvale, USA

Image/Video Generation; Diffusion Model Pre-training & Post-training

Image/Video Diffusion Model

Amazon AGI Project Nova, Image/Video Generation team.

Text-to-Image generation (see Amazon Nova Canvas, Create with Alexa for Kids, AI Art for FireTV , and Amazon Ads). Model training/post-training.
Video generation (see Amazon Nova Reel, and Amazon Ads). Model SFT/post-training.

Highlighted projects

Amazon Nova — Image/Video Generation

2023–2024 · Model family

Amazon FireTV — Image/Video Generation

2023–2024 · XFN

Zero-Shot I2V via Motion Decomposition

ACM MM 2024 · Website

Microsoft Cloud & AI

Research Intern · 2020 — 2022

Redmond, USA

Vision and Language Model (VLM)

Self-supervised Learning · Knowledge Distillation · Vision-Language Representation Learning

Collaborators: Zicheng Liu, Lijuan Wang, Jianfeng Wang, Zhe Gan

Vision Language Model Distillation: Compressing Visual-linguistic Model via Knowledge Distillation
VLM Pre-training & Image Captioning: Injecting Semantic Concepts into End-to-End Image Captioning
Self-Supervised Learning/Visual Pre-training: SEED: Self-supervised Distillation For Visual Representation

Highlighted projects

SEED — Self-supervised Distillation

ICLR 2021 · Paper

Vision-Language Model Pretraining & Distillation

ICCV 2021 · Paper

ViTCAP — Image Captioning & Vision-Language Model Pretraining

CVPR 2022 · Paper

Chinse Academy of Sciences, MM Lab

Visiting Student · June. 2016 — Dec. 2016

Shenzhen, China

Deep Learning · Face Recognition

Collaborators: Zhifeng Li, Xiao Zhang, Yu Qiao

Face Recognition: Range Loss for Deep Face Recognition with Long-tailed Training Data

Arizona State University, APG Lab

Ph.D. Student

Phoenix, USA

Vision and Language

Advisor: Yezhou Yang

Product Highlights

AI Mermaid

AI Mermaid effect demo. Over 30M+ posts since online. BEST AI effect on Tiktok since 2023.

AI Alive - Tiktok

AI Alive online! Demo video by Shou.

AI SwayDance

AI Sway Dance Effect demo. Over 3M+ posts in 3 weeks. Let's hop hop hop!

AI Hug

AI Hug Effect demo. Hug with your loved one.

Selected Preprints & Publications

MAGREF: Masked Guidance for Any-Reference Video Generation Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma · arXiv 2025

Video GenerationID/IP Reference Video Generation

Preprint Github Webpage

@article{fang2025magref,
  title={MAGREF: Masked Guidance for Any-Reference Video Generation},
  author={Fang, Zhiyuan and others},
  journal={arXiv},
  year={2025}
}

ATI: Any Trajectory Instruction for Controllable Video Generation Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma · arXiv 2025

Video GenerationMotion Controlled Video Generation

Preprint Github Webpage

@article{wang2025ati,
  title={Any Trajectory Instruction for Controllable Video Generation},
  author={Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma},
  journal={arXiv},
  year={2025}
}

Zero-shot controllable image-to-video animation teaser

Zero-Shot Controllable Image-to-Video Animation via Motion Decomposition Shoubin Yu, Jacob Zhiyuan Fang, Skyler Zheng, Gunnar A. Sigurdsson, Vicente Ordonez, Robinson Piramuthu, Mohit Bansal · ACM MM 2024

Video GenerationControl GenerationDiffusion

Paper Website

@inproceedings{yu2024zeroshot,
  title={Zero-Shot Controllable Image-to-Video Animation via Motion Decomposition},
  author={Yu, Shoubin and Fang, Jacob Zhiyuan and Zheng, Skyler and Sigurdsson, Gunnar A and Ordonez, Vicente and Piramuthu, Robinson and Bansal, Mohit},
  booktitle={ACM Multimedia},
  year={2024}
}

FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation Xuehai He, Jian Zheng, Jacob Zhiyuan Fang, Robinson Piramuthu, Mohit Bansal, Vicente Ordonez, Gunnar A. Sigurdsson, Nanyun Peng, Xin Eric Wang · TMLR 2024

Image GenerationDiffusion ModelEfficiency

arXiv Project

@article{he2024flexecontrol,
  title={FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation},
  author={He, Xuehai and Zheng, Jian and Fang, Jacob Zhiyuan and Piramuthu, Robinson and Bansal, Mohit and Ordonez, Vicente and Sigurdsson, Gunnar A and Peng, Nanyun and Wang, Xin Eric},
  journal={TMLR},
  year={2024}
}

Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation Yingshan Chang, Yasi Zhang, Zhiyuan Fang, Yingnian Wu, Yonatan Bisk, Feng Gao · ECCV 2024

Image GenerationDiffusion

Arxiv

@inproceedings{chang2024skews,
  title={Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation},
  author={Chang, Yuqing and Zhang, Yuchen and Fang, Zhiyuan and Wu, Yuchen and Bisk, Yonatan and Gao, Feng},
  booktitle={ECCV},
  year={2024}
}

SEED: Self-supervised Distillation For Visual Representation Zhiyuan Fang, Jianfeng Wang, Lijuan Wang, Lei Zhang, Yezhou Yang, Zicheng Liu · ICLR 2021

Self-supervised LearningKnowledge Distillation

Arxiv

@inproceedings{fang2021seed,
  title={SEED: Self-supervised Distillation For Visual Representation},
  author={Fang, Zhiyuan and Wang, Jianfeng and Wang, Lijuan and Zhang, Lei and Yang, Yezhou and Liu, Zicheng},
  booktitle={ICLR},
  year={2021}
}

Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan, Lijuan Wang, Yezhou Yang, Zicheng Liu · CVPR 2022

Image CaptioningVision & Language

Paper

@inproceedings{fang2022injecting,
  title={Injecting Semantic Concepts into End-to-End Image Captioning},
  author={Fang, Zhiyuan and Wang, Jianfeng and Hu, Xiaowei and Liang, Lin and Gan, Zhe and Wang, Lijuan and Yang, Yezhou and Liu, Zicheng},
  booktitle={CVPR},
  year={2022}
}

Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lijuan Wang, Yezhou Yang, Zicheng Liu · ICCV 2021

Knowledge DistillationVision and Language

Paper

@inproceedings{fang2021compressing,
  title={Compressing Visual-linguistic Model via Knowledge Distillation},
  author={Fang, Zhiyuan and Wang, Jianfeng and Hu, Xiaowei and Lijuan Wang, Yezhou Yang, Zicheng Liu},
  booktitle={ICCV},
  year={2021}
}

ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language Zhe Wang, Zhiyuan Fang, Jun Wang, Yezhou Yang · ECCV 2020

Person Search

Paper

@inproceedings{wang2020vitaa,
  title={ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language},
  author={Wang, Zheng and Fang, Zhiyuan and Wang, Jianfeng and Yang, Yezhou},
  booktitle={ECCV},
  year={2020}
}

Service

Reviewer: ICCV, CVPR, ECCV, Neurips, ICLR, ICML, ACL, EMNLP, SIGGRAPH, SIGGRAPH-ASIA, TMLR, etc.