新闻中心
你的位置:开云彩票官方网站 登录入口 > 新闻中心 > 体育游戏app平台实考瓦解该配比或者灵验均衡模子的两方面材干-开云彩票官方网站 登录入口

体育游戏app平台实考瓦解该配比或者灵验均衡模子的两方面材干-开云彩票官方网站 登录入口

时间:2025-12-26 08:57 点击:135 次

体育游戏app平台实考瓦解该配比或者灵验均衡模子的两方面材干-开云彩票官方网站 登录入口

在多模态 AI 领域体育游戏app平台,基于预查验视觉编码器与 MLLM 的智力(如 LLaVA 系列)在视觉理奉命务上展现出稀奇性能。

而基于 Rectified Flow 的模子(如 Stable Diffusion 3 很是养殖版块)则在视觉生成方面赢得紧要冲破。

能否将这两种肤浅的技能范式搭伙到单一模子中?

来自 DeepSeek、北大、香港大学以及清华大学的团队酌量标明:

在 LLM 框架内平直交融这两种结构,就不错达成视觉融会与生成材干的灵验搭伙。

模子架构

肤浅来说,JanusFlow 将基于视觉编码器和 LLM 的融会框架与基于 Rectified Flow 的生成框架平直交融,达成了两者在单一 LLM 中的端到端查验。

其中枢联想包括: ( 1 ) 聘请解耦的视觉编码器别离优化融会与生成材干; ( 2 ) 期骗融会端编码器对生成端特征进行表征对皆,权贵擢升 RF 的查验效用。基于 1.3B 畛域的 LLM,JanusFlow 在视觉融会和生成任务上均高出此前同畛域的搭伙多模态模子。

在 LLM 基础上,JanusFlow 加入了如下组件:

1、视觉融会编码器(图中的 Und. Encoder):咱们使用 SigLIP 将输入的图片调遣成 Visual embeddings;专注于视觉理奉命务的特征索要。

2、视觉生成编解码器(图中的 Gen. Encoder/Decoder):轻量级模块,总参数目约 70M;基于 SDXL-VAE 的 latent space 进行生成;编码器:期骗双层 ConvNeXt Block 将输入 latent z_t 调遣为 visual embeddings;解码器:通过双层 ConvNeXt Block 将处分后的 embeddings 解码为 latent space 中的速率 v 。

3、看护力机制:在咱们的初步践诺中,咱们发现生成任务中 causal attention 和 bidirectional attention 效用很是;基于效用和纯粹性议论,搭伙聘请 causal attention 处分两类任务。

JanusFlow 有两种生成模式:

1、视觉融会(文 + 图 ->文 ) :此时,JanusFlow 的推理模式是平时的自追忆模式,通过臆度下一个 token 来生成复兴

2、图片生成(文 ->图):此时,JanusFlow 的推理模式是聘请欧拉法求解 Rectified Flow 学出的 ODE,从 t=0 的纯噪声渐渐鼓吹到 t=1 的干净图像。咱们在生成过程中使用 Classifier-Free Guidance 并把迭代步数建筑为 30 步。

智力与联想

1、三阶段查验战略

咱们的查验分为 Adaptation,Pre-Training 和 Supervised Fine-Tuning 三阶段。咱们的查验数据包括视觉融会(图生文)和视觉生成(文生图)两类。很是地,由于发现 RF 拘谨速率权贵慢于 AR,咱们在预查验阶段聘请了非对称的数据配比战略(融会:生成 =2:8),实考瓦解该配比或者灵验均衡模子的两方面材干。详备查验经由和数据成立请见论文。

2、解耦融会与生成的视觉编码器

在之前逢迎 LLM 与 Diffusion Model 查验搭伙多模态模子的尝试中,融会与生成任务时时聘请兼并个视觉编码器(如 Show-O [ 1 ] 中融会和生成均聘请 MAGVIT-v2 将图片调遣成闹翻 token,Transfusion [ 2 ] 中融会和生成均聘请 latent space 里的 U-Net Encoder),经常导致融会和生成任务在视觉编码层面的冲突。在咱们的上一个责任 Janus [ 3 ] 中确认了对多模态融会和生成任务的编码器进行解耦能灵验缓解冲突,擢升模子的举座性能。在 JanusFlow 中,咱们沿用了这一联想。咱们进行了一系列的消融践诺探究了不同视觉编码器战略的影响,确以为融会和生成任务别离成立专用编码器或者权贵擢升举座性能。

3、表征对皆(Representation Alignment)

正如之前提到的,由于 RF 的查验拘谨速率权贵慢于 AR,JanusFlow 的查验支出较大。收成于咱们解耦了融会与生成的编码器,咱们不错使用 REPA [ 4 ] 的智力来加快 RF 查验的拘谨速率。具体而言,咱们在生成数据的查验中条款视觉编码器索要的查验图片 x 的特征与其加噪样本 z_t 在 LLM 中的中间层特征对皆。践诺标明,该智力在仅加多小数缱绻支出的情况下,权贵擢升了生成任务的拘谨效用。

(绿线:使用 REPA;蓝线:不使用 REPA。使用 REPA 不错权贵加快 FID 的缩小 ( 与图像质料有关 ) 和 CLIP score 的升高 ( 与文生图模子的语义准确度有关 ) 。)

4、消融践诺

咱们联想了六组对照践诺以考证模子各组件的灵验性:

A、不使用 REPA,融会模块是 SigLIP,生成模块是 SDXL-VAE+ConvNeXt Block,搭伙查验融会与生成任务;

B、使用 REPA,融会和生成模块使用分享参数的 SDXL-VAE+ConvNeXt Block,搭伙查验融会与生成任务;这个建筑访佛 Transfusion;

C、使用 REPA,融会和生成模块使用安详参数的 SDXL-VAE+ConvNeXt Block,其中,融会部分的 SDXL-VAE 参数参与查验,搭伙查验融会与生成任务;

D、融会模块是 SigLIP,只查验融会数据,保握与搭伙查验中融会数据等量;这是兼并框架和数据量下,融会模子的基准;

E、使用 REPA,融会模块是 SigLIP,生成模块是 SDXL-VAE+ConvNeXt Block,只查验生成数据,保握与搭伙查验中生成数据等量;这是兼并框架和数据量下,生成模子的基准;

F、使用 REPA,融会模块是 SigLIP,生成模块是 SDXL-VAE+ConvNeXt Block,搭伙查验融会与生成任务。

践诺限制如下图。

分析:

1、比拟 A 和 F:REPA 的引入权贵擢升了生成有关的贪图

2、比拟 B,C 和 F:解耦编码器并使用 SigLIP 行动融会模块能得到融会和生成材干最佳的搭伙模子

3、比拟 D,E 和 F:咱们的最终战略 F 在查验数据量和查验建筑均疏通的情况下,融会材干涉纯融会基准很是,生成材干涉纯生成基准基本握平;考证了 F 在保握各自性能的同期达成了两个任务的有机搭伙

基于以上践诺限制,咱们聘请决策 F 行动 JanusFlow 的最终架组成立。

践诺限制

JanusFlow 在 DPGBench,GenEval 和多模态融会的测评圭臬上都赢得了高大的效用。详见表格。

△视觉融会分数:JanusFlow 高出了一些同尺寸的纯融会模子

△视觉生因素数:JanusFlow 有较强的语义奴婢材干

△视觉融会主不雅效用

△视觉生成主不雅效用

终末总结,JanusFlow 通过交融自追忆 LLM 与 Rectified Flow,得手构建了一个搭伙的视觉融会与生成框架。该模子具有纯粹的架构联想,在视觉融会和生成两大任务上均展现出强盛的竞争力。

有关文件:

[ 1 ] Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

[ 2 ] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

[ 3 ] Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

[ 4 ] Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色‍

附上论文 / 形貌主页逢迎,以及联系方法哦

咱们会(尽量)实时复兴你

点这里� � 热心我,谨记标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿发扬日日相遇 ~