开云数据分析 “拼好模”:字节向上开源轻量原生和解多模态 AI 模子 Lance

导语:字节向上最新发布开源多模态模子 Lance,激活参数目只消 3B,是一款原生和解的图像、视频多模态模子。
IT 之家 5 月 22 日音信,字节向上最新发布开源多模态模子 Lance,激活参数目只消 3B,是一款原生和解的图像、视频多模态模子。
与把"清醒"和"生成"拆成多个模块再拼接的常见决策不同,Lance 从考验起就把图像清醒、视频清醒、图像生成、视频生成和跨模态裁剪放进并吞体系,盘算是让 1 个模子同期处理 X2T、X2I、X2V 3 类输出任务。

IT 之家征引论文实质,清醒任务依赖与言语对皆精采的高层语义特征;生成任务则需要保留纹理、几何结构和时序动态的低层研讨示意,而 Lance 则兼顾和均衡这两种相背的需求。
Lance 为此选拔分享高下文和才智解耦并行的想象:通盘文本、图像、视频输入先转成和解交错序列,再交给双流群众架构分辨别真清醒与生成。
在具体结构上,文本记号来自 Qwen2.5-VL 镶嵌层;偏清醒的视觉输入由 Qwen2.5-VL 的 ViT 编码器索要语义视觉记号。
偏生成的视觉输入则由 Wan2.2 的 3D 因果 VAE 编码成研讨潜在示意,含 16 × 空间下采样和 4 × 工夫下采样。
随后,模子在好意思满高下文上使用广义 3D 因果留神力,文本选拔因果留神力,视觉记号选拔双向留神力。
Lance 还引入了 MaPE,即 Modality-Aware Rotary Positional Encoding(模态感知旋转位置编码)。
它通过给不同模态组添加固定工夫偏移,不阻滞图像和视频里面的空间结构与工夫端正的前提下,2026世界杯赛程104场比赛搞定并吞序列中多类视觉记号界限沾污的问题。
考验方面,Lance 分 4 个阶段鼓励:
预考验阶段使用约 1B 图文对和 140M 视频文本对,猜测 1.5T 记号;
握续考验阶段引入裁剪、主体初始生成和多模态清醒数据,鸿沟约 300B 记号;
监督微调阶段使用 72B 记号擢升辅导罢黜和身份一致性;
强化学习阶段选拔 Group Relative Policy Optimization(组相对战略优化),并借助 PaddleOCR 四肢奖励模子擢升笔墨渲染与图文对皆。通盘考验预算完毕在最多 128 张 GPU 内。
基准恶果久了,Lance 在和解模子中推崇杰出:
图像生成上,GenEval 总分 0.90,和 TUNA 并排前方;
尊龙凯时中国官网入口视频生成上,VBench 总分 85.11,高于 TUNA 的 84.06,也杰出 HunyuanVideo 的 83.43 和 Wan2.1-T2V 的 83.69;
图像裁剪上,GEdit-Bench 达 7.30;
视频清醒上,MVBench 达 62.0,高于 Show-o2(7B)的 55.7。
开源层面,Lance 选拔 Apache 2.0 许可,权重已在 Hugging Face 提供,推理环境条件 Python 3.10 以上、CUDA 12.4 以上和至少 40 GB 显存。
参考
(著四肢作家孤立不雅点开云数据分析,不代表艾瑞网态度)