开云数据分析 “拼好模”：字节向上开源轻量原生和解多模态 AI 模子 Lance

来源：未知作者：admin 时间：2026-05-26 13:03 浏览：137

导语：字节向上最新发布开源多模态模子 Lance，激活参数目只消 3B，是一款原生和解的图像、视频多模态模子。

IT 之家 5 月 22 日音信，字节向上最新发布开源多模态模子 Lance，激活参数目只消 3B，是一款原生和解的图像、视频多模态模子。

与把"清醒"和"生成"拆成多个模块再拼接的常见决策不同，Lance 从考验起就把图像清醒、视频清醒、图像生成、视频生成和跨模态裁剪放进并吞体系，盘算是让 1 个模子同期处理 X2T、X2I、X2V 3 类输出任务。

IT 之家征引论文实质，清醒任务依赖与言语对皆精采的高层语义特征；生成任务则需要保留纹理、几何结构和时序动态的低层研讨示意，而 Lance 则兼顾和均衡这两种相背的需求。

Lance 为此选拔分享高下文和才智解耦并行的想象：通盘文本、图像、视频输入先转成和解交错序列，再交给双流群众架构分辨别真清醒与生成。

在具体结构上，文本记号来自 Qwen2.5-VL 镶嵌层；偏清醒的视觉输入由 Qwen2.5-VL 的 ViT 编码器索要语义视觉记号。

偏生成的视觉输入则由 Wan2.2 的 3D 因果 VAE 编码成研讨潜在示意，含 16 × 空间下采样和 4 × 工夫下采样。

随后，模子在好意思满高下文上使用广义 3D 因果留神力，文本选拔因果留神力，视觉记号选拔双向留神力。

Lance 还引入了 MaPE，即 Modality-Aware Rotary Positional Encoding（模态感知旋转位置编码）。

它通过给不同模态组添加固定工夫偏移，不阻滞图像和视频里面的空间结构与工夫端正的前提下，2026世界杯赛程104场比赛搞定并吞序列中多类视觉记号界限沾污的问题。

考验方面，Lance 分 4 个阶段鼓励：

预考验阶段使用约 1B 图文对和 140M 视频文本对，猜测 1.5T 记号；

握续考验阶段引入裁剪、主体初始生成和多模态清醒数据，鸿沟约 300B 记号；

监督微调阶段使用 72B 记号擢升辅导罢黜和身份一致性；

强化学习阶段选拔 Group Relative Policy Optimization（组相对战略优化），并借助 PaddleOCR 四肢奖励模子擢升笔墨渲染与图文对皆。通盘考验预算完毕在最多 128 张 GPU 内。

基准恶果久了，Lance 在和解模子中推崇杰出：

图像生成上，GenEval 总分 0.90，和 TUNA 并排前方；

尊龙凯时中国官网入口

视频生成上，VBench 总分 85.11，高于 TUNA 的 84.06，也杰出 HunyuanVideo 的 83.43 和 Wan2.1-T2V 的 83.69；

图像裁剪上，GEdit-Bench 达 7.30；

视频清醒上，MVBench 达 62.0，高于 Show-o2（7B）的 55.7。

开源层面，Lance 选拔 Apache 2.0 许可，权重已在 Hugging Face 提供，推理环境条件 Python 3.10 以上、CUDA 12.4 以上和至少 40 GB 显存。

参考

（著四肢作家孤立不雅点开云数据分析，不代表艾瑞网态度）