IT之家消息,JetBrains 昨日(6 月 1 日)发布博文,宣布开源 Mellum2 模型,这是面向软件工程系统的新机器学习模型。

官方表示相比原版 Mellum,它从代码补全模型升级为完整编码助手,并把上下文窗口从 8192 Token 扩到 131072 Token。开发者可在 Apache 2.0 许可证下部署基础版、指令版和思考版。

参数上,Mellum2 总规模为 12B,高于 Mellum 的 4B。该模型采用稀疏 Mixture-of-Experts(混合专家)框架,激活时参数量为 2.5B,在标准硬件上仍能保持较快计算。

能力方面,Mellum2 可生成和编辑代码、调用外部工具、执行多步骤 Agentic(智能体式)工作流、维持长对话。

JetBrains 将 Mellum2 定位在 AI 工作负载路由与编排、低延迟 RAG(检索增强生成)管线、复杂工作流中的快速 Sub-agent(子智能体),以及私有本地 AI 部署。

训练方面,团队称预训练阶段采用三阶段数据课程。数据混合逐步从多样化网页内容,转向精选代码和数学内容,从而让模型更贴近软件工程任务。

IT之家附上参考地址