翎华维科技自主研发 LHW-175B 稀疏混合专家大语言模型,采用 ZeRO-3 分布式训练框架 在 512 块 A100 GPU 集群上完成 4.2T tokens 预训练,配合 RLHF 对齐与多阶段指令微调, 实现工业级推理精度与亚 50ms 端侧延迟的双重突破。
覆盖软件开发、人工智能、工业机器人、医疗器械等多个核心领域, 为客户提供端到端的数智化转型支撑。
从模型训练到端侧推理,全链路自研,关键技术指标行业领先,覆盖 AGI 核心能力基准。
从预训练架构到推理优化,全链路核心参数公开,接受同行评审与基准复现
| 基础架构 | Transformer Decoder-Only MoE 变体 |
| 总参数量 | 175.4B · 激活参数 22B · 稀疏率 12.6% |
| 注意力机制 | GQA · 96 heads · d_model = 12,288 |
| 前馈网络 | FFN dim = 49,152 · SwiGLU 激活函数 |
| 混合专家 MoE | 64 Experts · Top-8 路由 · 负载均衡辅助损失 |
| 上下文窗口 | 128K tokens · RoPE 位置编码 θ = 500,000 |
| 词汇表 | 152,064 tokens · BPE 分词 · 多语言覆盖 |
| 训练数据量 | 4.2T tokens · MinHash LSH 去重 · 质量过滤 |
| 训练总算力 | 3.14 × 10²³ FLOPS · FP16 混合精度 |
| 对齐训练 | PPO + DPO 二阶段 · KL约束 β=0.02 · 3,200 轮 |
| 量化支持 | FP16 / INT8 / INT4 混合量化 · GPTQ / AWQ |
| 推理框架 | vLLM 0.6.3 · TensorRT-LLM 0.12 · 连续批处理 |
| 蒸馏版本 | LHW-7B · 4:1 压缩 · NPU 离线推理 <15W |
无论您有业务咨询、合作意向还是其他需求,我们的团队将在第一时间为您响应。