智算底座管理平台

芯片耗电"触目惊心"

"LLM大模型单训练集群由2023年的千卡规模（GPT-3、Llama-2）迅速发展到万卡规模（Llama-3）甚至十万卡规模（xAI、GPT-5）"

—— OpenAI, Meta, xAI, 2024

"单芯片耗电增长迅速，我们无法在同一州放置超过10万片H100进行GPT-6的训练，否则会导致电网崩溃"

—— Kyle Corbitt with Microsoft, 2024

因此我们平台的优势

BDS-GO: 芯片能耗降低

平均每100台8卡Nvidia H100算力服务器

￥100w-￥160w

每年可节约电费

712.5吨

减少碳排放

平均每100台8卡Nvidia H100算力服务器

￥60w-￥110w

每年可节约电费

427.5吨-783.8吨

减少碳排放

18%

基于芯片健康状态分析的常规模式平均

32%+

叠加基于侧信道分析的Boost模式平均

BDS-GO: 核心温度降低

降低GPU核心温度：减小液冷、空调等设备降温压力，有效降低数据中心整体 PUE 有效延缓芯片老化，保障芯片服役末期性能防止芯片由于温度过高而掉频、掉卡，减轻运维压力

计算可靠"惨不忍睹"

"由16,000张H100组成的算力集群中，我们观察到平均每天104次硬件故障造成的中断，实际有效的训练时间只占到总时长的 70%"

—— Revisiting Reliability in Large-Scale Machine Learning Research Clusters, Meta, 2024

"由于芯片老化造成的静默数据损坏至少造成 1000 Defective-Parts-Per-Million (DPPM)，并拖慢计算速度及增加功耗"

—— Cores that Don't Count, Google, 2021

因此我们芯片的优势

芯片健康模型

芯片多信道数据收集及模型构建：

为算力芯片的健康状态在全生命周期的每个环节构建统一的语言（评测标准）。实时采集芯片多信道数据，并结合特征工程，构建多种算法模型检测异常，提供健康评分。实时采集芯片多信道数据（如访存时延、带宽占用率、计算核心利用率、功耗、核心电压、核心温度等），并通过具有专利的物理仿真模型构建∆Vth等推演参数，共19个参数基于EM-GMM、孤立森林、Autoencoder等实现异常检测；构建结合能耗、性能及计算可靠性的评分系统，实时对计算节点芯片评分。利用时序数据对芯片健康模型进行实时微调，有效解决数据偏移（data-drift）等问题；通过添加标签样本进行半监督学习，有效提升故障预测准确率。

指令级可靠性评测

通过构建特殊的指令级测试用例激发算力芯片的高利用率，并且满足翻转率（switching activity）等要求；

动态捕捉待检测芯片的多信道数据，通过芯片健康模型对芯片的运行时间序列进行健康度评定；健康度评定反映了算力芯片部署后的MTTF、MTBF及能耗表现等指标；全面支持各种算力芯片核心架构，评估模型可根据AI训练、推理、高性能计算等不同任务场景灵活调整，保证评测结果的实用性和泛化能力；输出结构化的健康评测报告，作为算力资产交易、运维、残值评估的重要依据，推动算力基础设施资产的透明化与标准化建设。

基于AI的实时芯片参数调优

负载感知：结合芯片利用率（Utilization）、eBPF技术和侧信道监测，精准捕捉应用特征；

健康状态感知：基于芯片健康模型，动态监测并推断计算节点的健康度及最佳运行状态；芯片&集群配置寻优：利用DVFS、AVS等技术结合多种算法模型，对芯片实时调优，并基于芯片健康度优化集群调度，确保每个芯片节点稳定可靠运行。