智算底座管理平台

解决方案

芯片耗电

芯片耗电"触目惊心"

"LLM大模型单训练集群由2023年的 千卡规模(GPT-3、Llama-2)迅速发展到 万卡规模(Llama-3)甚至 十万卡规模(xAI、GPT-5)"

—— OpenAI, Meta, xAI, 2024

"单芯片 耗电增长迅速,我们无法在同一州放置超过10万片H100进行GPT-6的训练,否则会导致 电网崩溃"

—— Kyle Corbitt with Microsoft, 2024

因此我们平台的优势

BDS-GO: 芯片能耗降低

平均每100台8卡Nvidia H100算力服务器

¥100w-¥160w
每年可节约电费
712.5吨
减少碳排放

平均每100台8卡Nvidia H100算力服务器

¥60w-¥110w
每年可节约电费
427.5吨-783.8吨
减少碳排放
因此我们平台的优势
18%
基于芯片健康状态分析的常规模式平均
32%+
叠加基于侧信道分析的Boost模式平均
BDS-GO: 核心温度降低

BDS-GO: 核心温度降低

降低GPU核心温度: 减小液冷、空调等设备降温压力,有效 降低 数据中心整体 PUE 有效 延缓芯片老化,保障 芯片服役 末期性能 防止芯片由于温度过高而掉频、掉卡,减轻运维压力

计算可靠"惨不忍睹"

"由16,000张H100组成的算力集群中,我们观察到平均 每天104次硬件故障 造成的中断,实际有效的训练时间只占到总时长的 70%"

—— Revisiting Reliability in Large-Scale Machine Learning Research Clusters, Meta, 2024

"由于芯片老化造成的静默数据损坏至少造成 1000 Defective-Parts-Per-Million (DPPM),并拖慢计算速度及增加功耗"

—— Cores that Don't Count, Google, 2021

计算可靠
因此我们芯片的优势

因此我们芯片的优势

芯片健康模型

展开/收起

芯片多信道数据收集及模型构建:

为算力芯片的健康状态在全生命周期的每个环节构建统一的语言(评测标准)。实时采集芯片多信道数据,并结合特征工程,构建多种算法模型检测异常,提供健康评分。 实时采集芯片多信道数据(如访存时延、带宽占用率、计算核心利用率、功耗、核心电压、核心温度等),并通过具有专利的物理仿真模型构建∆Vth等推演参数,共19个参数 基于EM-GMM、孤立森林、Autoencoder等实现异常检测; 构建结合能耗、性能及计算可靠性的评分系统,实时对计算节点芯片评分。 利用时序数据对芯片健康模型进行实时微调,有效解决数据偏移(data-drift)等问题; 通过添加标签样本进行半监督学习,有效提升故障预测准确率。

指令级可靠性评测

展开/收起

通过构建特殊的指令级测试用例激发算力芯片的高利用率,并且满足翻转率(switching activity)等要求;

动态捕捉待检测芯片的多信道数据,通过芯片健康模型对芯片的运行时间序列进行健康度评定; 健康度评定反映了算力芯片部署后的MTTF、MTBF及能耗表现等指标; 全面支持各种算力芯片核心架构,评估模型可根据AI训练、推理、高性能计算等不同任务场景灵活调整,保证评测结果的实用性和泛化能力; 输出结构化的健康评测报告,作为算力资产交易、运维、残值评估的重要依据,推动算力基础设施资产的透明化与标准化建设。

基于AI的实时芯片参数调优

展开/收起

负载感知:结合芯片利用率(Utilization)、eBPF技术和侧信道监测,精准捕捉应用特征;

健康状态感知:基于芯片健康模型,动态监测并推断计算节点的健康度及最佳运行状态; 芯片&集群配置寻优:利用DVFS、AVS等技术结合多种算法模型,对芯片实时调优,并基于芯片健康度优化集群调度,确保每个芯片节点稳定可靠运行。

创始团队目前已获授权 5+项芯片老化预测、安全可靠性提升及项芯片时延等多信道数据监测相关发明专利

立即联系