"LLM大模型单训练集群由2023年的 千卡规模(GPT-3、Llama-2)迅速发展到 万卡规模(Llama-3)甚至 十万卡规模(xAI、GPT-5)"
"单芯片 耗电增长迅速,我们无法在同一州放置超过10万片H100进行GPT-6的训练,否则会导致 电网崩溃"
平均每100台8卡Nvidia H100算力服务器
平均每100台8卡Nvidia H100算力服务器
降低GPU核心温度: 减小液冷、空调等设备降温压力,有效 降低 数据中心整体 PUE 有效 延缓芯片老化,保障 芯片服役 末期性能 防止芯片由于温度过高而掉频、掉卡,减轻运维压力
"由16,000张H100组成的算力集群中,我们观察到平均 每天104次硬件故障 造成的中断,实际有效的训练时间只占到总时长的 70%"
"由于芯片老化造成的静默数据损坏至少造成 1000 Defective-Parts-Per-Million (DPPM),并拖慢计算速度及增加功耗"
芯片多信道数据收集及模型构建:
为算力芯片的健康状态在全生命周期的每个环节构建统一的语言(评测标准)。实时采集芯片多信道数据,并结合特征工程,构建多种算法模型检测异常,提供健康评分。 实时采集芯片多信道数据(如访存时延、带宽占用率、计算核心利用率、功耗、核心电压、核心温度等),并通过具有专利的物理仿真模型构建∆Vth等推演参数,共19个参数 基于EM-GMM、孤立森林、Autoencoder等实现异常检测; 构建结合能耗、性能及计算可靠性的评分系统,实时对计算节点芯片评分。 利用时序数据对芯片健康模型进行实时微调,有效解决数据偏移(data-drift)等问题; 通过添加标签样本进行半监督学习,有效提升故障预测准确率。
通过构建特殊的指令级测试用例激发算力芯片的高利用率,并且满足翻转率(switching activity)等要求;
动态捕捉待检测芯片的多信道数据,通过芯片健康模型对芯片的运行时间序列进行健康度评定; 健康度评定反映了算力芯片部署后的MTTF、MTBF及能耗表现等指标; 全面支持各种算力芯片核心架构,评估模型可根据AI训练、推理、高性能计算等不同任务场景灵活调整,保证评测结果的实用性和泛化能力; 输出结构化的健康评测报告,作为算力资产交易、运维、残值评估的重要依据,推动算力基础设施资产的透明化与标准化建设。
负载感知:结合芯片利用率(Utilization)、eBPF技术和侧信道监测,精准捕捉应用特征;
健康状态感知:基于芯片健康模型,动态监测并推断计算节点的健康度及最佳运行状态; 芯片&集群配置寻优:利用DVFS、AVS等技术结合多种算法模型,对芯片实时调优,并基于芯片健康度优化集群调度,确保每个芯片节点稳定可靠运行。
创始团队目前已获授权 5+项芯片老化预测、安全可靠性提升及项芯片时延等多信道数据监测相关发明专利
立即联系