
会议主题:【20250519】hardware-sig组例会 发起人: changxingOpenUBMC 会议时间:2025-05-19 16:00-18:00 会议平台: WELINK 会议ID: 988826929 会议链接:https://meeting.huaweicloud.com:36443/#/j/988826929 Etherpad链接:https://etherpad.openubmc.cn/p/sig-hardware 【20250519】本次例会新增遗留问题: 1、hardware-sig组织新增固定与会人,需要在TC申报议题评审,后续也是部件厂商也需要加入; 2、规划的例行事务需要系统性、对伙伴有帮助,需要与伙伴讨论固定议题,先按已有议题运作,并后续组织会议讨论; 3、针对社区交付规则、开发流程、培训归档,确认当前是否有机制保证,后续怎么运作,归档路径确认,开发指导如何承载; 4、收集伙伴兴趣组件,用于后续安排功能集建设和贡献; 5、下周pcie_device培训安排; 【议题1】议题名称:产品CSR仓新增AirCoolingConfig对象 申报人: 宋殿鹏 申报日期: 2025/5/19 涉及组件名: 产品CSR仓 议题背景: 当前调速逻辑均在闭源组件,当前开源社区不支持基础调速能力,为满足社区诉求,将基础调速能力从闭源组件挪到thermal_mgmt组件 当前散热通用对象仅在风冷机型才有配置,该对象仅支持风冷或风液混合调速的机型,若是纯液冷调速的机型,则不存在该对象,会丢失调速通用配置能力 CoolingConfig包含了散热通用的配置和风冷调速配置(风冷机型配置) LiquidCoolingConfig包含了液冷调速配置(液冷机型配置) 在开源组件thermal_mgmt中新增风冷调速配置资源树路径、接口及属性,即AirCoolingConfig 【评审结论】:评审通过,按照新增属性配置到soft.sr里面,验证后找硬件同事合入 【议题2】议题名称:产品CSR仓 新增ThermalSubsystem对象 申报人: 宋殿鹏 申报日期: 2025/5/19 涉及组件名: 产品CSR仓 议题背景: 支持能效裁剪场景下的兼容 在开源组件thermal_mgmt中新增资源树属性用于获取散热组件总功耗,即ThermalSubsystem下的TotalPowerWatts属性 【评审结论】:暂不通过 【遗留问题】: 1、需确认TotalPowerWatts属性是否需要两个组件同时使用,是否业务未拆分彻底; 2、如果一定需要两个组件使用,修改为同步语法,无需重新写一遍复杂的公式计算; 【议题3】议题名称:产品CSR仓 EnergyMetric对象下新增MinPowerWatts、MaxPowerWatts属性 申报人: 宋殿鹏 申报日期: 2025/5/19 涉及组件名: 产品CSR仓 议题背景: Chassis资源支持redfish新标准,需在北向/redfish/v1/Chassis/{ChassisId}下新增MinPowerWatts、MaxPowerWatts属性,这两个属性分别代表服务器运行的功耗下限和上限,来源为PSR 【评审结论】:评审通过,申报周二晚上硬件PC评审 【议题4】议题名称:redfish文档中/redfish/v1/systems/{systemid}/Bios接口下的BIOS属性列表改为由Bios维护 申报人: 曾启健 申报日期: 2025/5/19 涉及组件名: Bios 议题背景:/redfish/v1/systems/{systemid}/Bios接口下的BIOS属性是带内bios上报上来,bmc侧将上报上来的属性和对应的值展示出来,取值都是由带内bios决定的,这些配置项由带内bios看护,非bmc配置 【评审结论】: 1、文档准确性需要BMC负责; 2、BIOS也会正式发布文档; 3、BMC看护文档可以引入BIOS正式发布的文档; 【议题5】议题名称:组织评审-关于 hardware-SIG 增加伙伴固定与会人名单评审 申报人:常德兴 申报日期::2025/5/19 议题背景:社区是华为与伙伴共建共享,因此需要伙伴的专家加入进来,共同提升整改hardware-sig组件的影响力和贡献; 评审点:建议新增伙伴固定与会人名单: 1、昆仑陆小木、林帧 2、长江 黄宇轩 3、神码 王加凯 、范春阳 4、宝德 邱豪 5、华鲲 杨波 张强 黄粱 6、同方 唐昌平 7、百敖 蒋超 8、华启 邱明 9、百信 欧阳勇刚 10、五舟 黄敏才 11、金舟远航 彭爽 【评审结论】:评审通过 1、TC申报议题评审,部件厂商也需要加入; 2、规划的例行事务需要系统性、对伙伴有帮助,与伙伴讨论固定议题,先按已有议题运作,并后续组织会议讨论; 【例行议题1】社区组件主要合入同步及问题单issue审视 【责任人】范滔、李东辉、毛宇浩、汪航、黄嘉培 (1)thermal_mgmt合入情况: 1. 支持持久化的风扇模式:https://gitcode.com/openUBMC/thermal_mgmt/pull/6 描述:需提供一个RPC方法用于设置风扇手自动模式和持久化类型,并且 1. 默认模式为自动模式; 2. 该模式支持持久化和非持久化,持久化指AC/BMC重启都持久化; 3. 当风扇调速模式设置为手动模式时,如果当前还未设置过风扇转速,则以当前自动转速作为手动转速,并且手动模式持久化时需要将设置的转速也持久化; 2. 优化资源树监听:https://gitcode.com/openUBMC/thermal_mgmt/pull/7 描述:满足energy进程在服务器启动前10分钟,接收信号小于5000 当前框架针对资源树信号监听需指定路径path,否则会导致在组件拉起时,未指定path会接收整个/bmc下的所有信号,导致CPU利用率过高。因此,在资源树监听时,需整改对指定路径的监听,即监听时使用with_path_namespace(self.path) 3. 修改GetCoolingMode方法返回值为实际设置值: https://gitcode.com/openUBMC/thermal_mgmt/pull/8 https://gitcode.com/openUBMC/thermal_mgmt/pull/9 来源:【能效管理】风扇设置不同的模式,用raw 0x30 0x92 0xDB 0x07 0x00 0x1查风扇模式,查出来一直都是high(高性能模式) 描述:V2中查询风扇散热模式IPMI接口的返回值固定为2(包括节能模式、低噪模式、高性能模式、自定义模式、液冷模式,2表示中转速风扇速率),与实际设置值不一致。 该IPMI命令为:ipmitool raw 0x30 0x92 0xdb 0x07 0x00 0x14 0x01,与BIOS确认,该IPMI命令用于x86服务器BIOS菜单查询显示,且BIOS V678及以上版本不支持此参数。即当前该命令在新版本BIOS中不涉及使用。经subpc评审,V2保持现状不变,V3查询返回值按照实际设置结果进行返回 4. 更新自动生成代码内容 :https://gitcode.com/openUBMC/thermal_mgmt/pull/10 新增资源树属性自动生成时发现很久未更新自动生成代码,导致自动生成代码过多,因此单独生成一次进行合入 5. 新增ThermalSubsystem.Metrics对象管理:https://gitcode.com/openUBMC/thermal_mgmt/pull/11 描述:新增ThermalSubsystem对象,包括属性:TotalPowerWatts(散热器件总功耗),EnergyConsumptionkWh(累计耗电量),ResetTime(累计耗电量开始统计时间),方法:ResetMetrics(重置累计耗电量和统计时间) (2)power_mgmt合入情况: 1. 电源ScanStatus属性质量加固:https://gitcode.com/openUBMC/power_mgmt/pull/7 描述: 1. 整机功耗依赖电源功耗ScanStatus属性,若ScanStatus属性未及时刷新,电源状态扫描异常时,整机功耗值不再刷新,若一直保持高功耗值状态,会导致CPU降频。因此需对ScanStatus进行状态扫描并实施刷新功耗值; 2. 电源功耗获取未做CRC校验,概率性获取高功耗异常值,整机功耗高于封顶值时,导致CPU降频。 2. 添加电源效率转换曲线: https://gitcode.com/openUBMC/power_mgmt/pull/8 https://gitcode.com/openUBMC/power_mgmt/pull/9 https://gitcode.com/openUBMC/power_mgmt/pull/10 描述:提供资源树接口用于查询不同电源的效率曲线 issue详情:见具体excel表格 (3)chassis 合入情况:无 (4)general_hardware 合入情况: 需求: 1、支持CSR故障恢复能力 2、支持FPGA固件周期自检失败的告警 3、支持DPU网卡启动完成标识记录 4、支持升级接口扩展 问题修复: 1,、mcu升级未置位升级标志 遗留问题: 1、支持升级接口扩展,社区新需求不能变更历史接口; 2、平台SDK(330)+ 社区最新代码,是否存在该使用场景,测试策略如何制定; 3、QA-sig报议题(杨威、刘宇杰),交付过程中的强依赖组件的测试; 4、社区组件要识别是否对平台有强依赖,同步给测试进行测试覆盖; (5)network_adapter合入情况: 需求: 1、支持设备树机制:网口、光模块相关代码合并 2、ncsi边带功能重构:新增6条相关命令 问题修复:无 (6)bios合入情况: 1、问题修复: a)增强可定位性,读取flash失败情况下打印系统错误码 2、issue: 共18个issue,共9个需求,9个问题单,目前是按照6月初完成闭环 (7)pcie合入情况:共5个issue,共5个需求,目前是按照6月初完成闭环 (8)lsw合入情况:无 (9)manufacture合入情况:无 (10)storage合入情况: 待处理issue: 【问题单】ipmi命令设置存储配置里面大部分功能响应体误填多余数据-未处理-预期完成时间2025-6-10 【问题单】Raid控制器信息日志在无Raid卡情况下无法生成-----------未处理-预期完成时间2025-5-23 【问题单】ipmi获取raid卡控制器配置信息命令执行失败-------------已处理,issue未关闭 【问题单】ipmi设置fault灯失败----------------------------------已处理,issue未关闭 storage合入情况: 需求: 支持GetIdentifyData SendNvmeMICommand rpc方法 优化nvme目录结构 支持GetSmartInfo rpc方法 支持一键收集日志导出1880Raid卡固件日志 问题修复: hwproxy调用超时不记录断链(release分支) 【例行议题2】hardware下各组件培训诉求收集及安排 1、针对最近社区的诉求,建议下周安排一期pcie_device组件的相关培训,培训安排如下: 会议主题:pcie_device组件业务培训 会议详情: 讲解pcie_device组件相关业务,讲师:王祝炜 发起人: changxingOpenUBMC 会议时间:2025-05-30 11:00-12:00 会议平台: WELINK 会议ID: 962015316 会议链接:https://meeting.huaweicloud.com:36443/#/j/962015316 Etherpad链接:https://etherpad.openubmc.cn/p/sig-hardware 【例行议题3】社区交付规则、开发流程、培训归档 1、交付流程:方案评审、详设评审、代码开发(包括DT用例)、PR检视上库、交付件归档 2、交付件:详设文档、自验报告,如何归档 【遗留问题】:确认当前是否有机制保证,后续怎么运作,归档路径确认,开发指导如何承载;