数据中心智能运维技术探索与应用

渔池IDC资源网 行业动态 2025-05-15 6

摘要:石油行业作为高技术、高投入和高风险的行业,正面临着勘探开发难度加大、成本上升和环境压力增加等多重挑战。在人工智能和新质生产力的飞速发展背景下,亟须通过数字化转型和智能化发展实现降本增效和高质量发展。石油在勘探开发和生产过程中,产生了大量的基础资料和研究数据,这些海量数据的存储、管理、处理、分析和应用...

 数据中心现状

数据中心是石油企业的核心基础设施,里面包括了服务器、存储、交换机、防火墙等IT设备设施。随着数据中心规模的扩大与业务承载量大幅度的增加,传统的运维管理方式已不能满足数据中心高可用性和风险管控需求,表现在如下方面。

(1)资产管理方面,企业的IT资产类型较多,设备品牌多样,如服务器具有浪潮、华为和戴尔等多种品牌,并且部分IT资产采用线下管理,设备的出库、维修、归还和报废等管理较混乱,没有统一精细化管理,未进行全生命周期线上管理。各类IT设备资产数据分散在不同的平台中,数据查找和统计困难低效。

(2)安全管控能力方面,数据中心的环境安全主要依靠人工巡检,安全问题发现滞后、效率低。运维人员在查看IT设备运行状态时,需要登录不同的设备管理平台查看设备运行参数,基本是一设备一平台,运维工作量大,没有做到集中监控,问题发现比较滞后,处置响应效率低,很多时候都是用户比运维人员先发现问题,造成用户体验差,甚至影响科研生产工作。

(3)运维效率方面,数据备份和服务启停等日常运维工作的自动化水平不高,缺乏自动化的运维手段。在数据中心的运行过程中,机房管理无论是环境监测还是变配电系统监测,还停留在对数据和信息的推送以及历史数据的查看与分析上,未实现智能化的运维管理,也缺乏自动化的管理流程。由于机房里面的物理硬件设备种类较多,而且包含着海量的数据资产,还需要运维人员不断对数据录入,缺乏自动化的管控手段,工作量较大,效率低,需要较多人力资源投入。

(4)知识管理方面,现在各种资料文档和知识分散在不同员工的计算机里,没有统一的管理平台,而且不同的系统由不同的人负责,在出现突发事故时需要找不同的人进行资料的查找,故障的判断排查困难。同时数据中心运维人员存在频繁更换问题,新来的运维人员并不能快速了解数据中心以前的运维记录,对于历史故障的查询缓慢。因此,在数据中心的运维管理中,需要及时建立知识库,满足对历史故障的查询,做好相应的记录,为后续故障排除提供支持。

各种业务应用场景以及设备多样性、系统复杂性、故障定位精准性、问题处理时效性、数据统计概括性、预判前瞻性、分析智能化等,都将对数据中心运维提出更高的要求。数据中心运维管理需要逐步从碎片化、孤岛化、人工化的传统管理模式,向系统化、标准化、自动化、智能化的统一运维管理平台转变。

平台架构设计

智能运维平台总体架构设计分为四层,一是数据采集层:对IT资产进行登记,开展全生命周期管理,包括了资产的出入库、变更、维修、保养和报废等流程;二是数据接入层:采用通用的SNMP和Syslog等方式对设备的运行参数、告警数据和日志数据进行自动化采集,并将其存储在国产人大金产数据库中;三是数据分析层:对采集的设备数据,按照业务需求自动生成报表并将进行统计分析,采用神经网络等人工智能算法进行数据挖掘;四是应用层:实现数据中心环境安全监控、设备动态监控、故障预警、统计报表等[4]。

 智能化运维

 3.1 资产统一管理

数据中心IT资产的统一集中管理是智能运维的基础,运维工作都是围绕IT资产对象开展的,如巡检、维修和监控等。通过建立统一的管理平台,企业可以实现信息资产的集中存储、管理和分析,为业务决策提供数据支持,推动业务创新发展。数据中心IT资产全生命周期管理包括购置、上架、维修、保养、报废等流程,设备生命历程每一步都有记录,可追溯,以提升合规化和标准化管理水平。通过IT资产统一集中管理,可以从全局的视角掌握所有资产的状态和使用情况,能够更加精准地进行资源配置和规划,避免资源浪费和低效使用问题。  

3.2 设备集中监控

3.2.1 可视化建模通过将数据中心框架以及内部设备设施以三维立体的方式呈现出来,可以帮助运维人员更直观地掌握数据中心的运行状况,快速发现和解决问题,从而提高数据中心的可靠性和安全性。按照数据中心实际比例进行3D建模,粒度到机柜U级,同时以不同颜色实时展现报警数据。平台可以机柜为单位进行数据中心容量管理,形象展示机房和机柜的空间容量整体使用情况,帮助运维人员高效管理机房的容量资源,让机房资源的负荷更加均衡,提升资源使用效率。平台提供资产关键字和负责人搜索功能,能够快速定位设备的物理空间位置,准确显示设备所处的位置与信息,同时可查看设备运行状况并展示相关信息。

3.2.2 运行状态监控通过对数据中心的IT基础设施(服务器、存储、网络设备和安全设备等)、动环设备(动力和环境设备)和安防设备(摄像头、烟感、水浸和门禁设备)进行动态数据采集、处理和实时监测,可对设备运行异常(故障、过载和过温等现象)进行实时预警告警,并提供设备观测视角调整、设备显隐控制等多种交互支持,实现集中统一监控。通过共享设备间信息资源,以及设备的全方位监控覆盖,不同管理者可快速获取所需的相关信息,将运维人员工作中所关注设备的数据信息以图形化方式展示,清晰明了,可查看具体设备的型号参数、运行状态、数据链路,如数据中心的温度、湿度和烟感等信息[5]。

3.2.3 网络监控通过网络拓扑图或链路图的方式,对数据中心的网络状态、数据传输情况和告警事件等信息进行直观呈现,同时结合多维度数据分析看板,可对数据中心数据链路流量、网络性能和告警统计等数据进行多维度监测分析,辅助网络管理人员实时掌控跨地域数据中心运行情况,快速识别异常情况。

 3.3 智能化统计

(1)统计分析,提供IT资产的查询、统计报表、自动生成使用情况报告。系统可按管理需求进行多种维度资产统计,如按品牌统计、按部门统计等方式生成报表,改变了以往手动统计困难和低效的模式。同时,运维人员可以根据不同的关注点和时间段,将所关注的各种类型的资源项以及指标项灵活添加至报表内容中。系统支持当日性能分析、指定时段分析,方便运维人员很直观地查看当前运行情况。

(2)智能巡检,自动生成巡检报告。智能巡检可根据日常的巡检内容进行个性化设置,在指定时间点对核心关注内容进行扫描记录。根据预设的要求进行数据采集,以设备运行的规范标准值为依据,分析判断设备运行状态是否正常;进行定期巡检,对系统监控巡查的整体进行评价和备注说明,以报表的形式直观反映巡检结果。解决了传统的纸张巡检签到、巡检信息不全、巡检报表乱写等问题。运维人员可综合利用设备状态、运行性能、使用情况,制定优化资产调配策略。  

3.4 智能运维机器人

3.4.1 智能问答运维过程中会积累大量的经验与知识,可为后续故障处理提供支持。同时企业拥有海量的文档资源,包括运维文档、应急手册、产品手册、排障手册、维修记录和管理制度等,这些文档通常以PDF、Word、PPT等格式存在,但是利用率和共享率低,存在巨大挖掘价值和空间。通过采用大模型+LangChain技术构建通用+分公司专属知识双基座大模型问答系统,根据文档中的内容和知识进行统一的大模型训练,采用推理功能挖掘运维数据中的潜在知识,进而实现快速精准的问答交互。通过IT设备、软件、网络等的日志和告警信息,结合常见的、重点的故障场景,构建故障预警知识图谱;通过将故障案例和标准规范等资料构建运维专家知识库,面对新的运维场景,采用自然语言生成技术,将知识库内容转化为有效的解决方案,提升运维效率。

3.4.2 自动执行传统的Linux系统运维通常需要依靠命令行来操作,对运维人员的技能水平要求较高,需要运维人员熟练掌握复杂的Linux命令才能完成,并且工作流程烦琐,容易出错。基于大模型智能体Agent技术,能对运维人员输入的命令进行思考和规划,然后调用相应的工具执行、评估运行结果,最终将重复性、规律性和周期性的大量日常运维工作转化为自动化执行,实现运维工作在统一的智能运维平台一键式处理,极大地提升了运维效率。

4 结束语

数据中心智能运维管理平台为运维人员提供了智能运维手段,可对数据中心环境安全状况和软硬件运行状态进行统一监控,智能推荐故障解决方案,为整个数据中心的平稳运行提供保障。同时平台提升了数据中心基础设施安全管控能力和运维效率,为企业新质生产力发展提供了强有力支撑。

相关推荐

评论列表
关闭

用微信“扫一扫”