运维部述职报告7篇
运维工程师对一个公司来说是非常重要的岗位,它本身所覆盖的运维职责就很重要,所以,运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等。作为一个运维工程师我认为是集合网络、系统、开发工作于一身的“复合型人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。
一.运维工程师岗位职责
1、参与设计、审核、优化公司IT系统以及各应用系统的体系架构;
2、全面负责公司运维项目的系统升级、扩容需求与资源落实,配合开发需求,测试、调整运维平台;
3、负责网络以及服务器的网络设置、维护和优化、网络的安全监控、系统性能管理和优化、网络性能管理和优化;
4、建立面向开发部门,业务部门的服务流程和服务标准;
5、负责IT运维相关流程的规划、设计、推行、实施和持续改进;
6、响应及解决客户的技术要求、疑问以及系统使用过程中遇到的各种问题;
7、负责日常网络及各子系统管理维护。
8、负责设计并部署相关应用平台,并提出平台的实施、运行报告。
9、负责配合开发搭建测试平台,协助开发设计、推行、实施和持续改进。
10、负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告。
11、负责网络监控和应急反应,以确保网络系统有7*24小时的持续运作能力。
12、负责日常系统维护,及监控,提供IT软硬件方面的服务和支持,保证系统的稳定。
13、负责服务过程中问题现象和处理方案的收集撰写,形成知识库,并对知识库进行维护更 新;
14、及时反馈技术处理过程中的异常情况,及时向部门负责人、服务开发PM、客户经理等相关人员报警;同时,主动协调资源推动问题解决;
15、定期对所有服务问题进行分析,并对服务效率有影响的问题提供反馈意见,提升服务支持团队专业度;
二. 怎样才算是一个合格的运维工程师
1、保证服务达到要求的线上标准,如%;保证线上稳定,这是运维工程师的基本责职所在。
2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。
3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。
4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。
5、运维知识的积累与沉淀、文档的完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。
6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。
7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。 以上只是技术上的一些层面,当然个人意识也是很重要的。
三.运维管理注意事项
1、配置管理
(1)it资产配置管理:对it资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;
(2)建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率;
(3)it系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;将配置文档上传至服务器端,方便团队其他运维人员进行查看和操作。
2、监控
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
(1)、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端web server,我们就可以有很多种类型的监控,像zabbix,nagios,cacti等监控程序。
(2)、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。
3、故障管理
(1)、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
(2)、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。
4、问题管理
对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。
5、安全管理
(1)、操作人员随时监控中心设备运行状况,发现异常情况应立即按照应急预案规程进行操作,并及时上报和详细记录。
(2)、未经批准,不得在机房设备上随意编写、修改、更换各类软件系统及更改设备参数配置;
(3)、服务器系统的维护、增删、配置的更改,必须按规定详细记入相关记录,并对各类记录和档案整理存档。
(4)、机房工作人员应恪守保密制度,不得擅自泄露信息资料与数据。
(5)、严禁在机房计算机设备上做与工作无关的事情(如聊天、玩游戏),对外来存储设备(如U盘、移动硬盘等),做到先杀病毒后使用。
(6)、机房严禁乱拉接电源,应不定期对机房内设置的消防器材、烟雾报警、恒温设备进行检查,保障机房安全。
6、自动化运维
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如20xx台,可能需要10人/10天,搞烂N张光盘,人力成本更大,而现在通过自动化工具,只需几个简单命令就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等,这些好处非常明显不再多说,
资料共享平台
应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。
四、总结
综上所述,做一个好的运维工程师,除了具备良好的综合技能水平,还要有一个负责任的工作态度,这也是优秀运维工程师具备的素质。因为对于运维工程师而言,每一次故障的发生都不是小事,很可能会影响公司线上业务的稳定性,甚至直接导致公司的经济损失,所以我认为对待工作中发生的故障以及事件要秉着一个“小事件,大处理”的原则,将发生的故障扼杀到摇篮里,慢慢地积累故障处理经验,这样当真正的大事件来临时,我们可以采取有效的措施及时应对。除了处理好发生的故障事件,我觉得运维工程师还应具备可预见性,故障随时可能发生,如何防患于未然,这将是对我们做好运维工作的一个考验。古人云:“不积跬步无以至千里,不积小流无以成江海”运维之路就是由一次次故障事件中拼接出来的,作为其中的一份子,任重而道远!
20xx年业已尾声,我部门在公司的正确领导下,认真执行公司制定的各项制度及部门制度,努力改进工作中存在的不足,并取得了一定进步,20xx年我部门总体工作特点是:运维任务基本饱和且多个项目同时进行,工作分散、繁琐,现就部门的各项工作进行一下简要总结。
ⅰ、一年工作概况
1、上半年运维任务相对轻松,根据公司和部门要求集中进行内部优化,以及对以前工作进行总结,各负责人在现有条件基础上,统筹安排,有条不紊的完成公司规定的任务指标,没有因运维任务繁多而出现混乱。
2、下半年各主要项目陆续接手,同时部门内部各人员职责基本清晰,各负其责,整个部门运行基本踏入正轨,方案、合同、资料、服务流程运行良好,同时现场服务人员能认真负责的执行公司及部门的各项规定,掌握、收集、记录现场第一手资料,完成公司交办的各项任务。
3、本年度中部门与部门间、员工与员工间,都在工作中不断的磨合,发现问题、解决问题,
各项工作并没有因此而停滞不前,经过一年时间的不断改进,对内公司各项工作渐渐运转自如,对外也赢得了相关客户的认可,一切正朝着令人欣喜的方向前进。
4、本年度人员安排如下:
5、本年度服务数据如下:
6、本年度部门收费回款如下:
7、运维和参与项目实施情况
㈠、全年部门完成运维任务:①、解决招行成都分行监控中心大屏和两河公园停车场故障与项目尾款回款两个难题;②、完成招行密押系统升级更新和其他系统运维任务;③、完成安县交通卡口及金牛公安分局等其他客户监控系统运维任务;
㈡、全年部门完成参与项目实施任务:金牛公安分局视频资源管理系统
ⅱ、但是总结本年度的工作,还有一些问题存在,有些工作亟待改进:
一、备件管理
1、备件管理在20xx年做得并不好,由于项目运维还处于成熟过程中,对运维备件要求未按照实际使用作计划,导致在运维过程中,无法对备件进行有效控制,在今后工作中要着重加强管理调度,坚持每月执行备件计划制度。针对备件需求和备件使用制定相应的领用制度,做到“谁提备件,谁负责”,坚持限额领用制度。
2、加强备件现场使用的管理力度,对送达现场的备件,及时准确地进行核实,发现问题及时上报,对备件使用量大的、有特殊要求的须经过部门负责人或分管领导审核同意。
二、服务流程管理
1、服务流程是否合理决定服务的效率,在保证质量和安全的前提下,尽可能地提高服务及时性。原则:对同时发生的运维任务,合理调配人力、物力资源,统筹安排,因地制宜,在尽可能短的时间内完成更多的工作,做到人员效应最大化。优化运维方案,通过集体讨论,优先采用能够保证服务质量要求,方案可行而成本支出较小的运维方案,目的是成本控制,同时加强现场管理,合理调配有限资源,减少浪费。
2、现场服务人员和主管负责人、后勤人员要勤于沟通,有变化及时通报,做到信息畅通,避免因沟通不及时而出现重复派工、二次报修等问题。
三、人员培训
1、技能培训:公司目前项目主要分环保、交通卡口和安防系统3大块,而运维部人员对所有项目的都还未做到详细熟悉细致了解和掌握的程度。
2、制度意识培训:运维部人员平时处理故障的情况较为繁重,在一定程度上对制度或资料填写有疏忽的现象,对资料收集整理保存以及查询带来了不便。
3、部门只做到了制度化和形式化,落实与实施的程度还不够。 ⅲ、对公司制度和管理制度的建议
iii、针对我们在维护过程中遇到的问题,我作出如下几点建议:
1、对公司的产品:现今我司自主产品基本没有,尤其是新项目,产品处于测试阶段,但这些产品已经在客户那里开始使用,所以出现问题较多,工程师都是一边学习一边维护。避免不了在客户面前向公司有关方咨询处理问题的方法,给客户留下了不好的印象;其次,是老产品的更新升级,设备运行也不稳定,造成维护量巨大,处理一个问题又出现新的问题。希望公司12在这方面得到改进。
2、配件管理:公司在配件备货方面存在较大问题,主要为相关配件公司没有配件库存,有的设备还需供应商提供;如:读卡器,摄像机等,这极大影响了服务效率,12此问题应首要解决。
3、服务流程及工作量:服务流程没有什么问题,主要是协调沟通机制还未建立起来,导致工程师不能与客户及时了解情况以及管理人员不能了解实时状态。造成不必要的催促和二次报
修。另外由于有些片区条件特殊,如其他县市区,由于离公司较远一个较为简单的任务需要派人去现场,这样就造成了一定的资源浪费和增大了服务成本,希望公司在新的一年有所考虑和改进。
4、人员培训:公司应加强人员在工作技能和公关技能方面的培训,提高人员意识和安全性、纪律性;部门拟定在12年对部门人员进行1月1次技能或理论培训,实时进行现场实际操作培训;另外部门决定在新年里对部门员工进行职称培训,力争在12年部门有1~2名项目经理,2名以上安防技术专业工程师。
ⅳ、来年工作计划
1、人员划分:
2、制度流程:
进一步细化规范部门制度和流程,最大程度优化服务结构,监督人员落实和实施,做好资料收集整理、备品备件管理。
3、系统数据;
明年公司将上业务支撑管理系统,部门将根据系统数据做详细。
it运维个人述职报告
导语:运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。下面是为你准备的it运维个人述职报告,希望对你有帮助!
运维工程师对一个公司来说是非常重要的岗位,它本身所覆盖的运维职责就很重要,所以,运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等。作为一个运维工程师我认为是集合网络、系统、开发工作于一身的“复合型人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。
一.运维工程师岗位职责
1、参与设计、审核、优化公司IT系统以及各应用系统的体系架构;
2、全面负责公司运维项目的系统升级、扩容需求与资源落实,配合开发需求,测试、调整运维平台;
3、负责网络以及服务器的网络设置、维护和优化、网络的安全监控、系统性能管理和优化、网络性能管理和优化;
4、建立面向开发部门,业务部门的服务流程和服务标准;
5、负责IT运维相关流程的规划、设计、推行、实施和持续改进;
6、响应及解决客户的技术要求、疑问以及系统使用过程中遇到的各种问题;
7、负责日常网络及各子系统管理维护。
8、负责设计并部署相关应用平台,并提出平台的实施、运行报告。
9、负责配合开发搭建测试平台,协助开发设计、推行、实施和持续改进。
10、负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告。
11、负责网络监控和应急反应,以确保网络系统有7*24小时的持续运作能力。
12、负责日常系统维护,及监控,提供IT软硬件方面的服务和支持,保证系统的稳定。
13、负责服务过程中问题现象和处理方案的收集撰写,形成知识库,并对知识库进行维护更新;
14、及时反馈技术处理过程中的异常情况,及时向部门负责人、服务开发PM、客户经理等相关人员报警;同时,主动协调资源推动问题解决;
15、定期对所有服务问题进行分析,并对服务效率有影响的问题提供反馈意见,提升服务支持团队专业度;
二.怎样才算是一个合格的运维工程师
1、保证服务达到要求的线上标准,如%;保证线上稳定,这是运维工程师的基本责职所在。
2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。
3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。
4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。
5、运维知识的积累与沉淀、文档的完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。
6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。
7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。以上只是技术上的一些层面,当然个人意识也是很重要的。
三.运维管理注意事项
1、配置管理
(1)it资产配置管理:对it资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;
(2)建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率;
(3)it系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;将配置文档上传至服务器端,方便团队其他运维人员进行查看和操作。
2、监控
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
(1)、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端webserver,我们就可以有很多种类型的监控,像zabbix,nagios,cacti等监控程序。
(2)、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。
3、故障管理
(1)、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
(2)、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。
4、问题管理
对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。
5、安全管理
(1)、操作人员随时监控中心设备运行状况,发现异常情况应立即按照应急预案规程进行操作,并及时上报和详细记录。
(2)、未经批准,不得在机房设备上随意编写、修改、更换各类软件系统及更改设备参数配置;
(3)、服务器系统的维护、增删、配置的更改,必须按规定详细记入相关记录,并对各类记录和档案整理存档。
(4)、机房工作人员应恪守保密制度,不得擅自泄露信息资料与数据。
(5)、严禁在机房计算机设备上做与工作无关的事情(如聊天、玩游戏),对外来存储设备(如U盘、移动硬盘等),做到先杀病毒后使用。
(6)、机房严禁乱拉接电源,应不定期对机房内设置的消防器材、烟雾报警、恒温设备进行检查,保障机房安全。
6、自动化运维
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如2000台,可能需要10人/10天,搞烂N张光盘,人力成本更大,而现在通过自动化工具,只需几个简单命令就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等,这些好处非常明显不再多说,资料共享平台
应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。
四、总结
综上所述,做一个好的运维工程师,除了具备良好的综合技能水平,还要有一个负责任的工作态度,这也是优秀运维工程师具备的素质。因为对于运维工程师而言,每一次故障的发生都不是小事,很可能会影响公司线上业务的稳定性,甚至直接导致公司的经济损失,所以我认为对待工作中发生的故障以及事件要秉着一个“小事件,大处理”的原则,将发生的故障扼杀到摇篮里,慢慢地积累故障处理经验,这样当真正的大事件来临时,我们可以采取有效的措施及时应对。除了处理好发生的故障事件,我觉得运维工程师还应具备可预见性,故障随时可能发生,如何防患于未然,这将是对我们做好运维工作的一个考验。古人云:“不积跬步无以至千里,不积小流无以成江海”运维之路就是由一次次故障事件中拼接出来的,作为其中的一份子,任重而道远!
述职报告
一、试用期总结
我于20XX年XX月XX日进入公司,时间一晃而过,转眼试用期已接近尾声,首先感谢公司能给我展示才能、实现自身价值的机会。这段时间是我人生中弥足珍贵的经历,也给我留下了精彩而美好的回忆。在这段时间里公司给予了我足够的支持和帮助,让我充分感受到了领导们“海纳百川”的胸襟。同时也为我有机会成为XX科技有眼公司一份子而感动高兴。
这段时间里,有领导和同事们的关怀和指导协助下,我顺利完成了自己职责范围内的工作。在工作中处处留心,多看、多思考、多学习,以较快的速度熟悉公司网络架构、设备运行情况。积极向上级领导请教、与同事们沟通,了解电话系统与网络系统协同作业诸多技术,并明确自己的工作目标,技术上加强与现场工作人员相互交流,共同学习以弥补技术上的不足之处。同时利用手上资料加深理解,向资深员工询问、学习,提高自己的技术水平。
经过半年的试用期,我认为我能够积极、主动的完成自己的工作,并在工作中能够发现问题,全面的配合领导的要求来展开工作,与同事能够很好的配合和协调。在以后的工作中我会一如继往,与人为善,在工作上力求完美,不断的提升自己的技术水平及综合素质,以期为我公司的发展尽自己一份力量。
二、试用期工作内容
1、对日常出现的网络故障、计算机故障、电话故障进行紧急排除处理。
2、杀毒软件服务器及PC端杀毒软件的日常维护安排计划与数据更新。
3、计算机周边设备(如:打印机、传真机)的维护。
4、计算机的安装、调试、安全配置、系统优化以及升级。
5、新进员工门禁权限开放以及离职员工门禁卡及权限的收回管理。
6、监控系统定期巡检,协助现场管理人员调取监控资料等。
三、待改进事项
1、提高自己的技术能力;
2、遇事多思考,减少犯错的机率。
3、由于到XX时间尚少,核心网络技术和经验都不足,处理核心机房问题不能做到得心应手。
四、下阶段工作目标与计划
1、配合好一线工作人员完成各项工作;
2、在以后的工作中,一定坚持多跑机房,敢于发现、解决和处理问题,虚心向经验丰富的老员工学习。
3、认真学习网络管理方式和方法,使自己在今后的工作中,能够更好的完成领导布置的工作和任务。
20XX年XX月XX日
我于20xx年7月入职,从事网络运维岗维,因工作需要调入网络管理组;并担任以下职位内容;如下:
一、工作内容
1、负责公司内部交换机、服务器及网络设备的合理配置并正常运行;
2、负责公司网络线路维护和管理,保障信息畅通;
3、负责网络内用户的设置及用户的开户、权限等管理;
4、协助领导建立查关的网络管理规章制度及执行;
5、电脑,打印机等用户 IT 设备使用问题的服务,及时解决员工 IT 类的问题。 扫描仪,一体机维护事务处理等。帮助他们解决系统使用中出现的一些问题
6、负责公司电脑、电话的维修、维护,建立新的电话点等工作;及办公软件和系统的维护管理;
8、完成领导交办的其他工作任务;
二、其他工作内容
1、负责公司会议室内临时网络的开通及布线;
2、帮助新建公司的网络、电话线路的布设,设备安装和维护正常运行;
8、完成领导交办的其他工作任务;
六、工作目标
1、为了达到公司的`信息化发展需求 ,根据公司网络信息化的具体实际,努力提高网络设备及服务器的利用率,发挥公司网络平台的作用,把网络信息化由技术平台全面向业务平台转变,坚持创新技术,创新业务;
2、完成由“帮员工维护”向“教员工维护”的工作方式的转变,努力提高员工的计算机应用水平,力求让公司员工人人会电脑,人人精通电脑;
3、加强企业关键数据的安全防范及关键数据的存储备份,加强员工在网络安全,企业信息、数据安全方面的意识培养及安全操作培训,保障网络及企业信息数据的安全。
4、加强学习和经验的积累,提高自己的综合素质。不仅努力钻研业务知识,而且进一步培养广泛的兴趣爱好,使自己得到全面的提高。在以后的工作当中我将克服缺点,努力钻研业务知识,为公司更好发展贡献自己的一份力量。
以上是本人任现职以来思想、工作方面的总结,虽然取得了一定的工作成效,但我还要加倍努力,当然其中也许难免有些不足,我一定会在今后的工作中尽力克服,并不断地完善自我,努力使自己成为一名优秀的网络管理员。
运维工程师对一个公司来说是非常重要的岗位,它本身所覆盖的运维职责就很重要,所以,运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等。作为一个运维工程师我认为是集合网络、系统、开发工作于一身的“复合型人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。
一.运维工程师岗位职责
1、参与设计、审核、优化公司IT系统以及各应用系统的体系架构;
2、全面负责公司运维项目的系统升级、扩容需求与资源落实,配合开发需求,测试、调整运维平台;
3、负责网络以及服务器的网络设置、维护和优化、网络的安全监控、系统性能管理和优化、网络性能管理和优化;
4、建立面向开发部门,业务部门的服务流程和服务标准;
5、负责IT运维相关流程的规划、设计、推行、实施和持续改进;
6、响应及解决客户的技术要求、疑问以及系统使用过程中遇到的各种问题;
7、负责日常网络及各子系统管理维护。
8、负责设计并部署相关应用平台,并提出平台的实施、运行报告。
9、负责配合开发搭建测试平台,协助开发设计、推行、实施和持续改进。
10、负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告。
11、负责网络监控和应急反应,以确保网络系统有7*24小时的持续运作能力。
12、负责日常系统维护,及监控,提供IT软硬件方面的服务和支持,保证系统的稳定。
13、负责服务过程中问题现象和处理方案的收集撰写,形成知识库,并对知识库进行维护更 新;
14、及时反馈技术处理过程中的异常情况,及时向部门负责人、服务开发PM、客户经理等相关人员报警;同时,主动协调资源推动问题解决;
15、定期对所有服务问题进行分析,并对服务效率有影响的问题提供反馈意见,提升服务支持团队专业度;
二. 怎样才算是一个合格的运维工程师
1、保证服务达到要求的线上标准,如%;保证线上稳定,这是运维工程师的基本责职所在。
2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。
3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。
4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。
5、运维知识的积累与沉淀、文档的.完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。
6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。
7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。 以上只是技术上的一些层面,当然个人意识也是很重要的。
三.运维管理注意事项
1、配置管理
(1)it资产配置管理:对it资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;
(2)建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率;
(3)it系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;将配置文档上传至服务器端,方便团队其他运维人员进行查看和操作。
2、监控
主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;
(1)、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端web server,我们就可以有很多种类型的监控,像zabbix,nagios,cacti等监控程序。
(2)、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。
3、故障管理
(1)、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
(2)、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。
4、问题管理
对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。
5、安全管理
(1)、操作人员随时监控中心设备运行状况,发现异常情况应立即按照应急预案规程进行操作,并及时上报和详细记录。
(2)、未经批准,不得在机房设备上随意编写、修改、更换各类软件系统及更改设备参数配置;
(3)、服务器系统的维护、增删、配置的更改,必须按规定详细记入相关记录,并对各类记录和档案整理存档。
(4)、机房工作人员应恪守保密制度,不得擅自泄露信息资料与数据。
(5)、严禁在机房计算机设备上做与工作无关的事情(如聊天、玩游戏),对外来存储设备(如U盘、移动硬盘等),做到先杀病毒后使用。
(6)、机房严禁乱拉接电源,应不定期对机房内设置的消防器材、烟雾报警、恒温设备进行检查,保障机房安全。
6、自动化运维
自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如20xx台,可能需要10人/10天,搞烂N张光盘,人力成本更大,而现在通过自动化工具,只需几个简单命令就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等,这些好处非常明显不再多说,
资料共享平台
应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。
四、总结
综上所述,做一个好的运维工程师,除了具备良好的综合技能水平,还要有一个负责任的工作态度,这也是优秀运维工程师具备的素质。因为对于运维工程师而言,每一次故障的发生都不是小事,很可能会影响公司线上业务的稳定性,甚至直接导致公司的经济损失,所以我认为对待工作中发生的故障以及事件要秉着一个“小事件,大处理”的原则,将发生的故障扼杀到摇篮里,慢慢地积累故障处理经验,这样当真正的大事件来临时,我们可以采取有效的措施及时应对。除了处理好发生的故障事件,我觉得运维工程师还应具备可预见性,故障随时可能发生,如何防患于未然,这将是对我们做好运维工作的一个考验。古人云:“不积跬步无以至千里,不积小流无以成江海”运维之路就是由一次次故障事件中拼接出来的,作为其中的一份子,任重而道远!
运维部在分公司领导的直接指导下,实时对城区网优不彻底区域地点进行不间断的网优及线路改造工作。这里是一篇运维工程师个人年终总结,接下来让我们一起来看看吧~
20xx年运维部在分公司直接领导下及全体员工的勤奋努力下,顺利完成网络维护、网络建设、网络安全等任务,有力的保证了版纳辖区数字电视业务发展,全年来的工作总结如下:
一、网络维护及建设
1,城域网维护建设
1)、在分公司的正确领导及相关部门的大力支持下,运维部全体人员的勤奋工作。城域网维护截止11月份,运维部共处理用户故障非电子派单电话报修518次,电子派单3687次,安装用户1869户,搬迁用户288户,平移用户147户,开通副机用户152户,提高了网络覆盖质量,更有力的提升了市场竞争力。
2),新区网络新建工程立项7项,实施7项等几个光节点网络覆盖面积,促进了业务发展和业务收入的增加。
3)、完成城域网建成管道建成千米及配套设施建设。
4)、(20xx安全工作年终总结)运维部必须及时认真上报当月的《网络维护月报表》、《安全隐患月报表》、《电子派单周、月报表》、《新装用户月报表》的工作。
2,网络优化建设
运维部在分公司领导的直接指导下,实时对城区网优不彻底区域地点进行不间断的网优及线路改造工作。
3,乡镇网络建设
1)、根据省、地公司和县分公司安排,在分公司领导亲自带领下,年初对全县所辖区乡镇网络进行了数字电视整转前的规划与设计。
2)、20xx年对全县所辖区20个乡镇中16个乡镇的网络进行优化改造及1个乡镇网络的新建工作。
3)、县乡联网乡镇有线电视用户整转平移3540户,乡镇有线新装电视用户1629户。全县乡镇有线数字电视用户总数5169户。
二、加强技术培训,提高队伍素质
运维部承担分公司工程建设的主要队伍,面对工程建设、网络安全干线安全重要任务,要在短时间内保质保量完成,无论是组织工作,还是技术工作都存在较多的难题。为此,分公司把开展技术培训作为一项确保工程质量、进度的重要措施来抓,采取走出去请进来的方式,不但多次派员工参加省、地公司举行培训学习,经常利用部门开会时间组织运维人员进行集中学习培训,还和邻近兄弟公司进行面对面经验和技术的交流,提高了维护人员的技能20xx年运维工程师年终总结工作总结。
三、存在问题及不足
1、目前运维部整体须加强思想认识、提高工作效率、提升服务水平。
2、特别注重安全生产,搞好网络干线巡检工作。
3、运维部目前极其缺乏新技术、新业务的尖端人才,针对下一步的数字双向网络、数据等新业务,加强能承担新的维护任务技术的培训及业务学习。
4、加强运维文档的管理,提高维护质量。做好每月必须及时认真上报的各类报表。
5、随着城区网络的进一步扩大,交通工具的问题不多地制约着运维部的快速反应机制。
四、20xx年工作计划
1、继续抓好网络维护质量管理和科技维护水平,提高网络运行质量
2、继续抓好、抓实省一二干线巡查工作。
3、积极配合做好城域网、本地传输网、城区管道及乡镇网络建设服务等工作的准备开工建设及其他工作任务。
4、按计划搞好网络新建、小区新建的立项及建设和竣工及验收工作。
5、落实运维部的各项管理制度,明确目标管理,理顺工作流程,提高工作效率、提升服务水平。
6、完善安全生产制度,搞好安全生产工作。