问题管理的主要活动与过程

问题管理的主要活动包括被动性问题管理、主动性问题管理及提供管理报告三个方面。下面我们将分别对不同的管理活动进行阐述。 

    1.被动性问题管理

    被动性问题管理主要包括问题控制、错误控制两个部分。问题控制部分着重强调对问题的发现和记录,归类,排查、分析,查明问题发生的根本原因,并且在需要的时候将问题升级为已知错误;而错误控制主要着眼于管理、控制并最终解决己知错误的过程。问题控制和错误控制构成了被动性问题管理的核心管理过程,虽然两部分强调的重点和关注点不同,但从一般意义而言,问题控制是错误控制的基础,而错误控制是问题控制的延伸及最终解决途径。对一个彻底解决问题的完整的被动性问题管理活动来讲,二者缺一不可。

    (1)问题控制

    问题控制主要包括问题提交、问题识别、问题调查诊断三个方面。

    问题提交包含问题记录和问题分类两个重要组成部分。其中问题记录是问题控制的第一步,也是解决问题的最基础环节。只有详细的记录问题发生的各类要素才能更加有效的帮助问题管理的后续开展。么如何确认什么样才算问题并进行记录呢?从理论上看,任何一个原因未知的事件均可作为问题。但是这样的话,问题管理未免失去重点,且起不到相关的作用。因此只有当事件重复发生或有可能再次发生,或是发生影响较大的重大事件时,我们才登记并确认此事件或此类事件为问题。下面是一些典型的例子:

    · 事件大量重复发生或是有重复发生的趋势;

    · 严重影响客户使用或是对IT服务产生巨大负面效应的事件;

    · 服务级别受到影响。

    在确认问题后需要对问题进行记录,问题记录与事件记录类似,但不需要包括具体的客户信息,同时需要记录的是事件的临时解决方案或是解决方案,以供问题管理进行参考,同时将事件与问题进行关联。在利用工具对问题进行管理时,此时应该出现唯一的问题编号,以便对问题进行有效的后续管理。

    在确认和记录问题后,应该按照一定的规则对问题进行分类,以便区分问题的严重程度、响应顺序及人力资源的安排。对问题归类一般从以下几个方面着手:

    · 类别:明确问题的相关领域,如硬件、软件等;

    · 影响度:对业务流程造成的影响,如系统分级、影响时间、影响范围等;

    · 紧迫度:问题需要解决的紧急程度(一般参照系统重要程度级别的设定或是对业务影响面、影响度的大小)

    · 优先级:综合考虑影响度、紧迫度、风险、人力、资源等条件后得出的解决顺序。

    问题识别是对记录的问题进行再次判断,主要随着问题管理流程的展开,问题的提出可能是问题管理人员也可能是其他相关人员,由于掌握的知识、经验以及资源的不同,非问题管理人员提交的问题可能在认知或是提出时存在纰漏,因此问题管理人员可以对问题进行二次判断,同时可以对问题记录及问题分类进行进一步的修改,保证提出问题的有效性,节省人力及各项资源的损耗。在问题管理人员对问题进行二次确认后,依据问题的分类对问题进行分派,调动相关资源对问题进行下一流程处理。

    问题调查诊断的过程与事件调查类似,但过程不尽相同,由于两者想要达到的目标不同,因此问题调査的过程可能更为复杂、深入,且调查面更广,同时可能是反复的过程。由于问题调査的复杂性,可能需要调动更多的资源进行支持。在调查诊断的过程中,事件调査诊断可以通过“串行”的方式对事件进行排查,即排查的事件可以在一个方面技术人员处理后,再转给另外一方面的技术人员继续处理,直到恢复用户的使用;而问题管理由于处理的复杂性和广泛性,最好采取“并行”的方式进行排査,利用各方面的资源同时对发生的原因进行排査,独立发现事件出现的原因并最终对各方面的调查意见进行整合,争取发现问题出现的根本原因。而且在处理过程中可能会对事件采取的临时措施进行修正,同时对相关的配置信息进行排查。在调查诊断过程中得出任意有价值或阶段性的成果都应该及时进行记录。旦问题的根本原因确认后,便可将问题转化为已知错误,进入错误控制阶段。

    (2)错误控制

    错误控制是管理、控制并成功纠正已知错误的过程,最终提交变更请求通过变更管理保证已知错误的完全解决,避免类似事件的再次发生。错误控制对所有已知错误从其被发现到被解决的全过程进行控制,可能涉及组织的许多部门,葚至是多个组织,因此耗时较长,沟通成本较高,因此对全过程的有效跟踪和监督显得极为重要。错误控制主要包括以下几个方面:

    错误确认及记录:当问题査明产生的根本原因且明确了应对的临时或是永久的解决措施,么问题就已经转变为已知错误。已知错误的确定是错误控制过程的开始。错误控制系统中有关已知错误的数据主要来源包括:实际生产过程和开发过程。实际生产过程主要指在问题控制过程中把某个问题升级为已知错误时,问题调查和分析阶段所记录的数据可以直接作为错误控制所需的信息的基础;开发过程如新的应用系统包含开发阶段形成的错误,但直到正式实施时才意识和发现,么有关这些错误的信息应该按照要求输入到错误控制系统的数据库。

    确定错误解决方法:发现和记录错误后,问题管理人员和支持组一起对解决错误的各种解决方法进行初步评估,评估该方法是否有效,如无效的话,可能需要重新评估并找出解决方法。如果有效的话继续判定是否需要提交变更申请来完成此项错误的解决。如果需要提交变更申请的话,由变更管理根据管理要求安排变更来完成已知错误的解决。如不需要变更即可解决该错误,错误控制系统应该详细记录每个已知错误的解决过程,特别是与已知错误有关的配置项、症状和解决方案(或其他替代方案),记录的信息可保存在已知错误数据库中,直至完成已知错误的解决。这些信息可用于制定与事件解决相匹配的方案,为以后事件的调查和解决提供指南,也可用于管理报告中作为今后的分析材料及向领导汇报的材料。

    实施后回顾及终止问题:解决问题、已知错误及相关事件的变更一旦实施后,在终止有关记录之前,必须对通过变更实施或是未通过变更实施的各类实施解决方案进行实施后回顾(post-implementationreviewPIR)。如果解决方案实施成功,么对所有问题和已知错误及相关时间的记录及跟踪工作都可以终止。而对一个问题记录来说,标志此问题记录已经彻底解决。事件管理将被告知对与事件相关的问题可以终止了。对重大问题来说,完成实施后的评审以后,还要另外执行重大问题评审,这是为了了解:

    · 本次做的好的工作有哪些;

    · 本次做的不好工作有哪些;

    · 下次我们怎么才能将工作做的更好;

    · 如何利用掌握的资源来避免故障的再次发生。

需要进一步提醒的是由于错误控制涉及多部门,需要由各部门协作确认问题或错误的解决方案或是分头完成解决方案;同时由于可能涉及变更管理,在变更管理过程中可能遇到变更时间的要求、环境资源准备等一系列不确定因素。因此在错误控制的过程中存在沟通协调多、时间可能较长等特点,整个流程的监控和跟踪显得尤为重要,为了确保问题的彻底解决,建议有条件的组织采用工具来进行跟踪,同时该工具应该具备定期提醒、多任务分配跟踪及随时便利进行登记修改等特点,这样会降低人工跟踪引发的人力资源的大量消耗,同时更加有效的提升沟通效率和跟踪成功效率。 

    2.主动性问题管理

    上面主要陈述了被动性问题管理的整个流程,这也是问题管理中采用较多的流程,也就是前文中提到的“事后”问题管理流程。但事实上,我们完全可以化被动为主动,通过详细、有效的工作在事件发生前发现和解决有关的已知错误和问题,以尽量减少问题和已知错误对生产业务的影响,这就是主动性问题管理,也就是前文中提到的“事前”问题管理,或是问题预防。

    主动问题管理的范围非常宽泛,既涉及单个问题,如与系统某一特性相关的大量发生的重复性故障,也包括重要影响的战略性决策,如投资建设更好的网络,或者为客户提供多种帮助信息,基至可以是为问题解决人员提供在线支持以提高他们解决问题的速度来减少对客户的影响。

    主动性问题管理主要包括两方面:趋势分析和制定预防措施。

    趋势分析的目的是为了能够主动采取措施提高服务质量,可以从以下几个方面进行:

   · 通过巡检等各种手段找出IT基础设施架构中不稳定的部分,分析其原因,以便采取措施降低配置项故障;

    · 分析已发生事件和问题,发现某种趋势,做到“举一反三”;

    · 及时了解业务需求的变化(新功能,营销活动等)带来的功能性或是交易量对IT现有结构的冲击;

    · 通过其他途径获取信息进行分析,如系统管理工具,会议,同业经验,客户和用户的反馈等。

    (2)制定预防措施

    通过趋势分析,问题管理人员既可以提前发现和消除存在于IT基础架构中的故障,也可以了解哪些问题是支持人员必须重点关注的。

为了有效地引导有限的服务支持资源配置到恰当的问题领域,主动性问题管理需要调査哪些领域占用了最多的服务支持。通过从整体性上对已出现的和可能出现的问题的分析,我们可以确定哪个或哪类问题是“真正”需要重点关注和优先解决的。例如:当有些事件出现次数多但影响不大,而有些事件出现次数少但影响巨大且解决这类事件的效益更好时,显然应该优先解决后者。因此我们可以考虑给每一类的事件一个“损害指数”作为测量指标,指数大小可以根据以下几点确定:

· 事件重复出现的次数;

    · 受影响客户数;

    · 解决事件所需时间和成本;

    · 对业务带来的负面影响和损失(这一点非常重要)

    这种方法避免了将过多的精力放在一些数量较大但对业务影响较小的事件和问题上,从而忽略些数量较小但影响巨大的事件和问题。事实上,将服务支持资源投入到些出现次数较少但影响巨大的时间和问题往往能够取得更大的效益。

    在确定服务支持人员应重点关注的问题之后,问题管理人员就应当采取适当的行动来预防其发生。这些行动包括:

    · 提交变更申请彻底消除已知错误;

    · 提交有关测试、培训和文档方面的反馈信息;

    · 进行客户培训;

    · 对服务支持人员进行教育和培训;

    · 改进相关的流程和管理制度;

    · 提示技术人员在重要时间点或定期进行软、硬件,应用系统等的健康性检查;

    · 加大监控工具使用的比例和效率,设置有效的阀值,在出现问题前有效发现并解决。

    3 提供管理报告

    管理报告作为对特定问题、特定时间段内的总结应该定期或不定期的提供给不同的部门和管理层,作为不同部门和管理层了解情况和决策依据的需要。管理报告可以包括对特定关注问题的会议纪要及结论,问题的趋势分析等。依据不同部门和管理层的需要,报告的详细程度取决于阅读报告的管理者级别。级别高的管理者可能需要月报、季报、年报,中等级别的管理者需要详细的周报或是特定问题的详细信息。一般提供的信息有:

    · 单位时间内发生问题数量的总数和列表;

    · 按不同类别进行分类的问题数和列表;

    · 按不同时间段进行分类的问题数和列表;

    · 经过特定时间段排查尚未查明根本原因或形成已知错误的问题数量和列表;

    · 通过问题管理可以解决前后发生的数量;

    · 解决问题所消耗的时间统计;

    · 开发服务质量;

    · 相关合作公司提供服务质量;

    · 被动性管理和主动性管理之间的比例关系及主动性问题管理发现的错误和需要重视的配置项或方面;

    · 相关的图表和趋势分析。


点击关闭
  • CMMI认证客服

    CMMI3认证客服

    CMMI咨询

    CMMI4认证