销冠外呼通讯—6天打造优质营销团队。

营业时间
MON-SAT 9:00-22:00

全国服务热线
19957953125

干货 携程新一代呼叫中心话务监控平台

日期:2020-12-31 浏览:

  通信技术中心,主要负责携程呼叫中心日常运维,包括配置管理和监控平台开发,目前主要在呼叫中心运维自动化方向探索和演进。

  携程作为中国最大的OTA,和国内外近十家电信运营商展开合作,目前拥有语音线+,包括传统语音线路以及基于软交换平台的SIP线路,每天的话务量更是以百万计。从业务类型来说,又可以分为人工呼入呼出、自动呼入呼出和自动转呼等等。

  面对不同运营商、不同线路特性的运维管理和灵活多变业务需求,基于监控精细化、自动化、操作便捷化标准下做到对故障快速响应和处理的目标,我们开发了一套针对呼叫中心话务监控管理平台——Horus系统。

  携程呼叫中心原先有一套监控携程所有的呼入呼出话务的监控系统,不过在使用过程中,系统存在以下问题:

  Horus系统对这些问题进行了针对性的处理,目前通过以下功能可以自动发现并及时准确的进行告警:

  采集模块:从数据源采集数据,输送到消息中间件Hermes,支持DB及API方式采集;

  存储模块:从Hermes获取数据,并存储到文件数据库Hickwall,将监控项索引存储到Mysql DB中;

  故障检测:从Hermes获取已采集的数据并调用数据分析模块进行故障检测;

  数据分析:根据历史数据分析生成告警规则,检测当前数据,生成检测结果和告警信息;

  告警通知:从Hermes调取告警信息,执行告警通知,并将告警通知存入DB;

  自动检测是Horus系统的核心功能,我们的做法是对海量历史数据进行采集和处理,按照以上几个方案形成3种智能化检测策略。1.

  阈值分析将历史数据结合正态分布生成阈值上下限,再计算越界次数,生成阈值分析策略。为了提高阈值准确性,我们将历史数据区分工作日、双休日以及节假日。同时考虑周期属性,将数据按时间片再细分,对比每天同时刻数据,缩小偏差。

  变化率分析根据数据变化的趋势,利用差分统计计算前后点之间的变化率,和自身数据前后趋势作比较,生成变化率分析策略。

  1、先进行跌零检测,如判断数据跌零且满足累计损失话务量或次数条件,则告警;

  1、Point-A1的值超过阈值下限,且该点与前一点的变化率C-Rate1大于变化率门限,所以该点为异常点。

  2、Point-B1的值超过阈值上限,但该点与前一点Point-B2的变化率C-Rate2小于变化率门限,所以该点判断为正常点。

  某号码话务量在一个时间段数据陡降,连续2个点低于阈值下限,同时变化率大于门限值,触发告警。

  成功率的检测不仅仅是检测是否低于某固定指标,也是需要根据不同业务的特性以及不同时间段进行监控。针对容量类或成功率等特殊监控类型,我们基于历史数据进行阈值分析,生成动态的阈值上限或下限规则,即能满足告警要求。

  例如某监控项在每周固定时间段有一个数据突升,我们通过特征分析发现了这个规律,作为后期告警检测时的重要参考,避免误告。

  小业务量监控项一直以来都是业务监控的盲区,因为业务量小导致告警规则难以确定。对此我们采用了数据聚合的策略,从数据量和业务形态两方面入手,自动分析监控项特征并打上标签,通过不同聚合维度对监控项进行检测和告警。

  图9的常规时间序列图中,该监控项的数据是离散的,传统方法无法有效监控起来。经过聚合之后,图10的数据被聚合成1小时维度的,这样形态就变得很有规律,可以进行检测和告警。当然,聚合之后虽然可以解决检测和告警的问题,但展示和监控维度都变成1小时,从问题发生到告警触发时延有所延长。

  话务监控项之间往往存在着一定的关联性,我们通过将2个或多个相关的监控项自动关联,以减少误告避免漏告。

  下图我们将传真请求总量、传真发送总量进行关联。以下红色圆点请求总量增加,但发送总量没有变化,因此进行告警,而后面的请求总量增加,同时发送总量也增加,系统关联后,不进行告警。

  对于某些长期小幅下跌的问题,传统方式无法有效检测,通过聚合之后阈值和累计影响话务量的检测,可以有效发出告警。

  告警检测依赖的是历史数据分析,而业务也有其随机性,因此不可避免的存在误告的可能。对此,我们采用自动测试方式对告警进行筛查。

  自动测试功能的实现基于我们的另一款产品“语音机器人”。针对话务量,成功率等监控项,获取疑似告警发生后,系统会调用“语音机器人”功能,根据测试用例进行自动测试,将测试结果返回后插入到告警信息中,并告知运维负责人该告警为误告。

  监控系统发出告警之后,可能会引申出另一个问题,那就是告警风暴。告警风暴通常发生于以下两种情况:

  针对告警风暴,我们的做法是将大量重复的、或同类的告警压缩为一条真正有意义的告警,为运维人员提供甄选之后的最重要的告警。

  用户也可以查看聚合之前的告警以及他们的时间序列关系。实际使用中,告警压缩率可以达到95%以上。

  图表编辑页面,可同时完成图表命名、监控项选择、添加上周曲线、添加基线、修改颜色和编辑告警规则等典型场景下的常用操作

  对于告警通知,我们在邮件通知的基础上增加了电话通知功能。在告警发生后,调用“语音机器人”模块向系统负责人手机发起呼叫,通过文本转语音模块将告警内容自动转化成语音及时通知应用负责人。运维人员在听取告警内容后,如暂时无需处理或暂时无需关注,可通过按键进行“屏蔽”或“误告”等操作,避免系统一直告警。

  告警通知采用自动升级机制,如三次系统负责人不接听电话,自动升级至其主管,如主管不接电话,自动升级至更高级别管理人员。(升级机制可通过参数配置)

  入的监控项type已达17种,不同的业务类型引出了更多的问题和需求。后续我们会继续通过大数据分析、AI等人工智能技术不断优化监控平台,并在用户界面提供更多便捷、个性化的操作体验和展示效果。当然从传统业务监控到全面自动化业务监控必将是一个持久的过程。十一、总结

  将新监控系统命名为Horus,寓意该系统能够像古埃及神话中的Horus神一样,拥有敏锐的鹰眼,及时准确地发现业务数据上的异常。Horus系统也是我们从传统业务监控转向自动化业务监控的一款突破性产品,针对高度复杂业务实现面向用户体验、面向业务可用性的实时监测和自动告警,让业务监控更加简洁、自动和高效。

  《4PS认证协调员》公开课(11月21日-25日,上海),颜晓滨老师主讲;2、

  《新时代员工管理及59秒管理精析》公开课(11月24-25日,上海)许乃威老师主讲;3、《

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。



新闻资讯

联系方式丨CONTACT

  • 全国热线:19957953125
  • 传真热线:19957953125
  • Q Q咨询:
  • 企业邮箱:
首页
电话
短信
联系