• INTRODUCTION
  • 大会简介
  • CNUTCon全球运维技术大会是由InfoQ主办的运维&容器技术盛会。大会为期2天,主要面向各行业对运维&容器技术感兴趣的中高端技术人员。秉承着“同步前沿技术、共享实战经验、聚焦最佳实践、激发思想碰撞”的宗旨,CNUTCon致力于帮助参会者了解国内外相关公司的领域动态及应用案例,使企业可以更精准地确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。

  • 从行业角度出发

    不鼓吹某项技术也不抹黑某项技术

  • 从社区角度出发

    希望引导社区向着正确的方向前进

  • 从内容角度出发

    专题系统全面且演讲有层次有深度

  • 从听众角度出发

    重经验 & 谈实践 多落地 & 少概念

  • special topics
    专题介绍
    CO-CHAIR
    联席主席
    HOSTS
    出品人
    SPEAKERS
    演讲嘉宾
    schedule
    会议日程
    第一天
    第二天
    时间 主题 讲师
    智能化运维
    13:30~14:15 机器学习在大规模服务器治理复杂场景的实践

    我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上,任何一次硬件故障都可能影响到重要的业务。 面对如此庞大的基础设施:百种机型、万种应用、百万服务器、千万部件,再加上不同业务对故障的敏感程度不一致,传统的运维方法受到了极大地挑战,海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。

    本专题主要分享在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现->定位->跟踪->修复的一站式解决方案。产品上线以来,在数据能覆盖的场景下,实现了100%的发现率。

    听众受益:

    1. 了解大数据和机器学习在智能运维方面的实践;
    2. 了解机器学习在批量问题发现问题中的思路和产品设计。

    陈立波
    阿里巴巴高级技术专家
    14:40~15:25 基于日志trace的智能故障定位系统

    传统的trace系统面对大规模系统故障时有以下几个问题:
    1.日志回收处理能力强,但对于单PV的精细分析定位受限于人工分析速率,通常在分钟级每PV;
    2.大规模复杂异常时,抽样个别PV的定位结论,容易以偏概全,缺少汇聚回归;
    3.依赖于人的经验;

    因此,结合机器学习技术的进步,我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案,主要基于以下技术:

    1.基于GBDT的单PV根因预测模型;
    2.数据多维度汇聚与维度间信息熵排序;
    3.智能抽样系统;
    4.数据获取异步化、维度逐级下钻等一系列工程优化;

    最终能够实现WQPS/sec的PV根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。

    听众受益:

    1.复杂系统大规模故障自动定位的一次最佳实践,包含我们的方法论和理想方案的思考;
    2.机器学习技术与运维工具的有机结合,label-set的选取和折衷;
    3.日志trace系统在大规模高并发、高吞吐系统上的工程实践和折衷;

    曹轩
    百度搜索运维团队技术负责人
    15:50~16:35 金融运维中的AI:宜信AIOps探索

    近年来,人工智能技术备受关注,将AI引入IT运维领域,AIOps的概念由此而生。那么金融领域中,其运维场景到底能否落地AI,以及如何落地,甚至能否通过AIOps支持更好的运营,这也成为了金融行业关注的焦点。

    本次分享是通过宜信技术研发中心在金融运维/运营领域中如何引入人工智能技术的探索与实践,帮助大家了解哪些痛点适合引入人工智能技术,以及AIOps的关键技术之一:任务机器人的概念和难点。从我们的实践中,提炼任务机器人的构建思路和架构原理,针对难点问题阐述解决之道,并通过对应用场景的落地剖析,提供一系列参考实现,希望为大家建立适合自身需求的AIOps应用场景提供思路和方法。

    主要内容如下:

    1.为什么引入人工智能:金融运维/运营的痛点

    2.AIOps之核:任务机器人系统

       2.1与聊天机器人的区别与联系
       2.2三个核心难点
            基本意图理解
            系统API理解
            个性化交流上下文构建及语义理解

    3.构建任务机器人实战

       3.1设计理念与思路
       3.2架构与实现原理
       3.3难点问题攻略

    4.应用场景落地实践剖析

       4.1机器人程序员:智能系统上线
       4.2机器人玩转SRE:微服务架构下的智能巡检
       4.3类人化的运营参与者:实时运营协作与咨询

     听众收益:

    1.了解金融运维/运营中哪些问题适合引入人工智能技术,为大家在自身领域中识别哪些问题是人工智能的问题提供参考
    2.通过围绕AIOps的核心技术之一的任务机器人展开的话题,帮助大家掌握任务机器人的概念和难点,并提供了一种参考实现,启发大家构建自己的任务机器人的思路和灵感
    3.通过任务机器人的应用场景剖析,让大家深入了解AIOps是如何在这些场景中落地,会带来什么变革与价值,帮助大家更清晰的认识该如何运用人工智能技术来解决领域中的实际问题


     

    张真
    宜信技术研发中心高级架构师/技术总监
    大数据运维
    13:30~14:15 腾讯TB级别的海量日志监控平台

    处理多样和海量的业务日志对实现、性能、稳定性和成本带来挑战,怎样支持灵活的日志采集处理,实现具有容灾能力的高性能和低成本的存储系统?这里介绍腾讯SNG基于QQ号码体系的每天70TB,峰值130万/s的业务日志采集、实时处理、存储和在线统计分析大数据平台。该平台基于Jstorm、Druid和ElasticSearch构建,支持标准化的日志和有规则的个性日志采集;将数据处理过程抽象为过滤、翻译、聚合统计和存储,实现配置化的数据处理流程;构建自研的低成本日志存储系统和基于Druid的OLAP系统,提供秒级响应的在线数据查询服务。

    听众收益:

    1. 如何实现自定义的日志采集方案?
    2. 如何实现通用的数据处理平台?
    3. 如何实现低成本的日志存储系统?
    4. 如何集成和维护稳定的大数据平台套件?

    吴树生
    腾讯SNG监控负责人
    14:40~15:25 苏宁大数据平台运维实践

    苏宁大数据平台经过3年多的快速发展,集群规模从10台虚机急速扩展到700台物理机,平台组件也逐渐丰富,形成了以离线存储、在线存储、离线计算、实时计算等引擎为核心的大数据平台。在平台快速发展的过程中,平台规模的增长和组件的增多都给平台运维带来了很大的挑战。本话题将分享苏宁大数据平台发展过程中平台运维工作所遇到的问题和痛点,以及相应的应对措施和解决方案,希望能为大家提供一些思路或经验。

    1. 如何解决部署及运维复杂的问题?
    2. 如何解决缺少资源使用视图的问题?
    3. 如何解决排查问题耗时长的问题?
    4. 如何解决应用优化门槛高的问题?

    王志强
    苏宁云商IT总部技术总监
    容器优化与实践
    13:30~14:15 携程容器云优化与实践

    本话题将向大家介绍携程容器云的大致架构,以及基于Mesos自研Framework的原因,分享容器在实际runtime环境下遇到过的一些坑,特别是针对Java应用,面对JVM时的一些例子,还会分享从虚机转向容器过程中遇到的困境及解决思路,如何在破坏性最小的情况下做到架构颠覆。

    1. 携程容器云的大致架构

    1.1. 自研Framework
    1.2. cexecutor
    1.3. offer碎片的处理
    1.4. 监控的情况

    2. 针对Java应用踩过的坑

    2.1. 使人发疯的JVM OOM
    2.2. 1个docker deamon OOM 的case
    2.3. 自定义jvm参数带来的恶果
    2.4. logrotate的坑
    2.5. kernal 调整
    2.6. 其他一些遇到的问题

    3. 容器迁移的一些思考

    3.1. 业务开发的诉求
    3.2. 与已有研发模式的冲突
    3.3. 一些解决思路

    王潇俊
    携程系统研发部总监
    14:40~15:25 腾讯游戏容器云平台的演进之路

    腾讯游戏从2014年开始使用Docker,支撑了腾讯游戏200多款在线业务。整个平台经历了从最开始的“轻量级虚拟机”方式,到现在的原生容器云方式;接入的业务也由原来的在线服务扩展到现在的微服务、大数据、机器学习等类型业务。本次分享主要介绍腾讯游戏容器云平台这些年的建设过程和经验,并探讨相关技术问题,主要内容为:

    1. 腾讯游戏容器云平台建设历程
    2. 平台整体架构和技术方案
    3. 总结

    听众受益:了解腾讯游戏业务在实践Docker上的经验

    尹烨
    腾讯高级工程师
    15:50~16:35 华为使用Docker支持系统容器的优化实践

    系统容器相对Docker传统支持的应用容器,有一些独特的价值,对于华为这样的企业,有很多需要使用系统容器的场景。但系统容器同时也有很多独特的需求,原生Docker无法支持。本议题将分享Docker对支持系统容器所需要做的改造,常见的应用容器的功能需求,需要解决的问题和面临的挑战等。

    听众受益:

    1.了解系统容器的基本概念和应用场景;
    2.了解系统容器的基本特征;
    3.了解如何让Docker支持系统容器;
    4.了解业界存在的局限和挑战

    黄强
    华为资深软件工程师
    17:00~17:45 多租户Kubernetes实践:从容器运行时到SDN

    作为最流行的开源容器集群管理系统,Kubernetes已经被大量用在生产环境中。然而,Kubernetes在多租户支持上还并不完善,默认网络模型、Docker容器隔离性等存在很大风险。本次演讲主要介绍Hyper如何基于Kubernetes的插件机制构建强隔离的容器运行时,并配合Neutron提供多租户容器SDN网络。主要分享内容包括:1、Kubernetes插件机制简介;2、基于Kubernetes CRI的强容器隔离实践分享;3、基于CNI的多租户容器网络实践;4、实践中遇到的问题和挑战。

    听众受益:

    1.Kubernetes插件机制简介
    2.如何打造强隔离的容器运行时
    3.如何打造多租户容器网络
     

    倪朋飞
    Hypernetes&Kubernetes Upstream负责人
    互联网金融
    13:30~14:15 麻袋理财安全与合规建设

    本话题将分享麻袋理财在互联网金融领域安全与合规建设的经验,包括如何通过国家信息安全等级保护三级的测评工作以及银行资金存管落地实践经验。

    听众受益:

    1. 对同行来说,可以通过本次分享对互联网金融行业的安全与合规建设有更全面的了解,少走弯路;
    2. 对外部投资者来说,可以通过本次分享对互联网金融行业消除负面意识,合理判断,理性投资。

    王耀
    麻袋理财首席安全官
    14:40~15:25 区块链和可问责服务

    可问责(Accountability)传统上是政府机构和商业运营上的一个重要要求。IT行业的快速发展,已经渗透到各行各业,成为商业和社会的一个关键组成部分。过去IT行业强调的是功能、性能,而可问责没有受到重视。IT运维目前是提供可问责的IT服务的基础。但是在大数据,云计算和AI时代,自动化的可问责机制将成为必然趋势。而该趋势将对IT运维带来深远影响。该演讲介绍可问责IT服务的理念,并探讨结合区块链技术实现自动化可问责机制的可行方案。

    听众受益:

    1. 了解区块链技术;
    2. 了解可问责IT服务的新理念;
    3. 启发如何在日益复杂的IT运维环境中实现可问责的IT服务的思考。

    邹均
    海纳云计算CTO
    15:50~16:35 基于资产配置业务场景下的全链路监控平台

    随着系统平台化的演进,服务拆分越来越精细化,原本依赖于总线交互的功能模块都被分散到了PaaS中,形成了“微颗粒”。在松耦合给产品带来“快速交付”的同时,发现故障 、定位故障、排除故障却变成了测试、运维同学“烦恼”的心事。在“互联网金融需要实行强监管”的体制下,在“监管细则划定13条红线 ”的背景下,如何在互联网金融公司中,寻找到“快速排障”与“快速交付”的平衡点?来听听好买的经历吧。

    听众受益:希望本次分享能够对正处于或即将处于类似场景的互联网金融同行,起到推动、引领、借鉴的参考作用。

    王晔倞
    好买财富技术总监
    17:00~17:45 风控系统在容器化时代的实践

    冰鉴作为一家独立第三方征信服务提供商,在过去的2年内,自主研发了风控系统中的四大核心模块:数据服务、模型服务、反欺诈服务、策略服务。同时也从传统的单体应用架构及系统级运维逐步过渡到微服务架构和容器化运维,在此次大会中将分享我们的风控系统在演进到容器化时代中的实践。

    听众受益:

    1. 了解风控系统的架构;
    2. 学习单体架构到微服务架构过程中的经验。

    朱清
    冰鉴科技信息技术部总监
    运维基础架构
    09:30~10:15 阿里巴巴基础运维平台实践

    百万级规模的服务器,千变万化的业务,每天上亿次的调用……基础运维平台负责淘宝、天猫、蚂蚁、菜鸟、阿里云、合资公司等全网业务服务器的运维管理,是全集团唯一的服务器管控通道,本次分享将首次对外介绍阿里巴巴基础运维产品的设计与实现。

    听众受益:

    1. 了解阿里巴巴基础运维产品的架构与实现;
    2. 了解大规模服务器运维管控系统的设计。

    宋健(宋意)
    阿里巴巴运维中台技术专家
    数据库运维
    09:30~10:15 从理论到实践,深度解析MySQL Group Replication

    从Oracle官方宣布MySQL Group Replication插件在2016年12月12日发布的MySQL 5.7.17版本上正式GA以来,不少从事MySQL工作的技术人已经开始学习、研究与测试。但相对而言,大多数人因为限于时间跟精力的原因,没有去深入了解这方面的内容。本次演讲,将会以理论应用到实践、由实践再反推理论的方式,由浅入深、再深入浅出地介绍Group Replication的理论知识与生产实践。

    徐春阳
    民生银行科技部项目经理
    运维自动化实践
    09:30~10:15 阿里一键建站技术解密

    每年的双十一都是一个全球狂欢的节日,双十一当天的秒级交易峰值平时的近10多倍,要用3-4倍的机器去支撑。阿里采用异地多活技术来把这些机器分成多个单元,然后水平复制每个单元完成大促备容。每个单元涉及几百个系统,他们之间的依赖错综复杂,复制新单元难度很大。阿里在Docker化的基础上,利用调度和CaaS,把单元终态描述成一个镜像,完成了单元的快速复制,做到了8小时从机器交付到线上引流到单元。本次分享将重点介绍阿里基于容器的建站平台的背景、架构、发展历程及未来展望,主要包括以下内容:

    1. 阿里一键产生和背景及意义;
    2. 基于阿里现有架构下,一键建站的可行性、困难及挑战;
    3.  一键建站三代技术的发展历程;
    4. 一键建站的未来展望。

    谢吉宝(唐三)
    阿里巴巴高级技术专家
    10:30~11:15 京东物流系统自动化运维平台技术揭密

    物流系统会有很多分支机构, 比如仓库、分拨中心、转运中心等, 业务复杂的分支机构可能会有自己的信息系统, 这些信息系统往往分布式地部署到全国各地,如何管理好这些分支机构的服务器、 信息系统, 降低因为地域分布造成的运维维护成本问题是每一个物流系统要考虑的现实问题。

    本专题将详细为大家介绍京东物流系统自动化运维平台的实现方案, 包括仓库系统的开仓实现、应用部署方案,以及研发排查问题的运维自助工具实现等。

    听众受益:

    1. 了解基于saltstack实现自动化运维平台的设计思路;
    2. 了解应用部署自动化、自助化运维工具的实现思路。

    赵玉开
    京东资深架构师
    11:30~12:15 百度大规模时序指标自动异常检测实战

    异常检测是监控系统中的重要环节,百度的业务种类繁多,业务的监控需求不尽相同,这给异常检测带来了巨大的挑战。怎样支持百度众多业务的流量、收入、PVLOST等常见业务曲线监控?怎样支持O2O业务不定期运营活动场景下的异常检测?怎样给大规模时序数据的快速配置异常检测算法及参数?作者将介绍百度异常检测系统以及几种异常检测算法,以及针对大规模时序指标的难以人工逐一配置的问题引入的算法自动选择决策树和参数自动配置算法。

    听众受益:

    1.  百度异常检测系统以及内部的异常检测算法
    2.  异常检测算法自动选择决策树以及参数自动配置算法的实践

    王博
    百度资深软件研发工程师
    DevOps & CI/CD
    13:30~14:15 微服务场景下的Serverless架构实践

    2016年11月份ThoughtWorks发布的Technology Radar上Serverless architecture从评估阶段升级到了试用阶段。恰逢此时我们在某项目中大胆采纳并实践了Serverless架构。在如今微服务大行其道的情况下,Serverless架构结合微服务倡导的Event Sourcing往往能收到奇效。不过Serverless架构强依赖平台,对传统的CI/CD也带来了诸多挑战。本主题会分享在实践Serverless架构过程中的一线经验和教训。

    听众受益:

    1. 理解Serverless架构的优势和缺陷;
    2. 在微服务场景下采纳Serverless架构的最佳姿势;
    3. Serverless架构下的CI/CD该如何做;
    4. Serverless架构的演进。

    黄博文
    ThoughtWorks高级软件工程师/咨询师
    14:40~15:25 天猫DevOps转型实践

    在2016财年,天猫的技术,不仅仅在双11创造了一个漂亮的新记录--1207亿,并且在研发流水线上,也完成了两件大事:Dev转型DevOps、应用的运维工作由PE交接给DevOps。天猫为什么要做出这种转型?带来了什么收益?天猫是怎么去做的?此次演讲,会从研发人员的角度进行一个展示。这个过程是不是合理?经验是不是可以复制?我们将共同探讨。

    刘雄昌(邵雍)
    天猫互动架构师
    15:50~16:35 全方位的监控与智能透明的自动化运维

    Monitoring是什么?Monitoring需要做什么事情?作者会从2个不同的维度出发来展开这两个问题,阐述monitor要“两条腿一起走路” 的两条腿分别指什么,并提供全套开源工具链供参考。

    你认为的自动化运维是什么?自动化脚本?不完全是,作者会结合过去2年来ChatOps的实践,来阐述如何通过chat bots来实现透明的自动化运维以及所带来的益处。

    听众受益:

    1. 了解全方位的监控系统解决方案,以及监控系统所需的全套开源工具链和最佳实践;
    2. 了解到ChatOps的相关知识和实践,以及如何引入ChatOps到平时的工作中来。

    邸富杰
    IBM CIO DevOps 教练
    SRE与微服务最佳实践
    13:30~14:15 搜狗配置中心架构演化与实践

    传统的分布式配置文件管理模式已越来越难满足微服务灵活多变的特性,而如何应对配置的频繁变更和生效则成为了微服务时代配置中心的重点。在微服务的背景下,配置中心正在逐渐开启新的定义和赋予新的角色,成为串联整个微服务架构体系的不可或缺的一部分。

    本主题通过对搜狗统一配置中心的迭代演进,从资源依赖的模型角度阐述新一代的配置中心设计理念,从配置管理、配置变更、容灾等方面结合微服务现状进行深度架构剖析,同时分享配置中心在多环境并行测试、数据库热切换、灰度发布等方面的成功实践和思考。

    听众受益:

    1. 阐述目前主流配置中心的基本架构与设计思路;
    2. 微服务时代如何实现分布式配置文件管理和变更,自动容灾等;
    3. 配置中心在搜狗商业部门的实践经验总结,关键技术解决方案等。

    郭理勇
    搜狗资深高级工程师
    14:40~15:25 阿里巴巴国际环境下的SRE体系

    AliExpress是阿里巴巴国际电商平台,海外买家覆盖200+国家,分布广且离散,国际架构、网络体系复杂,为了提升全球用户体验面临诸多技术挑战,本次主要围绕全球架构体系下的SRE保障,分享全球架构体系的可用性解决方案及具体实践。主要内容为:

    1. 全球网络体系复杂,互联互通问题诸多,如何应对由此带来的网站可用性问题;
    2. 国际架构体系下,全球物理距离使得网络传输时间成为技术难点之一,如何解决可用性和提升全球用户体验;
    3. 如何实现全球多IDC下的异地多活;
    4. 全球多IDC下的数据一致性问题;

    听众受益:

    1. 国际SRE的运作
    2. 国际异地多活
    3. 国际网络稳定性解决方案
    4. 大数据SRE发现问题解决问题

    周志伟
    阿里巴巴高级技术专家/AliExpress SRE负责人
    15:50~16:35 滴滴稳定性建设实践

    故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增长。滴滴现在服务近4亿+乘客、1700w+司机、覆盖400+城市,超过10个业务线提供服务,业务的高速增长对稳定性工作开展是挑战,更是难得的机会。本专题将为大家详细介绍滴滴在故障处理方面的建设,以及各团队如何围绕星辰花稳定性技术竞赛开展稳定性工作。主要包括星辰花赛制介绍、监控分级建设、全局状态观察及事件根因推荐等。

    1. 稳定性建设总览
    1.1 星辰花稳定性竞赛介绍
    1.2 故障生命周期及滴滴建设情况总览
    1.3 各部门如何配合处理故障

    2. 故障定位 —— 灭火图:全局状态展示
    2.1 为什么需要灭火图?灭火图是什么?
    2.2 成长史:濒临窒息
    2.3 曾经的迷茫:没有业务拓扑,不可能完成的任务
    2.4 抽丝剥茧:目标重塑,建立标准
    2.5 避不开的雷:数据稳定性


    3. 故障定位 —— 多维度监控:异常接口推荐
    3.1 多维度监控是什么?背景介绍
    3.2 成长史:API监控、upstream 监控、独立于通用监控系统,...
    3.3 我不是张衡:数不完的 API
    3.4 借力大数据:哪里需要“聚”哪里
    3.5 众里寻他:异常推荐
    4 智能化定位 —— 事件推送:故障根因推荐
    4.1 事件的由来
    4.2 事件分类
    4.3 基于时序和规则的根因推荐
    5 总结

    听众受益:

    1.了解滴滴在业务高速发展的同时,如何开展稳定性工作;
    2.了解滴滴如何划分监控层次,达成对复杂系统的有效监控;
    3.了解在故障定位方面如何进行全局把控及根因推荐

    张云柳
    滴滴资深运维工程师
    17:00~17:45 Uber SRE以及Cache服务在微服务环境下的演进

    Uber全球业务爆发式增长,现在已经覆盖全球超过570座城市,业务也已经涵盖汽车共享UberX/UberPool,外卖服务Uber Eats,卡车运输协调Uber Freight,无人驾驶Uber ATG等等。前端业务对后台基础Infrastructure的需求强劲而且变化快,数据中心一直处于爆发式增长。如何为超过2000个微服务以及无人车提供稳定可靠高性能的计算存储支持是整个Infrastructure部门的工作重心,而其中SRE部门又是守护系统稳定的最后一道防线。

    本专题将为大家介绍Uber的SRE团队是如何协同和其他部门工作,对公司业务和基础Infrastructure进行监控,以及在主要业务外围开发稳定性服务监控、报警软件实现自动化。本专题也将分享Uber的整个数据中心从只有一个可写到现在全美国双活乃至全球多活的历程和故事。

    听众受益:

    1.了解如何建立稳定性SRE团队;
    2.了解如何从一个数据中心拓展成多个多活数据中心;
    3.了解一个Infrastructure团队如何支持多种不同类型的业务
     

    孟飞
    Uber SRE存储部门高级工程师
    容器编排与管理
    13:30~14:15 基于Kubernetes的互联网Ingress实践

    ingress是针对inbond connection的配置和管理,它决定了用户请求如何通过最优路径转发至后台服务,也决定如何实现跨集群跨region的高可用,可以说ingress是互联网公司的根。

    eBay基于kubernetes ingress实现了对inbond connection的配置和管理,本session包含如下内容:

    1. 互联网负载均衡技术的演进
    2. 基于kubernetes ingress的负载均衡实践分享
    3. 基于ingress实现的unified frondend services(路径优化)
    4. service mesh

    孟凡杰
    eBay软件工程师
    14:40~15:25 腾讯云多Kubernetes集群高可用运维实践

    腾讯云基于kubernetes的公有云容器服务会为每个租户提供单独的kubernetes集群,现在腾讯云上已经有数百个kubernetes集群(持续增长中),数百个分属不同租户的kubernetes集群其运维难度远大于有数百个节点的单一kubernetes集群。本文主要内容如下:

    1. 腾讯云基于kubernetes的容器服务架构简介 
    2. 运维数百个不同租户的kubernetes集群有哪些难点 
    3. 业界的多集群运维方案有哪些 
    4. 腾讯云是如何通过kubernetes master集群化部署和多维度监控来解决这些问题的

    于广游
    腾讯云容器服务高级工程师
    15:50~16:35 京东JDOS2.0平台有状态服务编排实践

    JDOS1.0完成京东业务全面运行在容器之上,以及数据库和中间件等系统也全面容器化。今年上线的JDOS2.0系统,完成了从Openstack向Kubernetes整体迁移,截止到今年618大促,已经有超过60%的核心业务运行在了JDOS2.0平台上面。在京东超过10000多的应用中,有状态应用和服务的编排和管理是最具挑战性的。本次分享将深入介绍京东使用Kubernetes进行有状态服务集群的编排和管理。具体包括使用京东自研ContainerFS结合Kubernetes的动态存储请求和分配机制对服务状态的持久化存储、 使用京东自研基于DPDK的高性能负载均衡结合URL Check功能对服务状态的实时监控、以及高效部署和管理有状态服务集群的Init Container, StatefulSet等特性的实践。最后会通过一个有状态集群的例子来展示京东如何在JDOS2.0上面轻松进行有状态服务的创建和自动化管理。

    听众受益:

    了解京东新一代容器平台JDOS2.0关于有状态服务编排和管理的最新进展。

    王华夏
    京东基础平台集群技术部资深架构师
    17:00~17:45 机器学习模型训练的Kubernetes实践

    通过人工智能、机器学习的途径来挖掘数据的深层价值,已经成为当前的热点,通过Kubernetes来管理机器学习的任务也是当前的趋势。机器学习很重要的一个环节是模型训练,模型训练往往对计算力、磁盘和网络IO及资源调度都有不低的要求。虽然通过Kubernetes可以解决训练任务的资源调度问题,训练中间结果的存取也可以通过Ceph来实现。但是kubernetes原生对GPU的支持不够完善,在异构GPU的处理、GPU资源监控、NVIDIA Driver的外部依赖等版本问题上,有若干问题存在。主要内容如下:

    1. 如何克服挑战将模型训练移植到kubernetes;
    2. 如何通过Ceph的一写多读解决机器学习训练的中间结果数据集大,存储效率低的问题;
    3. Kubernetes原生对于Ceph的支持不够,如何通过ImageFormat、mount options解决;
    4.如何自动清理废弃的PV等。

    袁晓沛
    七牛云技术总监
    运维监控与安全
    13:30~14:15 构建微服务下的性能监控

    APM系统诞生已久,但是在这几年才越来越受到开发、运维团队的关注,应用系统从CS到J2EE,再到如今的SOA、微服务以及容器化,应用的分布式复杂程度与日俱增,当年可以从日志排查的错误,现在却成为了难以定位的问题。

    本次分享我将根据自身多年的分布式监控产品的设计和研发经验,带领大家了解分布式监控领域的常用理论、方法及面临的问题。教大家如何选择适合自己的分布式监控系统,甚至如何构建属于自己的分布式监控系统。主要内容如下:

    1. 面向微服务和DevOps的下一代APM
    2. 概念:CNCF OpenTracing的语义、概念及近一年的发展情况
    3. 三大领域
       3.1 监控的数据化、全领域监控
       3.2.应用的发现、追踪和诊断
       3.3 应用分析:蝴蝶效应以及告警风暴
    4. 产品形态与定位:面向运维和面向研发的监控系统
    5.选择:分布式追踪系统中的抉择
       5.1 手动埋点和自动埋点之争
       5.2 采样与全量之争
       5.3 实时与批量之争
       5.4 调用链路与日志收集
    6.sky-walking开源APM展示,Spring Cloud微服务监控

    吴晟
    华为软件开发云分布式应用性能监控产品专家
    14:40~15:25 固守服务器的第一道防线——美联集团堡垒机的前世今生

    1. 背景

    1.1 老堡垒机在使用中遇到的问题
    1.2 使用市面上的开源产品,但是并不适合本身的业务需求以及安全需求
    1.3 决定进行自研

    2. 历史问题以及处理过程

    2.1 权限如何规范,权限收回,root 回收
    2.2 权限回收后的系统依赖问题
    2.3 线上机器互跳
    2.4 免密登录,使开发过程更便捷
    2.5 录屏、以及历史记录管理

    3. 构建二期中遇到的问题以及难点

    3.1 二期设计的整体思路
    3.2 用到的相关技术栈
    3.3 用到的一些技术细节
    3.4 二期部署落地以及总结

    4. 总结和FAQ

    听众受益:

    在信息安全越来越被重视的今天,堡垒机作为服务器的第一道直接防线,充当着十分重要的角色。本次分享将基于本人在堡垒机方面的研究与总结,并结合在工作中的实际经验,为大家讲解美联集团堡垒机系统从摸索到落地中遇到的问题以及挑战,与大家一起探讨安全与运维的结合方式。使听众了解如何构建适合自身业务的堡垒机系统,并且满足安全与运维的双重需求。

    齐剑涛(榛名)
    美丽联合集团高级安全工程师
    15:50~16:35 阿里巴巴监控之路

    在2016年双11全球购物狂欢节中,天猫全天交易额1207亿元,前30分钟每秒交易峰值17.5万笔,每秒支付峰值12万笔。承载这些秒级数据背后的监控产品是如何实现的呢?本主题通过对阿里巴巴监控体系的演进来阐述新一代的监控系统是如何实现的,以及架构是如何进化的。

    这次主要讲的是海量实时秒级监控系统,以日志、REST 接口、Shell 脚本等作为数据采集来源,提供系统、应用、业务等各种视角的监控能力,从而帮助业务快速发现问题、定位问题、解决问题,为线上系统可用率提供有效保障。

    听众受益:

    1. 超大规模的实时秒级监控系统的架构;
    2. 支持业务发展的关键技术点;
    3. 系统演进过程的思考和实践。

    程超
    阿里巴巴监控平台技术专家
    TRAINING
    培训
    立即报名
    reviews
    2016 CNUTCon 回顾
    PARTNERS
    合作伙伴

    上海·光大会展中心大酒店

    会议时间:

    2017年9月10日-11日

    会议地点:

    上海市徐汇区漕宝路66号

    地铁路线:

    乘坐地铁至漕宝路站(8号口出)

    公交路线:

    乘车43路、92路、120路、166路、186路、
    198路、809路、946路等至漕宝路习勤路站