• INTRODUCTION
  • 大会简介
  • CNUTCon全球运维技术大会是由InfoQ主办的运维&容器技术盛会。大会为期2天,主要面向各行业对运维&容器技术感兴趣的中高端技术人员。秉承着“同步前沿技术、共享实战经验、聚焦最佳实践、激发思想碰撞”的宗旨,CNUTCon致力于帮助参会者了解国内外相关公司的领域动态及应用案例,使企业可以更精准地确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。

  • 从行业角度出发

    不鼓吹某项技术也不抹黑某项技术

  • 从社区角度出发

    希望引导社区向着正确的方向前进

  • 从内容角度出发

    专题系统全面且演讲有层次有深度

  • 从听众角度出发

    重经验 & 谈实践 多落地 & 少概念

  • special topics
    专题介绍
    CO-CHAIR
    联席主席
    HOSTS
    出品人
    SPEAKERS
    演讲嘉宾
    schedule
    会议日程
    第一天
    第二天
    时间 主题 讲师
    SRE与微服务最佳实践
    Topic 1 搜狗配置中心架构演化与实践

    传统的分布式配置文件管理模式已越来越难满足微服务灵活多变的特性,而如何应对配置的频繁变更和生效则成为了微服务时代配置中心的重点。在微服务的背景下,配置中心正在逐渐开启新的定义和赋予新的角色,成为串联整个微服务架构体系的不可或缺的一部分。

    本主题通过对搜狗统一配置中心的迭代演进,从资源依赖的模型角度阐述新一代的配置中心设计理念,从配置管理、配置变更、容灾等方面结合微服务现状进行深度架构剖析,同时分享配置中心在多环境并行测试、数据库热切换、灰度发布等方面的成功实践和思考。

    听众受益:

    1. 阐述目前主流配置中心的基本架构与设计思路;
    2. 微服务时代如何实现分布式配置文件管理和变更,自动容灾等;
    3. 配置中心在搜狗商业部门的实践经验总结,关键技术解决方案等。

    郭理勇
    搜狗资深高级工程师
    数据库运维
    Topic 1 从理论到实践,深度解析MySQL Group Replication

    从Oracle官方宣布MySQL Group Replication插件在2016年12月12日发布的MySQL 5.7.17版本上正式GA以来,不少从事MySQL工作的技术人已经开始学习、研究与测试。但相对而言,大多数人因为限于时间跟精力的原因,没有去深入了解这方面的内容。本次演讲,将会以理论应用到实践、由实践再反推理论的方式,由浅入深、再深入浅出地介绍Group Replication的理论知识与生产实践。

    徐春阳
    民生银行科技部项目经理
    互联网金融
    Topic 1 基于资产配置业务场景下的全链路监控平台

    随着系统平台化的演进,服务拆分越来越精细化,原本依赖于总线交互的功能模块都被分散到了PaaS中,形成了“微颗粒”。在松耦合给产品带来“快速交付”的同时,发现故障 、定位故障、排除故障却变成了测试、运维同学“烦恼”的心事。在“互联网金融需要实行强监管”的体制下,在“监管细则划定13条红线 ”的背景下,如何在互联网金融公司中,寻找到“快速排障”与“快速交付”的平衡点?来听听好买的经历吧。

    听众受益:希望本次分享能够对正处于或即将处于类似场景的互联网金融同行,起到推动、引领、借鉴的参考作用。

    王晔倞
    好买财富技术总监
    Topic 2 麻袋理财安全与合规建设

    本话题将分享麻袋理财在互联网金融领域安全与合规建设的经验,包括如何通过国家信息安全等级保护三级的测评工作以及银行资金存管落地实践经验。

    听众受益:

    1. 对同行来说,可以通过本次分享对互联网金融行业的安全与合规建设有更全面的了解,少走弯路;
    2. 对外部投资者来说,可以通过本次分享对互联网金融行业消除负面意识,合理判断,理性投资。

    王耀
    麻袋理财首席安全官
    大数据运维
    Topic 1 苏宁大数据平台运维实践

    苏宁大数据平台经过3年多的快速发展,集群规模从10台虚机急速扩展到700台物理机,平台组件也逐渐丰富,形成了以离线存储、在线存储、离线计算、实时计算等引擎为核心的大数据平台。在平台快速发展的过程中,平台规模的增长和组件的增多都给平台运维带来了很大的挑战。本话题将分享苏宁大数据平台发展过程中平台运维工作所遇到的问题和痛点,以及相应的应对措施和解决方案,希望能为大家提供一些思路或经验。

    1. 如何解决部署及运维复杂的问题?
    2. 如何解决缺少资源使用视图的问题?
    3. 如何解决排查问题耗时长的问题?
    4. 如何解决应用优化门槛高的问题?

    王志强
    苏宁云商IT总部技术总监
    容器编排与管理
    Topic 1 机器学习模型训练的Kubernetes实践

    通过人工智能、机器学习的途径来挖掘数据的深层价值,已经成为当前的热点,通过Kubernetes来管理机器学习的任务也是当前的趋势。机器学习很重要的一个环节是模型训练,模型训练往往对计算力、磁盘和网络IO及资源调度都有不低的要求。虽然通过Kubernetes可以解决训练任务的资源调度问题,训练中间结果的存取也可以通过Ceph来实现。但是kubernetes原生对GPU的支持不够完善,在异构GPU的处理、GPU资源监控、NVIDIA Driver的外部依赖等版本问题上,有若干问题存在。主要内容如下:

    1. 如何克服挑战将模型训练移植到kubernetes;
    2. 如何通过Ceph的一写多读解决机器学习训练的中间结果数据集大,存储效率低的问题;
    3. Kubernetes原生对于Ceph的支持不够,如何通过ImageFormat、mount options解决;
    4.如何自动清理废弃的PV等。

    袁晓沛
    七牛云技术总监
    智能化运维
    Topic 1 机器学习在大规模服务器治理复杂场景的实践

    我们今天面临的问题,云、支付和交易的程序通过虚拟化打散在百万级的服务器上,任何一次硬件故障都可能影响到重要的业务。 面对如此庞大的基础设施:百种机型、万种应用、百万服务器、千万部件,再加上不同业务对故障的敏感程度不一致,传统的运维方法受到了极大地挑战,海量告警无法及时处理、脏数据影响定位、批量问题如何提炼。

    本专题主要分享在无高质量样本的情况下,通过关联分析和异常检测算法,构建算法闭环。自动迭代,让批量问题的预测精度不断提高。打通故障定位和装机系统,提供从发现->定位->跟踪->修复的一站式解决方案。产品上线以来,在数据能覆盖的场景下,实现了100%的发现率。

    听众受益:

    1. 了解大数据和机器学习在智能运维方面的实践;
    2. 了解机器学习在批量问题发现问题中的思路和产品设计。

    陈立波
    阿里巴巴高级技术专家
    运维监控与安全
    Topic 1 构建微服务下的性能监控

    APM系统诞生已久,但是在这几年才越来越受到开发、运维团队的关注,应用系统从CS到J2EE,再到如今的SOA、微服务以及容器化,应用的分布式复杂程度与日俱增,当年可以从日志排查的错误,现在却成为了难以定位的问题。

    本次分享我将根据自身多年的分布式监控产品的设计和研发经验,带领大家了解分布式监控领域的常用理论、方法及面临的问题。教大家如何选择适合自己的分布式监控系统,甚至如何构建属于自己的分布式监控系统。主要内容如下:

    1. 面向微服务和DevOps的下一代APM
    2. 概念:CNCF OpenTracing的语义、概念及近一年的发展情况
    3. 三大领域
       3.1 监控的数据化、全领域监控
       3.2.应用的发现、追踪和诊断
       3.3 应用分析:蝴蝶效应以及告警风暴
    4. 产品形态与定位:面向运维和面向研发的监控系统
    5.选择:分布式追踪系统中的抉择
       5.1 手动埋点和自动埋点之争
       5.2 采样与全量之争
       5.3 实时与批量之争
       5.4 调用链路与日志收集
    6.sky-walking开源APM展示,Spring Cloud微服务监控

    吴晟
    华为软件开发云分布式应用性能监控产品专家
    运维自动化实践
    Topic 1 京东物流系统自动化运维平台技术揭密

    物流系统会有很多分支机构, 比如仓库、分拨中心、转运中心等, 业务复杂的分支机构可能会有自己的信息系统, 这些信息系统往往分布式地部署到全国各地,如何管理好这些分支机构的服务器、 信息系统, 降低因为地域分布造成的运维维护成本问题是每一个物流系统要考虑的现实问题。

    本专题将详细为大家介绍京东物流系统自动化运维平台的实现方案, 包括仓库系统的开仓实现、应用部署方案,以及研发排查问题的运维自助工具实现等。

    听众受益:

    1. 了解基于saltstack实现自动化运维平台的设计思路;
    2. 了解应用部署自动化、自助化运维工具的实现思路。

    赵玉开
    京东资深架构师
    Topic 2 阿里一键建站技术解密

    每年的双十一都是一个全球狂欢的节日,双十一当天的秒级交易峰值平时的近10多倍,要用3-4倍的机器去支撑。阿里采用异地多活技术来把这些机器分成多个单元,然后水平复制每个单元完成大促备容。每个单元涉及几百个系统,他们之间的依赖错综复杂,复制新单元难度很大。阿里在Docker化的基础上,利用调度和CaaS,把单元终态描述成一个镜像,完成了单元的快速复制,做到了8小时从机器交付到线上引流到单元。本次分享将重点介绍阿里基于容器的建站平台的背景、架构、发展历程及未来展望,主要包括以下内容:

    1. 阿里一键产生和背景及意义;
    2. 基于阿里现有架构下,一键建站的可行性、困难及挑战;
    3.  一键建站三代技术的发展历程;
    4. 一键建站的未来展望。

    谢吉宝(唐三)
    阿里巴巴高级技术专家
    reviews
    2016 CNUTCon 回顾
    PARNTERS
    合作伙伴

    上海·光大会展中心大酒店

    会议时间:

    2017年9月10日-11日

    会议地点:

    上海市徐汇区漕宝路66号

    地铁路线:

    乘坐地铁至漕宝路站(8号口出)

    公交路线:

    乘车43路、92路、120路、166路、186路、
    198路、809路、946路等至漕宝路习勤路站