开源大数据周刊-第107期

发布时间:2020-07-01 10:58:30 | 作者:神秘网友 | 本教程技术重点:开源 数据 周刊 107期 开源 数据 周刊 107期 资讯

开源大数据周刊-第107期

资讯

  • 英特尔AIDC大会:向AI开发者敞开怀抱,更加注重生态搭建
    11月14日,英特尔人工智能大会(AIDC 2018)在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会,也是第一次专门面向开发者和技术社区。大会上,英特尔发布了Neural Compute Stick 2(神经计算棒二代),英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴,共同推进AI与物联网发展。
  • 双11再创新纪录:背后云计算成为全社会的新基础设施
    2018年天猫双11购物狂欢节21秒破10亿元,比去年快7秒;1小时47分26秒破千亿元,比去年快7个多小时;15小时49分39秒超1682亿元,超过去年全天交易额;24小时交易总额达到2135亿元。今年双11期间,阿里云上新增调用的弹性计算能力累计超过1000万核,相当于10座大型数据中心,创造了“脉冲计算”的新纪录。
  • Data Eng Conf会议回顾
    这篇文章回顾了上周在纽约举行的Data Eng Conf会议,主要内容包括了改善ETL处理流程,Kubernetes和容器的适用场景以及工作流相关议题。

技术

  • Spark2.4.0 Barrier Scheduling介绍
    随着Spark 2.4.0的发布,新的调度模型(Barrier Scheduling)使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。本文介绍了Barrier Scheduling的基本概念,API以及使用案例。
  • Livy:基于 Apache Spark 的 REST 服务
    Apache Spark 提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于 Apache Spark 的 REST 服务,它不仅以 REST 的方式代替了 Spark 传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。
  • MapReduce作业大规模迁移Apache Spark在百度的实践
    Baidu 拥有世界领先规模的 Hadoop/Spark 集群, 目前 MR 集群在仍有日均过 50P 级别的输入数据处理量. 但随着架构的变迁和 Spark 生态的不断成熟, MR 在Baidu内部正在逐渐被 Spark 生态替换. 本分享介绍百度计算团队推动 MR 迁移 Spark 的一些背景, 和许多踩坑以及解决方案,值得大家学习。
  • Kafka的API那么多,到底该怎么选
    Kafka 是一头值得研究的野兽。尽管随着时间的推移,Kafka 的内核已经相当稳定,但围绕 Kafka 的框架却在迅速发展。几年前,Kafka 很容易理解:Producer 和 Consumer。现在,我们还有 Kafka Connect、Kafka Streams 和 KSQL。它们是要取代 Producer 或 Consumer API,还是对它们的补充?本文将详细说明。

欢迎入群技术交流!

开源大数据周刊-第107期
开源大数据周刊-第107期