### 4.3 Hadoop发行版的选择

- Apache Hadoop
  - 开源社区版
  - 最新的Hadoop版本都是从Apache Hadoop发布的
  - Hadoop Hive Flume  版本不兼容的问题 jar包  spark scala  Java->.class->.jar ->JVM
- CDH: Cloudera Distributed Hadoop
  - Cloudera 在社区版的基础上做了一些修改

  - http://archive.cloudera.com/cdh5/cdh/5/

    ![](img/cdh.png)

  - hadoop-2.6.0-cdh-5.7.0 和 Flume*****-cdh5.7.0 cdh版本一致 的各个组件配合是有不会有兼容性问题
  - CDH版本的这些组件 没有全部开源
- HDP: Hortonworks Data Platform

### 4.4 大数据产品与互联网产品结合

- 分布式系统执行任务瓶颈: 延迟高 MapReduce 几分钟 Spark几秒钟
- 互联网产品要求
  - 毫秒级响应(1秒以内完成)
  - 需要通过大数据实现 统计分析 数据挖掘 关联推荐 用户画像
- 大数据平台
  - 整合网站应用和大数据系统之间的差异, 将应用产生的数据导入到大数据系统, 经过处理计算后再导出给应用程序使用
- 互联网大数据平台架构:

![](img/bigdata_arcit.png)

- 数据采集
  - App/Web 产生的数据&日志同步到大数据系统
  - 数据库同步:Sqoop  日志同步:Flume 打点: Kafka
  - 不同数据源产生的数据质量可能差别很大
    - 数据库 也许可以直接用
    - 日志 爬虫 大量的清洗,转化处理 
- 数据处理
  - 大数据存储与计算的核心
  - 数据同步后导入HDFS
  - MapReduce Hive Spark 读取数据进行计算 结果再保存到HDFS
  - MapReduce Hive Spark 离线计算, HDFS 离线存储
    - 离线计算通常针对(某一类别)全体数据, 比如 历史上所有订单
    - 离线计算特点: 数据规模大, 运行时间长
  - 流式计算
    - 淘宝双11 每秒产生订单数 监控宣传
    - Storm(毫秒) SparkStreaming(秒)

- 数据输出与展示
  - HDFS需要把数据导出交给应用程序, 让用户实时展示  ECharts
    - 淘宝卖家量子魔方
  - 给运营和决策层提供各种统计报告, 数据需要写入数据库
    - 很多运营管理人员, 上班后就会登陆后台数据系统
- 任务调度系统
  - 将上面三个部分整合起来

### 4.5 大数据应用--数据分析

- 通过数据分析指标监控企业运营状态, 及时调整运营和产品策略,是大数据技术的关键价值之一

- 大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的

  - 统计指标
  - 关联分析,
  - 汇总报告,

- 运营数据是公司管理的基础

  - 了解公司目前发展的状况
  - 数据驱动运营: 调节指标对公司进行管理

- 运营数据的获取需要大数据平台的支持

  - 埋点采集数据
  - 数据库,日志 三方采集数据
  - 对数据清洗 转换 存储 
  - 利用SQL进行数据统计 汇总 分析
  - 得到需要的运营数据报告

- 运营常用数据指标

  - 新增用户数  UG  user growth 用户增长

    - 产品增长性的关键指标
    - 新增访问网站(新下载APP)的用户数

  - 用户留存率

    - 用户留存率 = 留存用户数 / 当期新增用户数
    - 3日留存  5日留存 7日留存

  - 活跃用户数

    - 打开使用产品的用户
    - 日活
    - 月活
    - 提升活跃是网站运营的重要目标

  - PV Page View

    - 打开产品就算活跃
    - 打开以后是否频繁操作就用PV衡量, 每次点击, 页面跳转都记一次PV

  - GMV

    - 成交总金额(Gross Merchandise Volume) 电商网站统计营业额, 反应网站应收能力的重要指标
    - GMV相关的指标: 订单量 客单价

  - 转化率

    ```shell
    转化率 = 有购买行为的用户数 / 总访问用户数
    ```


### 4.6 数据分析案例

- 背景: 某电商网站, 垂直领域领头羊, 各项指标相对稳定

- 运营人员发现从 8 月 15 日开始，网站的订单量连续四天明显下跌

- 8 月 18 号早晨发现 8 月 17 号的订单量没有恢复正常，运营人员开始尝试寻找原因
  - 是否有负面报道被扩散
  - 是否竞争对手在做活动
  - 是否某类商品缺货
  - 价格异常

- 没有找到原因, 将问题交给数据分析团队

  ![](img/case1.png)

- 数据分析师分析可能性

  - 新增用户出现问题
  - 查看日活数据, 发现日活没有明显下降
    - 基本判断, 用户在访问网站的过程中,转化出了问题

  ![](img/case2.png)

- 转化过程:

  - 打开APP
  - 搜索关键词 浏览搜索结果列表
  - 点击商品访问详情
  - 有购买意向开始咨询
  - 放入购物车
  - 支付

  ![](img/case3.png)

- 订单活跃转化率 = 日订单量 / 打开用户数

- 搜索打开转化率 = 搜索用户数 / 打开用户数

- 有明显降幅的是咨询详情转化率

  ![](img/case4.png)

  - 对咨询信息分类统计后发现，新用户的咨询量几乎为 0
  - 于是将问题提交给技术部门调查，工程师查看 8 月 15 日当天发布记录,发现有消息队列SDK更新


**Hadoop企业应用案例之消费大数据**

亚马逊提前发货系统

**Hadoop企业案例之商业零售大数据**

智能推荐

