任务A:离线数据处理-数据抽取
典型题解析第一个类型:抽取库中table1的增量数据进入Hive的ods库中表table1。根据ods.table1表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较),只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.table1命令,将结果截图粘贴至客户端桌面【Release提交结果.docx】中对应的任务序号下题目解析:一、题目核心需求梳理数据来源与目标:从 MySQL 库中table1表抽取增量数据,写入 Hive 的 ODS 层表ods.table1。增量判断规则以 MySQL 中operate_time、create_time两个时间字段较大值作为增量判断依据;与 ODS 层table1中同两条字段的较大值对比,仅抽取新增数据。表结构要求:源表与目标表字段名称、数据类型完全一致,不做字段修改。分区规则新增静态分区字段etl_date,类型为String;分区值为当前比赛日前一天日期,格式固定为yyyyMMdd。结果验证:通过 Hive CLI 执行show partitions ods.table1查看分区,将结果截图存入指定文档对应位置。二、关键知识点解析1. 增量同步逻辑采用时间戳增量抽取,避免全量同步造成资源浪费;