返回 随笔记录
随笔记录

十二、大数据处理

博主
大约 4 分钟

十二、大数据处理

范围:Hadoop、Hive、Spark、Flink、数据湖、实时数仓 知识点数量:82项 返回总目录


12.1 Hadoop生态

12.1.1 HDFS

  • 1160. NameNode/DataNode - 掌握主从架构
  • 1161. 块存储 - 掌握Block机制
  • 1162. 副本策略 - 掌握副本放置
  • 1163. 读写流程 - 掌握数据流
  • 1164. HA架构 - 掌握高可用
  • 1165. Federation - 掌握联邦
  • 1166. 小文件问题 - 掌握优化方案

12.1.2 MapReduce

  • 1167. Map/Reduce阶段 - 掌握计算模型
  • 1168. Shuffle过程 - 掌握排序和分区
  • 1169. Combiner - 掌握本地聚合
  • 1170. 分区器 - 掌握Partitioner
  • 1171. 计数器 - 掌握统计信息
  • 1172. YARN - 掌握资源调度

12.2 Hive

12.2.1 基础使用

  • 1173. 数据模型 - 掌握Table、Partition、Bucket
  • 1174. HQL语法 - 掌握SQL操作
  • 1175. UDF - 掌握自定义函数
  • 1176. 存储格式 - 掌握ORC、Parquet
  • 1177. 压缩 - 掌握Snappy、Gzip
  • 1178. 外部表 - 掌握原始数据访问

12.2.2 优化

  • 1179. 执行计划 - 掌握Explain
  • 1180. 数据倾斜 - 掌握解决方案
  • 1181. MapJoin - 掌握小表Join
  • 1182. 向量化查询 - 掌握性能提升
  • 1183. 分区裁剪 - 掌握查询优化
  • 1184. Tez引擎 - 掌握DAG执行

12.3 Spark

12.3.1 核心概念

  • 1185. RDD - 掌握弹性分布式数据集
  • 1186. DataFrame - 掌握结构化API
  • 1187. Dataset - 掌握类型安全
  • 1188. 转换与动作 - 掌握Lazy Evaluation
  • 1189. 分区 - 掌握数据分片
  • 1190. 广播变量 - 掌握大变量分发
  • 1191. 累加器 - 掌握分布式计数

12.3.2 Spark SQL

  • 1192. Catalyst优化器 - 掌握查询优化
  • 1193. Tungsten引擎 - 掌握执行优化
  • 1194. 窗口函数 - 掌握分析函数
  • 1195. UDF/UDAF - 掌握自定义聚合
  • 1196. 数据源 - 掌握JDBC、JSON、CSV
  • 1197. 动态分区裁剪 - 掌握优化

12.3.3 Spark Streaming

  • 1198. DStream - 掌握微批处理
  • 1199. Structured Streaming - 掌握流式SQL
  • 1200. 窗口操作 - 掌握时间窗口
  • 1201. 状态管理 - 掌握mapWithState
  • 1202. 检查点 - 掌握容错
  • 1203. 背压机制 - 掌握流量控制
  • 1204. 与Kafka集成 - 掌握流式消费

12.4.1 核心架构

  • 1205. DataStream API - 掌握流处理
  • 1206. Table API - 掌握表流统一
  • 1207. Source/Sink - 掌握数据源
  • 1208. Transform - 掌握算子
  • 1209. 并行度 - 掌握任务并行
  • 1210. Checkpoint - 掌握状态快照
  • 1211. Savepoint - 掌握手动快照

12.4.2 状态与时间

  • 1212. 状态后端 - 掌握RocksDB
  • 1213. 事件时间 - 掌握Watermark
  • 1214. 窗口 - 掌握Tumbling/Sliding/Session
  • 1215. CEP - 掌握复杂事件处理
  • 1216. 迟到数据 - 掌握AllowedLateness
  • 1217. Exactly-Once - 掌握端到端一致性

12.5 数据湖

12.5.1 Delta Lake

  • 1218. ACID事务 - 掌握数据一致性
  • 1219. Time Travel - 掌握历史查询
  • 1220. Schema Evolution - 掌握Schema变更
  • 1221. Merge Into - 掌握Upsert
  • 1222. 优化 - 掌握Compaction
  • 1223. 流批一体 - 掌握统一处理

12.5.2 Apache Iceberg

  • 1224. 隐藏分区 - 掌握分区抽象
  • 1225. 快照隔离 - 掌握并发控制
  • 1226. 元数据管理 - 掌握Manifest
  • 1227. 数据演进 - 掌握Schema版本
  • 1228. 与Spark集成 - 掌握读写
  • 1229. 与Flink集成 - 掌握流式写入

12.6 实时数仓

12.6.1 架构设计

  • 1230. Lambda架构 - 掌握批流分离
  • 1231. Kappa架构 - 掌握纯流处理
  • 1232. 实时ODS - 掌握原始数据层
  • 1233. 实时DWD - 掌握明细数据层
  • 1234. 实时DWS - 掌握汇总数据层
  • 1235. 实时ADS - 掌握应用数据层

12.6.2 数据质量

  • 1236. 数据校验 - 掌握质量规则
  • 1237. 数据血缘 - 掌握血缘追踪
  • 1238. 监控告警 - 掌握异常检测
  • 1239. 数据对账 - 掌握一致性校验
  • 1240. 数据治理 - 掌握元数据管理
  • 1241. 数据脱敏 - 掌握隐私保护

进度统计

  • 领域:大数据处理
  • 知识点总数:82项
  • 已完成:0项
  • 待完成:82项

返回总目录

知识点测试

读完文章了?来测试一下你对知识点的掌握程度吧!

评论区

使用 GitHub 账号登录后即可发表评论,支持 Markdown 格式。

如果评论系统无法加载,请确保:

  • 您的网络可以访问 GitHub
  • giscus GitHub App 已安装到仓库
  • 仓库已启用 Discussions 功能