返回 随笔记录
十二、大数据处理
博主
大约 4 分钟
十二、大数据处理
范围:Hadoop、Hive、Spark、Flink、数据湖、实时数仓 知识点数量:82项 返回总目录
12.1 Hadoop生态
12.1.1 HDFS
- 1160. NameNode/DataNode - 掌握主从架构
- 1161. 块存储 - 掌握Block机制
- 1162. 副本策略 - 掌握副本放置
- 1163. 读写流程 - 掌握数据流
- 1164. HA架构 - 掌握高可用
- 1165. Federation - 掌握联邦
- 1166. 小文件问题 - 掌握优化方案
12.1.2 MapReduce
- 1167. Map/Reduce阶段 - 掌握计算模型
- 1168. Shuffle过程 - 掌握排序和分区
- 1169. Combiner - 掌握本地聚合
- 1170. 分区器 - 掌握Partitioner
- 1171. 计数器 - 掌握统计信息
- 1172. YARN - 掌握资源调度
12.2 Hive
12.2.1 基础使用
- 1173. 数据模型 - 掌握Table、Partition、Bucket
- 1174. HQL语法 - 掌握SQL操作
- 1175. UDF - 掌握自定义函数
- 1176. 存储格式 - 掌握ORC、Parquet
- 1177. 压缩 - 掌握Snappy、Gzip
- 1178. 外部表 - 掌握原始数据访问
12.2.2 优化
- 1179. 执行计划 - 掌握Explain
- 1180. 数据倾斜 - 掌握解决方案
- 1181. MapJoin - 掌握小表Join
- 1182. 向量化查询 - 掌握性能提升
- 1183. 分区裁剪 - 掌握查询优化
- 1184. Tez引擎 - 掌握DAG执行
12.3 Spark
12.3.1 核心概念
- 1185. RDD - 掌握弹性分布式数据集
- 1186. DataFrame - 掌握结构化API
- 1187. Dataset - 掌握类型安全
- 1188. 转换与动作 - 掌握Lazy Evaluation
- 1189. 分区 - 掌握数据分片
- 1190. 广播变量 - 掌握大变量分发
- 1191. 累加器 - 掌握分布式计数
12.3.2 Spark SQL
- 1192. Catalyst优化器 - 掌握查询优化
- 1193. Tungsten引擎 - 掌握执行优化
- 1194. 窗口函数 - 掌握分析函数
- 1195. UDF/UDAF - 掌握自定义聚合
- 1196. 数据源 - 掌握JDBC、JSON、CSV
- 1197. 动态分区裁剪 - 掌握优化
12.3.3 Spark Streaming
- 1198. DStream - 掌握微批处理
- 1199. Structured Streaming - 掌握流式SQL
- 1200. 窗口操作 - 掌握时间窗口
- 1201. 状态管理 - 掌握mapWithState
- 1202. 检查点 - 掌握容错
- 1203. 背压机制 - 掌握流量控制
- 1204. 与Kafka集成 - 掌握流式消费
12.4 Flink
12.4.1 核心架构
- 1205. DataStream API - 掌握流处理
- 1206. Table API - 掌握表流统一
- 1207. Source/Sink - 掌握数据源
- 1208. Transform - 掌握算子
- 1209. 并行度 - 掌握任务并行
- 1210. Checkpoint - 掌握状态快照
- 1211. Savepoint - 掌握手动快照
12.4.2 状态与时间
- 1212. 状态后端 - 掌握RocksDB
- 1213. 事件时间 - 掌握Watermark
- 1214. 窗口 - 掌握Tumbling/Sliding/Session
- 1215. CEP - 掌握复杂事件处理
- 1216. 迟到数据 - 掌握AllowedLateness
- 1217. Exactly-Once - 掌握端到端一致性
12.5 数据湖
12.5.1 Delta Lake
- 1218. ACID事务 - 掌握数据一致性
- 1219. Time Travel - 掌握历史查询
- 1220. Schema Evolution - 掌握Schema变更
- 1221. Merge Into - 掌握Upsert
- 1222. 优化 - 掌握Compaction
- 1223. 流批一体 - 掌握统一处理
12.5.2 Apache Iceberg
- 1224. 隐藏分区 - 掌握分区抽象
- 1225. 快照隔离 - 掌握并发控制
- 1226. 元数据管理 - 掌握Manifest
- 1227. 数据演进 - 掌握Schema版本
- 1228. 与Spark集成 - 掌握读写
- 1229. 与Flink集成 - 掌握流式写入
12.6 实时数仓
12.6.1 架构设计
- 1230. Lambda架构 - 掌握批流分离
- 1231. Kappa架构 - 掌握纯流处理
- 1232. 实时ODS - 掌握原始数据层
- 1233. 实时DWD - 掌握明细数据层
- 1234. 实时DWS - 掌握汇总数据层
- 1235. 实时ADS - 掌握应用数据层
12.6.2 数据质量
- 1236. 数据校验 - 掌握质量规则
- 1237. 数据血缘 - 掌握血缘追踪
- 1238. 监控告警 - 掌握异常检测
- 1239. 数据对账 - 掌握一致性校验
- 1240. 数据治理 - 掌握元数据管理
- 1241. 数据脱敏 - 掌握隐私保护
进度统计
- 领域:大数据处理
- 知识点总数:82项
- 已完成:0项
- 待完成:82项
知识点测试
读完文章了?来测试一下你对知识点的掌握程度吧!
评论区
使用 GitHub 账号登录后即可发表评论,支持 Markdown 格式。
如果评论系统无法加载,请确保:
- 您的网络可以访问 GitHub
- giscus GitHub App 已安装到仓库
- 仓库已启用 Discussions 功能