(工作流实现原理)

早上的工作就是把Spark清洗和写入数据这两个业务做一个区分

Job1是读取CSV -> 清洗数据 -> 写入parquet

Job2是读取parquet ->写入Mysql中

因为数据量其实不是很大,因为可能是离线的项目,所以打算使用Spark+Mysql+Spring中的IO来实现简单的清洗

大数据

git版本控制器(git版本控制管理第2版pdf)

2025-3-1 23:12:04

大数据

vmware fusion ubuntu

2025-3-1 23:12:06

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧