- Spark Core:实现了Spark的基本功能,包含RDD(弹性分布式数据集)、任务调度、内存管理、错误恢复、与存储系统交互等模块。
- Spark SQL:用于操作结构化数据的程序包,允许开发人员使用SQL查询数据1。
- Spark Streaming:提供对实时数据进行流式计算的组件,可以处理来自多种数据源的数据流1。
- Spark MLlib:提供常见的机器学习功能的程序库,包括分类、回归、聚类、协同过滤等1。
- GraphX:用于图计算的API,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法1。