原创学习一下数据集群 Spark

Spark|Spark的安装与配置

发表于2023-09-13更新于2024-07-08

广东

学习一下数据集群 Spark

Spark|Spark的安装与配置

叶一片2023-09-132024-07-08

一、下载并安装

到官网下载适合自己电脑体质的版本：https://spark.apache.org/downloads.html

接着解压并移动到相关文件夹

1	sudo tar -zxvf spark-3.2.4-bin-hadoop2.7.tgz -C /usr/local

更改配置

到主目录下的./bashrc添加以下配置
1
2
export SPARK_HOME=/usr/local/spark-3.2.4-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
要记得source ~/.bashrc进行保存刷新使之生效

4.接着输入pyspark ，显示结果如下即启动成功。

二、尝试加载本地

接着可以输入以下代码进行文件的行数统计

1
2
3

textFile=sc.textFile("file:/usr/local/spark-3.2.4-bin-hadoop2.7/README.md")
（回车）
textFile.count()

三、尝试加载hdfs的文件

用另一个终端启动hdfs
1
start-all.sh
回到spark终端

找到你要查询的文件，并将路径输入到下方

1 2	textFile2=sc.textFile("hdfs://localhost:9000/hadoop_class/xiyouji_cut.txt") textFile2.count()

输出结果为两万多行

叶一片

天地在兜里

原创 Spark|Spark的安装与配置

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自我是叶一片！

数据集群2 Spark2

喜欢这篇文章的人也看了

数据库加载中