Spark|Spark的安装与配置
Spark|Spark的安装与配置
叶一片一、下载并安装
到官网下载适合自己电脑体质的版本:https://spark.apache.org/downloads.html
接着解压并移动到相关文件夹
1
sudo tar -zxvf spark-3.2.4-bin-hadoop2.7.tgz -C /usr/local
更改配置
到主目录下的
./bashrc
添加以下配置1
2export SPARK_HOME=/usr/local/spark-3.2.4-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin要记得
source ~/.bashrc
进行保存刷新使之生效
4.接着输入pyspark
,显示结果如下即启动成功。
二、尝试加载本地
接着可以输入以下代码进行文件的行数统计
1 | textFile=sc.textFile("file:/usr/local/spark-3.2.4-bin-hadoop2.7/README.md") |
三、尝试加载hdfs的文件
用另一个终端启动hdfs
1
start-all.sh
回到spark终端
找到你要查询的文件,并将路径输入到下方
1
2textFile2=sc.textFile("hdfs://localhost:9000/hadoop_class/xiyouji_cut.txt")
textFile2.count()输出结果为两万多行