Spark|Spark的安装与配置

一、下载并安装

  1. 到官网下载适合自己电脑体质的版本:https://spark.apache.org/downloads.html

  2. 接着解压并移动到相关文件夹

    1
    sudo tar -zxvf spark-3.2.4-bin-hadoop2.7.tgz -C /usr/local
  3. 更改配置

    到主目录下的./bashrc添加以下配置

    1
    2
    export SPARK_HOME=/usr/local/spark-3.2.4-bin-hadoop2.7
    export PATH=$PATH:$SPARK_HOME/bin

    要记得source ~/.bashrc进行保存刷新使之生效

4.接着输入pyspark ,显示结果如下即启动成功。

二、尝试加载本地

接着可以输入以下代码进行文件的行数统计

1
2
3
textFile=sc.textFile("file:/usr/local/spark-3.2.4-bin-hadoop2.7/README.md")
(回车)
textFile.count()

三、尝试加载hdfs的文件

  1. 用另一个终端启动hdfs

    1
    start-all.sh
  2. 回到spark终端

  3. 找到你要查询的文件,并将路径输入到下方

    1
    2
    textFile2=sc.textFile("hdfs://localhost:9000/hadoop_class/xiyouji_cut.txt")
    textFile2.count()

    输出结果为两万多行