皮皮网
皮皮网

【笑笑江湖源码】【红杉idg源码】【airflow源码调试】spark源码编译安装

来源:燃气随源码 发表时间:2025-01-16 12:15:23

1.sparkԴ?源译安???밲װ
2.IntelliJ-IDEA-Maven-Scala-Spark开发环境搭建
3.如何在Mac使用Intellij idea搭建远程Hadoop开发环境

spark源码编译安装

sparkԴ????밲װ

       为了协助妻子完成课程作业,我在Ubuntu和Windows 系统上分别进行了Spark环境配置。码编Ubuntu环境配置较为简便,源译安网络上有众多教程可供参考,码编但Windows 系统的源译安配置教程则往往存在疏漏,因此以下是码编笑笑江湖源码对Windows环境下配置过程的一个总结。

       环境配置主要分为以下几个步骤:

       1. Python环境:本文使用的源译安是Anaconda环境,因为Anaconda的码编集成度较高。Anaconda的源译安下载地址为:Anaconda,若外网下载速度较慢,码编建议使用:清华大学镜像。源译安建议在安装过程中将Python路径添加到Path中。码编

       2. JDK配置:JAVA的源译安配置可以参考Spark在Windows下的环境搭建这篇博客。JAVA的码编下载地址为:JAVA。需要注意的源译安是,不要安装最新的.0.1版本,否则会导致后续的scala和spark无法正常使用。我目前安装的版本为Java SE Development Kit 8u,后续安装中没有出现其他问题。

       3. Spark安装:Spark的红杉idg源码安装非常简单,只需下载并解压即可。程序地址为:Spark。需要注意的是,不同版本的Spark对Scala和Hadoop版本有不同要求,具体要求可参考Spark官方文档。

       4. Scala安装:从官方网址下载安装包:Scala,所选版本需与Spark对应。我选择的版本为Scala 2.,Windows下的Scala需要选择Scala binaries for windows。

       5. Hadoop安装:个人发现,如果不安装Hadoop,运行中会出现各种错误,因此推荐进行配置。软件版本根据Spark版本定,下载地址为:Hadoop。我选择的版本为2.7.1,选择已经编译好的版本。下载完成后,需要添加winutils.exe文件,airflow源码调试否则运行中会报错找不到该文件。网上已有编译好的文件,地址为:github_winutils,根据自己的Hadoop版本下载,然后放入Hadoop解压后的bin文件中即可。

       环境变量的设置:完成上述安装后,统一进行环境变量配置。注意,以下修改的都是“系统变量”,非用户变量。

       1. Python环境:Anaconda安装中已经自动配置。

       2. JAVA环境:在系统变量中加入JAVA_HOME,路径设置为:C:\Program Files\Java\jdk1.8.0_。在系统变量中加入CLASSPATH,路径设置为:。不添加这一步,后续使用中会提示需要的库函数未找到。在Path中添加:%JAVA_HOME%\bin。

       3. Scala环境:安装中已经自动配置,帝国源码开源如果没有,将Scala的bin文件添加入Path中。

       4. Hadoop环境:在系统变量中加入HADOOP_HOME,路径设置为解压后的Hadoop路径。在Path中添加:%HADOOP_HOME%\bin。

       5. Spark环境:在系统变量中加入SPARK_HOME,路径设置为解压后的Spark路径。在Path中添加:%SPARK_HOME%\bin。

       所有环境配置完成后,可以通过重启来激活系统环境变量。这里介绍一种更为简单的操作:首先在Powershell中运行setx PATH "%PATH%;C:\Program Files\Java\jdk1.8.0_\bin"命令,关闭该窗口,在新窗口中运行echo %PATH%命令,系统变量即生效。该操作不改变系统环境变量,省去了关机的时间。

       在完成所有环境变量配置后,可以在Powershell中运行spark-shell,显示如下界面:。绝世神功源码运行pyspark,显示如下界面:。即表明基本配置成功。

       PySpark配置:由于希望在python环境中可以直接通过import pyspark的形式使用,因此,我们通过如下方式来让python“找到”spark。首先,通过pip命令安装findspark,然后在所需程序中执行import findspark即可顺利import pyspark。

       最后,祝大家期末愉快!

IntelliJ-IDEA-Maven-Scala-Spark开发环境搭建

       首先,你需要从官方网站下载并安装Java Development Kit (JDK)。确保安装完成后,检查环境变量是否配置正确。接着,转向Scala,从其官方网站下载并安装最新版本。安装完成后,你可以在IntelliJ IDEA中寻找Scala插件,进行安装以支持Scala开发。

       在IntelliJ IDEA中,启动新项目,跟随向导创建一个Maven项目。在向导中,你需要填写项目的基本信息,包括项目名称和版本号。下一步,进入项目的pom.xml文件,这里你可以自定义Maven的依赖项和版本,比如添加对Scala的支持。

       删除pom.xml中默认生成的代码,然后动手编写你自己的Hello World程序。这是展示Scala功能的良好起点。记得保存并整理你的代码结构。

       编译完成后,你需要定义打包命令,这将生成可部署的项目包。根据你的需求,可以选择合适的打包选项,比如运行`mvn clean package`命令来执行这个过程。

       为了测试你的项目,你可以选择将打包后的文件上传到测试环境,或者在本地运行。这样,你可以验证Scala、Maven和Spark集成环境是否已经配置妥当。

       以上步骤由Yezhiwei撰写,他在他的博客 IntelliJ-IDEA-Maven-Scala-Spark开发环境搭建-Yezhiwei的博客 | Yezhiwei Blog 上分享了这些经验。请注意,所有内容均来源于网络,版权归属原作者,如遇到问题,请直接与他们联系获取帮助。感谢阅读!

如何在Mac使用Intellij idea搭建远程Hadoop开发环境

       (1)准备工作

       1)

       安装JDK

       6或者JDK

       7

       2)

       安装scala

       2..x

       (注意版本)

       2)下载Intellij

       IDEA最新版(本文以IntelliJ

       IDEA

       Community

       Edition

       .1.1为例说明,不同版本,界面布局可能不同)

       3)将下载的Intellij

       IDEA解压后,安装scala插件,流程如下:

       依次选择“Configure”–>

       “Plugins”–>

       “Browse

       repositories”,输入scala,然后安装即可

       (2)搭建Spark源码阅读环境(需要联网)

       一种方法是直接依次选择“import

       project”–>

       选择spark所在目录

       –>

       “SBT”,之后intellij会自动识别SBT文件,并下载依赖的外部jar包,整个流程用时非常长,取决于机器的网络环境(不建议在windows

       下操作,可能遇到各种问题),一般需花费几十分钟到几个小时。注意,下载过程会用到git,因此应该事先安装了git。

       第二种方法是首先在linux操作系统上生成intellij项目文件,然后在intellij

       IDEA中直接通过“Open

       Project”打开项目即可。在linux上生成intellij项目文件的方法(需要安装git,不需要安装scala,sbt会自动下载)是:在

       spark源代码根目录下,输入sbt/sbt

       gen-idea

       注:如果你在windows下阅读源代码,建议先在linux下生成项目文件,然后导入到windows中的intellij

       IDEA中。

       (3)搭建Spark开发环境

       在intellij

       IDEA中创建scala

       project,并依次选择“File”–>

       “project

       structure”

       –>

       “Libraries”,选择“+”,将spark-hadoop

       对应的包导入,比如导入spark-assembly_2.-0.9.0-incubating-hadoop2.2.0.jar(只需导入该jar

       包,其他不需要),如果IDE没有识别scala

       库,则需要以同样方式将scala库导入。之后开发scala程序即可:

       编写完scala程序后,可以直接在intellij中,以local模式运行,方法如下:

       点击“Run”–>

       “Run

       Configurations”,在弹出的框中对应栏中填写“local”,表示将该参数传递给main函数,如下图所示,之后点击“Run”–>

       “Run”运行程序即可。

       如果想把程序打成jar包,通过命令行的形式运行在spark

       集群中,可以按照以下步骤操作:

       依次选择“File”–>

       “Project

       Structure”

       –>

       “Artifact”,选择“+”–>

       “Jar”

       –>

       “From

       Modules

       with

       dependencies”,选择main函数,并在弹出框中选择输出jar位置,并选择“OK”。

       最后依次选择“Build”–>

       “Build

       Artifact”编译生成jar包。

相关栏目:探索