分类
2022外匯平台排名清單

使用Python绘制股票交易图形

启动pyspark后,就会进入“>>>”命令提示符状态,如下图所示:

现在,你就可以在里面输入python代码进行调试了。
比如,下面在命令提示符后面输入一个表达式“8 * 2 + 5”,然后回车,就会立即得到结果:

macOSにPython Seleniumをインストールする

Python用パッケージインストーラー(PIP)を使用してmacOSにPython Seleniumをインストールする

ソースコードを使用してmacOSにPython Seleniumをインストールする

まず、Seleniumライブラリのソースコードをダウンロードします。このために、 curl コマンドを使用します。

curl コマンドは、コマンドラインでURLを実行します。 Seleniumフレームワークのソースコードのダウンロードリンクを curl コマンドに渡します。

curl コマンドを実行すると、ソースコードが圧縮形式で selenium.tar.gz ファイルにダウンロードされます。

圧縮された tar.gz ファイルをダウンロードした後、 tar コマンドを使用してファイルの内容を抽出します。 tar コマンドは、圧縮ファイルの名前を入力引数として受け取り、内容を新しいフォルダーに抽出します。

実行後、 tar コマンドは圧縮ファイルに含まれるすべてのファイルを抽出します。これは次の画像で確認できます。

ファイルの内容を抽出した後、 cd コマンドを使用して、ファイルの内容を含む新しく作成されたフォルダーに移動します。 cd コマンドは、入力引数としてディレクトリの名前を取り、指定されたディレクトリに移動します。

新しいフォルダに移動した後、次のコマンドを使用して setup.py ファイルを実行します。以下のコマンドを実行すると、SeleniumがmacOSにインストールされます。

使用Python绘制股票交易图形

This documentation is for an out-of-date version of Apache Flink. We recommend you use the latest stable version.

注意 PyFlink 需要 Python 3.6 以上版本(3.6, 3.7 或 3.8)。请运行以下命令,以确保 Python 版本满足要求。

你的系统也许安装了好几个版本的 Python。你可以运行下面的 ls 使用Python绘制股票交易图形 命令来查看当前系统中安装的 Python 版本有哪些:

为了满足 使用Python绘制股票交易图形 Python 版本要求,你可以选择通过软链接的方式将 python 指向 python3 解释器:

除了软链接的方式,你也可以选择创建一个 Python virtual env( 使用Python绘制股票交易图形 venv )的方式。关于如何创建一个 virtual 使用Python绘制股票交易图形 env,你可以参考准备 Python 虚拟环境。

如果你不想使用软链接的方式改变系统 Python 解释器的路径,你也可以通过配置的方式指定 Python 解释器。 你可以参考配置python.client.executable,了解如何指定编译作业时所使用的 Python 解释器路径, 以及参考配置python.executable,了解如何指定执行 Python UDF 时所使用的 Python 解释器路径。

PyFlink 安装 #

PyFlink 已经被发布到PyPi,可以通过如下方式安装 PyFlink:

注意 从Flink 1.11版本开始, PyFlink 作业支持在 Windows 系统上运行,因此您也可以在 Windows 上开发和调试 PyFlink 作业了。

Spark2.1.0+入门:Spark的安装和使用(Python版)

大数据学习路线图

Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala,因此,“Spark安装”这个部分的教程,假设读者的计算机上,没有安装Scala,也没有安装Java(当然了,如果已经安装Java和Scala,也没有关系,依然可以继续按照本教程进行安装),也就是说,你的计算机目前只有Linux系统,其他的软件和环境都没有安装(没有Java,没有Scala,没有Hadoop,没有Spark),需要从零开始安装所有大数据相关软件。下面,需要你在自己的Linux系统上(笔者采用的Linux系统是Ubuntu16.04),首先安装Java和Hadoop,然后再安装Spark(Spark安装好以后,里面就默认包含了Scala解释器)。由于Ubuntu 16.04已经自带了Python 3.5版本,所以你的系统如果是Ubuntu 16.04,那么就不需要重新安装Python了。本教程也将以python3语法进行教学。
本教程的具体运行环境如下:

    使用Python绘制股票交易图形
  • Ubuntu16.04以上
  • Hadoop 2.7.1以上
  • Java JDK 1.8以上
  • Spark 2.1.使用Python绘制股票交易图形 0 以上
  • Python 3.4以上

一、安装Hadoop

二、安装Spark

在Linux系统中打开浏览器,访问Spark官方下载地址,按照如下图下载。

由于我们已经自己安装了Hadoop,所以,在“Choose a package type”后面需要选择“Pre-build with user-provided Hadoop [can 使用Python绘制股票交易图形 use with most Hadoop distributions]”,然后,点击“Download Spark”后面的“spark-2.1.0-bin-without-hadoop.tgz”下载即可。下载的文件,默认会被浏览器保存在“/home/hadoop/下载”目录下。需要说明的是,Pre-build with user-provided Hadoop: 属于“Hadoop free”版,这样,下载到的Spark,可应用到任意Hadoop 版本。

Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。
这里介绍Local模式(单机模式)的 Spark安装。我们选择Spark 2.1.0版本,并且假设当前使用用户名hadoop登录了Linux操作系统。

PYTHONPATH环境变量主要是为了在Python3中引入pyspark库,PYSPARK_PYTHON变量主要是设置pyspark运行的python版本。
.bashrc中必须包含JAVA_HOME,HADOOP_HOME,SPARK_HOME,PYTHONPATH,PYSPARK_PYTHON,PATH这些环境变量。如果已经设置了这些变量则不需要重新添加设置。另外需要注意,上面的配置项中,PYTHONPATH这一行有个py4j-0.10.4-src.zip,这个zip文件的版本号一定要和“/usr/local/spark/python/lib”目录下的py4j-0.10.4-src.zip文件保持版本一致。比如,如果“/usr/local/spark/python/lib”目录下是py4j-0.10.7-src.zip,那么,PYTHONPATH这一行后面也要写py4j-0.10.7-src.zip,从而使二者版本一致。
接着还需要让该环境变量生效,执行如下代码:

执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中):

这里涉及到Linux Shell中管道的知识,详情可以参考Linux Shell中的管道命令
过滤后的运行结果如下图示,可以得到π 的 5 位小数近似值:

三、在pyspark中运行代码

学习Spark程序开发,建议首先通过pyspark交互式学习,加深Spark程序开发的理解。
这里介绍pyspark 的基本使用。pyspark提供了简单的方式来学习 API,并且提供了交互的方式来分析数据。你可以输入一条语句,pyspark会立即执行语句并返回结果,这就是我们所说的REPL(Read-Eval-Print Loop,交互式解释器),为我们提供了交互式执行环境,表达式计算完成就会输出结果,而不必等到整个程序运行完毕,因此可即时查看中间结果,并对程序进行修改,这样可以在很大程度上提升开发效率。

前面已经安装了Hadoop和Spark,如果Spark不使用HDFS和YARN,那么就不用启动Hadoop也可以正常使用Spark。如果在使用Spark的过程中需要用到 HDFS,就要首先启动 Hadoop(启动Hadoop的方法可以参考上面给出的Hadoop安装教程)。
这里假设不需要用到HDFS,因此,就没有启动Hadoop。现在我们直接开始使用Spark。

Spark的运行模式取决于传递给SparkContext的Master URL的值。Master URL可以是以下任一种形式:
* local 使用一个Worker线程本地化运行SPARK(完全不并行)
* local[*] 使用逻辑CPU个数数量的线程来本地化运行Spark
* local[K] 使用K个Worker线程本地化运行Spark(理想情况下,K应该根据运行机器的CPU核数设定)
* spark://HOST:PORT 连接到指定的Spark standalone master。默认端口是7077.
* yarn-client 以客户端模式连接YARN集群。集群的位置可以在HADOOP_CONF_DIR 环境变量中找到。
* yarn-cluster 以集群模式连接YARN集群。集群的位置可以在HADOOP_CONF_DIR 环境变量中找到。
* 使用Python绘制股票交易图形 mesos://HOST:PORT 连接到指定的Mesos集群。默认接口是5050。

需要强调的是,这里我们采用“本地模式”(local)运行Spark,关于如何在集群模式下运行Spark,可以参考后面的“在集群上运行Spark应用程序”。
在Spark中采用本地模式启动pyspark的命令主要包含以下参数:
–master:这个参数表示当前的pyspark要连接到哪个master,如果是local[*],就是使用本地模式启动pyspark,其中,中括号内的星号表示需要使用几个CPU核心(core);
–jars: 这个参数用于把相关的JAR包添加到CLASSPATH中;如果有多个jar包,可以使用逗号分隔符连接它们;

启动pyspark后,就会进入“>>>”命令提示符状态,如下图所示:

现在,你就可以在里面输入python代码进行调试了。
比如,下面在命令提示符后面输入一个表达式“8 * 2 + 5”,然后回车,就会立即得到结果:

四、Spark独立应用程序编程

接着我们通过一个简单的应用程序来演示如何通过 Spark API 编写一个独立应用程序。使用 Python进行spark编程比Java和Scala简单得多。
在进行Python编程前,请先确定是否已经.bashrc中添加PYTHONPATH环境变量。
接下来即可进行Python编程.
这里在新建一个test.使用Python绘制股票交易图形 py文件,并在test.py添加代码

执行结果如下图:

最终得到的结果如下:

Python调用DLL动态链接库——ctypes使用

前面两个例子C++动态链接库导出函数的返回类型都是int型,而Python 默认函数的参数类型和返回类型为 int 型,所以Python 理所当然的 以为 dll导出函数返回了一个 int 类型的值。 但是如果C++动态链接库导出的函数返回类型不是int型,而是特定类型,就需要指定ctypes的函数返回类型 restype 。同样,通过ctypes给函数传递参数时,参数类型默认为int型,如果不是int型,而是特定类型,就需要指定ctypes的函数形参类型 argtypes 。