量化投资与FOF投资：以MATLAB+Python为工具最新章节_李洋著

1.2　进阶提高

1.2.1　批处理中切换到虚拟环境

需要每天定时执行脚本的读者通常会遇到此问题。直接运行Python实际使用的是base环境，需要提前切换环境。例如，创建 demo1.bat 文件，内容如下：

它会切换到 py38环境，然后执行demo.py，最后到pause暂停，等待用户单击任意键退出。注意：在Windows的计划任务中千万不要使用pause或其他等待用户输入或运行时间长的指令，否则当前控制台没有退出，计划任务不会触发第二次。

可以由另一脚本（demo2.bat）触发此脚本（demo1.bat）规避。例如：

1.2.2　GitHub仓库包的安装

使用pip install git+https://github.com/xx/xx.git 可能实在太慢，因为git同步的是整个仓库包括历史提交，下载zip文件安装反而更快。当然还有另一种方案，那就是使用国内的gitee拉取GitHub项目，然后执行pip install git+https://gitee.com/xx/xx.git。

1.2.3　包的引入

平时常用的import xx等能导入是因为在sys.path所指的路径下存在。这个路径分别有当前目录、site-packages等。

如果包没有安装在site-packages下，可以手工将它添加到sys.path中，也能被搜索到：

但这种方法只是运行时正常，在PyCharm中将显示警告，自动完成功能也会失效。可在site-packages下创建xx.pth文本文件，内容为包所在路径，PyCharm能提前识别包就能使用自动完成功能。例如，Cython编译的自定义包就推荐使用.pth文件引入。

通常使用import xx或from xx import yy引入，但遇到以下情况就需要变通了：

（1）源代码中没有直接使用包，但通过eval（'xx.yy'）等方式动态地使用了某包。可能不小心在IDE中调用了移除未使用的引入功能。

（2）需要动态地引入各种包。

（3）包名不是标准的标识符，如以数字开头的文件123_abc.py，可以使用以下方法引入。

1.2.4　在线平台引入自定义包

随着聚宽、米筐这类在线平台的火爆，一些问题也浮出水面：如何自己安装包？如何使用自定义包？

（1）安装到自己的用户下。在Notebook中执行下列语句：

（2）在策略环境中使用研究环境中的自定义包。利用 sys.path 支持zip文件的特性：

1.2.5　pd.read_csv编码

文件内出现中文时，编码方式可能需要进行指定，中文常用编码有gbk、utf-8、utf-8-sig等。而utf-8-sig编码在文件开头有3字节的BOM头（EF BB BF），BOM头是Windows中的习惯。

Excel只能正确解析gbk和utf-8-sig编码的中文，utf-8中文会显示乱码，而金山WPS三种编码都能正常显示，建议保存时都用utf-8。

read_csv如果报错、出现格式错误，可以用各格式替换一下。engine='c' 与engine='python' 对中文的默认编码不同，建议指定encoding。

1.2.6　pd.read_csv中文路径

在Windows下，可能会遇到中文路径无法读取的问题。有多种解决方案：

（1）修改中文路径为英文路径。不光文件名，文件夹也不能用中文，或使用相对路径回避中文文件夹。

（2）使用open提前打开文件，即pd.read_csv（open（'中文文件名.csv'）。

（3）使用engine参数，Python引擎会慢一些，如pd.read_csv（'中文文件名.csv'，engine='python'）。

（4）升级Pandas版本。

（5）将文件系统编码由utf-8设置成mbcs。

pd.read_hdf目前只能通过sys._enablelegacywindowsfsencoding（）来支持中文路径。

1.2.7　pd.read_csv示例

加载数据是数据分析的第一步，如果能灵活使用read_csv的参数，则可以大大简化代码。

在ipython环境下，可以使用问号（？）查看帮助，使用两个问号（？？）查看源代码。通常问号加在后面即pd.read_csv？，也可以写在前面即？pd.read_csv。在某些情况下写在后面不生效，可以试着写在前面。探索变量还可以使用dir（）、vars（）、type（）。

输出如下：

1.2.8　pd.read_csv高级玩法

在线平台一般可以通过！cat demo.py直接显示代码，就算部分平台做了限制，灵活应用各种工具还是能将源代码显示出来。

1.2.9　pickle技巧

直接读/写pickle文件比较大，可以压缩一下，compression支持“gzip”“bz2”“zip”“xz”四种压缩算法。

可以写成以下形式：

但更推荐使用文件扩展名进行自动推导，这样更方便：

其实to_csv/read_csv也有compression参数，用法完全一样：

1.2.10　MultiIndex多重索引的切片

进行切片时按以下规则更易理解。

（1）df.loc［行，列］，先行后列。

（2）多重索引看成tuple组成的list，切片要用tuple。

（3）tuple中无法使用冒号（:），可用slice（None）代替。

loc不是函数，而是对象。函数不能使用中括号［］，对象可以使用__getitem__实现中括号的功能。

此处补充说明，本章代码部分穿插的图表，皆由运行代码后直接输出，故不做额外说明，也不进行编号。

复杂演示：

1.2.11　星期

不同API的定义不同：

（1）第一天是星期一还是星期日；

（2）第一天从数字0开始，还是从数字1开始。

两两组合共有4种情况。例如：QuantLib第一天是星期日，从数字1开始。所以针对不同的API，在没有提供星期枚举的情况下，一定要先测试，防止过滤星期时出错。

周还有特别的地方是跨年。一年的最后几天有可能归到第二年的第一周，一年的前几天也有可能归到前一年的最后一周。所以如果要按周进行groupby，不能直接用year*100+weekofyear，要用isocalendar（）下的year*100+week。resample（rule='WSUM'）已经正确处理了此问题。

1.2.12　魔术命令

魔术命令也是常用的功能。%表示单行命令，%%表示单元格命令。常用的命令有 %time、%%timeit、%%prun、%matplotlib等，可以通过 %lsmagic查看支持的命令。

？和？？都可用于魔术命令，但只能放在命令前，如？%%！、？？%%html。

1.2.13　隐藏Notebook代码区

利用强大的魔术命令，我们来演示如何隐藏代码区。利用Notebook本质也是网页，可以用JavaScript进行控制的特点，将所有的代码区隐藏起来。

以下代码使用了ipython的魔术命令 %%html、jQuery的 $ 选择器：

其实通过Notebook的扩展也可以实现隐藏代码区。安装好后，选择Hide input和Hide input all扩展：

1.2.14　完全屏蔽Jupter Notebook源代码

这里要利用一个Jupter Notebook部署成网页应用的工具——Voila，它与Jupter Notebook一样都是网页应用服务器，只是在打开时自动执行了Jupter Notebook的内容，默认情况下只显示Out区，同时还支持ipywidgets交互控件。用它向客户提供网页展示极为便捷。

安装代码如下：

应用如下：

1.2.15　Python源代码保护

当前阶段难以破解的源代码保护方案之一是Cython。原理是，将 .py编译为 .c文件，再将 .c文件编译为 .so或者 .pyd。Cython更重要的特性是加速，缺点是针对不同的操作系统和不同的Python版本需要分别编译。

安装代码如下：

准备setup.py：

编译成 .pyd或 .so：

部署分发时，只复制demo.pyd或demo.so即可，复制到site-packages下，或将 .pth复制到此目录，PyCharm自动完成就正常了。

1.2.16　Python加速

（1）前面提到的Cython加速是一种方案，但编译成 .so后部署不便，想更快还是要翻译成 .pyx。需要一定的C语言功底。

（2）numba加速使用简单，只要在函数中加上 @jit或 @njit装饰器即可。但不支持class、推导式等。

（3）Pandas代码改成numpy，也能大大提速。但Pandas切片太慢，不要在循环中使用。

（4）使用多进程。

1.2.17　多进程

由于GIL的原因，Python的多线程并不能多核并行，所以Python并行一般是用多进程技术。以下演示了多进程、多参数、进度条：

1.2.18　绘图内存泄露问题

大规模计算时常常发现内存不够，无论怎样优化内存还是占用过高。测试后发现只要图片保存内存就涨了无法释放。后来发现一定要再调用一下fig.clf（）：

1.2.19　ipynb转html

之前我们学习的Notebook都是手工执行，手工转成静态报表。遇到大批量的任务时，就需要自动执行了。此时使用多个文件配合。

（1）demo.ipynb：Notebook报表模板。需要从外部传入参数，这里用环境变量来传递，并将结果保存起来。

（2）demo.py：多进程任务。读取任务列表后构造命令，并用多进程的方式触发。

（3）all.py：将生成的多个结果予以合并。

以下只展示核心部分：

上述代码主要利用了jupyter nbconvert进行转换。

• ExecutePreprocessor.timeout：大项目运行时间可能很长，但jupyter nbconvert默认超时30s，需要指定，以防止报错。

• ExecutePreprocessor.allow_errors：遇到错误后不中断，继续运行。

• execute：全文执行。

• to html：转换格式为html。

• output demo.html：指定输出文件名。

1.2.20　TA-Lib中的EMA计算

TA-Lib中的EMA算法与国内的股票软件算法不一样，可通过set_compatibility进行设置（注：TA-Lib 0.4.18版才开始有的功能）：

输出如下：

（1）CLASSIC算法。EMA第一个有效值是前 N 个数据的平均值：

（2）METASTOCK算法。EMA第一个值是数据第一个值，然后迭代算出之后的值。只是显示时 N -1个值都设为了NaN：

MACD、STOCH内部都调用了EMA，另外CMO、RSI也受set_compatibility的影响。

1.2.21　绩效指标计算

绩效指标如夏普、最大回撤等，有工具可以直接得到结果，只要提供一条曲线即可。常用的库有ffn和empyrical。这里演示一下ffn：

ffn已经默认注册到了pd.DataFrame上，可以直接使用。例如：df.calc_calmar_ratio（）。

dir（ffn）用于查看可用的方法。需要注意输入参数是returns还是prices，例如：ffn.calc_sharpe？的输入参数是returns，而ffn.calc_max_drawdown？的输入参数是prices。

1.2.22　动态图表

动态图表特别适合用于研究分析。比如支持缩放、支持显示隐藏线条、支持鼠标悬浮显示。常用的动态图表有pyecharts、bokeh、plotly。对于研究人员来说，plotly使用起来更简单，因为Pandas 1.0版后支持backend功能。

因为底层调用的是完全不同的对象，所以两种backend代码并不是完全兼容的。主要区别如下：

1.2 进阶提高

1.2.1 批处理中切换到虚拟环境

1.2.2 GitHub仓库包的安装

1.2.3 包的引入

1.2.4 在线平台引入自定义包

1.2.5 pd.read_csv编码

1.2.6 pd.read_csv中文路径

1.2.7 pd.read_csv示例

1.2.8 pd.read_csv高级玩法

1.2.9 pickle技巧

1.2.10 MultiIndex多重索引的切片

1.2.11 星期

1.2.12 魔术命令

1.2.13 隐藏Notebook代码区

1.2.14 完全屏蔽Jupter Notebook源代码

1.2.15 Python源代码保护

1.2.16 Python加速

1.2.17 多进程

1.2.18 绘图内存泄露问题

1.2.19 ipynb转html

1.2.20 TA-Lib中的EMA计算

1.2.21 绩效指标计算

1.2.22 动态图表