转换PDF实战side notes 05:安装 Python 程式库

撰文: 简浩德
出版:更新:

本篇会逐步说明 Python 如何使用他人已经编写好的程式码,去做一些有趣的的事情,例如制造“网页爬虫”程式,即是使用 Python 程式,下载互联网上的网页,抽取有用的资讯,并且整理成一个有意义的资料集合。

首先开启“命令列”(一时忘了甚么是“命令列”?请参阅这篇)。

“命令列”

在安装 Python 运行程式(详情可参阅这篇)的时候,有一页是“Optional Features”,当中有一项目是“pip”。这个东西是用来方便管理电脑上 Python 的程式库。程式库是泛指其他人根据特定规范写好的程式,在 Python 世界中称为 package。如果作者发布到 PyPi (Python Package Index ,https://pypi.org/ ,由一群有志去维护 Python Package 的程式开发人员协力营运,使全世界的程式开发者可以方便使用最新的 package),便可使用 pip 程式把所需的 package 下载及安装到电脑中。

例如,想安装“requests”这个程式库,需要在“命令列”中以键盘输入“pip install requests”,然后在键盘上按“Enter”。这个指令包含三部分,每个部分至少要以一个空白字元分隔,第一部分是“pip”,即是用来管理程式库的程式,第二部分是“install”,表示使用 pip 去安装一些程式库,第三部分是“requests”,即是将要安装的程式库之名字,每个已公开发布的 Python 程式库都有其独特的名字,以防混淆。

可以安装一个或多个 Python 程式库。

pip 程式支援每次安装多于一个程式库。例如网络爬虫程式中常用到 Requests 、PyQuery 、Pandas、lxml、hyperlink 这5个程式库。在“命令列”中输入“pip install requests pyquery pandas lxml hyperlink”便可以一次过把五个程式库下载及安装。

以下画面是 pip 安装程式库过程中的截图。

安装程式库的过程截图。

当全部程式均完成安装,将出现此画面。“命令列”会再次显示当前的资资夹路径,并回到等候读者下一步的指示的状态。

安装完成✌️

行文到此,读者已经懂得使用 pip 程式去安装各项所需要的程式库(package),上面的示范例子,一口气安装了5个不同的程式库。它们分别是 Requests 、PyQuery 、Pandas、lxml、以及 hyperlink 。

程式库简介

一时忘了甚么是“命令列”?请参阅这篇(https://docs.google.com/document/d/17ika2rnzcNK6F_fPxbE23QDw6nA7sWrF2HwYIvsLf_c/edit )。如未安装 Python 程式,请参阅这篇(https://docs.google.com/document/d/1qa36DCu-FbyY21djHH97usa1e9f8gfPZKJanoQ-gpgU/edit )。如何安装“Visual Studio Code”来撰写 Python 程式,请参阅这篇(https://docs.google.com/document/d/130XLxYKY0kBMwUzlF1RtsFy57cKYozPDpSZVS2QRLXQ/edit )。

注意事项:此系列以 Windows 7 中文版 及 Python 3.7.2 于 2019年1月28日至31日期间测试,并力求有关资料于上述期间内准确,惟市面上不同电脑作业系统或会有不相同的执行结果,希望读者理解。如有任何使用上的困难,请详细参阅互联网上其他相关资源,或向其他拥有此项相关专门知识的人士或机构进一步查询。