java imageupdate,java image 库

  

  选自GitHub,作者:Wayde Gilliam,机器之心编译。   

  

  在这篇文章中,作者从CPU、GPU、主板、电源、机箱等的选择,详细描述了组装深度学习服务器的过程。到组件的安装,再到服务器的设置。作者指出装配工首先要了解自己的需求,然后根据预算做出合理的选择。   

  

  注:本文旨在讨论服务器设置和多用户协作,组件组装和软件安装的过程是Slav Ivanov关于创建自己的DL Box的文章(https://medium.com/m/global-identity?redect URL=3359 blog . slavv . com/the-1700-great-deep-learning-box-assembly-setup-and-benchmarks-148 C5 EB 6415)。   

  

  刚开始学习fast.ai课程的第一部分――程序员实用深度学习。我想建立自己的服务器来训练模型,作为使用AWS p2和存储的升级。我将使用更大的数据集,我不想在训练模型时因为缺乏足够的处理能力而等待几个小时。所以我自己搭建DL rig服务器是一个不错的选择,而且从长远来看,会节省我很多时间和金钱,积累好的组装服务器的经验。   

  

  组装   

  

  列出部件清单   

  

  在准备零件之前,你应该弄清楚你真正想从机器上得到什么。我个人希望得到以下改进:   

  

  比亚马逊p2更强大,额外的GPU、RAM、存储和定制液冷的空间可以控制在3000美元左右,硬件预算很长。我使用pcpartpicker.com(http://pcpartpicker.com/)来细化每个组件,因为它可以使比较和组装其他组件变得非常容易,而且它还有一个很好的组件兼容性检查器。我将详细解释选择每个组件的原因,以及它们如何与整个系统协同工作。以下是我的服务器链接地址:https://pcpartpicker.com/b/CgpG3C.   

  

  GPU: GTX 1080 Ti Hybrid   

  

  因为你要用显卡来训练模型,这是装配过程中最重要的部分。因此,GPU越强大,处理大型数据集的速度就越快。GPU内存越大,处理能力越强(例如训练速度越快,批量越大……)。我为我的服务器选择了其中两个显卡,因为我在预算中为它们预留了空间,这样我就可以使用其中一个显卡训练模型,而让另一个用户在第二个卡上训练它的模型。可以降低GPU内存(1070,1060等。)根据自己的预算,防止和其他组件的预算竞争。混合1080 GPU也不错,因为除了大部分GPU都有的正常风扇散热,还预装了aio水冷系统。080Ti满负荷运行会过热。所以在训练模型的时候,一个好的散热系统对于延长显卡的寿命,维持其性能是必不可少的。关于显卡选择的更多详情,请参见http://timdettmers . com/2017/04/09/which-GPU-for-deep-learning/。这篇文章帮助我真正了解了如何选择一款适合深度学习环境的显卡。   

  

  CPU: AMD Threadripper 1900x   

  

  虽然你用显卡来训练神经网络,但是CPU还是很重要的,因为你要用它来进行数据准备等操作,所以那些多核CPU会有助于加快速度。我用的是线程开膛手Treadripper,因为它是市面上非常新的多核CPU(Thread Ripper 2有32核!),而且价格比Intel低很多。1900x是去年发布的基础版TR。它只有8个内核,但我对这台服务器的总体目标是保持它的可升级性。   

  

  需要注意的是,在选择CPU的时候,一定要保证显卡有8个或者16个pcie插槽,这样才能保证它们在低负载下的最佳性能,否则有阻塞系统的风险。在高端CPU上,如果您的服务器中有4个显卡,那么您就有足够的pcie插槽。   

  

  主板:MSI X399 SLI Plus   

  

  之所以选择这块主板,是因为它是一块完整的ATX板,可以容纳4个GPU,RAM最高可达128GB。正如我前面所说的,这个服务器的主要目标之一是保持它的可升级性。   

  

  内存:32GB Corsair Vengeance LPX DDR4 (2 x 16GB)   

  

  内存越大,处理大型数据集就越容易。我的下一个升级计划是再添加两个16GB RAM内存模块,这就是为什么我没有安装四通道内存(四个8GB内存模块),尽管这将提高我的服务器的性能。   

  

  存储:256GB Samsung SSD 2TB HDD   

  

  把我的Ubuntu,我所有的库,我在SSD上使用的数据集,还有我手里所有的其他数据都存到一个2TB的机械硬盘上。   

  

  冷却器:Corsair H1   

00i v2 液体冷却器

  

「线程撕裂者」没有备用冷却器(如果你有 30 美元的余款,至少应该买一个便宜的二手冷却器),所以我想要一个可以全天候使用的、便宜又容易维护的冷却器。这款集各种优点于一身的冷却器非常容易安装,而且非常可靠(在数十万台机组中,可能只有一两台发生冷却液泄漏)、安静。

  

电源:EVGA SuperNOVA 1000w 80 + Gold Certified

  

最好有一个功率超过技术要求的 PSU。PCPartpicker 的功率计算器能够大致算出你需要多大的功率(我的服务器是 824w),然而它经常在数量上出错,因此最好进行安全操作,以防你的计算机无法打开。「Gold Certified」只是指 PSU 的效率(浪费了多少功率作为热量)。

  

机箱:Corsair 760T Full Tower

  

我选择这个机箱是因为它的价格和内部空间大小。虽然它并不能提高你的模型训练速度,但是透明的侧面板和红色的 LED 确实让你看起来更酷。

  

  

这幅图里的东西花掉了我一年的积蓄和毕业的钱

  

把部件整合到一起

  

你可能不太了解如何组装一台电脑,这个过程其实就像组装一套昂贵的乐高积木一样。任何人都可以做到,因为它真的很简单。我将快速介绍如何组装电脑,并且我强烈建议你在组装自己的电脑时观看完整的视频(https://www.youtube.com/watch??v = IhX0fOUYd8Q)。这些说明几乎适用于任何你正在使用的电脑,就像我上面链接的视频指南一样。

  

第一步:组装 CPU

  

  

这可能是组装电脑过程中最可怕的部分,因为你必须遵循特定的步骤,并且可能由于一些小意外而毁掉价值 430 美元的 CPU(如弄断一个 CPU 的引脚)。不过这一步其实很简单,你只需确保组装前看过视频教程即可。对于 Threadripper 来说,安装过程略有不同,因为在大多数主板上,你不需要「锁紧」处理器,而是使用单个扣架即可。

  

  

照片来源:Slav Ivanov

  

第二步:组装电源设备

  

  

电源的安装顺序并没有对错之分,但我喜欢先把 PSU 放进盒子里,因为有些情况下你需要把 PSU 卡进一个插槽里,这样做你才能「穿过主板」。

  

第三步:组装其它部件

  

  

这是至关重要的一步,一旦主板安装好,那其他部分的安装会变得很容易。我将按照如下顺序进行安装:

  

安装 RAM。这很简单,只需把内存条向正确的方向移动,并把插槽正确地按进主板即可(请参阅安装手册,因为插槽要根据你拥有的内存条个数决定)。安装 CPU 冷却器。唯一的小麻烦是为了与 TR 兼容,我必须更换安装支架,这需要很大的力气。安装散热器需要 8 个螺栓,我已安装完毕。安装显卡。只需要把显卡安装到主板的特定卡槽中即可(像内存条一样,参照你的手册,看哪些插槽可以把显卡放入),再把散热器固定在你的机箱上。要确保你的散热器在 GPU 上方。在上图中我犯了个小错误,所以不得不把它重新挂在机箱的前板上。安装存储器。为了获得更好的散热效果我卸掉了一块驱动板,所以我把 SSD 和 HDD 放在右下角的单驱动器槽里。第四步:安装成功?

  

  

现在可以打开你的设备了。开始因为我设备的电源键上正负线接反了,所以我的设备并没有成功打开,但后来还是出现了预期的白光和红光。如果一切顺利,你可以看到你的电脑屏幕被点亮,然后主板开始搜索引导设备。

  

设置服务器

  

安装操作系统

  

下一步是安装操作系统。我使用的是 Linux,因为大多数 DL 框架都是针对该系统设计的。使用的台式机是 Ubuntu 16.04 LTS, 用 USB 就可安装全部的东西。有很多像 UNetbootin 或 Rufus(仅用于 Windows)的免费工具,可以先下载到 U 盘中备用。这是一个介绍在 Mac 上创建可启动 USB 的完整过程的教程(https://tutorials.ubuntu.com/tutorial/tutorial-create-a-usb-stick-on-macos?_ga=2.169997348.541383618.1529376295-1852780805.1529376295#0),如果你用 Windows,可以打开此链接:https://www.howtogeek.com/howto/linux/create-a-bootable-ubuntu-usb-flash-drive-the-easy-way/。

  

设置 SSH

  

第一步:端口映射

  

你需要对所有的路由器进行类似处理,如果是 apple 的路由器可以遵循这个指南:https://portforward.com/apple/,操作如下:1. 为你的服务器设置一个静态 IP,防止它在每次关闭时更改。2. 用 Apple Airport Utility 登录你的路由器。3. 为服务器映射端口,完成这一步需要找到服务器的 MAC 地址,如何在 Ubuntu 找到地址可以查看此链接:http://technologyinfinite.blogspot.com/2016/07/three-simple-ways-to-find-mac-address.html。(http://technologyinfinite.blogspot.com/2016/07/three-simple-ways-to-find-mac-address.html%E3%80%82)

  

第二步:创建一个动态 IP 地址

  

我之前为服务器创建过动态 IP 地址,可以允许我在终端远程连接它。你可以通过该网站(http://canyouseeme.org/)验证它的有效性。

  

键入一个如下所示的命令连接到我的服务器:

  

ssh @ -L 8888::8889

  

我的服务器在端口 8888 上运行,jupyter notebooks 运行在 8889 上(-L 选项将指定的本机端口重新定向到不同的主机和端口)。这样我们就可以在本地运行我们的设备,与服务器同时测试,以便训练。如果不想这样,在-L 之前把所有东西输入进去即可。在下一节我会解释如何更改运行 jupyter notebooks 的端口。

  

安装深度学习/机器学习库

  

现在需要安装所有的与深度学习/机器学习相关的库。我会将安装脚本进行分节,这样你就容易理解这些内容。该脚本是基于 Jeremy Howard』s 编写的 install-gpu.sh(https://github.com/fastai/courses/blob/master/setup/install-gpu.sh),这里边很多东西不仅仅是因为它们是实用性工具,更是因为这也是我们要在 Fastai 中使用的。

  

首先,我们需要保证系统是最新的,并且安装了所有我们需要的基础工具包:

  

sudo apt-get update

  

sudo apt-get --assume-yes upgrade

  

sudo apt-get --assume-yes install tmux build-essential gcc g++ make binutils unzip

  

sudo apt-get --assume-yes install software-properties-common

  

sudo apt-get --assume-yes install git

  

下一步是下载和安装所有 CUDA GPU 的驱动包:

  

mkdir ~/downloadscd ~/downloads

  

wget http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_9.0.176-1_amd64.deb

  

sudo dpkg -i cuda-repo-ubuntu1604_9.0.176-1_amd64.deb

  

sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub

  

sudo apt-get update

  

sudo apt-get -y install cuda

  

sudo apt-get --assume-yes upgrade

  

sudo apt-get --assume-yes autoremove

  

sudo apt-get install cuda-toolkit-9.0 cuda-command-line-tools-9-0

  

现在我们开始验证是否正确安装了 CUDA:

  

sudo modprobe nvidia

  

nvcc --version

  

nvidia-smi

  

现在开始,我们将 CUDA(Nvidia Deep Learning api)添加到路径变量:

  

cat >> ~/.bashrc << 'EOF'

  

export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}

  

export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64\

  

${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

  

EOF

  

source ~/.bashrc

  

下一步是安装 CuDNN 库(创建神经网络所需):

  

wget http://files.fast.ai/files/cudnn-9.1-linux-x64-v7.tgz

  

tar xf cudnn-9.1-linux-x64-v7.tgz

  

sudo cp cuda/include/*.* /usr/local/cuda/include/

  

sudo cp cuda/lib64/*.* /usr/local/cuda/lib64/

  

现在我们为当前用户安装 Anaconda:

  

wget "https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh"

  

bash "Anaconda3-5.0.1-Linux-x86_64.sh" -b

  

cd ~

  

echo "export PATH=\"$HOME/anaconda3/bin:\$PATH\"" >> ~/.bashrc

  

export PATH="$HOME/anaconda3/bin:$PATH"

  

conda install -y bcolz

  

conda upgrade -y --all

  

下一步,安装 Tensorflow 和 Keras:

  

pip install --ignore-installed --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow_gpu-1.8.0-cp36-cp36m-linux_x86_64.whl

  

pip install keras

  

mkdir ~/.keras

  

echo '{

  

"image_dim_ordering": "tf",

  

"epsilon": 1e-07,

  

"floatx": "float32",

  

"backend": "tensorflow"

  

}' > ~/.keras/keras.json

  

接下来,我们将为 Fastai 安装 Python 依赖项:

  

mkdir -p ~/development/_training/ml

  

cd ~/development/_training/ml

  

git clone https://github.com/fastai/fastai.git

  

cd fastai

  

conda env update

  

以下几节将介绍如何配置 jupyter notebook:

  

# Leaving the next line uncommented will prompt you to provide a password to

  

# use with your jupyter notebook.

  

jupass=`python -c "from notebook.auth import passwd; print(passwd())"`

  

# To hardcode the password to 'jupyter' comment line above and uncomment the line below.

  

#jupass=sha1:85ff16c0f1a9:c296112bf7b82121f5ec73ef4c1b9305b9e538af

  

# create ssl cert for jupyter notebook

  

openssl req -x509 -nodes -days 365 -newkey rsa:1024 -keyout $HOME/mykey.key -out $HOME/mycert.pem -subj "/C=IE"

  

# configure notebook

  

echo "c.NotebookApp.certfile = u'/home/{user}/mycert.pem'" >> $HOME/.jupyter/jupyter_notebook_config.py

  

echo "c.NotebookApp.keyfile = u'/home/{user}/mykey.key'" >> $HOME/.jupyter/jupyter_notebook_config.py

  

echo "c.NotebookApp.password = u'"$jupass"'" >> $HOME/.jupyter/jupyter_notebook_config.py

  

echo "c.NotebookApp.ip = '*'" >> $HOME/.jupyter/jupyter_notebook_config.py

  

echo "c.NotebookApp.open_browser = False" >> $HOME/.jupyter/jupyter_notebook_config.py

  

要更改默认端口以在(端口 8888)上运行 Jupyter notebook,请取消注释,并输入所需端口。这样就可以在服务器和本地同时运行你的笔记本,也可以在你使用笔记本时让多个用户使用他们自己的笔记本。

  

#echo "c.NotebookApp.port = 9999" >> $HOME/.jupyter/jupyter_notebook_config.py

  

现在我们开始配置 tmux,这个工具可以使我们在终端窗口创建多个「窗口」,同时在断开连接后仍能保持程序的运行。因为这个文件能够帮助我们理解 tmux 的所有功能,所以需要检查此文件。它非常的有用,因为你可以在一个窗口中运行你的笔记本,在另一个窗口中监视 GPU 使用,并在第三个窗口中打开一个 linux 终端:

  

pip install tmuxp

  

mkdir ~/.tmuxp

  

接下来,我们将创建 tmuxp 的配置文件,该文件将在一个命令中对开发环境进行设置,这样我们每次想处理事务的时候就无需配置窗口、启用 jupyter notebook 了。对于 fastai 环境,我们将从 tmuxp 加载 fastai 开始。请参见使用 tmuxp 的链接,此处是 bash 脚本中的文档,此链接用于在服务器重启时保存 tmux 会话。现在让我们配置运行环境。

  

cat > $HOME/.tmuxp/fastai.yml <<tmuxp-config

  

session_name: fastai

  

windows:

  

- window_name: dev window

  

layout: main-vertical

  

options:

  

main-pane-width: 140

  

shell_command_before:

  

# run as a first command in all panes

  

- cd ~/development/_training/ml/fastai

  

- source activate fastai

  

panes:

  

- shell_command:

  

- clear

  

- shell_command:

  

- clear

  

- jupyter notebook

  

- shell_command:

  

- watch -n 0.5 nvidia-smi

  

Tmuxp-config

  

因为我们不再需要这些,所以可以删除安装文件:

  

cd ~/downloads

  

rm -rf cuda-repo-ubuntu1604_9.0.176-1_amd64.deb xf cudnn-9.1-linux-x64-v7.tgz Anaconda3-5.0.1-Linux-x86_64.sh

  

cd ~

  

就是这样。在我写这篇文章的时候,服务器一直在全天候运行,无问题、无噪声、非常轻松地通过了训练。

  

其他参考资料来源:

  

https://www.digitalocean.com/community/tutorials/how-to-set-up-ssh-keys--2https://towardsdatascience.com/building-your-own-deep-learning-box-47b918aea1ebhttps://medium.com/impactai/setting-up-a-deep-learning-machine-in-a-lazy-yet-quick-way-be2642318850

相关文章