数据预处理技术相关内容,数据预处理及数据集划分

2022-04-21 14:03:59 公司研究

　　 3行代码，Python数据预处理提速6倍！（附链接）　　

　　资料来源：新智元　　

　　这篇文章是关于2600字,建议阅读8分钟. 　　

　　本文介绍了一种简单的方法，只用3行代码就可以将Python数据处理速度提高2~6倍。　　

　　Python是所有机器学习的首选编程语言。很容易使用，有很多很棒的库，可以轻松处理数据。但是当我们需要处理大量数据时，事情就变得棘手了。　　

　　“大数据”一词通常指数据集。一个数据集中有数十万甚至数百万个数据点。在这个尺度上，每一个小的计算都会累积起来，我们需要在编码过程的每一步都保持效率。在考虑机器学习系统的效率时，一个经常被忽略的关键步骤是预处理阶段。我们必须对所有数据点进行一些预处理操作。　　

　　默认情况下，Python程序使用单个CPU作为单个进程执行。大多数用于机器学习的计算机至少有2个CPU核心。这意味着，以2个CPU核为例，运行预处理时，计算机50%甚至更多的处理能力默认不会做任何事情！当你使用4核(英特尔i5)或6核(英特尔i7)时，就更浪费了。　　

　　不过好在内置的Python库有一些隐藏的函数，可以让我们充分利用所有的CPU内核！得益于Python的concurrent.futures模块，只需要3行代码就可以将一个普通的程序转换成可以跨CPU内核并行处理数据的程序。　　

　　 3行代码，Python数据预处理提速6倍！（附链接）　　

　　标准方法 　　

　　我们举一个简单的例子，我们在一个文件夹里有一个图像数据集；或者我们甚至有成千上万的图像！为了节省处理时间，我们在这里使用1000张图片。我们希望在将所有图像传输到深度神经网络之前，将它们的大小调整为600x600。下面是一些你经常在GitHub上看到的非常标准的Python代码。　　

　　 3行代码，Python数据预处理提速6倍！（附链接）　　

　　该程序遵循数据处理脚本中常见的简单模式：　　

　　是首先要处理的文件(或其他数据)的列表；您可以使用for循环逐个处理每个数据段，然后在每次循环迭代中运行预处理。　　

　　让我们在一个包含1000个jpeg文件的文件夹上测试这个程序，看看运行它需要多长时间：　　

ge/pgc-image/1538870873543440d095dd2" img_width="447" img_height="58" inline="0" alt="3行代码，Python数据预处理提速6倍！（附链接）" onerror="javascript:errorimg.call(this);">

在我的具有6个CPU核心的i7-8700k上，这个程序的运行时间是7.9864秒！对于这样的高端CPU来说，似乎有点慢。让我们看看我们可以做些什么来加快速度。

快速方式

为了理解我们希望Python如何并行处理事物，直观地思考并行处理本身是有帮助的。假设我们必须执行相同的任务，例如将钉子钉入一块木头，我们的桶中有1000个钉子。如果钉每个钉子需要1秒钟，那么1个人的话需要花1000秒完成工作。但是如果有4个人，我们会将整桶钉子平均分成4堆，然后每个人处理自己的一堆钉子。这样，只需250秒即可完成任务！

在这个包含1000张图像的任务中，也可以这样处理：