创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
狠狠射影院 一瞥代码,真金不怕火丹 2 倍速!PyTorch 2.0 惊喜问世,LeCun 样式转发 - 欧美性爱影视
欧美性爱影视

狠狠射影院 一瞥代码,真金不怕火丹 2 倍速!PyTorch 2.0 惊喜问世,LeCun 样式转发
栏目分类
热点资讯
第四色播

你的位置:欧美性爱影视 > 第四色播 >

狠狠射影院 一瞥代码,真金不怕火丹 2 倍速!PyTorch 2.0 惊喜问世,LeCun 样式转发

发布日期:2024-10-01 14:45    点击次数:179

当今,只需添加一瞥代码,PyTorch2.0 就能让你在训诲 Transformer 模子时,杀青 1.5 倍-2 倍的速率升迁!

12 月 2 日,PyTorch 2.0 认真发布!

此次的更新不仅将 PyTorch 的性能推到了新的高度,同期也加入了对动态局势和分离式的营救。

此外,2.0 系列还会将 PyTorch 的部分代码从 C++ 移回 Python。

面前,PyTorch 2.0 还处在测试阶段,瞻望第一个踏实版块会在 2023 年 3 月初面世。

PyTorch 2.x:更快、更 Python!

在往时的几年里,PyTorch 从 1.0 到最近的 1.13 进行了翻新和迭代,并诊治到新诞生的 PyTorch 基金会,成为 Linux 基金会的一部分。

现时版块的 PyTorch 所濒临的挑战是,eager-mode 难以跟上胁制增长的 GPU 带宽和更荒诞的模子架构。

而 PyTorch 2.0 的降生,将从根底上更动和升迁了 PyTorch 在编译器级别下的运行面孔。

人所共知,PyTorch 中的(Py)来自于数据科学中无为使用的开源 Python 编程谈话。

然而,PyTorch 的代码却并莫得透顶摄取 Python,而是把一部分交给了 C++。

不外,在今后的 2.x 系列中,PyTorch 名目团队筹画将与 torch.nn 关系的代码移回到 Python 中。

除此以外,由于 PyTorch 2.0 是一个透顶附加的(和可选的)功能,因此 2.0 是 100% 向后兼容的。

也即是说,代码库是相同的,API 亦然相同的,编写模子的面孔亦然相同的。

更多的技巧营救

TorchDynamo

使用 Python 框架评估钩子安全地拿获 PyTorch 门径,这是团队 5 年来在 graph capture 方面研发的一项紧要翻新。

AOTAutograd

重载了 PyTorch 的 autograd 引擎,当作一个跟踪的 autodiff,用于生成超前的反向跟踪。

PrimTorch狠狠射影院

将约 2000 多个 PyTorch 运算符归纳为约 250 个原始运算符的阻滞集,开辟东谈主员不错针对这些运算符构建一个好意思满的 PyTorch 后端。大大镌汰了编写 PyTorch 功能或后端的停止。

TorchInductor

一个深度学习编译器,不错为多个加快器和后端生成快速代码。关于英伟达的 GPU,它使用 OpenAI Triton 当作要道构建模块。

值得紧密的是,TorchDynamo、AOTAutograd、PrimTorch 和 TorchInductor 齐是用 Python 编写的,并营救动态局势。

更快的训诲速率

通过引入新的编译形式「torch.compile」,PyTorch 2.0 用一瞥代码,就不错加快模子的训诲。

这里不必任何手段,只需运行 torch.compile () 即可,仅此辛劳:

opt_module = torch.compile(module)

为了考据这些技巧,团队经心打造了测试基准,包括图像分类、物体检测、图像生成等任务,以及多样 NLP 任务,如谈话建模、问答、序列分类、推选系统和强化学习。其中,这些基准不错分为三类:

来自 HuggingFace Transformers 的 46 个模子

来自 TIMM 的 61 个模子:Ross Wightman 采集的起始进的 PyTorch 图像模子

来自 TorchBench 的 56 个模子:github 的一组流行代码库

测试成果标明,在这 163 个卓绝视觉、NLP 和其他限制的开源模子上,训诲速率得到了 38%-76% 的提高。

在 NVIDIA A100 GPU 上的对比

此外,团队还在一些流行的开源 PyTorch 模子上进行了基准测试,并赢得了从 30% 到 2 倍的大幅加快。

开辟者 Sylvain Gugger 暗意:「只需添加一瞥代码,PyTorch 2.0 就能在训诲 Transformers 模子时杀青 1.5 倍到 2.0 倍的速率升迁。这是自混杂精度训诲问世以来最令东谈主应允的事情!」

技巧轮廓

PyTorch 的编译器不错领会成三个部分:

图的获取

图的镌汰

图的编译

其中,在构建 PyTorch 编译器时,图的获取是更难的挑战。

TorchDynamo

本年年头,团队便运转了 TorchDynamo 的职责,这种步伐使用了 PEP-0523 中引入的 CPython 功能,称为框架评估 API。

为此,团队遴荐了一种数据驱动的步伐来考据 TorchDynamo 在 graph capture 上的灵验性 —— 通过使用 7000 多个用 PyTorch 编写的 Github 名目,来当作考据集。

成果暴露,TorchDynamo 在 99% 的时辰里齐能正确、安全地进行 graph capture,并且支出不错忽略不计。

TorchInductor

关于 PyTorch 2.0 的新编译器后端,团队从用户怎样编写高性能的自界说内核中得到了灵感:越来越多地使用 Triton 谈话。

TorchInductor 使用 Pythonic 界说的逐一轮回级别的 IR 来自动将 PyTorch 模子映射到 GPU 上生成的 Triton 代码和 CPU 上的 C++/OpenMP。

TorchInductor 的中枢轮回级 IR 只包含苟简 50 个运算符,并且它是用 Python 杀青的,这使得它很容易得到延伸。

AOTAutograd

思要加快训诲,就不仅需要拿获用户级代码,并且还要拿获反向传播。

AOTAutograd 不错期骗 PyTorch 的 torch_dispatch 延伸机制来跟踪 Autograd 引擎,「提前」拿获反向传播,进而八成使用 TorchInductor 来加快前向和后向通谈。

PrimTorch

PyTorch 有 1200 多个运算符,若是谈判到每个运算符的多样重载,则有 2000 多个。因此,编写后端或跨限制的功能成为一项徒然元气心灵的职责。

在 PrimTorch 名目中,团队界说了两个更小更踏实的运算符集:

Prim ops 有苟简~250 个运算符,符合于编译器。由于满盈初级,因此只需将它们会通在全部以赢得考究的性能。

ATen ops 有苟简~750 个典型的运算符,符合于按原样输出。这些符合于一经在 ATen 级别上集成的后端,或者莫得编译的后端,从而规复像 Prim ops 这么的初级别运算符集的性能。

学生妹av动态局势

在商酌营救 PyTorch 代码通用性的必要条款时,一个要道要求是营救动态局势,并允许模子收受不同大小的张量,而不会在每次局势变化时引起重新编译。

在不营救动态局势的情况下,一个常见的处罚步伐是将其填充到最接近的 2 次方。然而,正如咱们从底下的图表中所看到的,它产生了无数的性能支出,同期也带来了显着更长的编译时辰。

当今,有了对动态局势的营救,PyTorch 2.0 也就赢得了比 Eager 高出了最多 40% 的性能。

临了,在 PyTorch 2.x 的阶梯图中,团队但愿在性能和可延伸性方面进一步激动编译形式的发展。

参考贵府:

https://pytorch.org/get-started/pytorch-2.0/

本文来自微信公众号:新智元 (ID:AI_era),裁剪:好困

告白声明:文内含有的对外跳转连气儿(包括不限于超连气儿、二维码、口令等局势)狠狠射影院,用于传递更多信息,省俭甄选时辰,成果仅供参考,IT之家统共著述均包含本声明。



首页 | 第四色电影 | 第四色影院 | 第四色俺去也 | 第四色网 | 第四色播 | 校园春色小说网 |

Powered by 欧美性爱影视 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024

创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False