سخت افزار

پردازنده گرافیکی NVIDIA A100

بازدید: 1797 آخرین به‌روزرسانی: 08 آبان 1402

امروزه از پردازنده‌های گرافیکی در بسیاری از کاربردهای علمی، شبیه‌سازی، پردازش داده‌های حجیم، هوش مصنوعی، یادگیری عمیق و دیگر کاربردهای موازی برای افزایش سرعت پردازش استفاده می‌شود. در طول سال‌های اخیر پیشرفت‌های زیادی در معماری پردازنده‌های گرافیکی صورت گرفته و سازندگان این پردازنده‌ها با ایجاد قابلیت‌ها و امکانات جدید سعی در افزایش هر چه بیشتر سرعت کاربردها دارند. در این مقاله، پردازنده گرافیکی جدید شرکت NVIDIA با نام A100 معرفی و ویژگی‌های اصلی آن توصیف شده است.

پردازنده گرافیکی A100

پردازنده گرافیکی A100 توسط شرکت انویدیا و براساس ریزمعماری جدید آمپر (NVIDIA Ampere GPU) که در سال 2020 معرفی شد و با بهره‌گیری از فناوری ساخت 7 نانومتری TSMC ساخته شده است. تا پیش از آن، ریزمعماری‌های متعددی توسط شرکت انویدیا ایجاد و معرفی شده بود که ولتا و تورینگ نمونه‌های اخیر آن بودند. سابق بر آن، پردازنده‌های گرافیکی V100 و Titan V با معماری ولتا و پردازنده‌های گرافیکی Quadro RTX 8000 و GeForce RTX 2080 Ti با معماری تورینگ ساخته شده بودند. پردازنده گرافیکی A100 از خانواده پردازنده‌های گرافیکی مورد استفاده در مراکز داده و در حال حاضر یکی از سریع‌ترین شتاب‌دهنده‌های موجود می‌باشد که کاربرد اصلی آن در تجزیه و تحلیل داده‌های هوش مصنوعی، یادگیری عمیق و کاربردهای فوق سریع (High Performance Computing) است.

ویژگی‌های اصلی پردازنده گرافیکی A100

مجازی سازی: پردازنده A100 دارای قابلیت مجازی‌سازی چندنمونه‌ای پردازنده گرافیکی (Multi-instance GPU Virtualization) یا به اختصار MIG و قابلیت افراز (Partitioning) پردازنده گرافیکی می‌باشد که برای ارائه‌دهندگان خدمات ابری بسیار مفید می‌باشد. قابلیت‌های مجازی‌سازی چندنمونه‌ای و افراز به ارائه‌دهندگان خدمات ابری اجازه می‌دهد تا بتوانند یک پردازنده گرافیکی فیزیکی A100 را حداکثر به 7 عدد پردازنده گرافیکی مجازی تبدیل کنند و در اختیار ماشین‌های مجازی کاربران قرار دهند. به این ترتیب تا حداکثر 7 ماشین مجازی می‌توانند از منابع پردازشی درون یک پردازنده گرافیکی به صورت اشتراکی استفاده کنند. بر خلاف روش‌های قبلی مجازی‌سازی، قابلیت افراز در این فناوری جدید باعث می‌شود منابع سخت‌افزاری درون پردازنده گرافیکی در حین مجازی‌سازی تا حد خوبی به صورت سخت‌افزاری از همدیگر مستقل و مجزا شده تا نحوه مصرف منابع توسط یک کاربر بر روی کارایی و مصرف منابع کاربر دیگر اثر سوء نداشته باشد و تداخلی رخ ندهد.

حافظه اصلی: در این پردازنده گرافیکی 40 گیگابایت (و در نسخه دوم 80 گیگابایت) حافظه اصلی با فناوری HBM2 قرار داده شده است که این حجم بالای حافظه امکان پردازش حجم بیشتری از داده‌ها را در هر لحظه فراهم کرده و به افزایش کارایی برنامه‌ها کمک می‌کند.

گذرگاه ارتباطی: در این پردازنده از نسل سوم NVLink استفاده شده است و همچنین از نسل چهارم PCIe پشتیبانی می‌کند که هر دو به افزایش سرعت انتقال داده بین پردازنده مرکزی و گرافیکی و همچنین بین پردازنده‌های گرافیکی منجر می‌شود. در نسخه SXM این پردازنده که در سرورهای DGX و HGX شرکت انویدیا استفاده شده است، تا 16 عدد پردازنده گرافیکی (هر 8 پردازنده بر روی یک بورد) قرار می‌گیرند. این پردازنده‌ها از طریق گذرگاه‌های NVLINK و توسط سوئیچ‌های خاص منظوره‌ای به نام NVSwitch به همدیگر متصل می‌شوند که ارتباطی با پهنای باند 600گیگابایت در ثانیه بین هر جفت پردازنده را فراهم می‌کند.

شکل زیر دیاگرام نحوه اتصال پردازنده‌های گرافیکی A100 توسط 12 سوئیچ NVSwitch را نشان می‌دهد. پردازنده‌های گرافیکی در عین اتصال از طریق لینک‌های NVLINK به همدیگر، از طریق گذرگاه PCIe Gen 4 به پردازنده مرکزی متصل‌اند. در این ساختار هر 8 عدد پردازنده گرافیکی بر روی یک بورد قرار می‌گیرند و با 6 سوئیچ به همدیگر متصل می‌شوند. سپس سوئیچ‌هاای دو بورد به همدیگر متصل می‌شوند تا ساختاری با 16 عدد پردازنده گرافیکی در یک سرور حاصل شود

دیاگرام نحوه اتصال پردازنده‌های گرافیکی A100

قدرت پردازشی: این پردازنده گرافیکی نسبت به نسل قبلی خود یعنی V100S که نسخه بهبود یافته V100 است، در حدود 18 درصد افزایش کارایی FP64 داشته است (7/9 ترافلاپس در مقابل 2/8 ترافلاپس). همچنین با استفاده از هسته‌های تنسوری پیشرفته، توان پردازشی FP64 آن تا 19.5 ترافلاپس نیز قابل افزایش است. این هسته‌های تنسوری پشتیبانی گسترده‌ای از انواع پردازش‌ها از جمله یادگیری عمیق و HPC را به همراه دارد. ویژگی جدید محاسبات تنک (Sparsity) نیز عملیات ریاضی را تا 2 برابر تسریع می‌کند. با استفاده از این قابلیت، محاسبات ماتریس‌های تنک با سرعت بیشتری انجام می‌شود که برای محاسبات یادگیری عمیق و HPC بسیار مفید است.

پردازنده گرافیکی A100 از چندین خوشه پردازشی پردازنده گرافیکی، خوشه پردازشی بافت (Texture Processing Cluster)، واحدهای پردازشی و کنترل‌کننده حافظه HBM2 تشکیل شده است که در شکل زیر نمای کلی نحوه قرارگیری المان‌ها بر روی پردازنده‌ گرافیکی A100 را مشاهده می‌کنید.

نمای کلی نحوه قرارگیری المان‌ها بر روی پردازنده‌ گرافیکی A100

کارایی پردازنده گرافیکی A100

شکل زیر کارایی این پردازنده را در اجرای محک BERT-LARGE نشان می‌دهد. این محک برای ارزیابی کارایی پردازنده‌ها در کاربردهای یادگیری عمیق استفاد می‌شود. همانطور که در این شکل نشان داده شده، این پردازنده در حدود 250 برابر کارایی بیشتر نسبت به پردازنده مرکزی Intel Xeon 6240 ارائه کرده است.

کارایی پردازنده A100 در اجرای محک BERT-LARGE

شکل زیر نیز کارایی این پردازنده را در اجرای محک DLRM نشان می‌دهد که طبق نتایج، پردازنده گرافیکی A100 80GB کارایی سه برابری نسبت به A100 40GB داشته است. کارایی A100 40GB نیز در حدود 40 درصد بیشتر از V100 بوده است.

کارایی پردازنده A100 در اجرای محک DLRM

در نهایت، شکل زیر کارایی این پردازنده را در اجرای کاربردهای HPC نشان می‌دهد. همانطور که در این شکل مشخص است، پردازنده گرافیکی A100 به طور میانگین در اجرای مجموعه‌ای منتخب از برنامه‌های HPC در حدود 11 برابر سریعتر از P100 و 7/2 برابر سریعتر از V100 بوده است.

کارایی پردازنده گرافیکی A100 در اجرای کاربردهای HPC

جمع‌بندی

در این مقاله پردازنده جدید شرکت انویدیا با نام A100 معرفی شد و ویژگی‌های جدید آن به اختصار ذکر شد. این پردازنده گرافیکی با بهره بردن از آخرین فناوری‌های حافظه، لینک‌های ارتباطی، هسته‌های پردازشی و تکنیک‌های کاهش سربار محاسبات به کارایی بسیار بالایی در کاربردهای HPC و یادگیری عمیق دست یافته است. در حال حاضر بسیاری از ابررایانه‌های برتر دنیا در حال استفاده از این پردازنده پیشرفته برای تسریع کاربردهای HPC و یادگیری عمیق هستند.

منابع

https://www.nvidia.com/en-us/data-center/a100
https://www.hpcwire.com/2020/05/14/nvidias-ampere-a100-gpu-2-5x-the-hpc-20x-the-training
https://www.supermicro.com/en/products/ampere

تا چه حد این مطلب برای شما مفید بود؟

بر اساس رای 4 نفر

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

پردازنده گرافیکی NVIDIA A100

پردازنده گرافیکی A100

ویژگی‌های اصلی پردازنده گرافیکی A100

دیاگرام نحوه اتصال پردازنده‌های گرافیکی A100

نمای کلی نحوه قرارگیری المان‌ها بر روی پردازنده‌ گرافیکی A100

کارایی پردازنده گرافیکی A100

کارایی پردازنده A100 در اجرای محک BERT-LARGE

کارایی پردازنده A100 در اجرای محک DLRM

کارایی پردازنده گرافیکی A100 در اجرای کاربردهای HPC

جمع‌بندی

منابع

برچسب‌ها

مطالب مرتبط

نظر دادن

پردازنده گرافیکی NVIDIA A100

پردازنده گرافیکی A100

ویژگی‌های اصلی پردازنده گرافیکی A100

دیاگرام نحوه اتصال پردازنده‌های گرافیکی A100

نمای کلی نحوه قرارگیری المان‌ها بر روی پردازنده‌ گرافیکی A100

کارایی پردازنده گرافیکی A100

کارایی پردازنده A100 در اجرای محک BERT-LARGE

کارایی پردازنده A100 در اجرای محک DLRM

کارایی پردازنده گرافیکی A100 در اجرای کاربردهای HPC

جمع‌بندی

منابع

به اشتراک بگذارید:

برچسب‌ها

مطالب مرتبط

نظر دادن