رایانش ابری

مقایسه هسته‌های تنسوری و هسته‌های کودا

بازدید: 109 آخرین به‌روزرسانی: 01 شهریور 1404

مقدمه

واحدهای پردازش گرافیکی (GPU) شرکت انویدیا نقش برجسته‌ای در محاسبات با کارایی بالا و پردازش‌های گرافیکی دارند. دو فناوری کلیدی در معماری‌های مدرن پردازنده‌های گرافیکی انویدیا، یعنی هسته‌های تنسوری (Tensor Cores) و هسته‌های کودا (CUDA Cores)، از اجزای اصلی این پردازنده‌ها هستند که هر یک برای اهداف خاصی طراحی شده‌اند. این مقاله به بررسی تفاوت‌های این دو نوع هسته، کاربردها، مزایا و محدودیت‌های آن‌ها می‌پردازد تا درک بهتری از نقش آن‌ها در پردازش‌های مدرن ارائه دهد.

هسته‌های کودا

هسته‌های کودا (Compute Unified Device Architecture)، واحدهای پردازشی پایه در پردازنده‌های گرافیکی انویدیا هستند که برای انجام محاسبات موازی عمومی طراحی شده‌اند. این هسته‌ها از زمان معرفی معماری کودا در سال 2006، ستون فقرات پردازش‌های گرافیکی و محاسباتی پردازنده‌های گرافیکی بوده‌اند.

وظیفه اصلی: اجرای عملیات‌های محاسباتی مانند ضرب و جمع ماتریس‌ها، رندر گرافیکی، شبیه‌سازی‌های فیزیکی و محاسبات عمومی از وظایف هسته‌های کوداست.

ساختار: هر هسته کودا یک واحد پردازشی اسکالر است که دستورات را به‌صورت موازی با سایر هسته‌ها اجرا می‌کند.

انعطاف‌پذیری: هسته‌های کودا برای طیف گسترده‌ای از وظایف، از رندر بازی‌های ویدیویی گرفته تا محاسبات علمی، مناسب هستند.

دقت محاسباتی: این هسته‌ها از از اعداد ممیز شناور با دقت کامل (FP32) و نیم‌دقت (FP16) پشتیبانی می‌کنند.

هسته‌های تنسوری

هسته‌های تنسوری که برای اولین بار در معماری ولتا (Volta) در سال 2017 معرفی شدند، واحدهای تخصصی برای تسریع محاسبات یادگیری عمیق و هوش مصنوعی هستند. این هسته‌ها به‌طور خاص برای انجام عملیات ماتریسی با حجم بالا طراحی شده‌اند.

وظیفه اصلی: اجرای عملیات ضرب و جمع ماتریس‌ها (Matrix Multiply-Accumulate یا MMA) که در شبکه‌های عصبی و یادگیری عمیق حیاتی هستند از وظایف این هسته‌هاست.

ساختار: هسته‌های تنسوری از واحدهای پردازشی تخصصی تشکیل شده‌اند که برای محاسبات ماتریسی بهینه شده‌اند و از فناوری‌های مختلط مانند FP16 و INT8 پشتیبانی می‌کنند.

هدف اصلی: تسریع الگوریتم‌های یادگیری عمیق، مانند آموزش و استنتاج شبکه‌های عصبی جزو اهداف استفاده از هسته‌های تنسوری‌ست.

معماری‌های مجهز: معماری‌های ولتا، تورینگ، امپر و هاپر و ... به این هسته‌ها مجهز هستند.

مقایسه فنی هسته‌های تنسوری و کودا

هسته‌های کودا مانند واحدهای پردازشی عمومی عمل می‌کنند و می‌توانند عملیات اسکالر یا برداری مانند محاسبات فیزیکی در شبیه‌سازی‌ها را اجرا کنند،. در مقابل، هسته‌های تنسوری برای عملیات گروهی روی ماتریس‌ها طراحی شده‌اند، که شامل ضرب دو ماتریس و جمع نتایج است. این ساختار اجازه می‌دهد تا هسته‌های تنسوری در هر چرخه هزاران عملیات را انجام دهند، در حالی که هسته‌های کودا بر عملیات فردی تمرکز دارند. برای مثال، یک هسته تنسوری می‌تواند یک ماتریس 4 در 4 را در یک عملیات پردازش کند، اما هسته کودا نیاز به چندین چرخه دارد.

هسته‌های تنسوری از دقت‌های مختلط (mixed-precision) مانند FP8 و FP4 پشتیبانی می‌کنند که سرعت را بدون از دست دادن زیاد دقت افزایش می‌دهد و برای آموزش مدل‌های بزرگ ایده‌آل است. هسته‌های کودا بیشتر روی دقت‌های استاندارد مانند FP32 تمرکز دارند که برای گرافیک و محاسبات علمی دقیق‌تر است. در معماری بلک‌ول (2025)، هسته‌های تنسوری با Microscaling بهبود یافته‌اند تا دقت را حفظ کنند در حالی که سرعت را افزایش دهند.

هسته‌های تنسوری در محک‌های MLPerf تا چهار برابر سریع‌تر در آموزش مدل‌های تریلیون‌پارامتری هستند. هسته‌های کودا برای وظایف غیر هوش مصنوعی مانند رندرینگ، کارآمدتر هستند اما در هوش مصنوعی کندتر عمل می‌کنند. همچنین، مصرف انرژی هسته‌های تنسوری در عملیات هوش مصنوعی پایین‌تر است، زیرا برای حجم کاری خاص بهینه شده‌اند.

هسته‌های کودا اغلب با هسته‌های RT (برای ray tracing) ترکیب می‌شوند، در حالی که هسته‌های تنسوری با موتور Transformer برای مدل‌های زبانی بزرگ ادغام می‌شوند.

برای درک بهتر تفاوت‌ها، جدول زیر مشخصات فنی این دو نوع هسته را مقایسه می‌کند:

کاربردهای هسته‌های تنسوری و کودا

هر دو نوع هسته در سیستم پردازنده گرافیکی انویدیا نقش دارند، اما کاربردهای آن‌ها بر اساس طراحی تخصصی، متفاوت است. در ادامه، به‌طور دقیق‌تر به کاربردها، مثال‌های واقعی و سناریوهای استفاده اشاره می‌شود.

هسته‌های کودا

هسته‌های کودا به دلیل انعطاف‌پذیری، در طیف وسیعی از حوزه‌ها استفاده می‌شوند و پایه بسیاری از برنامه‌های GPU-accelerated هستند:

رندر گرافیکی و بازی‌های ویدیویی: استفاده در رندر سه‌بعدی، بازی‌های ویدیویی و افکت‌های بصری. برای مثال، در موتورهای بازی مانند Unreal Engine، هسته‌های کودا عملیات نورپردازی و سایه‌زنی را مدیریت می‌کنند. همچنین، با ترکیب با هسته‌های RT، ray tracing را امکان‌پذیر می‌کنند.

مقاله رندرینگ را از اینجا بخوانید.

شبیه‌سازی‌های علمی و مهندسی: محاسبات فیزیکی مانند دینامیک سیالات (CFD)، شبیه‌سازی‌های مولکولی در شیمی محاسباتی، و مدل‌سازی آب و هوا. مثلاً در نرم‌افزار ANSYS، هسته‌های کودا سرعت شبیه‌سازی‌های پیچیده را افزایش می‌دهند

پردازش تصویر و ویدیو: فیلترگذاری تصاویر، کدگذاری/کدگشایی ویدیو (مانند H.264)، و ویرایش ویدیو. در ابزارهایی مانند Adobe Premiere، هسته‌های کودا تسریع‌کننده رندر ویدیو هستند.

محاسبات عمومی و داده‌کاوی: اجرای الگوریتم‌های موازی در حوزه‌های مالی (مانند مدل‌سازی ریسک)، ارز رمزگذاری شده یا Cryptocurrency (استخراج بیت‌کوین در گذشته، هرچند اکنون ASICها غالب هستند)، و تحلیل داده‌های بزرگ با کتابخانه‌هایی مانند cuBLAS.

مقاله داده‌کاوی را از اینجا بخوانید.

کاربردهای نوظهور: در خودروهای خودران برای پردازش حسگرها و در واقعیت مجازی/افزوده برای رندرینگ بلادرنگ.

هسته‌های تنسوری

هسته‌های تنسوری عمدتاً برای وظایف مرتبط با هوش مصنوعی طراحی شده‌اند و در جایی که عملیات ماتریسی غالب است، برتری دارند:

یادگیری عمیق و آموزش مدل‌ها: تسریع آموزش شبکه‌های عصبی عمیق، مانند مدل‌های پیچشی یا Convolutional برای بینایی کامپیوتری یا transformerها برای پردازش زبان طبیعی (NLP). مثلاً در فریم‌ورک‌هایی مانند TensorFlow یا PyTorch، هسته‌های تنسوری آموزش مدل‌های بزرگ مانند GPT-4 را 4 برابر سریع‌تر می‌کنند.

استنتاج هوش مصنوعی (Inference): اجرای مدل‌های آموزش‌دیده در زمان واقعی، مانند تشخیص اشیاء در تصاویر یا ترجمه ماشینی. در سرورهای ابری مانند NVIDIA DGX، هسته‌های تنسوری تا 30 برابر عملکرد بهتر در استنتاج مدل‌های MoE (Mixture-of-Experts) ارائه می‌دهند.

تحلیل داده‌های بزرگ و HPC: پردازش داده‌های کلان در کاربردهای علمی مانند کشف دارو (با شبیه‌سازی پروتئین‌ها)، فیزیک انرژی، و پیش‌بینی آب و هوا. برای مثال، در محک‌های MLPerf، هسته‌های تنسوری عملکرد بهتری در مدل‌های تریلیون‌پارامتری دارند.

مقاله تحلیل داده‌های بزرگ و محاسبات با کارایی بالا را از اینجا بخوانید.

کاربردهای تخصصی هوش مصنوعی: در رباتیک برای یادگیری تقویتی، در پزشکی برای تحلیل تصاویر MRI، و در مدل‌های زبانی بزرگ (LLMs) با Transformer Engine نسل دوم در بلک‌ول، که FP4 را برای دو برابر کارایی پشتیبانی می‌کند.

مقاله LLM را از اینجا بخوانید.

کاربردهای نوظهور تا 2025: ادغام در مدل‌های هوش مصنوعی مولد یا Generative AI برای تولید تصاویر/ویدیو (مانند Stable Diffusion)، و در سیستم‌های خودران برای پردازش داده‌های سنسور با دقت پایین اما سرعت بالا.

مقاله هوش‌مصنوعی مولد را از اینجا بخوانید.

در کل، هسته‌های کودا برای کاربردهای عمومی و گرافیکی ایده‌آل هستند، در حالی که هسته‌های تنسوری تحول‌آفرین در حوزه هوش مصنوعی (AI) و پردازش فوق سریع (HPC) بوده‌اند.

جمع‌بندی

هسته‌های کودا و تنسوری اجزای اساسی در پردازنده‌های مدرن انویدیا هستند که هر یک برای اهداف خاصی طراحی شده‌اند. هسته‌های کودا با انعطاف‌پذیری بالا، برای طیف وسیعی از کاربردهای گرافیکی و محاسباتی مناسب هستند، در حالی که هسته‌های تنسوری با تمرکز بر محاسبات ماتریسی، عملکردی بی‌نظیر در یادگیری عمیق و هوش مصنوعی ارائه می‌دهند. انتخاب بین این دو فناوری به نوع پروژه و نیازهای محاسباتی بستگی دارد. برای توسعه‌دهندگانی که به دنبال بهینه‌سازی برنامه‌های هوش مصنوعی هستند، هسته‌های تنسوری گزینه‌ای ایده‌آل هستند، اما برای کاربردهای عمومی‌تر، هسته‌های کودا همچنان انتخابی قدرتمند و همه‌کاره محسوب می‌شوند.