You are currently viewing فناوری ذخیره سازی توضیح داد: هوش مصنوعی و ذخیره سازی داده ها

فناوری ذخیره سازی توضیح داد: هوش مصنوعی و ذخیره سازی داده ها


هوش مصنوعی (AI) و یادگیری ماشین (ML) نوید یک تغییر مرحله‌ای در اتوماسیون است که برای فناوری اطلاعات اساسی است، با برنامه‌های کاربردی از چت‌بات‌های ساده تا سطوح تقریباً غیرقابل تصور پیچیدگی، تولید محتوا و کنترل.

ذخیره سازی بخش کلیدی هوش مصنوعی است، برای ارائه داده های آموزشی و ذخیره حجم بالقوه عظیمی از داده های تولید شده یا در حین استنتاج زمانی که نتایج هوش مصنوعی در بارهای کاری در دنیای واقعی اعمال می شود.

در این مقاله به ویژگی های کلیدی بارهای کاری هوش مصنوعی، مشخصات ورودی/خروجی ذخیره سازی (I/O)، انواع آن ها نگاه می کنیم. ذخیره سازی سازگار با هوش مصنوعیمناسب بودن فضای ذخیره سازی ابری و شی برای هوش مصنوعی و استراتژی و محصولات ارائه دهنده ذخیره سازی هوش مصنوعی.

ویژگی های کلیدی بار کاری هوش مصنوعی چیست؟

هوش مصنوعی و ML مبتنی بر آموزش الگوریتمی برای شناسایی الگوها در داده‌ها، به دست آوردن بینش در مورد داده‌ها، و اغلب پاسخ‌هایی بر اساس آن یافته‌ها هستند. اینها می‌توانند توصیه‌های بسیار ساده‌ای بر اساس داده‌های فروش باشند، مانند توصیه «افرادی که این را خریدند، خریدند». یا ممکن است از نوع محتوای پیچیده ای باشند که ما از آن می بینیم مدل های زبان بزرگ (LLM) که در هوش مصنوعی مولد (GenAI) بر روی مجموعه داده های عظیم و چندگانه آموزش دیده است تا بتواند متن، تصاویر و ویدیوی جذاب ایجاد کند.

سه مرحله کلیدی و نوع استقرار بار کاری هوش مصنوعی وجود دارد:

  1. آموزش که در آن تشخیص با درجات مختلف نظارت انسانی در الگوریتم از مجموعه داده مدل هوش مصنوعی تعبیه شده است.
  2. استنتاج، که طی آن مدل‌های شناسایی‌شده در مرحله آموزش در پیاده‌سازی‌های مستقل هوش مصنوعی و/یا کار می‌کنند.
  3. پیاده سازی هوش مصنوعی در یک برنامه یا مجموعه ای از برنامه ها.

مکان و نحوه آموزش و اجرای بارهای کاری AI و ML می تواند بسیار متفاوت باشد. از یک طرف، آنها می توانند شبیه یادگیری گروهی یا تکی باشند و یافته ها مشابه هستند محاسبات با کارایی بالا (HPC) پردازش مجموعه داده های خاص در یک محیط علمی و پژوهشی. از سوی دیگر، هوش مصنوعی، پس از آموزش، می تواند در بارهای کاری برنامه های کاربردی مستمر، مانند انواع عملیات فروش و بازاریابی که در بالا توضیح داده شد، اعمال شود.

انواع داده‌ها در مجموعه داده‌های آموزشی و عملیاتی می‌توانند از فایل‌های بسیار کوچک تا، به‌عنوان مثال، خواندن حسگرها در محدوده باشند اینترنت اشیا (IoT) بارهای کاری، به اشیاء بسیار بزرگ مانند فایل های تصویر و فیلم یا بسته های اطلاعات علمی منفرد. اندازه فایل دریافتی نیز به چارچوب های AI مورد استفاده بستگی دارد (زیر را ببینید).

مجموعه داده‌ها همچنین می‌توانند بخشی از ذخیره‌سازی داده‌های اولیه یا ثانویه باشند، مانند سوابق فروش یا داده‌های ذخیره‌شده در نسخه‌های پشتیبان، که به طور فزاینده‌ای به عنوان منبع ارزشمندی از اطلاعات شرکت دیده می‌شوند.

ویژگی های ورودی/خروجی بارهای کاری هوش مصنوعی چیست؟

آموزش و استنتاج در بارهای کاری هوش مصنوعی معمولاً نیاز به پردازش موازی گسترده با استفاده از آن دارد واحدهای پردازش گرافیکی (GPU) یا سخت افزار مشابهی که پردازش را از آن بارگیری می کند واحدهای پردازش مرکزی (CPU).

عملکرد پردازش باید استثنایی باشد تا بتوان آموزش هوش مصنوعی و استنتاج را در مدت زمان معقول و با حداکثر تکرار ممکن برای دستیابی به حداکثر کیفیت انجام داد.

زیرساخت همچنین به طور بالقوه نیاز به مقیاس پذیری گسترده برای مدیریت مجموعه داده های آموزشی بسیار بزرگ و نتایج آموزشی و استنتاج ها دارد. همچنین به سرعت ورودی/خروجی بین ذخیره‌سازی و پردازش نیاز دارد، و همچنین به طور بالقوه قادر به مدیریت قابلیت حمل داده‌ها بین مکان‌ها برای ایجاد کارآمدترین پردازش است.

داده ها احتمالاً بدون ساختار و در حجم زیاد هستند تا ساختار یافته و در پایگاه داده.

بارهای کاری هوش مصنوعی به چه نوع فضای ذخیره سازی نیاز دارند؟

همانطور که دیدیم، پردازش موازی انبوه با استفاده از GPUها هسته زیرساخت هوش مصنوعی است. بنابراین، به طور خلاصه، وظیفه ذخیره سازی این است که این پردازنده های گرافیکی را در سریع ترین زمان ممکن ارسال کند تا اطمینان حاصل شود که این قطعات سخت افزاری بسیار گران قیمت استفاده بهینه می شوند.

بیشتر اوقات به این معنی است فلش مموری برای تاخیر کم در I/O. ظرفیت مورد نیاز با توجه به مقیاس بار کاری و مقیاس احتمالی نتایج پردازش هوش مصنوعی متفاوت خواهد بود، اما صدها ترابایت، حتی پتابایت، محتمل است.

عملکرد مناسب نیز یک عامل است چارچوب های مختلف هوش مصنوعی داده ها را به طور متفاوت ذخیره می کنندبه عنوان بین PyTorch (تعداد زیادی از فایل های کوچکتر) و TensorFlow (مخالف). بنابراین این فقط در مورد انتقال سریع داده ها به GPU نیست، بلکه با حجم مناسب و با قابلیت های ورودی/خروجی مناسب نیز مطرح است.

اخیراً، فروشندگان ذخیره‌سازی، فضای ذخیره‌سازی مبتنی بر فلش را که معمولاً مورد استفاده قرار می‌گیرد، تحت فشار قرار داده‌اند فلاش با چگالی بالا QLC – به عنوان یک مخزن همه منظوره بالقوه، از جمله برای مجموعه‌های داده‌ای که تاکنون به عنوان داده‌های پشتیبان «ثانویه» در نظر گرفته می‌شدند، زیرا مشتریان ممکن است اکنون بخواهند با استفاده از هوش مصنوعی به آنها با سرعت بالاتر دسترسی داشته باشند.

فضای ذخیره‌سازی پروژه‌های هوش مصنوعی از آن چیزی که عملکرد بسیار بالایی را در طول آموزش و استنباط به اشکال مختلف نگهداری طولانی‌مدت ارائه می‌دهد متفاوت است، زیرا همیشه در شروع پروژه هوش مصنوعی مشخص نیست که چه داده‌هایی مفید خواهند بود.

آیا فضای ذخیره سازی ابری برای بارهای کاری هوش مصنوعی خوب است؟

فضای ذخیره ابری می تواند برای داده های حجم کاری هوش مصنوعی مورد توجه قرار گیرد. مزیت ذخیره سازی داده ها در فضای ابری یک عنصر قابل حمل را به ارمغان می آورد، زیرا داده ها را می توان به محل پردازش آنها نزدیک تر کرد.

بسیاری از پروژه‌های هوش مصنوعی در فضای ابری شروع می‌شوند، زیرا می‌توانید از پردازنده‌های گرافیکی برای زمان مورد نیاز خود استفاده کنید. ابر ارزان نیست، اما برای استقرار سخت‌افزار در محل، باید قبل از اینکه توجیه شود، به یک پروژه تولید متعهد باشید.

همه فروشندگان کلیدی ابر خدمات هوش مصنوعی را ارائه می‌کنند که از مدل‌های از پیش آموزش‌دیده، رابط‌های برنامه‌نویسی کاربردی (API) تا مدل‌ها، محاسبات AI/ML با پیاده‌سازی GPU مقیاس‌پذیر (انویدیا و خودشان) و زیرساخت ذخیره‌سازی قابل مقیاس‌پذیری تا چندین پتابایت را شامل می‌شود.

https://www.youtube.com/watch?v=-exhrtTmpWQ

آیا ذخیره سازی اشیا برای بارهای کاری هوش مصنوعی خوب است؟

ذخیره سازی اشیاء برای داده های بدون ساختار خوب است، می تواند به طور انبوه مقیاس شود، اغلب در فضای ابری قرار دارد و تقریباً می تواند هر نوع داده ای را به عنوان یک شی مدیریت کند. این باعث می‌شود که برای حجم کاری داده‌های بزرگ و بدون ساختار، احتمالاً در برنامه‌های هوش مصنوعی و یادگیری ماشین، مناسب باشد.

داشتن ابرداده غنی است امتیاز دیگر برای ذخیره سازی اشیا. قابل جستجو و خواندن برای کمک به شما در یافتن و سازماندهی داده های مناسب برای مدل های آموزشی هوش مصنوعی. داده ها را می توان تقریباً در هر مکانی ذخیره کرد، از جمله در فضای ابری با ارتباط از طریق پروتکل S3.

اما ابرداده، با وجود تمام مزایایی که دارد، می‌تواند کنترل‌کننده‌های ذخیره‌سازی را نیز بارگذاری کند و بر عملکرد تأثیر بگذارد. و اگر فضای ابری ذخیره‌سازی ابری باشد، هزینه‌های ابری باید در هنگام دسترسی و جابجایی داده‌ها در نظر گرفته شود.

ارائه دهندگان ذخیره سازی برای هوش مصنوعی چه چیزی ارائه می دهند؟

انویدیا معماری های مرجع و پشته های سخت افزاری را ارائه می دهد که شامل سرورها، پردازنده های گرافیکی و شبکه می شود. اینها معماری مرجع DGX BasePOD و پشته زیرساختی خارج از قفسه DGX SuperPOD هستند که می توانند برای عمودهای صنعت مشخص شوند.

فروشندگان فضای ذخیره‌سازی نیز بر روی گلوگاه‌های ورودی/خروجی تمرکز کرده‌اند تا بتوان داده‌ها را به طور موثر به تعداد زیادی از (بسیار گران‌قیمت) پردازنده‌های گرافیکی تحویل داد.

این تلاش‌ها از ادغام زیرساخت با Nvidia – بازیگر کلیدی در فناوری سرورهای GPU و AI – از طریق میکروسرویس‌هایی مانند NeMo برای آموزش و NIM برای استنباط تا اعتبارسنجی محصولات ذخیره‌سازی با زیرساخت هوش مصنوعی و کل پشته‌های زیرساخت ذخیره‌سازی متمرکز بر هوش مصنوعی را شامل می‌شود.

ابتکارات تامین کنندگان نیز با هدف توسعه تولید بازیابی پیشرفته (RAG) خطوط لوله و معماری های سخت افزاری برای پشتیبانی از آن. RAG یافته‌های آموزشی هوش مصنوعی را با ارجاع به اطلاعات خارجی و قابل اعتماد، تا حدی برای رسیدگی به به اصطلاح توهم، تأیید می‌کند.

کدام فروشنده‌های ذخیره‌سازی محصولات معتبر برای Nvidia DGX را ارائه می‌دهند؟

بسیاری از فروشندگان ذخیره سازی محصولاتی دارند که با پیشنهادات DGX تایید شده اند، از جمله موارد زیر.

DataDirect Networks (DDN) دستگاه های ذخیره سازی تمام NVMe A³I AI400X2 خود را با SuperPOD ارائه می دهد. هر دستگاه حداکثر سرعت 90 گیگابایت بر ثانیه و سه میلیون IOPS را ارائه می دهد.

Dell’s AI Factory یک پشته سخت‌افزاری یکپارچه است که شامل رایانه، لپ‌تاپ و سرور PowerEdge XE9680، ذخیره‌سازی، نرم‌افزار و خدمات PowerScale F710 می‌شود و با زیرساخت هوش مصنوعی انویدیا تأیید شده است. از طریق طرح Dell’s Apex به عنوان یک سرویس در دسترس است.

IBM دارای Spectrum Storage برای هوش مصنوعی با Nvidia DGX است. این یک راه حل محاسباتی، ذخیره سازی و شبکه مقیاس پذیر همگرا و در عین حال گسسته است که برای Nvidia BasePOD و SuperPod تأیید شده است.

Cohesity ارائه‌دهنده پشتیبان‌گیری در رویداد GTC 2024 انویدیا اعلام کرد که میکروسرویس‌های انویدیا NIM و Nvidia AI Enterprise را در پلتفرم داده چند ابری Gaia خود ادغام می‌کند که امکان استفاده از داده‌های پشتیبان و بایگانی را برای تشکیل یک منبع داده آموزشی فراهم می‌کند.

Hammerspace دارای گواهینامه GPUDirect توسط Nvidia است. Hammerspace Hyperscale NAS خود را به عنوان یک سیستم فایل جهانی ساخته شده برای بارهای کاری AI/ML و پردازش مبتنی بر GPU ارائه می دهد.

Hitachi Vantara Hitachi iQ خود را دارد که سیستم‌های هوش مصنوعی مخصوص صنعت را ارائه می‌کند که از پردازنده‌های گرافیکی Nvidia DGX و HGX با فضای ذخیره‌سازی شرکت استفاده می‌کنند.

HPE دارای ابررایانه‌های GenAI و سیستم‌های سازمانی با اجزای Nvidia، معماری مرجع RAG است و قصد دارد میکروسرویس‌های NIM را تعبیه کند. در مارس 2024 HPE آرایه های ذخیره سازی Alletra MP خود را به روز کرده است برای اتصال دو برابر سرورها و چهار برابر ظرفیت در یک فضا با اتصال 100 گیگابیت بر ثانیه بین گره ها در یک کلاستر.

NetApp دارای ادغام محصول با BasePOD و SuperPOD است. در GTC 2024، NetApp از ادغام میکروسرویس NeMo Retriever Nvidia، یک نرم‌افزار RAG، با فضای ذخیره‌سازی ابری ترکیبی OnTap مشتری خبر داد.

Pure Storage دارای AIRI است، یک زیرساخت هوش مصنوعی مبتنی بر فلش که با سرورهای DGX و Nvidia OVX تایید شده و از حافظه ذخیره‌سازی Pure’s FlashBlade//S استفاده می‌کند. در GTC 2024، Pure اعلام کرد که یک خط لوله RAG ایجاد کرده است که از میکروسرویس‌های مبتنی بر Nvidia NeMo با پردازنده‌های گرافیکی Nvidia و ذخیره‌سازی آن‌ها، به‌علاوه RAG برای بخش‌های صنعتی خاص استفاده می‌کند.

Vast Data پلتفرم Vast Data خود را در سال 2023 راه‌اندازی کرد که زیرسیستم‌های ذخیره‌سازی حافظه پنهان QLC و سریع آن را با قابلیت‌های پایگاه داده مانند در سطح ذخیره‌سازی I/O و گواهینامه DGX ترکیب می‌کند.

در مارس 2024، Weka سازنده NAS ابری هیبریدی، یک دستگاه سخت افزاری را اعلام کرد که دارای گواهینامه کار با زیرساخت مرکز داده DGX SuperPod AI Nvidia است.



Source link