هنگام استفاده از ChatGPT، به خصوص با مدل GPT-4، حتما متوجه شده اید که مدل چقدر کند به پرس و جوها پاسخ می دهد. ناگفته نماند، دستیارهای صوتی مبتنی بر مدل های زبان بزرگ مانند ویژگی ChatGPT's Voice Chat یا Gemini AI اخیراً منتشر شده که جایگزین دستیار Google در تلفن های اندرویدی شده است، به دلیل تأخیر بالای LLM ها. اما همه اینها به لطف موتور استنتاج جدید قدرتمند LPU (واحد پردازش زبان) Groq احتمالاً به زودی تغییر خواهند کرد.
Groq جهان را غافلگیر کرده است. توجه داشته باشید، این Grok ایلان ماسک نیست، که یک مدل هوش مصنوعی در X (توئیتر سابق) موجود است. موتور استنتاج LPU Groq می تواند حجم عظیمی تولید کند 500 توکن در ثانیه هنگام اجرای یک مدل 7B. هنگام اجرای یک مدل 70B، حدود 250 توکن در ثانیه کاهش می یابد. این با ChatGPT OpenAI که بر روی تراشههای Nvidia مجهز به GPU اجرا میشود که حدود 30 تا 60 توکن در ثانیه ارائه میکند، فاصله زیادی دارد.
Groq توسط مهندسان سابق Google TPU ساخته شده است
Groq یک چت ربات هوش مصنوعی نیست، بلکه یک تراشه استنتاج هوش مصنوعی است و در حال رقابت با غول های صنعتی مانند انویدیا در فضای سخت افزاری هوش مصنوعی است. بود توسط جاناتان راس در سال 2016 تاسیس شد، زمانی که در گوگل کار می کرد، تیمی را برای ساخت اولین تراشه TPU (واحد پردازش تانسور) گوگل برای یادگیری ماشین تأسیس کرد.
بعدها، بسیاری از کارمندان تیم TPU گوگل را ترک کردند و Groq را ایجاد کردند ساخت سخت افزار برای محاسبات نسل بعدی.
LPU Groq چیست؟
دلیل اینکه موتور LPU Groq در مقایسه با بازیکنان معتبری مانند انویدیا بسیار سریع است این است که کاملاً بر اساس رویکرد متفاوتی ساخته شده است.
به گفته مدیر عامل جاناتان راس، ابتدا Groq پشته نرم افزار و کامپایلر را ایجاد کرد و سپس سیلیکون را طراحی کرد. با ذهنیت نرمافزاری اول، عملکرد را «قطعی» کرد – یک مفهوم کلیدی برای به دست آوردن نتایج سریع، دقیق و قابل پیشبینی در استنباط هوش مصنوعی.
همانطور که برای معماری LPU Groq، آن را شبیه به چگونه یک تراشه ASIC (مدار مجتمع ویژه برنامه) کار می کند و بر روی یک گره 14 نانومتری توسعه یافته است. این یک تراشه همه منظوره برای انواع کارهای پیچیده نیست، بلکه اینطور است به صورت سفارشی برای یک کار خاص طراحی شده است، که در این مورد با توالی داده ها در مدل های زبان بزرگ سروکار دارد. از سوی دیگر، پردازندهها و پردازندههای گرافیکی میتوانند کارهای بسیار بیشتری انجام دهند، اما منجر به تاخیر در عملکرد و افزایش تاخیر میشوند.
و با کامپایلر مناسبی که دقیقاً می داند چرخه دستورالعمل در تراشه چگونه کار می کند، تأخیر به میزان قابل توجهی کاهش می یابد. کامپایلر دستورالعمل ها را می گیرد و آنها را به مکان صحیح اختصاص می دهد و تاخیر بیشتری را کاهش می دهد. فراموش نکنید، هر تراشه LPU Groq همراه با 230 مگابایت حافظه داخلی SRAM برای ارائه عملکرد بالا و تاخیر کم با کارایی بسیار بهتر.
در مورد این سوال که آیا تراشه های Groq را می توان برای آموزش مدل های هوش مصنوعی استفاده کرد، همانطور که در بالا گفتم، برای استنباط هوش مصنوعی ساخته شده است. این حافظه با پهنای باند بالا (HBM) که برای مدلهای آموزشی و تنظیم دقیق مورد نیاز است، ندارد.
Groq همچنین بیان می کند که حافظه HBM منجر به عدم تعیین کل سیستم می شود که به افزایش تاخیر می افزاید. پس نه تو نمی توان مدل های هوش مصنوعی را آموزش داد در GROQ LPU.
ما موتور استنتاج LPU Groq را آزمایش کردیم
میتوانید به وبسایت Groq بروید (بازدید کنید) تا عملکرد فوقالعاده سریع را بدون نیاز به حساب یا اشتراک تجربه کنید. در حال حاضر، آن میزبان دو مدل هوش مصنوعی استاز جمله Llama 70B و Mixtral-8x7B. برای بررسی عملکرد LPU Groq، چند فرمان را روی آن اجرا کردیم Mixtral-8x7B-32K مدل، که یکی از بهترین مدل های منبع باز موجود است.
![با Groq، یک شتاب دهنده هوش مصنوعی لایتنینگ سریع که ChatGPT و Gemini را شکست می دهد، آشنا شوید](https://colbe.ir/wp-content/uploads/2024/02/با-Groq،-یک-شتاب-دهنده-هوش-مصنوعی-لایتنینگ-سریع-که.jpg)
LPU Groq یک خروجی عالی در a ایجاد کرد سرعت 527 توکن در ثانیه، تولید 868 توکن (3846 کاراکتر) در مدل 7B فقط 1.57 ثانیه زمان می برد. در یک مدل 70B، سرعت آن به 275 توکن در ثانیه کاهش می یابد، اما همچنان بسیار بالاتر از رقبا است.
![توکن های chatgpt در ثانیه](https://colbe.ir/wp-content/uploads/2024/02/با-Groq،-یک-شتاب-دهنده-هوش-مصنوعی-لایتنینگ-سریع-که.jpg)
برای مقایسه عملکرد شتاب دهنده هوش مصنوعی Groq، آزمایش مشابهی را روی ChatGPT (GPT-3.5، مدل 175B) انجام دادیم و معیارهای عملکرد را به صورت دستی محاسبه کردیم. ChatGPT که از پردازندههای گرافیکی پیشرفته Tensor-core انویدیا استفاده میکند، خروجی را با سرعتی برابر تولید میکند. 61 توکن در ثانیه، تولید 557 توکن (3090 کاراکتر) 9 ثانیه طول می کشد.
![توکن های جمینی در ثانیه](https://colbe.ir/wp-content/uploads/2024/02/با-Groq،-یک-شتاب-دهنده-هوش-مصنوعی-لایتنینگ-سریع-که.jpg)
برای مقایسه بهتر، ما همین آزمایش را روی نسخه رایگان Gemini (تجهیز شده توسط Gemini Pro) انجام دادیم که بر روی شتاب دهنده Google's Cloud TPU v5e اجرا می شود. گوگل اندازه مدل جمینی پرو را فاش نکرده است. سرعتش بود 56 توکن در ثانیه، 15 ثانیه طول می کشد تا 845 توکن (4428 کاراکتر) تولید شود.
در مقایسه با سایر ارائه دهندگان خدمات، پروژه ray کار گسترده ای انجام داد تست LLMPerf و دریافت که Groq بسیار بهتر از سایر ارائه دهندگان عمل می کند.
![توکن در ثانیه سرعت groq](https://colbe.ir/wp-content/uploads/2024/02/با-Groq،-یک-شتاب-دهنده-هوش-مصنوعی-لایتنینگ-سریع-که.jpg)
در حالی که ما آن را آزمایش نکرده ایم، LPU های Groq نیز کار با مدل های انتشارو نه فقط مدل های زبان. طبق نسخه ی نمایشی، می تواند سبک های مختلفی از تصاویر را با وضوح 1024 پیکسل در عرض یک ثانیه تولید کند. این بسیار قابل توجه است.
Groq در مقابل Nvidia: Groq چه می گوید؟
در گزارشی، Groq می گوید که LPU هایش هستند مقیاس پذیر و می توانند با استفاده از اتصال نوری به یکدیگر متصل شوند در 264 تراشه. میتوان با استفاده از سوئیچها مقیاس آن را افزایش داد، اما به تأخیر میافزاید. به گفته مدیر عامل، جاناتان راس، این شرکت در حال توسعه خوشههایی است که میتوانند در 4128 تراشه مقیاس شوند که در سال 2025 منتشر خواهند شد و بر روی گره فرآیند 4 نانومتری سامسونگ توسعه داده شده است.
در آزمایش معیاری که توسط Groq با استفاده از 576 LPU در مدل 70B Llama 2 انجام شد، استنباط هوش مصنوعی را در یک دهم زمان انجام شده توسط خوشهای از پردازندههای گرافیکی Nvidia H100 انجام داد.
نه فقط این، پردازندههای گرافیکی انویدیا از 10 ژول تا 30 ژول انرژی برای تولید توکنها در پاسخ مصرف میکردند، در حالی که فقط Groq 1 ژول به 3 ژول گرفت. بهطور خلاصه، این شرکت میگوید که LPUهای Groq 10 برابر سرعت بهتری برای کارهای استنتاج هوش مصنوعی با 1/10 هزینه پردازندههای گرافیکی Nvidia ارائه میکنند.
برای کاربران نهایی چه معنایی دارد؟
به طور کلی، این یک پیشرفت هیجان انگیز در فضای هوش مصنوعی است و با معرفی LPU ها، کاربران تعاملات فوری با سیستم های هوش مصنوعی را تجربه خواهند کرد. کاهش قابل توجه در زمان استنتاج به این معنی است که کاربران می توانند فوراً با سیستم های چندوجهی بازی کنید هنگام استفاده از صدا، تغذیه تصاویر یا تولید تصاویر.
Groq در حال حاضر دسترسی API را به توسعه دهندگان ارائه می دهد، بنابراین به زودی انتظار عملکرد بهتر مدل های هوش مصنوعی را داشته باشید. بنابراین نظر شما در مورد توسعه LPU ها در فضای سخت افزاری هوش مصنوعی چیست؟ نظر خود را در بخش نظرات زیر با ما در میان بگذارید.
با کُلبه وبسایت و مجله فناوری و ابزارهای هوشمند ،بهترین تکنولوژی، بهترین آینده ، بروز بمانید