در رویداد Google Cloud Next 2024 در لاس وگاس، گوگل اعلام کرد که قرار است Gemini 1.5 Pro را به طور کلی در دسترس همه کاربران قرار دهد. مدل بسیار مورد انتظار در نهایت با یک پنجره زمینه 1 میلیونی در پیش نمایش عمومی قرار گرفت و شما دیگر لازم نیست ثبت نام کنید برای لیست انتظار برای دسترسی به مدل Gemini 1.5 Pro.
من سعی کردم از یک حساب کاربری جدید گوگل به مدل Gemini 1.5 Pro دسترسی پیدا کنم و این مدل بدون هیچ انتظاری به راحتی در دسترس بود. و همه اینها به صورت رایگان در دسترس است.
![google ai studio با مدل gemini 1.5 pro](https://colbe.ir/wp-content/uploads/2024/04/Gemini-15-Pro-اکنون-به-صدا-گوش-می-دهد-و.jpg)
گفته شد، به این معنا نیست که می توانید از مدل Gemini 1.5 Pro در پورتال Gemini استفاده کنید. باید سر بزنید aistudio.google.com (بازدید) برای دسترسی به مدل در حال حاضر. پس از چند ماه پیش نمایش عمومی، این مدل در پورتال Gemini در دسترس قرار خواهد گرفت. برای استفاده از این مدل احتمالاً به اشتراک Gemini Advanced نیاز خواهید داشت.
در نظر داشته باشید که مدل Gemini 1.5 Pro یک مدل میانی ساخته شده بر اساس معماری MoE، با این حال، بزرگترین مدل Gemini 1.0 Ultra را به راحتی شکست می دهد. و در مقایسه ما با مدل GPT-4، Gemini 1.5 Pro در چندین آزمایش قابلیت های قابل توجهی را نشان داد. هنگامی که Gemini 1.5 Pro در پورتال Gemini معرفی شد، انتظار داشته باشید که عملکرد بهتری نسبت به GPT-4 و مدل Opus کلود 3 داشته باشد.
مقالات پیشنهادی
مدلهای هوش مصنوعی Claude 3 Opus در مقابل GPT-4 در مقابل Gemini 1.5 Pro تست شده
آرجون شا
6 مارس 2024
جدا از آن، Gemini 1.5 Pro اکنون می تواند فایل های صوتی را نیز پردازش کنید. میتوانید فایلهای صوتی جلسات یا ویدیوها را آپلود کنید و مدل میتواند بدون نیاز به تولید دستی رونوشت به فایلهای آپلود شده گوش دهد. این می تواند به افرادی که می خواهند اطلاعات سریع و ساختار یافته ای از جلسات یا بحث های صوتی بیابند، کمک بزرگی باشد.
جمینی 1.5 پرو قبلاً می توانست فیلم ها را پردازش کند و تصاویر، و اکنون فایل های صوتی نیز پشتیبانی می شوند که آن را به یک مدل چندوجهی قدرتمند با طول زمینه 1 میلیون توکن تبدیل می کند. ما قابلیت پردازش صوتی مدل Gemini 1.5 Pro را آزمایش کردیم. در اینجا چگونه گذشت.
نحوه پردازش فایل های صوتی در Gemini 1.5 Pro
- سر به aistudio.google.com (بازدید) در یک مرورگر.
- در مرحله بعد، مطمئن شوید که “جمینی 1.5 پرو” مدل در منوی کشویی انتخاب شده است.
![مدل gemini 1.5 pro را انتخاب کنید](https://colbe.ir/wp-content/uploads/2024/04/1712735914_938_Gemini-15-Pro-اکنون-به-صدا-گوش-می-دهد-و.jpg)
- پس از آن، بر روی ” کلیک کنیدسمعی” را در ردیف بالا قرار دهید و فایل صوتی خود را آپلود کنید. این فرمتهای فایل صوتی: FLAC، MIDI، MP3، M4A، OPUS، OGG، OGA، WAV و MID را پشتیبانی میکند.
![آپلود فایل صوتی در google ai studio](https://colbe.ir/wp-content/uploads/2024/04/1712735915_812_Gemini-15-Pro-اکنون-به-صدا-گوش-می-دهد-و.jpg)
- فایل صوتی را پردازش کرده و مصرف می کند توکن ها.
- اکنون، شروع به پرسیدن سوالات خود کنیدو Gemini 1.5 Pro اطلاعات را از صدا پیدا می کند و مطابق با آن پاسخ می دهد.
![gemini 1.5 pro پردازش فایل های صوتی](https://colbe.ir/wp-content/uploads/2024/04/1712735916_766_Gemini-15-Pro-اکنون-به-صدا-گوش-می-دهد-و.jpg)
- بهترین بخش این است که آن را تولید می کند رونوشت در قالب ساختار یافته با برچسب های بلندگوهای مختلف. و اصلا توهم ندارد.
![gemini 1.5 pro تولید رونوشت صوتی](https://colbe.ir/wp-content/uploads/2024/04/1712735918_170_Gemini-15-Pro-اکنون-به-صدا-گوش-می-دهد-و.jpg)
بنابراین به این صورت می توانید فایل های صوتی را در Gemini 1.5 Pro آپلود و پردازش کنید. این واقعاً یک مدل قدرتمند از تیم Google DeepMind است و من هیجان زده هستم که اکنون بدون هیچ هزینه ای در دسترس عموم قرار گرفته است. ادامه دهید و آن را امتحان کنید و نظرات خود را در بخش نظرات زیر با ما در میان بگذارید.
با کُلبه وبسایت و مجله فناوری و ابزارهای هوشمند ،بهترین تکنولوژی، بهترین آینده ، بروز بمانید