چند روز پس از تکذیب شایعات مربوط به یک موتور جستجوی جدید هوش مصنوعی و انتشار GPT-5، OpenAI به صورت زنده راه اندازی مدل جدید هوش مصنوعی خود، GPT-4o را پخش کرد، که قادر به پذیرش ورودی های صوتی و تصویری و تولید خروجی تقریبا بی عیب و نقص است. “o” در GPT-4o مخفف “omni” است، به این معنی که می تواند ورودی های چندوجهی را از طریق متن، صدا و تصاویر دریافت کند، برخلاف روزهای اولیه ChatGPT، زمانی که کاربران مجبور بودند برای دریافت متن پاسخ، متن ارسال کنند.
OpenAI ادعا می کند که GPT-4o می تواند به زمان پاسخگویی 232 میلی ثانیه برای ورودی صوتی دست یابد، در حالی که میانگین زمان پاسخ آن 320 میلی ثانیه است. رابط هوش مصنوعی از پرکنندههای معمولی استفاده میکند یا گاهی اوقات بخشی از سؤال را برای پوشش این تأخیر تکرار میکند.
در حالی که کاربران قبلاً میتوانستند از ابزارهایی برای برقراری ارتباط صوتی با ChatGPT استفاده کنند، این ویژگی با کلابسازی سه مدل کار میکرد: تبدیل صدای کاربر به متن، انجام عملیات و برگرداندن یک نتیجه مبتنی بر صدا. با GPT-4o، همان شبکه عصبی از این لایهها مراقبت میکند و مدل میتواند سریعتر پاسخ دهد و بینشهای بیشتری را از کاربر و محیط اطرافش جمعآوری کند.
(برای اخبار برتر فناوری روز، در خبرنامه فناوری امروز ما مشترک شوید)
![](https://colbe.ir/wp-content/uploads/2024/05/سام-آلتمن-گزارش-های-مربوط-به-موتور-جستجوی-OpenAI-را.jpg)
GPT-4o چه کاری می تواند انجام دهد؟
OpenAI چندین دمو را اجرا کرد تا توانایی های متنوع GPT-4o را در صدا، تصاویر و متن نشان دهد. رابط هوش مصنوعی، بر اساس دستورالعمل های کاربر، می تواند تصویر یک مرد را به یک کاریکاتور تبدیل کند، یک لوگوی سه بعدی ایجاد و دستکاری کند، یا یک لوگو به یک شیء متصل کند. همچنین میتواند یادداشتهای جلسه را بر اساس ضبط صدا ایجاد کند، یک شخصیت کارتونی طراحی کند، و حتی یک پوستر فیلم با عکسهای واقعی افراد بسازد.
در کلیپهای ویدیویی تبلیغاتی، GPT-4o آمادگی مردی را برای مصاحبه ارزیابی کرد و درباره او به دلیل اینکه خیلی معمولی لباس میپوشید شوخی میکرد، بنابراین درک بصری خود را نشان میداد. در برخی دیگر، به راه اندازی یک بازی کمک کرد، به کودک در حل یک مسئله ریاضی کمک کرد، اشیاء واقعی را به زبان اسپانیایی تشخیص داد، و حتی طعنه گفت.
OpenAI از تمجید از مدل جدید ابایی نکرد و ادعا کرد که رقبای موجود مانند Claude 3 Opus و Gemini Ultra 1.0 و همچنین ارائه GPT-4 خود را در چندین زمینه در ارزیابی متن و ارزیابی درک بینش شکست داده است.
چه کاری نمی تواند انجام دهد؟
در حالی که GPT-4o میتواند متن، صدا و تصاویر را پردازش کند، یکی از فقدانهای قابل توجه تولید ویدئو است – با وجود قابلیت درک بینایی مدل. بنابراین، کاربران نمیتوانند از GPT-4o بخواهند تا یک تریلر فیلم را به آنها ارائه دهد، اما میتوانند با وادار کردن هوش مصنوعی به مشاهده محیط کاربر از طریق دوربین گوشی هوشمندشان، سؤالاتی درباره محیط اطراف خود از مدل بپرسند.
علاوه بر این، GPT-4o هنگام نشان دادن تواناییهای خود دچار اشتباهات و خطاهایی شد. به عنوان مثال، هنگام تبدیل دو پرتره به یک پوستر به سبک فیلم جنایی، این مدل ابتدا به جای متن، حرف های بیهوده تولید می کرد. اگرچه نتایج بعداً اصلاح شد، محصول نهایی نیز حسی کمی خام تولید شده توسط هوش مصنوعی داشت.
GPT-4o در زمان حیاتی برای سازنده ChatGPT، که اکنون در حال رقابت با سایر شرکتهای فناوری بزرگ است که مدلهای خود را تنظیم میکنند یا آنها را به ابزارهای تجاری تبدیل میکنند، میآید.
در حالی که شرکتهایی مانند گوگل آزادانه چتباتهای خود را ارائه میکنند که به اطلاعات در زمان واقعی دسترسی پیدا میکنند، OpenAI به دلیل ایجاد محدودیت دانش برای ابتداییترین و رایگانترین نسخه ChatGPT عقب افتاد. این بدان معناست که کاربرانی که پرداخت نمیکنند، اطلاعات قدیمی را از یک مدل کمتر توسعهیافته در مقایسه با کاربرانی که پیشنهادات پیشرفته را از رقبا امتحان میکنند، دریافت میکنند.
باید دید که GPT-4o تا چه اندازه تجربه ChatGPT را برای کاربرانی که پرداخت نمی کنند بهبود می بخشد.
چه کسی می تواند از این مدل هوش مصنوعی استفاده کند؟
به گفته OpenAI، ChatGPT فوراً قابلیتهای متن و تصویر GPT-4o را دریافت خواهد کرد. به طور قابل توجهی، حتی کاربرانی که ChatGPT پرداخت نمی کنند، می توانند GPT-4o را تجربه کنند. کاربران ChatGPT Plus همراه با ارتقاء محدودیت های پیام را افزایش می دهند، در حالی که نسخه جدیدی از حالت صوتی نیز برای آنها در نظر گرفته شده است.
GPT-4o 2 برابر سریعتر، نصف قیمت است و در مقایسه با GPT-4 Turbo، 5 برابر محدودیت نرخ بالاتری دارد. OpenAI در پست خود گفت: ما قصد داریم پشتیبانی از قابلیت های صوتی و تصویری جدید GPT-4o را برای گروه کوچکی از شرکای مورد اعتماد در API در هفته های آینده راه اندازی کنیم.
چه تدابیری برای GPT-4o وجود دارد؟
از آنجایی که سیستمهای هوش مصنوعی مولد با زمانهای پاسخ بهبود یافته، پیشرفتهتر و ارگانیکتر میشوند، این نگرانی وجود دارد که از آنها برای اهدافی مانند برقراری تماسهای کلاهبرداری، تهدید افراد، جعل هویت افراد غیرموافق، ایجاد رسانههای خبری نادرست اما قابل باور و غیره استفاده شود.
OpenAI گفت که GPT-4o آزمایش شده است، اما این شرکت به بررسی خطرات و رسیدگی سریع به آنها، جدای از محدود کردن برخی ویژگیهای صوتی در هنگام راهاندازی، ادامه خواهد داد.
«GPT-4o دارای ایمنی داخلی است که با طراحی در همه روشها، از طریق تکنیکهایی مانند فیلتر کردن دادههای آموزشی و اصلاح رفتار مدل از طریق پس از آموزش، طراحی شده است. ما همچنین سیستمهای ایمنی جدیدی را برای ارائه نردههای محافظ در خروجیهای صوتی ایجاد کردهایم.» اوپنآی گفت که بیش از ۷۰ کارشناس در زمینههایی مانند روانشناسی اجتماعی، سوگیری/انصاف و اطلاعات نادرست آزمایشهای تیم قرمز را انجام دادهاند.
GPT-4o چه ربطی به فیلم هالیوود “Her” دارد؟
هنگام اعلام راه اندازی GPT-4o، سم آلتمن، مدیر عامل OpenAI، کلمه “او” را در X پست کرد.
این به عنوان اشاره ای به فیلم عاشقانه علمی تخیلی هالیوود 2013 به نویسندگی و کارگردانی اسپایک جونز در نظر گرفته شد که در آن قهرمان داستان با بازی واکین فینیکس شیفته دستیار هوش مصنوعی با بازی اسکارلت جوهانسون می شود.
در اکثر کلیپهای نمایشی به اشتراک گذاشته شده توسط OpenAI، صدای GPT-4o زنانه بود. برخلاف تکرارهای ابتدایی تر، صداها در آخرین مدل OpenAI رسا، دوستانه و حتی محبت آمیز بودند و بیشتر شبیه به یک دوست – یا شخصی نزدیک تر – بودند تا صدای تولید شده توسط ماشین.
صدای GPT-4o به روشهای معمولی انسانی واکنش نشان میدهد، مانند غوغا کردن به یک سگ شایان ستایش، توصیههای مد روز به مرد و راهنمایی دانشآموزی که روی یک مسئله ریاضی کار میکند.
با کُلبه وبسایت و مجله فناوری و ابزارهای هوشمند ،بهترین تکنولوژی، بهترین آینده ، بروز بمانید