غزل Claude 3.5 در مقابل ChatGPT 4o vs Gemini 1.5 Pro: Anthropic بازگشته است

زمان مطالعه: 5 دقیقه

آنتروپیک اخیراً آخرین مدل غزل کلود 3.5 خود را منتشر کرد و ادعا کرد که ChatGPT 4o و Gemini 1.5 Pro را در چندین بنچمارک شکست می دهد. بنابراین برای آزمایش این ادعا، به این مقایسه دقیق رسیده ایم. درست مانند مقایسه قبلی ما بین Claude 3 Opus، GPT-4 و Gemini 1.5 Pro، ما قابلیت استدلال، استدلال چندوجهی، تولید کد و موارد دیگر را ارزیابی کرده‌ایم. در این یادداشت، بیایید شروع کنیم.

1. زمان خشک شدن را پیدا کنید

اگرچه این یک سوال اساسی به نظر می رسد، من همیشه تست خود را با این سوال استدلالی پیچیده شروع می کنم. LLM ها معمولاً آن را اشتباه می گیرند. کلود 3.5 غزل نیز همین اشتباه را مرتکب شد و با استفاده از ریاضی به سؤال پرداخت. مدل می گوید خشک کردن 20 حوله 1 ساعت و 20 دقیقه طول می کشد که نادرست است. ChatGPT 4o و Gemini 1.5 Pro به درستی پاسخ دادند و گفتند که خشک کردن 20 حوله همچنان 1 ساعت طول می کشد.

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

برنده: ChatGPT 4o و Gemini 1.5 Pro

مقالات مرتبط

ChatGPT 4o در مقابل ChatGPT 4: ویژگی های ممتاز به صورت رایگان؟

آرجون شا

17 مه 2024

2. وزن را ارزیابی کنید

در مرحله بعد، در این سوال استدلال کلاسیک، خوشحالم که گزارش دهم که هر سه مدل از جمله Claude 3.5 Sonnet، ChatGPT 4o و Gemini 1.5 Pro به درستی پاسخ دادند. یک کیلو پر یا هر چیز دیگری همیشه سنگین تر از یک پوند فولاد یا مواد دیگر خواهد بود.

What's heavier, a kilo of feathers or a pound of steel?

برنده: غزل Claude 3.5، ChatGPT 4o و Gemini 1.5 Pro

وزن را با استفاده از غزل کلود 3.5 بیابید

3. پازل کلمات

در آزمون استدلال بعدی، کلود 3.5 Sonnet به درستی پاسخ می دهد که دیوید هیچ برادری ندارد و او تنها برادر در بین خواهر و برادر است. ChatGPT 4o و Gemini 1.5 Pro نیز پاسخ درست را دریافت کردند.

David has three sisters. Each of them have one brother. How many brothers does David have?

برنده: غزل Claude 3.5، ChatGPT 4o و Gemini 1.5 Pro

مقالات مرتبط

6 چیز جالبی که ChatGPT 4o می تواند انجام دهد که OpenAI آن را برجسته نکرده است

آرجون شا

14 مه 2024

4. موارد را مرتب کنید

پس از آن، از هر سه مدل خواستم که این موارد را به صورت ثابت بچینند. افسوس که هر سه اشتباه کردند. مدل‌ها رویکردی مشابه داشتند: ابتدا لپ‌تاپ، سپس کتاب، بطری بعدی و سپس 9 تخم‌مرغ را روی پایه بطری قرار دهید، که غیرممکن است. برای اطلاع شما، مدل قدیمی GPT-4 به درستی پاسخ داده است.

Here we have a book, 9 eggs, a laptop, a bottle and a nail. Please tell me how to stack them onto each other in a stable manner.

برنده: هیچ یک

5. دستورالعمل های کاربر را دنبال کنید

Anthropic در پست وبلاگ خود اشاره کرد که کلود 3.5 Sonnet در پیروی از دستورالعمل ها عالی است و به نظر می رسد درست باشد. تمام 10 جمله ای که با کلمه “AI” ختم می شوند را ایجاد کرد. ChatGPT 4o نیز آن را به درستی 10/10 دریافت کرد. با این حال، Gemini 1.5 Pro تنها می تواند 5 جمله از 10 جمله را تولید کند. گوگل باید این مدل را برای آموزش بهتر هدایت کند.

Generate 10 sentences that end with the word "AI"

برنده: کلود 3.5 غزل و ChatGPT 4o

مقالات مرتبط

Gemini 1.5 Flash یک جواهر کم ارزش است که باید همین الان امتحان کنید: در اینجا چگونگی

آرجون شا

20 مه 2024

6. سوزن را پیدا کنید

آنتروپیک یکی از اولین شرکت هایی بوده است که طول زمینه بزرگی را ارائه کرده است، از 100 هزار توکن تا اکنون 200 هزار پنجره زمینه. بنابراین برای این تست، یک متن بزرگ با 25 هزار کاراکتر و حدود 6 هزار توکن تغذیه کردم. یه سوزن یه جایی وسط اضافه کردم.

من در مورد سوزن هر سه مدل سوال کردم، اما فقط کلود 3.5 سونت توانست بیانیه خارج از محل را پیدا کند. ChatGPT 4o و Gemini 1.5 Pro نتوانستند سوزن را پیدا کنند. بنابراین برای پردازش اسناد بزرگ، من فکر می کنم Claude 3.5 Sonnet مدل بهتری است.

برنده: غزل کلود 3.5

7. تست بینایی

برای آزمایش قابلیت بینایی، تصویری از دست خط ناخوانا را آپلود کردم تا ببینم مدل‌ها چقدر می‌توانند شخصیت‌ها را شناسایی کرده و آنها را استخراج کنند. در کمال تعجب، هر سه مدل کار بسیار خوبی انجام دادند و متون را به درستی شناسایی کردند. تا آنجا که به OCR مربوط می شود، هر سه مدل کاملاً توانمند هستند.

برنده: غزل Claude 3.5، ChatGPT 4o و Gemini 1.5 Pro

مقالات مرتبط

من با استفاده از ChatGPT 4o در چند ثانیه یک بازی ساختم و شما هم می توانید

آرجون شا

16 مه 2024

8. یک بازی بسازید

بالاخره به دور آخر می رسیم. در این تست، من تصویری از بازی کلاسیک تتریس را بدون فاش کردن نام آپلود کردم و به سادگی از مدل ها خواستم که یک بازی شبیه به این را در پایتون ایجاد کنند. خوب، هر سه مدل به درستی بازی را حدس زدند، اما فقط کد تولید شده Sonnet با موفقیت اجرا شد. هر دو ChatGPT 4o و Gemini 1.5 Pro نتوانستند کد بدون اشکال تولید کنند.

در یک شات، بازی با استفاده از کد Sonnet با موفقیت اجرا شد. فقط باید نصبش کنم pygame کتابخانه بسیاری از برنامه نویسان از ChatGPT 4o برای کمک به کدنویسی استفاده می کنند، اما به نظر می رسد که مدل Anthropic ممکن است مورد علاقه جدید در بین کدنویسان باشد.

Claude 3.5 Sonnet در معیار HumanEval که توانایی کدنویسی را ارزیابی می کند، امتیاز 92% را کسب کرده است. در این معیار، GPT-4o 90.2 درصد و Gemini 1.5 Pro با 84.1 درصد است. واضح است که برای کدنویسی، یک مدل SOTA جدید در شهر وجود دارد و آن مدل کلود 3.5 Sonnet است.

برنده: غزل کلود 3.5

نتیجه

پس از اجرای تست های مختلف بر روی هر سه مدل، احساس می کنم که کلود 3.5 Sonnet به خوبی مدل ChatGPT 4o است، اگر نگوییم بهتر است. به ویژه در کدنویسی، مدل جدید آنتروپیک به طور جدی چشمگیر است. نکته قابل توجه این است که آخرین مدل Sonnet حتی بزرگترین مدل آنتروپیک نیست.

مقالات مرتبط

غزل Anthropic Claude 3.5 منتشر شد. ChatGPT 4o را شکست می دهد

آرجون شا

21 ژوئن 2024

ابرهوش ایمن چیست و چه کاری انجام می دهد

آرجون شا

20 ژوئن 2024

این شرکت می‌گوید Claude 3.5 Opus اواخر امسال عرضه می‌شود که باید عملکرد بهتری هم داشته باشد. Gemini 1.5 Pro گوگل نیز بهتر از آزمایش‌های قبلی ما عمل کرد که به این معنی است که به طور قابل توجهی بهبود یافته است. به طور کلی، می‌توانم بگویم که OpenAI تنها آزمایشگاه هوش مصنوعی نیست که کار بزرگی در زمینه LLM انجام می‌دهد. غزل کلود 3.5 آنتروپیک گواهی بر این واقعیت است.

با کُلبه وبسایت و مجله فناوری و ابزارهای هوشمند ،بهترین تکنولوژی، بهترین آینده ، بروز بمانید

Happy

0 %

Sad

0 %

Excited

0 %

Sleepy

0 %

Angry

0 %

Surprise

0 %

شاید برای شما جالب باشد

خبر فوری

ریلمی دوربین Ultra Clear با هوش مصنوعی را در گوشی 5G سری 13 Pro با سنسورهای سونی معرفی کرد.

ریلمی دوربین Ultra Clear با هوش مصنوعی را در گوشی 5G سری 13 Pro با سنسورهای سونی معرفی کرد.

همه مکان‌های کامیون باربری خیابان ششم در Zenless Zone Zero

ریلمی دوربین Ultra Clear با هوش مصنوعی را در گوشی 5G سری 13 Pro با سنسورهای سونی معرفی کرد.

The Boys Season 4 Episode 6: Webweaver کیست و قدرت های او چیست

Threads به 175 میلیون کاربر فعال ماهانه در سراسر جهان می رسد که هندی ها جزو فعال ترین کاربران هستند

15 بهترین بازی دزدان دریایی در ایکس باکس در سال 2024

موتورولا گوشی تاشو Razr 50 Ultra را با پشتیبانی گوگل جمینی در هند عرضه کرد

آیا Zenless Zone Zero Multiplayer است؟

چه مشکلی در برنامه MacOS ChatGPT رخ داد و چرا باید اکنون آن را به روز کنید

1. زمان خشک شدن را پیدا کنید

2. وزن را ارزیابی کنید

3. پازل کلمات

4. موارد را مرتب کنید

5. دستورالعمل های کاربر را دنبال کنید

6. سوزن را پیدا کنید

7. تست بینایی

8. یک بازی بسازید

نتیجه

ریلمی دوربین Ultra Clear با هوش مصنوعی را در گوشی 5G سری 13 Pro با سنسورهای سونی معرفی کرد.

ریلمی دوربین Ultra Clear با هوش مصنوعی را در گوشی 5G سری 13 Pro با سنسورهای سونی معرفی کرد.

همه مکان‌های کامیون باربری خیابان ششم در Zenless Zone Zero

ریلمی دوربین Ultra Clear با هوش مصنوعی را در گوشی 5G سری 13 Pro با سنسورهای سونی معرفی کرد.

خبر فوری

اکنون عضو شوید

ما را در سانه ها دنبال کنید

1. زمان خشک شدن را پیدا کنید

2. وزن را ارزیابی کنید

3. پازل کلمات

4. موارد را مرتب کنید

5. دستورالعمل های کاربر را دنبال کنید

6. سوزن را پیدا کنید

7. تست بینایی

8. یک بازی بسازید

نتیجه

Average Rating

دیدگاهتان را بنویسید لغو پاسخ

شاید برای شما جالب باشد