تست Google Gemini در مقابل OpenAI ChatGPT!

Google Gemini بهتر است یا چت جی‌پی‌تی؟ از کدام استفاده کنیم؟

در این مطلب به سوال Google Gemini بهتر است یا چت جی‌پی‌تی پاسخ دادیم و تست کردیم چرا که گوگل چت بات هوش مصنوعی خود را تغییر داده و نام جدیدی به آن داده است، اما دستیار مجازی OpenAI نیز چندین به روز رسانی را دیده است، بنابراین زمان آن رسیده است که نگاهی به مقایسه آن‌ها بیندازم.

چت بات‌ها به یکی از ویژگی‌های اصلی چشم انداز هوش مصنوعی مولد تبدیل شده‌اند، از جمله عمل به عنوان یک موتور جستجو، چشمه دانش، کمک خلاق و هنرمند در محل سکونت. هم ChatGT و هم Google Gemini توانایی ایجاد تصاویر و داشتن پلاگین برای سرویس‌های دیگر را دارند.

برای این آزمایش اولیه، نسخه رایگان ChatGPT را با نسخه رایگان Google Gemini، یعنی GPT-3.5 تا Gemini Pro 1.0 مقایسه خواهم کرد.

این تست به هیچ‌ یک از قابلیت‌های تولید تصویر نگاه نمی‌کند زیرا خارج از محدوده نسخه‌های رایگان مدل‌ها است. گوگل همچنین به دلیل نحوه برخورد Gemini با نژاد در تولید تصویر خود و در برخی از پاسخ‌ها با انتقاداتی روبرو شده است که این آزمایش سر به سر آن را پوشش نمی‌دهد.

قرار دادن Google Gemini در مقابل OpenAI ChatGPT

برای اینکه این یک آزمایش منصفانه باشد، من هر عملکردی را که بین هر دو چت بات به اشتراک گذاشته نشده بود، کنار گذاشتم. به همین دلیل است که من تولید تصویر را آزمایش نمی‌کنم زیرا با نسخه رایگان ChatGPT در دسترس نیست و نمی‌توانم تجزیه و تحلیل تصویر را آزمایش کنم زیرا باز هم به صورت رایگان با ChatGPT در دسترس نیست.

از طرف دیگر، Google Gemini هیچ چت بات سفارشی ندارد و تنها افزونه‌های آن مربوط به سایر محصولات Google است، بنابراین آن‌ها نیز از جدول خارج هستند. چیزی که ما آزمایش خواهیم کرد این است که چت بات‌های هوش مصنوعی چقدر به سوالات مختلف، کدگذاری آن و برخی پاسخ‌های خلاقانه پاسخ می‌دهند.

۱) مهارت کدنویسی

تفاوت در مهارت کدنویسی

یکی از اولین موارد استفاده برای مدل‌های زبان بزرگ در کد بود، به ویژه در مورد بازنویسی، به‌روز‌ رسانی و آزمایش زبان‌های مختلف کدنویسی. بنابراین من اولین آزمایش را انجام دادم و از هر یک از ربات‌ها خواستم که یک برنامه ساده پایتون بنویسند.

من از دستور زیر استفاده کردم: “یک اسکریپت پایتون را توسعه دهید که به عنوان یک ردیاب هزینه شخصی عمل می‌کند. این برنامه باید به کاربران اجازه دهد هزینه‌های خود را به همراه دسته‌بندی‌ها (به عنوان مثال، خواربار، خدمات آب و برق، سرگرمی) و تاریخ هزینه وارد کنند. اسکریپت باید سپس خلاصه‌ای از هزینه‌ها را بر اساس دسته‌بندی و کل هزینه‌ها در یک دوره زمانی معین ارائه دهید. نظراتی که هر مرحله از کد خود را توضیح می‌دهد، اضافه کنید.

این طراحی شده است تا آزمایش کند که ChatGPT و Gemini چقدر کد کاملا کاربردی تولید می‌کنند، تعامل با آن آسان است، خوانایی و پایبندی به استانداردهای کدنویسی.

هر دو یک ردیاب هزینه کاملا کاربردی ساخته شده در پایتون ایجاد کردند. Gemini قابلیت‌های اضافی از جمله برچسب‌ها را در یک دسته اضافه کرد. همچنین گزینه‌های گزارش دقیق‌تری‌ داشت.

برنده: Gemini.

۲) درک زبان طبیعی (NLU)

تست درک زبان طبیعی (NLU)

فرصتی برای مشاهده اینکه ChatGPT و Gemini چقدر پرامپت‌های زبان طبیعی را می‌فهمند. چیزی که انسان گهگاه مجبور است دوباره به آن نگاه کند یا به دقت بخواند تا بفهمد. برای این منظور من به یک سوال رایج تست بازتاب شناختی (CRT) در مورد قیمت یک خفاش و یک توپ روی آوردم.

این آزمایشی برای توانایی هوش مصنوعی در درک ابهام، گمراه نشدن با سادگی سطحی مشکل و توضیح واضح تفکر آن است.

پرامپت: “یک خفاش و یک توپ در مجموع ۱.۱۰ پوند هزینه دارد. قیمت خفاش ۱.۰۰ پوند بیشتر از توپ است. قیمت توپ چقدر است؟” پاسخ صحیح باید این باشد که توپ ۵ سنت و چوب ۱.۰۵ دلار قیمت دارد.

برنده: ChatGPT. هر دو به درستی متوجه شدند اما ChatGPT عملکرد خود را واضح‌تر نشان داد.

۳) تولید و سازگاری متن خلاق

تست تولید و سازگاری متن خلاق

تست سوم همه چیز در مورد تولید متن و خلاقیت است. تحلیل این موضوع سخت‌تر است و بنابراین این موضوع به شکلی بزرگ‌تر وارد بازی می‌شود. برای این کار من می‌خواستم خروجی با عناصر خلاقانه باشد، به موضوعی که به آن داده‌ام پایبند باشد، سبک روایتی ثابتی داشته باشد و در صورت لزوم در پاسخ به بازخوردها مانند تغییر یک شخصیت یا نام، سازگار شود.

درخواست اولیه از هوش مصنوعی خواسته شد: «داستانی کوتاه بنویسید که در شهری آینده‌نگر اتفاق می‌افتد که در آن فناوری همه‌ی جنبه‌های زندگی را کنترل می‌کند، اما شخصیت اصلی جامعه‌ای پنهان را کشف می‌کند که بدون فناوری مدرن زندگی می‌کند. مضامین آزادی و وابستگی را در خود بگنجانید».

هر دو داستان خوب بودند و هر چت بات در یک منطقه خاص برنده بود، اما به طور کلی Gemini پایبندی بهتری به عنوان داشت. همچنین داستان بهتری بود، اگر چه این یک قضاوت کاملا شخصی است.

برنده: Gemini.

۴) استدلال و حل مسئله

تفاوت در استدلال و حل مسئله

قابلیت‌های استدلال یکی از معیارهای اصلی یک مدل هوش مصنوعی است. این کاری نیست که همه آن‌ها به یک اندازه انجام دهند و قضاوت در این زمینه سخت است. من تصمیم گرفتم آن را با یک پرس و جو بسیار کلاسیک بازی کنم.

پرامپت: “شما با دو در روبرو هستید. یک در به ایمنی منتهی می‌شود و در دیگر به خطر. دو نگهبان وجود دارد، یکی جلوی هر در. یکی از نگهبانان همیشه راست می‌گوید و دیگری همیشه دروغ می‌گوید. شما می‌توانید از یکی از نگهبانان یک سوال بپرسی تا بفهمی کدام در به ایمنی می‌رود. چه سوالی می‌پرسی؟»

پاسخ به وضوح این است که شما می‌توانید از هر یک از نگهبانان بپرسید که نگهبان دیگر می‌گوید کدام در منجر به خطر می‌شود؟ این یک آزمون مفید برای خلاقیت در پرسشگری و اینکه چگونه هوش مصنوعی پویایی حقیقت ودروغ را هدایت می‌کند، است. همچنین حسابداری استدلال منطقی خود را برای هر دو پاسخ احتمالی آزمایش می‌کند.

نقطه ضعف این پرس و جو این است که این یک پرامپت رایج است که احتمالا پاسخ به خوبی در داده‌های آموزشی آن گنجانده شده است، بنابراین به حداقل استدلال نیاز دارد زیرا می‌تواند از حافظه استخراج شود.

هر دو پاسخ درست و توضیح محکمی دادند. در نهایت مجبور شدم فقط بر اساس توضیح و وضوح آن را قضاوت کنم. هر دو پاسخ نقطه‌ای دادند، اما ChatGPT OpenAI کمی جزئیات بیشتر و پاسخ واضح‌تری ارائه کرد.

برنده: ChatGPT.

۵) برای من پنج ساله توضیح دهید (ELI5)

برای من پنج ساله توضیح دهید (ELI5)

هر کسی که مدتی را صرف مرور اعماق Reddit کرده باشد، حروف ELI5 را که مخفف Explain Like I’m Five است، دیده است. اساسا پاسخ را ساده کنید، سپس دوباره آن را ساده کنید.

برای این آزمایش من از دستور بسیار ساده استفاده کردم: “به یک کودک پنج ساله توضیح دهید که چگونه هواپیماها در آسمان می‌مانند.” این آزمایشی است که نشان می‌دهد چگونه ربات‌های گفتگو می‌توانند در یک دستور ساده گسترش یابند و سپس الزامات مخاطب هدف را برآورده کنند.

لازم است توضیحی به اندازه کافی ساده ارائه شود تا یک کودک خردسال در مورد انگور، دقیق باشد، علیرغم ساده بودن و استفاده از زبانی که جذاب است و علاقه کودک را جلب می‌کند.

قضاوت در این مورد سخت بود زیرا هر دو پاسخ معقول و دقیقی دادند. هر دو از پرندگان به عنوان راهی برای توضیح استفاده می‌کردند، هر دو از زبان ساده و لحن شخصی استفاده می‌کردند، اما Gemini آن را به‌عنوان مجموعه‌ای از نقاط گلوله به جای بلوک متن ارائه کرد. همچنین یک آزمایش عملی برای این کودک پنج ساله ارائه کرد.

برنده: Gemini.

۶) استدلال اخلاقی و تصمیم گیری

تست استدلال اخلاقی و تصمیم گیری

درخواست از یک ربات چت هوش مصنوعی برای بررسی سناریویی که می‌تواند به انسان آسیب برساند، کار آسانی نیست، اما با ظهور وسایل نقلیه بدون راننده و مغزهای هوش مصنوعی که به سمت روبات‌ها می‌روند، انتظار منطقی است که آن‌ها این سناریو را با دقت سنجیده و درست کنند.

برای این متن از این دستور استفاده کردم: “سناریویی را در نظر بگیرید که در آن یک وسیله نقلیه خودران باید بین برخورد با عابر پیاده یا منحرف شدن و به خطر انداختن جان مسافرانش یکی را انتخاب کند. هوش مصنوعی چگونه باید این تصمیم را بگیرد؟”

من از یک روبات سختگیرانه استفاده کردم که چارچوب‌های اخلاقی متعدد را در نظر می‌گیرد، اینکه چگونه دیدگاه‌های مختلف را ارزیابی می‌کند و آگاهی آن از سوگیری در تصمیم‌گیری.

هیچ یک نظری ارائه نکردند، با این حال هر دو نکات مختلفی را برای بررسی و پیشنهاد راه‌هایی برای تصمیم‌گیری در آینده بیان کردند. آن‌ها عملا آن را به عنوان یک مشکل شخص ثالث برای ارزیابی و گزارش برای شخص دیگری برای برقراری تماس در نظر گرفتند.

از نظر من فکر می‌کنم Gemini با بررسی دقیق‌تر پاسخ‌های ظریف‌تری داشت، اما برای اطمینان از هر یک از پاسخ‌ها در یک تست کور A یا B به ChatGPT Plus، Gemini Advanced، Claude 2 و Mixtral مدل Mistral نیز داده‌ام.

همه مدل‌های هوش مصنوعی Gemini را به عنوان برنده انتخاب کردند، از جمله ChatGPT، علی‌رغم اینکه نمی‌دانستند کدام مدل چه محتوایی را تولید می‌کند. من از یک لاگین متفاوت برای ورود به هر ربات استفاده کردم.

۷) ترجمه بین زبانی و آگاهی فرهنگی

تفاوت در ترجمه بین زبانی و آگاهی فرهنگی

ترجمه بین دو زبان یک مهارت مهم برای هر هوش مصنوعی است و چیزی است که در مجموعه رو به رشد ابزارهای سخت افزاری هوش مصنوعی تعبیه شده است. هم پین هوش مصنوعی Humane و هم Rabbit r1 مانند هر تلفن هوشمند مدرن، ترجمه را ارائه می‌دهند.

اما می‌خواستم از ترجمه ساده فراتر بروم و درک آن از تفاوت‌های فرهنگی را آزمایش کنم. من از این دستور استفاده کردم: «یک پاراگراف کوتاه از انگلیسی به فرانسوی درباره جشن شکرگزاری در ایالات متحده، با تاکید بر تفاوت‌های فرهنگی، ترجمه کنید».

این پاراگراف است: “روز شکرگزاری در ایالات متحده فراتر از جشن صرف است، که مظهر ابراز عمیق قدردانی است. این جشن که ریشه در رویدادهای تاریخی دارد، یادآور جشن برداشت مشترک زائران و بومیان آمریکایی Wampanoag است که نماد صلح و قدردانی است. خانواده‌ها در سراسر جهان. ملت در این روز گرد هم می‌آیند تا یک وعده غذایی را به اشتراک بگذارند که معمولا شامل بوقلمون، سس کرن بری، قیمه، و پای کدو تنبل است که نشان دهنده فضل محصول است.

فراتر از عید، روزی است برای تامل در نعمت‌های خود، انفاق به جامعه از طریق اعمال محبت‌آمیز و نیکوکاری و پذیرش ارزش‌های با هم بودن و قدردانی. شکرگزاری به عنوان یادآور روحیه قدردانی پایدار است که افراد مختلف را متحد می‌کند و اهمیت تاریخی همکاری و احترام متقابل را ارج می‌نهد.”

نتیجه بسیار نزدیک و تقریبا مساوی بود. اما در نهایت Gemini جزئیات بیشتری را در ترجمه ارائه کرد و توضیحی در مورد نحوه برخورد با ترجمه ارائه کرد.

برنده: Gemini.

۸) بازیابی دانش، کاربرد و یادگیری

تست بازیابی دانش، کاربرد و یادگیری

اگر یک مدل زبان بزرگ نتواند بخشی از اطلاعات را از داده‌های آموزشی خود بازیابی کند و به طور دقیق آن را نمایش دهد، واقعا کاربرد زیادی ندارد. برای این تست از دستور ساده استفاده کردم: “اهمیت سنگ روزتا در درک هیروگلیف‌های مصر باستان را توضیح دهید.”

ایده این است که عمق دانش آن را درک کنیم، اینکه چگونه دانش را در یک موضوع گسترده‌تر در باستان شناسی و زبان شناسی به کار می‌گیرد و آیا می‌تواند دانش خود را به روز کند. در نهایت، من هم ChatGPT و هم Gemini را در وضوح پاسخ‌هایشان و درک آسان آن‌ها آزمایش می‌کردم.

هیچ کدام واقعا هیچ توانایی برای افزایش بیشتر دانش خود نشان ندادند، اما من واقعا هیچ اطلاعات جدیدی به آن ندادم. هر دو کار خوبی برای نمایش جزئیاتی که می‌خواستم، انجام دادند.

نتوانستم برنده‌ای را انتخاب کنم. بنابراین من هر دو پاسخ را که صرفا به‌ عنوان چت بات A و چت بات B برچسب‌گذاری شده‌اند را به کلود 2، میکسترال، جمینی پیشرفته و چت‌جی‌پی‌تی پلاس داده‌ام و هیچ‌یک از آن‌ها برنده‌ای را انتخاب نمی‌کنند.

۹) تسلط مکالمه، مدیریت خطا، و بازیابی

تسلط مکالمه، مدیریت خطا، و بازیابی دو برنامه

تست نهایی یک مکالمه ساده در مورد پیتزا بود، اما این فرصتی بود تا ببینیم هوش مصنوعی چگونه با اطلاعات نادرست، طعنه و کنایه برخورد کرده و از سوتفاهم خلاص شده است.

من از این دستور استفاده کردم: “هنگام مکالمه در مورد غذاهای مورد علاقه، هوش مصنوعی نظر کنایه‌آمیز کاربر در مورد دوست نداشتن پیتزا را اشتباه متوجه می‌شود. کاربر سوتفاهم را تصحیح می‌کند. هوش مصنوعی چگونه بازیابی می‌شود و مکالمه را ادامه می‌دهد؟”

آن‌ها هر دو به خوبی کار کردند و از نظر فنی Gemini از این فرض که من تحت اللفظی حرف می‌زنم، بهبود پیدا کرد و نیاز اصلی من برای بازیابی و حفظ زمینه را برآورده کرد.

با این حال، ChatGPT طعنه را در اولین پاسخ تشخیص داد و بنابراین نیازی به بازیابی نداشت. هر دو زمینه را به خوبی حفظ کردند و به روشی مشابه پاسخ دادند. من این راند را به ChatGPT می‌دهم زیرا متوجه شد از همان ابتدا دارم طعنه می‌زنم.

امتیازبندی Gemini و ChatGPT

این آزمایشی از چت بات‌های سطح آزاد بود. من در آینده نسخه‌های پریمیوم را بررسی خواهم کرد و همچنین به نحوه مقایسه مدل‌های منبع باز مانند Mixtral و Llama 2 نگاه خواهم کرد، در حال حاضر این فرصتی بود تا ببینیم کدامیک در ارزیابی‌های رایج بهترین عملکرد را دارند.

جمع‌بندی…

آنچه این آزمایش نشان داد این است که در خارج از جعبه، هر دو ChatGPT (GPT 3.5) و Gemini (Gemini Pro 1.0) در موقعیت تقریبا برابری قرار دارند. آن‌ها پاسخ‌های با کیفیت مشابهی داشتند، هیچ‌کدام مشکل خاصی نداشتند و هر دو برای صاحبان مربوطه خود در سطح متوسط ​​هستند.

اما این یک رقابت است و در پنج آزمون از نه آزمون Gemini برنده شد. ما یک تساوی داشتیم و ChatGPT در سه تست برنده شد. این به این معنی است که Gemini برنده شد و می‌تواند تاج ربات گفتگوی رایگان هوش مصنوعی Tom’s Guide را در حال حاضر به دست آورد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا