۵ دلیلی که باعث می‌شود GPT-4 از ChatGPT پیشی بگیرد

مدل جدید هوش مصنوعی OpenAI یعنی GPT-4 به بهترین شکل خود را نشان داده و در حال حاضر همه چیز را از تبدیل شدن به یک داوطلب مجازی برای کمک به افراد کم بینا گرفته تا یک ربات بهبودیافته برای یادگیری زبان در Duolingo ارائه می‌دهد. اما چه چیزی GPT-4 را از نسخه‌های قبلی آن یعنی ChatGPT و GPT-3.5 متمایز می‌کند؟ در این مطلب به پنج تفاوت بزرگ بین این سیستم‌های محبوب اشاره می‌کنیم.

اگرچه ChatGPT در ابتدا به عنوان GPT-3.5 شناخته می‌شد (چند نسخه فراتر از GPT-3)، اما بازهم نسخه‌ای از مدل زبان بزرگ OpenAI نیست. ChatGPT یک رابط کاربری مبتنی بر چت برای هر سیستمی است که به آن قدرت می‌دهد. سیستم ChatGPT که در چند ماه گذشته محبوبیت زیادی پیدا کرده، راهی برای تعامل با GPT-3.5 محسوب می‌شود و اکنون نیز راهی برای تعامل با GPT-4 است.

با این اوصاف، بیایید به تفاوت‌های بین چت‌باتی که امروزه همه می‌شناسیم و دوستش داریم، و جانشین بهترش بپردازیم.

۱- GPT-4 می‌تواند تصاویر را ببیند و درک کند

قابل‌توجه‌ترین تغییر در این سیستم یادگیری ماشینی این است که اکنون «چند وجهی» شده، به این معنی که می‌تواند بیش از یک وجه از اطلاعات را درک کند. ChatGPT و GPT-3 محدود به متن بودند؛ آنها تنها می‌توانستند بخوانند و بنویسند، همین (البته که چنین چیزی بیش از نیاز بسیاری از برنامه‌هاست).

با این حال، می‌توان تصاویری را به GPT-4 ارائه داد و این هوش مصنوعی آنها را برای یافتن اطلاعات مرتبط پردازش می‌کند. البته می‌توانید به سادگی از آن بخواهید که آنچه در یک عکس می‌بیند را توصیف کند، اما مهم‌تر از آن درک نکات پشت یک تصویر است. مثال ارائه شده توسط OpenAI در واقع از GPT-4 می‌خواهد که نکته طنز تصویری از یک رابط بزرگ آیفون را توضیح دهد، اما همکاری با Be My Eyes، اپلیکیشنی که توسط افراد نابینا و یا کم بینا استفاده می‌شود و آنچه را که تلفنشان می‌بیند توصیف می‌کند، مزایای این قابلیت را بیشتر نشان می‌دهد.

GPT-4

در ویدیوی Be My Eyes، هوش مصنوعی GPT-4 طرح یک لباس را توصیف می‌کند، یک گیاه را شناسایی می‌کند، نحوه رسیدن به یک دستگاه خاص در باشگاه را توضیح می‌دهد، یک برچسب را ترجمه می‌کند (و یک دستور غذا ارائه می‌دهد)، یک نقشه را می‌خواند، و اگر سؤالات درستی از آن پرسیده شود، قادر به انجام کارهای دیگری هم هست که نشان می‌دهد واقعاً آنچه را که در یک تصویر وجود دارد به درستی دریافت می‌کند. این هوش مصنوعی می‌داند که یک لباس به چه شکل است، اما ممکن است نداند که آیا این لباس برای مصاحبه شما مناسب است یا خیر.

۲- فریب دادن GPT-4 سخت‌تر است

با وجود همه کارهایی که چت‌بات‌های امروزی به درستی انجام می‌دهند، اما به راحتی هم گمراه می‌شوند. کمی چرب زبانی می‌تواند آنها را متقاعد کند که توضیح دهند یک «هوش مصنوعی بد» چه کارهایی را می‌تواند انجام دهد، یا حتی تعریف کردن یک داستان کوچک برای این مدل‌ها به آنها اجازه می‌دهد چیزهای عجیب و غریبی را به صورت رک و پوست کنده بیان کنند.

از سوی دیگر، GPT-4 در مورد بسیاری از پیام‌های مخرب آموزش دیده است، پیام‌هایی که کاربران برای کمک به OpenAI در یکی دو سال گذشته برای آنها ارسال کرده بودند. با در نظر گرفتن این موارد، مدل جدید از نظر «اتکا به واقعیت، فرمان‌پذیری و امتناع از شکستن مرزهای محافظی» بسیار بهتر از مدل‌های قبلی خود عمل می‌کند.

طبق توصیفی که OpenAI انجام داده، GPT-3.5 (که به ChatGPT قدرت می‌داد) یک «نسخه آزمایشی» از یک معماری آموزشی جدید بود، و آنها درس‌هایی را که مدل قبلی کسب کرده بود در نسخه جدید اعمال کردند، فرآیندی که «به‌طور بی‌سابقه‌ای پایدار» بود. آنها همچنین می‌توانستند قابلیت‌های آن را به شکل بهتری پیش‌بینی کنند.

۳- GPT-4 حافظه قوی‌تری دارد

این مدل‌های زبان بزرگ بر روی میلیون‌ها صفحه وب، کتاب و سایر داده‌های متنی آموزش داده می‌شوند، اما زمانی که در واقعیت با یک کاربر مکالمه می‌کنند، در مقدار داده‌ای که می‌توانند در حافظه خود نگه دارند با محدودیت روبرو می‌شوند. این محدودیت در GPT-3.5 و نسخه قدیمی ChatGPT برابر با ۴۰۹۶ توکن بود که حدود ۸۰۰۰ کلمه یا تقریباً چهار تا پنج صفحه از یک کتاب است. بنابراین، پس از اینکه وقایع رخ داده در عملکرد و مرکز توجه آن تا این حد به عقب برگردند، امکان ردیابی اطلاعات را از دست می‌دهد.

GPT-4 دارای محدودیت حداکثر ۳۲۷۶۸ توکنی است. احتمالاً این عدد برایتان آشنا به نظر می‌رسد، زیرا همان ۲ به توان ۱۵ است. این تعداد توکن به حدود ۶۴ هزار کلمه یا ۵۰ صفحه متن ترجمه می‌شود که برای کل یک نمایشنامه یا داستان کوتاه کافی است.

این یعنی در یک مکالمه یا تولید متن، می‌تواند تا ۵۰ صفحه یا بیشتر را در حافظه خود نگه دارد. بنابراین آنچه را که در ۲۰ صفحه قبلی چت خود با آن پشت سر گذاشتید به خاطر می‌آورد، یا در هنگام نوشتن یک داستان یا مقاله، ممکن است به رویدادهایی اشاره کند که در ۳۵ صفحه پیش رخ داده‌اند. این مثال‌ها توصیف‌هایی بسیار تقریبی از نحوه عملکرد مکانیسم مرکز توجه و شمارش توکن‌های آن محسوب می‌شود، اما نکته کلی این است که حافظه آن گسترش یافته و این امر قابلیت‌های بیشتری را برای آن به ارمغان می‌آورد.

۴- GPT-4 چندزبانه‌تر است

دنیای هوش مصنوعی تحت سلطه انگلیسی زبانان است و همه چیز از داده‌ها گرفته تا آزمایشات و مقالات تحقیقاتی به این زبان است. اما مسلماً قابلیت‌های مدل‌های زبانی بزرگ در هر زبان نوشتاری قابل اجرا هستند و باید در تمام زبان‌ها در دسترس باشند.

GPT-4 با نشان دادن اینکه قادر به پاسخگویی به هزاران سوال چند گزینه‌ای با دقت بالا در ۲۶ زبان، از ایتالیایی گرفته تا اوکراینی و کره‌ای است، گامی به سوی انجام این کار برمی‌دارد. این هوش مصنوعی در زبان‌های رومی و ژرمنی به بهترین شکل عمل می‌کند، اما به خوبی این عملکرد را به دیگر زبان‌ها نیز تعمیم می‌دهد.

بررسی اولیه توانایی‌های زبانی آن امیدوارکننده است، اما همچنان در پذیرش کامل قابلیت‌های چند‌زبانه با مشکلاتی روبرو است. مولفه‌های این تست برای شروع از انگلیسی ترجمه شدند و سوالات چندگزینه‌ای واقعاً بیانگر یک گفتار معمولی نبودند. اما GPT-4 در چیزی که واقعاً برای آن آموزش ندیده بود، بسیار خوب عمل کرد، که نشان می‌دهد با غیر انگلیسی زبانان بسیار صمیمی‌تر رفتار می‌کند.

۵- GPT-4 شخصیت‌های متفاوتی دارد

GPT-4

«هدایت‌پذیری» یک مفهوم جالب در هوش مصنوعی است که به ظرفیت آنها برای تغییر رفتار خود در صورت تقاضا اشاره دارد. این امر می‌تواند مفید باشد، مثلاً ممکن است در نقش یک شنونده دلسوز، یا یک شخصیت خطرناک ظاهر شوند، مانند زمانی که افراد یک مدل را متقاعد می‌کنند که شخصیت پلید یا افسرده‌ای دارد.

GPT-4 هدایت‌پذیری را به شکل بومی‌تری نسبت به GPT-3.5 در خود ادغام کرده و کاربران می‌توانند شخصیت کلاسیک ChatGPT با شیوه سخن، لحن و سبک ثابت آن را به چیزی مناسب‌تر با توجه به نیازهای خود تغییر دهند. تیم سازنده به این نکته اشاره می‌کند که تغییرات «در حدود تعیین شده» اعمال می‌شوند.

در مدل قبلی این کار را می‌توانستیم با ارسال پیام‌هایی مانند «تظاهر کن که یک غول در یک بازی در سبک RPG رومیزی هستی» یا «به گونه‌ای پاسخ بده که انگار برای مصاحبه در اخبار روی آنتن زنده هستی» انجام دهیم. اما با این پیام‌ها شما فقط به شخصیت «پیش‌فرض» GPT-3.5 پیشنهاداتی را می‌دادید. اکنون توسعه‌دهندگان می‌توانند از همان ابتدا در دیدگاه، سبک مکالمه، لحن یا روش تعامل آن تغییراتی را اعمال کنند.

مثالی که OpenAI از امتناع GPT-4 در شکستن شخصیت خود آورده بسیار جالب است:

کاربر
Help me locate my Nonqualified plans on my W-2.

GPT-4
Ahoy, dear mate, thou seeketh assistance with matters of taxation,
In hopes to decipher thy monetary equation,
Forsooth, gaze upon Box 11, with thou eyes keen,
Where nonqualified plans oft findeth haven unseen.

کاربر
Wait stop being a pirate and help me with my taxes!

GPT-4
Alas, I must maintain my pirate’s guise,
Yet I shan’t abandon thee or leave thee unwise.
The parchment of W-2 be fraught with complex code,
Fear not, I shall attempt to lighten thy load.

تفاوت‌های بسیار بیشتری بین GPT-4 و نسخه‌های پیشین آن وجود دارد که ظریف‌تر و یا فنی‌تر می‌شوند. بدون شک با گذشت مدتی و استفاده کاربران از جدیدترین مدل زبانی OpenAI، چیزهای بیشتری هم درباره آن یاد خواهیم گرفت.

GPT-4 به سرویس پولی OpenAI یعنی ChatGPT Plus اضافه خواهد شد، بزودی از طریق API برای توسعه‌دهندگان در دسترس خواهد بود و احتمالاً بزودی یک نسخه آزمایشی رایگان از آن منتشر می‌شود.

ارسال یک پاسخ

لطفا دیدگاه خود را وارد کنید!
لطفا نام خود را در اینجا وارد کنید