مدل جدید هوش مصنوعی OpenAI یعنی GPT-4 به بهترین شکل خود را نشان داده و در حال حاضر همه چیز را از تبدیل شدن به یک داوطلب مجازی برای کمک به افراد کم بینا گرفته تا یک ربات بهبودیافته برای یادگیری زبان در Duolingo ارائه میدهد. اما چه چیزی GPT-4 را از نسخههای قبلی آن یعنی ChatGPT و GPT-3.5 متمایز میکند؟ در این مطلب به پنج تفاوت بزرگ بین این سیستمهای محبوب اشاره میکنیم.
اگرچه ChatGPT در ابتدا به عنوان GPT-3.5 شناخته میشد (چند نسخه فراتر از GPT-3)، اما بازهم نسخهای از مدل زبان بزرگ OpenAI نیست. ChatGPT یک رابط کاربری مبتنی بر چت برای هر سیستمی است که به آن قدرت میدهد. سیستم ChatGPT که در چند ماه گذشته محبوبیت زیادی پیدا کرده، راهی برای تعامل با GPT-3.5 محسوب میشود و اکنون نیز راهی برای تعامل با GPT-4 است.
با این اوصاف، بیایید به تفاوتهای بین چتباتی که امروزه همه میشناسیم و دوستش داریم، و جانشین بهترش بپردازیم.
۱- GPT-4 میتواند تصاویر را ببیند و درک کند
قابلتوجهترین تغییر در این سیستم یادگیری ماشینی این است که اکنون «چند وجهی» شده، به این معنی که میتواند بیش از یک وجه از اطلاعات را درک کند. ChatGPT و GPT-3 محدود به متن بودند؛ آنها تنها میتوانستند بخوانند و بنویسند، همین (البته که چنین چیزی بیش از نیاز بسیاری از برنامههاست).
با این حال، میتوان تصاویری را به GPT-4 ارائه داد و این هوش مصنوعی آنها را برای یافتن اطلاعات مرتبط پردازش میکند. البته میتوانید به سادگی از آن بخواهید که آنچه در یک عکس میبیند را توصیف کند، اما مهمتر از آن درک نکات پشت یک تصویر است. مثال ارائه شده توسط OpenAI در واقع از GPT-4 میخواهد که نکته طنز تصویری از یک رابط بزرگ آیفون را توضیح دهد، اما همکاری با Be My Eyes، اپلیکیشنی که توسط افراد نابینا و یا کم بینا استفاده میشود و آنچه را که تلفنشان میبیند توصیف میکند، مزایای این قابلیت را بیشتر نشان میدهد.
در ویدیوی Be My Eyes، هوش مصنوعی GPT-4 طرح یک لباس را توصیف میکند، یک گیاه را شناسایی میکند، نحوه رسیدن به یک دستگاه خاص در باشگاه را توضیح میدهد، یک برچسب را ترجمه میکند (و یک دستور غذا ارائه میدهد)، یک نقشه را میخواند، و اگر سؤالات درستی از آن پرسیده شود، قادر به انجام کارهای دیگری هم هست که نشان میدهد واقعاً آنچه را که در یک تصویر وجود دارد به درستی دریافت میکند. این هوش مصنوعی میداند که یک لباس به چه شکل است، اما ممکن است نداند که آیا این لباس برای مصاحبه شما مناسب است یا خیر.
۲- فریب دادن GPT-4 سختتر است
با وجود همه کارهایی که چتباتهای امروزی به درستی انجام میدهند، اما به راحتی هم گمراه میشوند. کمی چرب زبانی میتواند آنها را متقاعد کند که توضیح دهند یک «هوش مصنوعی بد» چه کارهایی را میتواند انجام دهد، یا حتی تعریف کردن یک داستان کوچک برای این مدلها به آنها اجازه میدهد چیزهای عجیب و غریبی را به صورت رک و پوست کنده بیان کنند.
از سوی دیگر، GPT-4 در مورد بسیاری از پیامهای مخرب آموزش دیده است، پیامهایی که کاربران برای کمک به OpenAI در یکی دو سال گذشته برای آنها ارسال کرده بودند. با در نظر گرفتن این موارد، مدل جدید از نظر «اتکا به واقعیت، فرمانپذیری و امتناع از شکستن مرزهای محافظی» بسیار بهتر از مدلهای قبلی خود عمل میکند.
طبق توصیفی که OpenAI انجام داده، GPT-3.5 (که به ChatGPT قدرت میداد) یک «نسخه آزمایشی» از یک معماری آموزشی جدید بود، و آنها درسهایی را که مدل قبلی کسب کرده بود در نسخه جدید اعمال کردند، فرآیندی که «بهطور بیسابقهای پایدار» بود. آنها همچنین میتوانستند قابلیتهای آن را به شکل بهتری پیشبینی کنند.
۳- GPT-4 حافظه قویتری دارد
این مدلهای زبان بزرگ بر روی میلیونها صفحه وب، کتاب و سایر دادههای متنی آموزش داده میشوند، اما زمانی که در واقعیت با یک کاربر مکالمه میکنند، در مقدار دادهای که میتوانند در حافظه خود نگه دارند با محدودیت روبرو میشوند. این محدودیت در GPT-3.5 و نسخه قدیمی ChatGPT برابر با ۴۰۹۶ توکن بود که حدود ۸۰۰۰ کلمه یا تقریباً چهار تا پنج صفحه از یک کتاب است. بنابراین، پس از اینکه وقایع رخ داده در عملکرد و مرکز توجه آن تا این حد به عقب برگردند، امکان ردیابی اطلاعات را از دست میدهد.
GPT-4 دارای محدودیت حداکثر ۳۲۷۶۸ توکنی است. احتمالاً این عدد برایتان آشنا به نظر میرسد، زیرا همان ۲ به توان ۱۵ است. این تعداد توکن به حدود ۶۴ هزار کلمه یا ۵۰ صفحه متن ترجمه میشود که برای کل یک نمایشنامه یا داستان کوتاه کافی است.
این یعنی در یک مکالمه یا تولید متن، میتواند تا ۵۰ صفحه یا بیشتر را در حافظه خود نگه دارد. بنابراین آنچه را که در ۲۰ صفحه قبلی چت خود با آن پشت سر گذاشتید به خاطر میآورد، یا در هنگام نوشتن یک داستان یا مقاله، ممکن است به رویدادهایی اشاره کند که در ۳۵ صفحه پیش رخ دادهاند. این مثالها توصیفهایی بسیار تقریبی از نحوه عملکرد مکانیسم مرکز توجه و شمارش توکنهای آن محسوب میشود، اما نکته کلی این است که حافظه آن گسترش یافته و این امر قابلیتهای بیشتری را برای آن به ارمغان میآورد.
۴- GPT-4 چندزبانهتر است
دنیای هوش مصنوعی تحت سلطه انگلیسی زبانان است و همه چیز از دادهها گرفته تا آزمایشات و مقالات تحقیقاتی به این زبان است. اما مسلماً قابلیتهای مدلهای زبانی بزرگ در هر زبان نوشتاری قابل اجرا هستند و باید در تمام زبانها در دسترس باشند.
GPT-4 با نشان دادن اینکه قادر به پاسخگویی به هزاران سوال چند گزینهای با دقت بالا در ۲۶ زبان، از ایتالیایی گرفته تا اوکراینی و کرهای است، گامی به سوی انجام این کار برمیدارد. این هوش مصنوعی در زبانهای رومی و ژرمنی به بهترین شکل عمل میکند، اما به خوبی این عملکرد را به دیگر زبانها نیز تعمیم میدهد.
بررسی اولیه تواناییهای زبانی آن امیدوارکننده است، اما همچنان در پذیرش کامل قابلیتهای چندزبانه با مشکلاتی روبرو است. مولفههای این تست برای شروع از انگلیسی ترجمه شدند و سوالات چندگزینهای واقعاً بیانگر یک گفتار معمولی نبودند. اما GPT-4 در چیزی که واقعاً برای آن آموزش ندیده بود، بسیار خوب عمل کرد، که نشان میدهد با غیر انگلیسی زبانان بسیار صمیمیتر رفتار میکند.
۵- GPT-4 شخصیتهای متفاوتی دارد
«هدایتپذیری» یک مفهوم جالب در هوش مصنوعی است که به ظرفیت آنها برای تغییر رفتار خود در صورت تقاضا اشاره دارد. این امر میتواند مفید باشد، مثلاً ممکن است در نقش یک شنونده دلسوز، یا یک شخصیت خطرناک ظاهر شوند، مانند زمانی که افراد یک مدل را متقاعد میکنند که شخصیت پلید یا افسردهای دارد.
GPT-4 هدایتپذیری را به شکل بومیتری نسبت به GPT-3.5 در خود ادغام کرده و کاربران میتوانند شخصیت کلاسیک ChatGPT با شیوه سخن، لحن و سبک ثابت آن را به چیزی مناسبتر با توجه به نیازهای خود تغییر دهند. تیم سازنده به این نکته اشاره میکند که تغییرات «در حدود تعیین شده» اعمال میشوند.
در مدل قبلی این کار را میتوانستیم با ارسال پیامهایی مانند «تظاهر کن که یک غول در یک بازی در سبک RPG رومیزی هستی» یا «به گونهای پاسخ بده که انگار برای مصاحبه در اخبار روی آنتن زنده هستی» انجام دهیم. اما با این پیامها شما فقط به شخصیت «پیشفرض» GPT-3.5 پیشنهاداتی را میدادید. اکنون توسعهدهندگان میتوانند از همان ابتدا در دیدگاه، سبک مکالمه، لحن یا روش تعامل آن تغییراتی را اعمال کنند.
مثالی که OpenAI از امتناع GPT-4 در شکستن شخصیت خود آورده بسیار جالب است:
کاربر
Help me locate my Nonqualified plans on my W-2.
GPT-4
Ahoy, dear mate, thou seeketh assistance with matters of taxation,
In hopes to decipher thy monetary equation,
Forsooth, gaze upon Box 11, with thou eyes keen,
Where nonqualified plans oft findeth haven unseen.
کاربر
Wait stop being a pirate and help me with my taxes!
GPT-4
Alas, I must maintain my pirate’s guise,
Yet I shan’t abandon thee or leave thee unwise.
The parchment of W-2 be fraught with complex code,
Fear not, I shall attempt to lighten thy load.
تفاوتهای بسیار بیشتری بین GPT-4 و نسخههای پیشین آن وجود دارد که ظریفتر و یا فنیتر میشوند. بدون شک با گذشت مدتی و استفاده کاربران از جدیدترین مدل زبانی OpenAI، چیزهای بیشتری هم درباره آن یاد خواهیم گرفت.
GPT-4 به سرویس پولی OpenAI یعنی ChatGPT Plus اضافه خواهد شد، بزودی از طریق API برای توسعهدهندگان در دسترس خواهد بود و احتمالاً بزودی یک نسخه آزمایشی رایگان از آن منتشر میشود.