ادعاهای ایلان ماسک درباره‌ی Grok 3: حقیقت یا تبلیغات؟

آیا ایلان ماسک در مورد توانایی‌های هوش مصنوعی Grok 3 دروغ گفته است؟

یکی از کارکنان OpenAI، شرکت xAI متعلق به ایلان ماسک را به انتشار نتایج گمراه‌کننده درباره‌ی عملکرد مدل Grok 3 متهم کرده است. این اتهام، بحثی جدی را در میان کارشناسان هوش مصنوعی برانگیخته که به سؤالاتی درباره‌ی اعتبار ادعاهای ایلان ماسک منجر شده است.

نمودار xAI و انتخاب معیارهای آزمون AIME

xAI در وبلاگ خود نموداری منتشر کرد که عملکرد مدل‌های Grok 3 Reasoning Beta و Grok 3 mini Reasoning را در آزمون AIME 2025 نشان می‌دهد. AIME یک مجموعه پرسش‌های ریاضی دشوار است که از یک مسابقه‌ی ریاضی گردآوری شده و به‌عنوان معیاری برای سنجش توانایی مدل‌های هوش مصنوعی در حل مسائل پیچیده استفاده می‌شود.

با این حال، برخی کارشناسان اعتراض کردند که xAI امتیاز مدل o3-mini-high از شرکت OpenAI را در حالت cons@64 در نظر نگرفته است. cons@64 یک روش است که به مدل اجازه می‌دهد هر مسئله را ۶۴ بار حل کند و پاسخی را که بیشترین تکرار را داشته باشد، به‌عنوان پاسخ نهایی انتخاب کند. این روش معمولاً عملکرد مدل‌ها را به طور قابل‌توجهی بهبود می‌بخشد.

مشکلات در مقایسه مدل‌ها

مقایسه‌ی xAI تنها از معیار 1@ (اولین پاسخی که مدل ارائه می‌دهد) استفاده کرده است. این رویکرد به این معناست که امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در آزمون AIME 2025 پایین‌تر از امتیاز مدل o3-mini-high است. همچنین، Grok 3 Reasoning Beta فقط با اختلاف جزئی پشت سر مدل o1 از OpenAI قرار دارد که در حالت پردازشی medium تنظیم شده است.

دفاع ایلان ماسک و xAI

ایگور بابوشکین، یکی از بنیان‌گذاران xAI، دفاع کرد و اظهار داشت که OpenAI نیز در گذشته نمودارهایی با نتایج گمراه‌کننده منتشر کرده است. او تأکید کرد که این نمودارها صرفاً عملکرد مدل‌های خود OpenAI را مقایسه می‌کردند و به دیگر مدل‌ها اشاره نمی‌کردند.

ادعای “باهوش‌ترین هوش مصنوعی جهان”

غم‌وسرگرم‌کننده‌ترین بخش این بحث، ادعای xAI است که Grok 3 را به‌عنوان “باهوش‌ترین هوش مصنوعی جهان” معرفی می‌کند. این ادعای جسورانه، در حالی که تحلیل‌های دقیق‌تر نشان می‌دهد که مدل‌های رقیب مثل o1 از OpenAI همچنان عملکرد قوی‌تری در برخی معیارها دارند، موضوع بحث و جدل را بیشتر کرده است.

نتیجه‌گیری

این بحث نشان می‌دهد که انتشار نتایج هوش مصنوعی باید با دقت و شفافیت صورت گیرد. انتخاب معیارهای مناسب برای مقایسه مدل‌ها و اطلاع‌رسانی صحیح به عموم، اهمیت زیادی دارد. اگر xAI واقعاً می‌خواهد ادعای خود را درباره‌ی Grok 3 توجیه کند، باید از روش‌های مقایسه‌ی منصفانه و شفاف استفاده کند تا اعتبار ادعاهایش را افزایش دهد.

در حال حاضر، بحث درباره‌ی اعتبار ادعاهای ایلان ماسک و عملکرد واقعی مدل‌های xAI هنوز به پایان نرسیده است.