چالشهای ادعای توانایی هوش مصنوعی Grok 3 توسط ایلان ماسک

آیا ایلان ماسک در مورد تواناییهای هوش مصنوعی Grok 3 دروغ گفته است؟
یکی از کارکنان OpenAI، شرکت xAI متعلق به ایلان ماسک را به انتشار نتایج گمراهکننده دربارهی عملکرد مدل Grok 3 متهم کرده است. این اتهام، بحثی جدی را در میان کارشناسان هوش مصنوعی برانگیخته که به سؤالاتی دربارهی اعتبار ادعاهای ایلان ماسک منجر شده است.
نمودار xAI و انتخاب معیارهای آزمون AIME
xAI در وبلاگ خود نموداری منتشر کرد که عملکرد مدلهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning را در آزمون AIME 2025 نشان میدهد. AIME یک مجموعه پرسشهای ریاضی دشوار است که از یک مسابقهی ریاضی گردآوری شده و بهعنوان معیاری برای سنجش توانایی مدلهای هوش مصنوعی در حل مسائل پیچیده استفاده میشود.
با این حال، برخی کارشناسان اعتراض کردند که xAI امتیاز مدل o3-mini-high از شرکت OpenAI را در حالت cons@64 در نظر نگرفته است. cons@64 یک روش است که به مدل اجازه میدهد هر مسئله را ۶۴ بار حل کند و پاسخی را که بیشترین تکرار را داشته باشد، بهعنوان پاسخ نهایی انتخاب کند. این روش معمولاً عملکرد مدلها را به طور قابلتوجهی بهبود میبخشد.
مشکلات در مقایسه مدلها
مقایسهی xAI تنها از معیار 1@ (اولین پاسخی که مدل ارائه میدهد) استفاده کرده است. این رویکرد به این معناست که امتیازهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در آزمون AIME 2025 پایینتر از امتیاز مدل o3-mini-high است. همچنین، Grok 3 Reasoning Beta فقط با اختلاف جزئی پشت سر مدل o1 از OpenAI قرار دارد که در حالت پردازشی medium تنظیم شده است.
دفاع ایلان ماسک و xAI
ایگور بابوشکین، یکی از بنیانگذاران xAI، دفاع کرد و اظهار داشت که OpenAI نیز در گذشته نمودارهایی با نتایج گمراهکننده منتشر کرده است. او تأکید کرد که این نمودارها صرفاً عملکرد مدلهای خود OpenAI را مقایسه میکردند و به دیگر مدلها اشاره نمیکردند.
ادعای “باهوشترین هوش مصنوعی جهان”
غموسرگرمکنندهترین بخش این بحث، ادعای xAI است که Grok 3 را بهعنوان “باهوشترین هوش مصنوعی جهان” معرفی میکند. این ادعای جسورانه، در حالی که تحلیلهای دقیقتر نشان میدهد که مدلهای رقیب مثل o1 از OpenAI همچنان عملکرد قویتری در برخی معیارها دارند، موضوع بحث و جدل را بیشتر کرده است.
نتیجهگیری
این بحث نشان میدهد که انتشار نتایج هوش مصنوعی باید با دقت و شفافیت صورت گیرد. انتخاب معیارهای مناسب برای مقایسه مدلها و اطلاعرسانی صحیح به عموم، اهمیت زیادی دارد. اگر xAI واقعاً میخواهد ادعای خود را دربارهی Grok 3 توجیه کند، باید از روشهای مقایسهی منصفانه و شفاف استفاده کند تا اعتبار ادعاهایش را افزایش دهد.
در حال حاضر، بحث دربارهی اعتبار ادعاهای ایلان ماسک و عملکرد واقعی مدلهای xAI هنوز به پایان نرسیده است.