Gemini: نموذج الذكاء الاصطناعي الأكبر والأكثر تطورًا لدينا
إطلاق Gemini
لطالما شكّل الذكاء الاصطناعي محور اهتمامي واهتمام العديد من زملائي في مجال الأبحاث. فقد بدأت كمبرمج ذكاء اصطناعي لألعاب الكمبيوتر في عمر المراهقة، ثمّ عملت لسنوات عدّة كباحث في علم الأعصاب لدراسة طريقة عمل الدماغ. وهذا ما يدفعني اليوم إلى الإيمان بأهمية الآلات الذكية وقدرتها على مساعدة البشرية بطرق مذهلة.
نواصل في Google DeepMind التزامنا بدعم العالم عبر الذكاء الاصطناعي المسؤول، فنحن نسعى منذ فترة طويلة إلى تطوير جيل جديد من نماذج الذكاء الاصطناعي يحاكي طريقة استيعاب الأفراد وتفاعلهم مع العالم. بهذه الطريقة لن ينظر المستخدمون إلى الذكاء الاصطناعي على أنّه مجرد برنامج ذكي، بل سيكون بمثابة أداة تعاونية أكثر صلة وفائدة لهم.
وها نحن اليوم نقترب خطوة أخرى نحو تحقيق هذه الرؤية مع إطلاق Gemini، النموذج العام الأكثر تطورًا لدينا حتى الآن. إنّ Gemini هو ثمرة الجهود التعاونية الواسعة النطاق التي بذلتها فرق العمل في Google، بما في ذلك فريق أبحاث Google، من أجل تصميم نموذج متعدد الوسائط من الألف إلى الياء، ما يعني أنّ بإمكانه فهم أنواع مختلفة من المعلومات وإدارتها وجمعها وتعميمها بسهولة، مثل النصوص والصور والمحتوى الصوتي والفيديوهات والرموز البرمجية.
إن Gemini هو ثمرة الجهود التعاونية الواسعة النطاق التي بذلتها فرق العمل في Google، بما في ذلك فريق أبحاث Google، من أجل تصميم نموذج متعدد الوسائط من الألف إلى الياء، ما يعني أنّ بإمكانه فهم أنواع مختلفة من المعلومات وإدارتها وجمعها وتعميمها بسهولة، مثل النصوص والصور والمحتوى الصوتي والفيديوهات والرموز البرمجية. إن Gemini هو نموذجنا الأكثر مرونةً على الإطلاق أيضًا، حيث يعمل بكفاءة على مختلف المنصات والأجهزة، من مراكز البيانات إلى الأجهزة الجوّالة. وبفضل قدراته المتطوّرة، يمكنه مساعدة المطوّرين والمؤسسات على البناء والتوسّع باستخدام الذكاء الاصطناعي.
لقد طوّرنا الإصدار الأوّل Gemini 1.0 في ثلاثة أحجام مختلفة:
نموذج Gemini Ultra: النموذج الأكبر والأكثر تطورًا للمهام المعقدة جدًا
نموذج Gemini Pro: النموذج الأنسب لدينا لمجموعة واسعة من المهام
نموذج Gemini Nano: النموذج الأكثر كفاءة لدينا للمهام على الأجهزة
أداء عالي المستوى
لقد أجرينا اختبارات صارمة ودقيقة على نماذج Gemini لتقييم أدائها على مجموعة واسعة من المهام، بما في ذلك النصوص والفيديو والمحتوى الصوتي والرموز البرمجية وغيرها الكثير. تفوّق Gemini Ultra على النتائج الحالية في 30 من أصل 32 معيارًا مستخدَمًا على نطاق واسع في هذا المجال، من فهم الصور الطبيعية والاستدلال في علم الرياضيات إلى فهم المحتوى الصوتي والفيديوهات. كما أن Gemini Ultra هو أوّل نموذج يتفوّق على الخبراء في معيار "فهم اللغة لتأدية مهام متعددة هائلة" (MMLU)، مسجلاً %90.04. يتضمّن هذا المعيار 57 موضوعًا، مثل الرياضيات والفيزياء والتاريخ والقانون والطب والأخلاق، لاختبار المعرفة وقدرات حل المشاكل. ويعدّ نهجنا المعياري الجديد هذا طريقة أكثر موثوقية لتقييم أداء Gemini في التحليل بأسلوب أكثر طبيعيةً لتقديم الرد المناسب.
تفوق Gemini على مختلف المعايير بالنسبة للنص والبرمجة
سجّل Gemini Utra أيضًا نسبة متقدّمة بلغت %59.4 في معيار "الفهم المتعدد الوسائط والمتعدد التخصصات الهائل" (MMMU)، وهو معيار جديد يتضمّن مهام متعددة الوسائط في مجالات مختلفة تتطلّب التفكير والتحليل بطريقة مدروسة. وعلى صعيد المعايير المتعلّقة بتحليل الصور والتي شملتها اختباراتنا، تفوّق Gemini Ultra على النماذج المتطوّرة السابقة من دون الاستعانة بأنظمة التعرّف البصري على الأحرف (OCR). وإن دلّت هذه المعايير على شيء، فهي تدلّ على القدرات الأصيلة المتعددة الوسائط لدى Gemini وتبيّن إمكاناته المبكرة في التفكير والتحليل ضمن وسائط متعددة وأطر أكثر تعقيدًا. تتوفّر المزيد من التفاصيل في التقرير الفني لنماذج Gemini.
تفوق Gemini بالنسبة لمعيار الفهم المتعدد الوسائط والمتعدد التخصصات الهائل
قدرات الجيل القادم
كان النهج المتّبع لتطوير النماذج المتعددة الوسائط يشتمل حتى الآن على تدريب المكوّنات بشكل منفصل في أنماط مختلفة ثمّ تجميعها في نموذج واحد يحاكي هذه الوظائف إلى حد ما. قد تكون هذه النماذج جيّدة في تنفيذ بعض المهام مثل وصف صورة، ولكنّها تواجه صعوبة في إتقان التفكير التصوّري والمعقّد.
لقد صمّمنا Gemini ليكون نموذجًا أصليًا متعدد الوسائط ومدرّبًا من الأساس على أنماط مختلفة، ثمّ زوّدناه ببيانات إضافية متعددة الوسائط لتحسين فعاليته بشكل أكبر، ما يساعد Gemini على فهم جميع أنواع المعلومات وتحليلها بكل سهولة وبأسلوب أفضل بكثير من النماذج المتعددة الوسائط الحالية. فهو يتميّز بإمكانات هي أحدث ما تم التوصّل إليه في كل مجال تقريبًا. مزيد من التفاصيل عن إمكانات Gemini وآلية عمله.
إمكانيات استدلالية متطوّرة
لدى Gemini 1.0 إمكانيات استدلالية متطوّرة ومتعددة الوسائط تساعده في فهم المعلومات المعقّدة، سواء كانت مكتوبة أو مرئية. وهذا ما يعزّز مهاراته في رصد المعلومات التي يصعب تمييزها وسط كميات هائلة من البيانات. ولا شك في أنّ قدراته على استخلاص المعلومات من مئات آلاف المستندات من خلال قراءة المعلومات وفلترتها وفهمها سيساعد في تحقيق إنجازات جديدة على الساحة الرقمية في مجالات عديدة كالعلوم والشؤون المالية.
فهم النصوص والصور والمحتوى الصوتي وغيرها
تم تدريب Gemini 1.0 للتعرّف على أنواع مختلفة من المحتوى في الوقت نفسه، بما في ذلك النصوص والصور والمحتوى الصوتي، وذلك كي يتمكّن من فهم المعلومات الدقيقة والإجابة على أسئلة متعلّقة بمواضيع معقّدة. ويتميّز Gemini 1.0 بشكل خاص في قدرته على شرح قواعد المنطق في الرياضيات والفيزياء، ما يجعله الوجهة المناسبة للمساعدة في الواجبات المنزلية.
إمكانيات ترميز متقدّمة
بإمكان الإصدار الأول من Gemini إنشاء الرموز البرمجية العالية الجودة وشرحها وفهمها بلغات البرمجة الأكثر شيوعًا في العالم، مثل Python وJava و++C وGo. وإنّ قدرته على استخدام لغات البرمجة المختلفة وفهم المعلومات المعقّدة تعزّز مكانته كأحد النماذج الأساسية الرائدة للترميز في العالم. ووفق معيار HumanEval المعتمد لمهام الترميز، فإنّ Gemini Ultra يتفوق في مختلف المقارنات المعيارية الخاصة بالبرمجة، بالإضافة إلى Natural2Code، وهي مجموعة بيانات داخلية.
يمكن أيضًا استخدام Gemini كمحرّك لأنظمة الترميز الأكثر تقدّمًا. فقد أطلقنا منذ عامين نظام AlphaCode، وهو أول نظام قائم على الذكاء الاصطناعي لإنشاء الرموز البرمجية ينجح في تقديم مستوى تنافسي من الأداء في مسابقات البرمجة. وباستخدام إصدار متخصّص من Gemini، استطعنا تطوير نظام أكثر تقدّمًا لإنشاء الرموز البرمجية هو AlphaCode 2. يتفوّق هذا النظام في حل مشاكل البرمجة التنافسية التي تتعدّى إطار الترميز وتشمل الرياضيات المعقّدة وعلم الكمبيوتر النظري.
ومن خلال تقييم AlphaCode 2 على المنصة نفسها التي تم استخدامها في تقييم الإصدار الأول AlphaCode، تبيّن لنا تحسينات هائلة في AlphaCode 2 حيث بإمكانه حل ضعف عدد المشاكل. ونتوقّع أنه يحقق أداءً أفضل من %85 من النماذج الأخرى المنافسة، مقارنةً بنسبة %50 تقريبًا سجّلها AlphaCode. ويكون أداء Gemini أفضل عندما يستخدمه المبرمجون لتحديد الخصائص المعيّنة المطلوب اتّباعها في إنشاء الرموز البرمجية.
نحن نشجّع المزيد من المبرمجين على استخدام نماذج الذكاء الاصطناعي العالية الكفاءة كأدوات تعاونية يمكنها مساعدتهم في فهم المشاكل واقتراح تصاميم للرموز البرمجية والمساعدة في تطبيقها حتى يتمكنّوا من إطلاق التطبيقات وتصميم الخدمات بشكل أفضل وأسرع.
أكثر موثوقية، وفعالية، وقابلية للتطوير
لقد طورنا Gemini 1.0 مستخدمين Tensor Processing Units (TPUs) v4 and v5e التي أطلقناها في Google. ولقد صممنا النموذج ليكون الأكثر موثوقية، والأكثر فعالية لدى الشركة. كما أنّ Gemini يعمل بشكل أسرع مقارنة بالنماذج الأصغر والأقل فعالية. مسرعات الذكاء الاصطناعي كانت دائمًا الجوهر الأساسي في منتجاتنا القائمة على الذكاء الاصطناعي والتي يستخدمها مليارات الأشخاص من ضمنها البحث، ومنصة YouTube، وبريد Gmail، وخرائط Google، ومتجر Google Play، وAndroid.
واليوم، نعلن عن نظام TPU الأكثر فعالية وقابلية للتطوير، Cloud TPU v5p، وهو مصمم لتدريب نماذج الذكاء الاصطناعي الحديثة. النسخة الجديدة من TPU سوف تسرع من تطوير Gemini وتساعد المطورين والعملاء في تدريب نماذج مختلفة بطريقة أسرع، والمساهمة بإطلاق منتجات وقدرات جديدة قريبًا.
المسؤولية والأمان في جوهر الأولويات
نحن في Google ملتزمون بتطوير الذكاء الاصطناعي بمسؤولية وإبداع في جميع منتجاتنا وخدماتنا. واستنادًا على مبادئ Google لاستخدام الذكاء الاصطناعي وسياساتنا المتعلقة بالأمان في مختلف المنتجات، سنأخذ بعين الاعتبار حماية إضافية لقدرات Gemini. وفي كل خطوة، سنحدد مختلف التحديات والمخاطر ونجري الاختبارات لتفاديها.
يحظى نموذج Gemini بأعلى معايير اختبارات الأمان مقارنة بنماذج Google للذكاء الاصطناعي الأخرى. كما أجرينا بحثًا لتحديد المخاطر مثل تلك الخاصة بالجرائم السيبرانية، والإقناع، واستقلالية الردود، وطبّقنا تقنيات مطورة للمساعدة في تحديد مخاطر الأمان.
ولتحديد المشاكل المتعلقة بأمان المحتوى خلال تجارب Gemini، والتأكد من اتباع سياساتنا، نستخدم معايير مقارنة مثل Real Toxicity Prompts، وهي مجموعة من 100,000 سؤال أو طلب من الإنترنت، فيها مختلف درجات الإساءة، وقد طورها عدد من الخبراء في معهد Allen للذكاء الاصطناعي. سنوفر المزيد من التفاصيل قريبًا.
إن المسؤولية والأمان هما من أهم أولوياتنا عند إطلاق وتطوير النماذج. وهذا الالتزام يمتد لفترة طويلة، ولذلك نحن نتشارك مع قطاع التكنولوجيا لتحديد أفضل الممارسات، ومعايير المقارنة وذلك عبر منظمات مثل MLCommons، وFrontier Model Forum، والمنحة التابعة AI Safety Fund، و Secure AI Framework (SAIF)، والذي قد صمّم للتقليل من المخاطر الأمنية مثل تلك المتعلقة بأنظمة الذكاء الاصطناعي في القطاعات الحكومية والخاصة. سوف نستمر بالشراكة مع الباحثين، والحكومات، ومجموعات المجتمع المدني حول العام بينا نستمر في تطوير Gemini.
توفير Gemini للجميع حول العالم
أطلقنا Gemini 1.0 الآن في مختلف المنتجات والمنصات:
Gemini Pro في منتجات Google
نحن نقدم Gemini لمليارات الأشخاص من خلال منتجات Google. وابتداءً من اليوم، سوف يستخدم Bard نسخة محدثة من Gemini Pro قادرة على الفهم والتحليل والتخطيط وغيرها من المهام. وهذا التطوير الأكبر لأداة Bard منذ إطلاقها. سيكون متوفرًا باللغة الإنجليزية في 170 دولة ومنطقة، ونخطط لتوفيره في مختلف اللغات والمناطق في المستقبل القريب.
كما أن Gemini قادم إلى Pixel. إن Pixel 8 Pro هو الهاتف الذكي الأول، المصمم لتوفير Gemini Nano، والتي تدعم ميزات مثل التلخيص في تطبيق Recorder، وفي ميزة الردود الذكية على Gboard، ابتداءً من WhatsApp - مع المزيد من تطبيقات المحادثة الأخرى في السنة القادمة. وفي الأشهر القادمة، سيكون Gemini متوفرًا في المزيد من المنتجات والخدمات مثل البحث، والإعلانات، وChrome، وDuet AI.
بدأنا بتجربة Gemini في بحث Google، حيث أن النموذج الجديد يسرع ويحسن من Search Generative Experience للمستخدمين، حيث قلل من وقت الانتظار للحصول على الإجابة بنسبة 40% باللغة الإنجليزية في الولايات المتحدة الأمريكية، بالإضافة إلى تطورات أخرى قد ساهم بها.
بناء التطبيقات مع Gemini
ابتداءً من 13 ديسمبر، سيتمكن المطورون وعملاء الشركات من الوصول إلى Gemini Pro عن طريق Gemini API في Google AI Studio أو Google Cloud Vertex AI.
إن Google AI Studio هو أداة مجانية تساعد المطورين في بناء نماذج أولوية وإطلاق التطبيقات بشكل سريع باستخدام مفتاح واجهة برمجة التطبيقات. وفي حال تطوير منصة متكاملة قائمة على الذكاء الاصطناعي، فإنّ Vertex AI يساهم في استخدام Gemini بطريقة مخصصة والاستفادة من ميزات Google Cloud المختلفة للشركات، والمتعلقة بالأمان، والخصوصية، وإدارة البيانات وغيرها.
كما أنّ بإمكان مطوري Android بناء التطبيقات المختلفة باستخدام Gemini Nano، وهو النموذج الأكثر فعالية للمهام المتعلقة بالأجهزة، وذلك من خلال AICore وهو نظام جديد متوفر على Android 14 وموجود في الوقت الحالي على أجهزة Pixel 8 Pro. يمكنكم التسجيل عبر الرابط لرؤية نموذج من AICore.
إطلاق Gemini Ultra قريبًا
بالنسبة إلى Gemini Ultra، نجري حاليًا اختبارات شاملة لقياس الأمان والثقة قبل الإطلاق الرسمي، وبعض هذه التجارب ستكون من خلال مجموعات موثوقة، كما سيتم إجراء تغييرات أخرى للنموذج من خلال التعليقات القادمة من فرق في الشركة. وخلال هذا الإجراء، سيتمكن مجموعة محددة من العملاء، والمطورين، والشركاء، وخبراء في الأمان والمسؤولية، من تجربة Gemini Ultra في المرحلة الأولى للحصول على التعليقات وردود الأفعال قبل إطلاق النموذج لجميع المطورين والعملاء في بداية العام القادم.
كما سنطلق في بداية العام القادم نسخة Bard Advanced المطورة، وهي تجربة محدثة في الذكاء الاصطناعي قائمة على أحدث النماذج والقدرات، ابتداءً من Gemini Ultra.
نموذج Gemini: دعم مستقبل مليء بالإبداع
إن ما نعلن عنه اليوم يعدّ مرحلة أساسية في عالم تطوير تقنيات الذكاء الاصطناعي، وبداية لعهد جديد لنا في Google، بينما نستمر بشكل سريع في تطوير قدرات نماذجنا بمسؤولية وإبداع. لقد حققنا خطوة كبيرة من خلال إطلاق Gemini، وسنعمل غي المستقبل القريب على تطوير قدرات النموذج للحصول على تجربة أفضل.
نحن سعيدون جدًا بمستقبل الذكاء الاصطناعي واستخدام التقنيات بمسؤولية - نراه مستقبلًا يجمع الإبداع، وآفاق المعلومات، ويساهم بتطور العلوم ويطور حياة مليارات الأشخاص من حول العالم.