شاهد بنفسك: قدرات توليد الصور الجديدة في ChatGPT مذهلة

أطلقت OpenAI تحديثًا ضخمًا لقدرات توليد الصور في ChatGPT، وهو تحديث يُذهل العقول ويُعيد تعريف الواقع. يُعد هذا التطور نقلة نوعية في مجال توليد الصور بالذكاء الاصطناعي.

لن أُضيّع وقتكم بالأرقام أو أحجام النماذج أو عدد ساعات عمل وحدات معالجة الرسومات (GPU) التي يستخدمها النموذج الجديد. سأُريكُم ببساطة ما يُمكن لهذا التحديث فعله، وكيف يُقارن مع نموذج DALL-E السابق.

7. الأيدي والأصابع

لقطة مقرّبة لشخص يعزف وتر مي صغير على غيتار، أصابعه تضغط على الأوتار بعمق مجال ضحل.

لقد أذهلتنا تقنية توليد الصور بالذكاء الاصطناعي عندما انتشرت لأول مرة. ثم… أمعنا النظر. إن العلامة المميزة لصورة الذكاء الاصطناعي هي تشريح اليد والأصابع الغريب. لذا، ما هي أفضل طريقة لاختبار النماذج من أن نطلب منها تصوير وتر غيتار؟

للاحتفاظ بالأفضل للنهاية، سألتُ نموذج DALL-E الأصلي أولاً، ثم مُولد الصور الجديد المُدمج في نموذج ChatGPT 4o.

الصورة أعلاه هي ما أنتجه DALL-E. على الرغم من عيوب DALL-E، إلا أنه تعامل مع الأصابع والتشريح العام بشكل لائق هنا. لكن الوتر نفسه… ليس كذلك. فموضع اليد مرتفع جدًا على لوحة الفريتس ليعزف مي صغير. إذا قمتَ بالتكبير قليلاً، ستلاحظ أن الغيتار يحتوي على أكثر من سبعة أوتار. كما أن التباعد بين الأوتار غير منتظم.

مع وضع ذلك في الاعتبار، دعونا ننتقل إلى ChatGPT 4o.

كان بإمكاني أن أخبركم أنني أمزح وأن هذه صورة قديمة من وقت كنتُ أعزف فيه على الغيتار. ChatGPT 4o بهذه الجودة. ستة أوتار، متباعدة بشكل متساوٍ، والوتر هو بالفعل مي صغير. أنا معجب.

6. شخصيات تاريخية

ألبرت أينشتاين يتناول الآيس كريم في سنترال بارك، مرتديًا قميصًا كاجوال وحمالات.

بعد أن جرّبنا توليد صور لأشياء مختلفة، قررنا الآن تجربة توليد صور لشخصيات تاريخية، ولأنهم لن يشعروا بالإهانة، سيكون من الممتع رؤيتهم في بيئة حديثة. لنبدأ بتجربة DALL-E 2 و ChatGPT 4 في توليد صورة لأينشتاين.

كانت نتيجة DALL-E 2 مخيبة للآمال، حيثُ حذرني مُسبقًا من أنه لا يمكنه استخدام صورة أينشتاين نفسه، وسيستخدم صورة لشخص “يشبهه إلى حد كبير”. تتميز صور DALL-E 2 بأسلوبها الكرتوني الواقعي، والذي يظهر بوضوح هنا. يُشير مبنى سان ريمو في الخلفية إلى أن هذه الصورة ملتقطة في سنترال بارك، ولكن هذا هو الإنجاز الوحيد هنا.

لننتقل الآن إلى ChatGPT 4o.

بتطبيق فلتر أبيض وأسود على هذه الصورة، يُمكنني إقناعك بأنها صورة عتيقة حقيقية. تبدو الكريمة على المخروط كريمية بشكل مثالي، ويظهر أينشتاين بأسلوبه الهادئ المميز، ولا يزال مبنى سان ريمو موجودًا في الخلفية. كل شيء يبدو مثاليًا. لقد أبدع ChatGPT 4o في هذه الصورة.

5. شخصيات خيالية

شخصية مشابهة للورد سيث تطلب سيارة أجرة في ساحة جورج، غلاسكو، مع أمطار خفيفة وإشارات مرور في الخلفية.

لقد رأينا حتى الآن أن ChatGPT يُجيد رسم الشخصيات التاريخية بشكل جيد. بما أن الوجوه والأشخاص لا يزالون من أفضل الطرق لاختبار قدرات الذكاء الاصطناعي، فلنجرّب المزيد.

لقد استخدمتُ كلمة “مُشابهة” لجعل بوت الدردشة يتعاون معي دون أن يُواجهني بخطاب حقوق النشر. كانت نتيجة DALL-E جيدة. الشخصية تُذكّرك بالفعل بلورد سيث، وبقية العناصر دقيقة إلى حد ما.

لا يوجد شيء كرتوني بشكل صريح حولها، لكنها لا تبدو حقيقية. هل تريد الواقعية؟ تحقق من ما أنتجه ChatGPT 4o بنفس المُطالبة:

أُحب الأجواء – الإضاءة، والرذاذ، وحضور اللورد سيث الكئيب. كل شيء موجود. المشكلة الوحيدة هي أن سيد الظلام يقف في الشارع ويطلب سيارة أجرة بينما وجهه مُتجه نحو… الرصيف. وأيضاً، لافتة سيارة الأجرة مكتوب عليها “TAXL”.

لنتحول من الخيال المُستقبلي إلى الخيال التاريخي. شيء من هذا القبيل:

شخصية تُشبه Geralt of Rivia وهو يتسوق للبقالة في سوبر ماركت حديث، يدفع عربة التسوق ويتجهم عند النظر إلى الأطعمة المُعلّبة.

ليست سيئة على الإطلاق. لا تزال الصورة تحمل تلك الأجواء الكرتونية الاصطناعية، والنص على علب الحبوب غير مفهوم تماماً، كما هو مُتوقع.

رفض ChatGPT 4o في البداية المُطالبة بسبب حقوق النشر – لكنه نجح بمجرد أن استبدلت “مُشابهة لـ” بـ “تُشبه”. انظر:

أنا عاجز عن الكلام. مثل معظم الناس، فإن تفسير ChatGPT لشخصية Geralt هو في الأساس Henry Cavill، وليس نسخة لعبة الفيديو – لكنه أجادها. التجهم في محله، والمشهد يبدو طبيعياً.

يمكن أن يُمر هذا كمشهد من موقع تصوير إعلان غريب. ونعم، لقد قرأتُ كتب The Witcher قبل أن يُصبح مُسلسلاً.

4. الرسوم المتحركة

رسم كاريكاتوري لقبطان قرصان يرتدي معطفًا أحمر طويلًا وذراعًا إلكترونية، يضحك على سطح سفينة طائرة. خلفية شفافة.

إن توليد الصور بواسطة OpenAI لا يقتصر على الواقعية. فبينما يميل DALL-E دائمًا إلى إضافة لمسة من التنعيم بغض النظر عن المدخلات، قررتُ دفع كلا النموذجين إلى وضع الكاريكاتور الكامل. تم التركيز على تحسين جودة الرسوم الكاريكاتورية من خلال استخدام تقنيات الذكاء الاصطناعي المتقدمة.

في الواقع، قام DALL·E بعمل جيد هنا – حتى أنه فهم طلب خلفية شفافة. نوعًا ما. ما حصلنا عليه هو نمط رقعة الشطرنج الرمادي والأبيض الكلاسيكي الذي يعني عادةً الشفافية … إلا أنه هنا، تم دمجه في الصورة. لذلك، فهو ليس شفافًا على الإطلاق.

ومن المفارقات أيضًا أن يد القرصان البيولوجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي بها أربعة أصابع بينما اليد الإلكترونية بها خمسة أصابع. ربما قام بتغطية الذراع الخطأ بالكروم؟

تبدو نسخة ChatGPT 4o أكثر وضوحًا وتعمدًا. يختلف أسلوب التلوين – سواء كان أفضل أم لا فهو أمر شخصي – لكن من الواضح أنه يبدو كأن فنانًا رسمه بهذه الطريقة. تتميز رسومات ChatGPT بجودة عالية ودقة في التفاصيل.

الخلفية أيضًا شفافة بالفعل. يمكنك وضعها على تي شيرت، أو طباعتها، أو حتى تحويلها إلى ملصق WhatsApp على الفور.

3. المرايا والانعكاسات

حوض حمام عصري مع فرشاة أسنان وشفرة حلاقة على المنضدة، كلاهما مرئي في المرآة وفي الواقع – الإضاءة ناعمة ومتساوية. تُعدّ دقة الانعكاسات في الصور المُولّدة بالذكاء الاصطناعي تحديًا قائمًا.

تعكس المرايا الصور، وتحتاج الانعكاسات إلى منطق مكاني لتبدو طبيعية. طرحتُ مُدخلاً كنتُ أعرف أن DALL-E سيتعثر فيه. يُعتبر توليد صور واقعية مع انعكاسات دقيقة من أهم التحديات التي تواجه الذكاء الاصطناعي.

كما هو متوقع. هناك شيء ما يحاول أن يكون انعكاسًا من الصنبور في المرآة، لكنه طويل جدًا. فرشاة الأسنان تطفو، داخل الحوض، ولا تُلقي أي انعكاس. لقد بذل DALL-E جهدًا كبيرًا في هذا المثال.

يؤدي النموذج الأحدث وظيفة أفضل بكثير في جعل الصورة تبدو حقيقية، مثل صورة فوتوغرافية فعلية. انعكاس الصنبور منحرف قليلاً ولكنه مقبول. ثم هناك فرشاة الأسنان، التي لها انعكاس لكنها غير موجودة في العالم المادي – مثل مصاص دماء معكوس.

لا يوجد فائز واضح هنا. نتائج الذكاء الاصطناعي غير متسقة، لذلك أعطيتُ كليهما فرصة أخرى بشيء أكثر طموحًا:

امرأة تقف أمام مرآة كاملة الطول في غرفة نوم مُضاءة بنور الشمس، ملابسها ووقفتها تنعكس تمامًا، مع انعكاس واضح للنافذة خلفها.

… لا أريد حتى أن أُشرف هذا المثال بالتحليل. أيها الناس، إذا كنتم تريدون أن تجعلوا DALL-E يبدو سيئًا، فقط أضيفوا كلمة “مرآة” إلى مُدخلكم. لننتقل.

كما هو متوقع، تبدو نسخة ChatGPT 4o أكثر واقعية – ولكن ربما سريالية بعض الشيء هذه المرة؟ تنعكس وضعية المرأة وملابسها، ولكن بشكل جزئي فقط، مثل تأثير Photoshop ثلاثي الأبعاد. زوايا الانعكاس أيضًا خاطئة. لا يزال الذكاء الاصطناعي غير قادر على التعامل مع المنطق المكاني. يبدو أن فهم الفضاء ثلاثي الأبعاد والانعكاسات يمثل تحديًا كبيرًا للذكاء الاصطناعي.

2. السيارات والشوارع

سيارة Ford GT موديل 2006 وسيارة Peugeot 206 خلف إشارة مرور حمراء في شارع وول ستريت، نيويورك، عند منتصف النهار.

أنا من عشاق السيارات. عندما ظهرت برامج توليد الصور بالذكاء الاصطناعي لأول مرة، كان من أول الأشياء التي جربتها هو إنشاء صور للسيارات. لم تكن النتائج جيدة في ذلك الوقت، ولكن مع ظهور النموذج الجديد، كان عليّ أن أجرب مرة أخرى.

ها هو DALL-E مرة أخرى يُظهر جماليته الكرتونية المزعجة بشكل متزايد. سيارة Peugeot على الرصيف، وإشارات المرور التي طلبتها تواجه المباني، وأرقام اللوحات كلها غير مفهومة.

نتائج ChatGPT 4o أفضل بكثير. تم تصوير السيارات بشكل صحيح – حتى غطاء عجلات Peugeot دقيق للغاية ويتناسب مع الحقبة. هذا النوع من التفاصيل ليس عرضيًا. بل إنه يتحسن أكثر:

يمكنني بالفعل استخدام هذه الصورة كخلفية لهاتفي. الإضاءة، والتركيب، والانعكاسات – كل شيء يبدو مثاليًا. باستثناء الفراغ الغريب في الشارع، يمكن أن تمر هذه الصورة كصورة حقيقية.

1. النصوص والرسائل

رسالة مكتوبة بخط اليد على ورق قديم بخط متصل، موضوعة بجانب قلم حبر وقارورة حبر.

أخيرًا، نستهدف نقطة ضعف كل مُولّد صور. معظم برامج الذكاء الاصطناعي المُولّدة للصور تُكافح لإنتاج نصوص صحيحة. حتى الآن، لقد رأيتم ما يكفي من النصوص غير المفهومة من DALL-E في الأمثلة السابقة لتعرفوا ما أقصده. حيث يعتبر توليد النصوص في الصور تحديًا كبيرًا لمطوري هذه التقنيات.

لجعلها أكثر إثارة للاهتمام – واتساقًا – أضفتُ أنه يجب أن تحتوي الرسالة على نص خطاب الملك Terenas إلى Arthas من لعبة Warcraft III.

قام DALL-E بما يُجيده مع النص: حوّله إلى نصوص غير واضحة وغير مفهومة. لقد نجح في كتابة بعض الكلمات بشكل صحيح، والجو العام يبدو جيدًا – قلم الحبر وقارورة الحبر تبدو جيدة. لكن دقة توليد النصوص لا تزال محدودة.

ChatGPT 4o يُتقنها – كل كلمة، بخط متصل واضح. مثالي. مقارنةً بـ DALL-E، هذه قفزة هائلة إلى الأمام. أحسنت يا OpenAI. يُظهر هذا التطور مدى تقدم تقنيات الذكاء الاصطناعي في توليد النصوص.

لقد قطعت تقنيات توليد الصور بالذكاء الاصطناعي شوطًا طويلاً – وهذا واضح. يبدو ChatGPT 4o وكأنه النموذج الأول الذي يفهمها حقًا عندما يتعلق الأمر بالإضاءة والملمس والسياق. يمثل هذا تقدمًا كبيرًا في مجال توليد الصور بالذكاء الاصطناعي.

في هذه المرحلة، السؤال الحقيقي الوحيد المتبقي هو: ما مدى قوة إجراءات حماية ChatGPT؟ لقد تجاوزت بسهولة قيود حقوق النشر الخاصة به. كم من الوقت سيستغرق الأمر قبل أن يقوم شخص ما كسر الحماية لـ ChatGPT ويبدأ في إنشاء أي محتوى يُريده باستخدام هذا النموذج القادر بشكلٍ لا يُصدق؟ تُثير هذه القدرة تساؤلات حول الاستخدام المسؤول لتقنيات الذكاء الاصطناعي.

ChatGPT