شاهد بنفسك: قدرات توليد الصور الجديدة في ChatGPT مذهلة

0

أطلقت OpenAI تحديثًا ضخمًا لقدرات توليد الصور في ChatGPT، وهو تحديث يُذهل العقول ويُعيد تعريف الواقع. يُعد هذا التطور نقلة نوعية في مجال توليد الصور بالذكاء الاصطناعي.

لن أُضيّع وقتكم بالأرقام أو أحجام النماذج أو عدد ساعات عمل وحدات معالجة الرسومات (GPU) التي يستخدمها النموذج الجديد. سأُريكُم ببساطة ما يُمكن لهذا التحديث فعله، وكيف يُقارن مع نموذج DALL-E السابق.

7. الأيدي والأصابع

لقطة مقرّبة لشخص يعزف وتر مي صغير على غيتار، أصابعه تضغط على الأوتار بعمق مجال ضحل.

لقد أذهلتنا تقنية توليد الصور بالذكاء الاصطناعي عندما انتشرت لأول مرة. ثم… أمعنا النظر. إن العلامة المميزة لصورة الذكاء الاصطناعي هي تشريح اليد والأصابع الغريب. لذا، ما هي أفضل طريقة لاختبار النماذج من أن نطلب منها تصوير وتر غيتار؟

للاحتفاظ بالأفضل للنهاية، سألتُ نموذج DALL-E الأصلي أولاً، ثم مُولد الصور الجديد المُدمج في نموذج ChatGPT 4o.

A close-up view of a person's hand playing an E minor chord on an acoustic guitar

الصورة أعلاه هي ما أنتجه DALL-E. على الرغم من عيوب DALL-E، إلا أنه تعامل مع الأصابع والتشريح العام بشكل لائق هنا. لكن الوتر نفسه… ليس كذلك. فموضع اليد مرتفع جدًا على لوحة الفريتس ليعزف مي صغير. إذا قمتَ بالتكبير قليلاً، ستلاحظ أن الغيتار يحتوي على أكثر من سبعة أوتار. كما أن التباعد بين الأوتار غير منتظم.

مع وضع ذلك في الاعتبار، دعونا ننتقل إلى ChatGPT 4o.

A close-up view of a person's hand playing an E minor chord on an acoustic guitar

كان بإمكاني أن أخبركم أنني أمزح وأن هذه صورة قديمة من وقت كنتُ أعزف فيه على الغيتار. ChatGPT 4o بهذه الجودة. ستة أوتار، متباعدة بشكل متساوٍ، والوتر هو بالفعل مي صغير. أنا معجب.

6. شخصيات تاريخية

ألبرت أينشتاين يتناول الآيس كريم في سنترال بارك، مرتديًا قميصًا كاجوال وحمالات.

بعد أن جرّبنا توليد صور لأشياء مختلفة، قررنا الآن تجربة توليد صور لشخصيات تاريخية، ولأنهم لن يشعروا بالإهانة، سيكون من الممتع رؤيتهم في بيئة حديثة. لنبدأ بتجربة DALL-E 2 و ChatGPT 4 في توليد صورة لأينشتاين.

A man resembling Einstein eating ice cream in Central Park

كانت نتيجة DALL-E 2 مخيبة للآمال، حيثُ حذرني مُسبقًا من أنه لا يمكنه استخدام صورة أينشتاين نفسه، وسيستخدم صورة لشخص “يشبهه إلى حد كبير”. تتميز صور DALL-E 2 بأسلوبها الكرتوني الواقعي، والذي يظهر بوضوح هنا. يُشير مبنى سان ريمو في الخلفية إلى أن هذه الصورة ملتقطة في سنترال بارك، ولكن هذا هو الإنجاز الوحيد هنا.

لننتقل الآن إلى ChatGPT 4o.

A man resembling Einstein eating ice cream in Central Park

بتطبيق فلتر أبيض وأسود على هذه الصورة، يُمكنني إقناعك بأنها صورة عتيقة حقيقية. تبدو الكريمة على المخروط كريمية بشكل مثالي، ويظهر أينشتاين بأسلوبه الهادئ المميز، ولا يزال مبنى سان ريمو موجودًا في الخلفية. كل شيء يبدو مثاليًا. لقد أبدع ChatGPT 4o في هذه الصورة.

5. شخصيات خيالية

شخصية مشابهة للورد سيث تطلب سيارة أجرة في ساحة جورج، غلاسكو، مع أمطار خفيفة وإشارات مرور في الخلفية.

لقد رأينا حتى الآن أن ChatGPT يُجيد رسم الشخصيات التاريخية بشكل جيد. بما أن الوجوه والأشخاص لا يزالون من أفضل الطرق لاختبار قدرات الذكاء الاصطناعي، فلنجرّب المزيد.

A tall, mysterious figure resembling a Sith Lord standing in George Square, Glasgow

لقد استخدمتُ كلمة “مُشابهة” لجعل بوت الدردشة يتعاون معي دون أن يُواجهني بخطاب حقوق النشر. كانت نتيجة DALL-E جيدة. الشخصية تُذكّرك بالفعل بلورد سيث، وبقية العناصر دقيقة إلى حد ما.

لا يوجد شيء كرتوني بشكل صريح حولها، لكنها لا تبدو حقيقية. هل تريد الواقعية؟ تحقق من ما أنتجه ChatGPT 4o بنفس المُطالبة:

A tall, mysterious figure resembling a Sith Lord standing in Glasgow

أُحب الأجواء – الإضاءة، والرذاذ، وحضور اللورد سيث الكئيب. كل شيء موجود. المشكلة الوحيدة هي أن سيد الظلام يقف في الشارع ويطلب سيارة أجرة بينما وجهه مُتجه نحو… الرصيف. وأيضاً، لافتة سيارة الأجرة مكتوب عليها “TAXL”.

لنتحول من الخيال المُستقبلي إلى الخيال التاريخي. شيء من هذا القبيل:

شخصية تُشبه Geralt of Rivia وهو يتسوق للبقالة في سوبر ماركت حديث، يدفع عربة التسوق ويتجهم عند النظر إلى الأطعمة المُعلّبة.

A rugged, white-haired man with a scar across his face, resembling a fantasy monster hunter, shopping in a modern supermarket

ليست سيئة على الإطلاق. لا تزال الصورة تحمل تلك الأجواء الكرتونية الاصطناعية، والنص على علب الحبوب غير مفهوم تماماً، كما هو مُتوقع.

رفض ChatGPT 4o في البداية المُطالبة بسبب حقوق النشر – لكنه نجح بمجرد أن استبدلت “مُشابهة لـ” بـ “تُشبه”. انظر:

A rugged, white-haired man with a scar across his face, resembling a fantasy monster hunter, shopping in a modern supermarket

أنا عاجز عن الكلام. مثل معظم الناس، فإن تفسير ChatGPT لشخصية Geralt هو في الأساس Henry Cavill، وليس نسخة لعبة الفيديو – لكنه أجادها. التجهم في محله، والمشهد يبدو طبيعياً.

يمكن أن يُمر هذا كمشهد من موقع تصوير إعلان غريب. ونعم، لقد قرأتُ كتب The Witcher قبل أن يُصبح مُسلسلاً.

4. الرسوم المتحركة

رسم كاريكاتوري لقبطان قرصان يرتدي معطفًا أحمر طويلًا وذراعًا إلكترونية، يضحك على سطح سفينة طائرة. خلفية شفافة.

إن توليد الصور بواسطة OpenAI لا يقتصر على الواقعية. فبينما يميل DALL-E دائمًا إلى إضافة لمسة من التنعيم بغض النظر عن المدخلات، قررتُ دفع كلا النموذجين إلى وضع الكاريكاتور الكامل. تم التركيز على تحسين جودة الرسوم الكاريكاتورية من خلال استخدام تقنيات الذكاء الاصطناعي المتقدمة.

A cartoon-style pirate captain standing on the deck of a flying ship by DALL-E

في الواقع، قام DALL·E بعمل جيد هنا – حتى أنه فهم طلب خلفية شفافة. نوعًا ما. ما حصلنا عليه هو نمط رقعة الشطرنج الرمادي والأبيض الكلاسيكي الذي يعني عادةً الشفافية … إلا أنه هنا، تم دمجه في الصورة. لذلك، فهو ليس شفافًا على الإطلاق.

ومن المفارقات أيضًا أن يد القرصان البيولوجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي بها أربعة أصابع بينما اليد الإلكترونية بها خمسة أصابع. ربما قام بتغطية الذراع الخطأ بالكروم؟

A cartoon-style pirate captain standing on the deck of a flying ship

تبدو نسخة ChatGPT 4o أكثر وضوحًا وتعمدًا. يختلف أسلوب التلوين – سواء كان أفضل أم لا فهو أمر شخصي – لكن من الواضح أنه يبدو كأن فنانًا رسمه بهذه الطريقة. تتميز رسومات ChatGPT بجودة عالية ودقة في التفاصيل.

الخلفية أيضًا شفافة بالفعل. يمكنك وضعها على تي شيرت، أو طباعتها، أو حتى تحويلها إلى ملصق WhatsApp على الفور.

3. المرايا والانعكاسات

حوض حمام عصري مع فرشاة أسنان وشفرة حلاقة على المنضدة، كلاهما مرئي في المرآة وفي الواقع – الإضاءة ناعمة ومتساوية. تُعدّ دقة الانعكاسات في الصور المُولّدة بالذكاء الاصطناعي تحديًا قائمًا.

تعكس المرايا الصور، وتحتاج الانعكاسات إلى منطق مكاني لتبدو طبيعية. طرحتُ مُدخلاً كنتُ أعرف أن DALL-E سيتعثر فيه. يُعتبر توليد صور واقعية مع انعكاسات دقيقة من أهم التحديات التي تواجه الذكاء الاصطناعي.

A modern bathroom sink with a sleek design and a clean countertop

كما هو متوقع. هناك شيء ما يحاول أن يكون انعكاسًا من الصنبور في المرآة، لكنه طويل جدًا. فرشاة الأسنان تطفو، داخل الحوض، ولا تُلقي أي انعكاس. لقد بذل DALL-E جهدًا كبيرًا في هذا المثال.

A modern bathroom sink with a sleek design and a clean countertop

يؤدي النموذج الأحدث وظيفة أفضل بكثير في جعل الصورة تبدو حقيقية، مثل صورة فوتوغرافية فعلية. انعكاس الصنبور منحرف قليلاً ولكنه مقبول. ثم هناك فرشاة الأسنان، التي لها انعكاس لكنها غير موجودة في العالم المادي – مثل مصاص دماء معكوس.

لا يوجد فائز واضح هنا. نتائج الذكاء الاصطناعي غير متسقة، لذلك أعطيتُ كليهما فرصة أخرى بشيء أكثر طموحًا:

امرأة تقف أمام مرآة كاملة الطول في غرفة نوم مُضاءة بنور الشمس، ملابسها ووقفتها تنعكس تمامًا، مع انعكاس واضح للنافذة خلفها.

A woman standing in front of a full-length mirror in a sunlit bedroom

… لا أريد حتى أن أُشرف هذا المثال بالتحليل. أيها الناس، إذا كنتم تريدون أن تجعلوا DALL-E يبدو سيئًا، فقط أضيفوا كلمة “مرآة” إلى مُدخلكم. لننتقل.

A woman standing in front of a full-length mirror in a sunlit bedroom-1

كما هو متوقع، تبدو نسخة ChatGPT 4o أكثر واقعية – ولكن ربما سريالية بعض الشيء هذه المرة؟ تنعكس وضعية المرأة وملابسها، ولكن بشكل جزئي فقط، مثل تأثير Photoshop ثلاثي الأبعاد. زوايا الانعكاس أيضًا خاطئة. لا يزال الذكاء الاصطناعي غير قادر على التعامل مع المنطق المكاني. يبدو أن فهم الفضاء ثلاثي الأبعاد والانعكاسات يمثل تحديًا كبيرًا للذكاء الاصطناعي.

2. السيارات والشوارع

سيارة Ford GT موديل 2006 وسيارة Peugeot 206 خلف إشارة مرور حمراء في شارع وول ستريت، نيويورك، عند منتصف النهار.

أنا من عشاق السيارات. عندما ظهرت برامج توليد الصور بالذكاء الاصطناعي لأول مرة، كان من أول الأشياء التي جربتها هو إنشاء صور للسيارات. لم تكن النتائج جيدة في ذلك الوقت، ولكن مع ظهور النموذج الجديد، كان عليّ أن أجرب مرة أخرى.

A 2006 Ford GT is stopped at a red traffic light next to a Peugeot 206

ها هو DALL-E مرة أخرى يُظهر جماليته الكرتونية المزعجة بشكل متزايد. سيارة Peugeot على الرصيف، وإشارات المرور التي طلبتها تواجه المباني، وأرقام اللوحات كلها غير مفهومة.

A 2006 Ford GT is stopped at a red traffic light next to a Peugeot 206

نتائج ChatGPT 4o أفضل بكثير. تم تصوير السيارات بشكل صحيح – حتى غطاء عجلات Peugeot دقيق للغاية ويتناسب مع الحقبة. هذا النوع من التفاصيل ليس عرضيًا. بل إنه يتحسن أكثر:

A 2006 Ford GT is stopped at a red traffic light next to a Peugeot 206

يمكنني بالفعل استخدام هذه الصورة كخلفية لهاتفي. الإضاءة، والتركيب، والانعكاسات – كل شيء يبدو مثاليًا. باستثناء الفراغ الغريب في الشارع، يمكن أن تمر هذه الصورة كصورة حقيقية.

1. النصوص والرسائل

رسالة مكتوبة بخط اليد على ورق قديم بخط متصل، موضوعة بجانب قلم حبر وقارورة حبر.

أخيرًا، نستهدف نقطة ضعف كل مُولّد صور. معظم برامج الذكاء الاصطناعي المُولّدة للصور تُكافح لإنتاج نصوص صحيحة. حتى الآن، لقد رأيتم ما يكفي من النصوص غير المفهومة من DALL-E في الأمثلة السابقة لتعرفوا ما أقصده. حيث يعتبر توليد النصوص في الصور تحديًا كبيرًا لمطوري هذه التقنيات.

لجعلها أكثر إثارة للاهتمام – واتساقًا – أضفتُ أنه يجب أن تحتوي الرسالة على نص خطاب الملك Terenas إلى Arthas من لعبة Warcraft III.

A close-up scene of a handwritten lette slightly yellowed parchment paper

قام DALL-E بما يُجيده مع النص: حوّله إلى نصوص غير واضحة وغير مفهومة. لقد نجح في كتابة بعض الكلمات بشكل صحيح، والجو العام يبدو جيدًا – قلم الحبر وقارورة الحبر تبدو جيدة. لكن دقة توليد النصوص لا تزال محدودة.

A close-up scene of a handwritten lette slightly yellowed parchment paper

ChatGPT 4o يُتقنها – كل كلمة، بخط متصل واضح. مثالي. مقارنةً بـ DALL-E، هذه قفزة هائلة إلى الأمام. أحسنت يا OpenAI. يُظهر هذا التطور مدى تقدم تقنيات الذكاء الاصطناعي في توليد النصوص.

لقد قطعت تقنيات توليد الصور بالذكاء الاصطناعي شوطًا طويلاً – وهذا واضح. يبدو ChatGPT 4o وكأنه النموذج الأول الذي يفهمها حقًا عندما يتعلق الأمر بالإضاءة والملمس والسياق. يمثل هذا تقدمًا كبيرًا في مجال توليد الصور بالذكاء الاصطناعي.

في هذه المرحلة، السؤال الحقيقي الوحيد المتبقي هو: ما مدى قوة إجراءات حماية ChatGPT؟ لقد تجاوزت بسهولة قيود حقوق النشر الخاصة به. كم من الوقت سيستغرق الأمر قبل أن يقوم شخص ما كسر الحماية لـ ChatGPT ويبدأ في إنشاء أي محتوى يُريده باستخدام هذا النموذج القادر بشكلٍ لا يُصدق؟ تُثير هذه القدرة تساؤلات حول الاستخدام المسؤول لتقنيات الذكاء الاصطناعي.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.