شهدت تكنولوجيا توليد الصور من النصوص تطورا كبيرا مدفوعا بنماذج الانتشار والتحليل الذاتي التلقائي، حيث لم يعد توليد صور تحاكي الواقع الفوتوغرافي يتطلب مهارات في برامج التصميم المعقدة مثل فوتوشوب، بل تحول الأمر إلى علم يعرف بهندسة الوصف يعتمد على صياغة شيفرات لغوية دقيقة وممنهجة لتوجيه نماذج الذكاء الاصطناعي لاستخراج تفاصيل بصرية معقدة بدقة مذهلة.
وتشير الدراسات التجريبية المنشورة في منصات البحث التقني إلى أن نماذج توليد الصور تمنح الكلمات الاولى في الوصف وزنا تقنيا أكبر مقارنة بالكلمات الاخيرة، مما يتطلب ترتيبا تسلسليا دقيقا لعناصر الوصف، فالبنية الرياضية والتقنية المثالية لبناء وصف فائق الواقعية تتكون من العناصر التالية:
- الموضوع الاساسي: تحديد الكائن المحوري ان كان انسانا أو منتجا أو مبنى أو أي شيء اخر، مع تفاصيل مجهرية مثل ملمس البشرة والمسام والخطوط الدقيقة.
- البيئة والمحيط: تحديد الخلفية والطقس وتشتت الضوء في المكان والتفاعل الفيزيائي بين الكائن والمحيط.
- هندسة الاضاءة: العنصر الاكثر حساسية للواقعية مثل نماذج ميدجورني (Midjourney) حيث اصبحت تفهم المصطلحات الفيزيائية للضوء بدقة عالية مثل "الاضاءة الجانبية في الساعة الذهبية" (Golden hour side lighting) وهي الفترة الزمنية التي تلي شروق الشمس مباشرة أو تسبق غروبها.
- محاكاة الكاميرا والعدسات: من خلال خداع النموذج عبر تقديم مواصفات تقنية لعدسات حقيقية مثل عدسات 85 ملم أو 35 ملم الفاخرة لتوليد عمق ميداني وعزل طبيعي لخلفية الصورة بوكيه.
تقنية الاوزان والاوصاف السلبية
ووفقا لابحاث تطوير الالعاب والتصميم الرقمي، تتيح بعض النماذج مثل ستايبل ديفيوجن (Stable Diffusion) وفلوكس (Flux) التحكم في قوة الكلمات باستخدام الاقواس والمعاملات الرقمية، مثل زيادة تركيز تفصيل معين عبر كتابته بصيغة (keyword:1.2)، وبالمقابل تستخدم الاوصاف السلبية لاستبعاد التشوهات ومنع النموذج من توليد اخطاء بصرية مثل الايدي المشوهة أو المظهر البلاستيكي غير الطبيعي.
المحركات القائدة لثورة الواقعية
لتوليد صورة واقعية، يجب اولا اختيار "المحرك" المناسب، فالنماذج الرائدة حاليا تعتمد على تقنيات انتشار متطورة (Diffusion Models) واخرى تعتمد على المحولات (Transformers):
- ميدجورني في 6: يصنف عالميا بانه الاقوى في محاكاة التفاصيل البشرية العميقة مثل مسام الجلد وانعكاس الضوء على قزحية العين وتاثيرات الاضاءة السينمائية.
- دال-إي 3 (DALL-E 3) من اوبن ايه اي: يتميز بفهم استثنائي للغة الطبيعية بفضل دمجه مع هندسة تشات جي بي تي (ChatGPT)، مما يجعله الافضل في تطبيق التوجيهات المعقدة بدقة متناهية، وفقا لمراجعات منصة إم اي تي تكنولوجي ريفيو (MIT Technology Review).
- ايماجن 3 (Imagen 3) من جوجل: يركز بشكل كبير على الواقعية الفوتوغرافية العالية وتجنب العيوب الشائعة في النصوص المكتوبة داخل الصور، مع الالتزام بمعايير الامان المتقدمة وتضمين العلامات المائية الرقمية مثل "سينث اي دي" (SynthID).
كيف تكتب وصفا احترافيا؟
والسر لا يكمن في كتابة وصف طويل بل في كتابة وصف هيكلي، فوفقا لدليلي التصميم الصادرين عن مجتمع ميدجورني ومركز ابحاث اوبن ايه اي، تنقسم صياغة الامر الواقعي إلى خمسة عناصر اساسية:
1- الموضوع الاساسي
وابدا بتحديد دقيق جدا للموضوع دون تعميم، فبدلا من كتابة "رجل عجوز"، اكتب "رجل عجوز يبلغ من العمر 70 عاما تظهر على وجهه تجاعيد عميقة ونظرة حكيمة".
2- بيئة العمل والاضاءة
والاضاءة هي الفارق الجوهري بين الصورة التي تبدو كرسوم حاسوبية (CGI) والصورة الحقيقية، ولذلك استخدم مصطلحات التصوير الاحترافي:
- Golden Hour Light: اضاءة الساعة الذهبية قبل الغروب التي تمنح دفئا وظلالا ناعمة.
- Cinematic Lighting / Rim Lighting: اضاءة سينمائية تبرز حواف الجسد وفصله عن الخلفية.
- Volumetric Light: الاضاءة الحجمية مثل اشعة الشمس المخترقة للضباب.
3- اعدادات الكاميرا والعدسة
ومحاكاة الكاميرات الحقيقية تخدع خوارزميات الذكاء الاصطناعي لانتاج عمق ميدان واقعي:
- العدسة: تحديد عدسة مثل 85mm lens أو 50mm f/1.2 يمنحك عزل خلفية بوكيه (Bokeh) احترافيا ومثاليا للبورتريه.
- نوع اللقطة: لقطة قريبة جدا (Close-up shot) أو لقطة ماكرو (Macro shot) للتفاصيل الدقيقة.
- نوع الكاميرا: الاشارة إلى كاميرات مثل Shot on DSLR camera أو Sony A7R V يوجه النموذج لمحاكاة جودة المستشعرات الاحترافية.
4- التفاصيل الدقيقة والخلفية
ولتحقيق الواقعية الفائقة، اطلب تفاصيل مجهرية تمنع السطح الاملس الزائف (Plastic Look):
- اضف مصطلحات مثل: photorealistic, skin texture, hyper-detailed pores, subtle imperfections.
- تحديد الخلفية بدقة: "في خلفية تظهر شوارع مدينة ممطرة ومصادر اضاءة نيون غير واضحة التركيز (blurred Neon lights)".
الهيكل النموذجي للامر
واليك الصيغة الهيكلية التي يمكنك محاكاتها باللغة الانجليزية لان النماذج تتفوق في فهمها:
[Subject] + [Environment/Background] + [Lighting] + [Camera/Lens] + [Style/Quality Details]
ومثال تطبيقي لـ بورتريه سينمائي واقعي:
"A close-up photographic portrait of a 30-year-old female astronaut, sweat drops on her skin, looking through a spacecraft window at planet Earth. Soft cinematic volumetric lighting, shot on 85mm lens, f/1.8, photorealistic, hyper-detailed skin texture, 8k resolution."
وترجمة النص اعلاه هي:
صورة فوتوغرافية مقربة لرائدة فضاء تبلغ من العمر 30 عاما تظهر قطرات العرق على بشرتها وهي تنظر من خلال نافذة مركبة فضائية إلى كوكب الأرض إضاءة سينمائية ناعمة تم التقاطها بعدسة 85 ملم f/1.8 واقعية للغاية نسيج بشرة فائق التفاصيل دقة 8K.
تقنيات متقدمة بدون كود
واذا كنت تستخدم ادوات مثل ميدجورني أو ستايبل ديفيوجن عبر واجهات مبسطة فهناك حيلتان ترفعان الجودة فورا:
- الاوامر السلبية: وهي اخبار الذكاء الاصطناعي بما لا تريده في الصورة لمنع العيوب الشائعة، اضف في خانة الاوامر السلبية: ugly, deformed hands, extra fingers, blurry, CGI, 3D render, plastic skin, mutation (اياد قبيحة مشوهة اصابع زائدة ضبابية مؤثرات بصرية حاسوبية عرض ثلاثي الابعاد جلد بلاستيكي طفرة جينية).
- معامل الواقعية: استخدام امر –s 50 أو تقليله يمنحك صورة اقرب للواقع الفوتوغرافي الخام بينما ترفع القيم العالية (–s 750) النزعة الفنية والجمالية على حساب الواقعية الحقيقية وفقا للوثائق الرسمية لميدجورني.
معالجة الاشكالية الاكبر.. الايدي والعيون والنصوص
وتاريخيا عانت نماذج الذكاء الاصطناعي من توليد ايدي بـ 6 اصابع أو عيون مشوهة، فقد وضح تقرير لموقع تيك كرنتش ان الاجيال الجديدة مثل ميدجورني الجيل السادس ودال-إي 3 حلت هذه المشكلة بنسبة تتجاوز 90% عبر زيادة تدريب النماذج على تشريح الجسد البشري.
ولكن في حال واجهت مشكلة في الايدي عليك ان تستخدم ادوات "اعادة التوليد الموضعي" المتاحة في معظم المنصات الان وذلك من خلال تظليل اليد المعيبة فقط واطلب من الذكاء الاصطناعي اعادة توليدها منفردة مع كتابة perfectly anatomically correct hand.





