تحول عظیم ساخت عکس با هوش مصنوعی؛ ساخت عکس با چت جی پی تی 4o

اخیرا شرکت OpenAI ویژگی جدید ساخت عکس با چت جی پی تی را به مدل خود اضافه کرده است. همانطور که می‌دانید، OpenAI پیش از این به منظور ساخت عکس با هوش مصنوعی، از مدلی قدرتمند با نام DALL-E استفاده می‌کرد که در ChatGPT نیز به صورت محدود قابل استفاده بود. بنابراین ممکن است اینطور تصور کنید که ویژگی تازه‌ای اضافه نشده است.

اما ساخت عکس با چت جی پی تی با تصاویر تولید شده با مدل DALL-E متفاوت است. ساخت عکس با چت جی پی تی نه تنها زیبا، بلکه دقیق، ارزشمند و به شدت واقع‌گرا است. این مدل قادر است تا جز به جز پرامپت (دستورالعمل) شما را در عکس پیاده سازی کند. تا جایی که از آن جزییات آن حیرت خواهید کرد! با ما همراه باشید تا این ویژگی جدید را به طور کامل معرفی کنیم.

ساخت عکس با چت جی پی تی

ساخت عکس با چت جی پی تی چه مزیتی دارد؟

پیش از این نیز مدل‌های متعدد و قدرتمندی برای ساخت عکس با هوش مصنوعی وجود داشتند. بنابراین این سوال به وجود می‌آید که دست برتر این مدل چیست و چرا آن‌را تحولی بزرگ در نظر گرفته‌ایم؟

برای پاسخ به این پرسش ابتدا اجازه بدهید تا نقل قول کوتاهی از سازنده آن داشته باشیم:

ما مدت‌هاست بر این باور بودیم که ساخت عکس باید یکی از قابلیت‌های اصلی مدل‌های زبانی ما باشد. به همین دلیل، ما پیشرفته‌ترین تولیدکننده تصویر خود را در مدل GPT‑4o ساختیم. نتیجه مدلی برای ساخت عکس با هوش مصنوعی شد که نه تنها زیبا، بلکه کاربردی است.

مدل‌های قبلی، قادر بوده تا تصاویر خیره کننده‌ و جذابی خلق کنند. اما در ساخت تصاویری کاربردی برای انتشار اطلاعات و جزییات با چالش مواجه بودند. از لوگو گرفته تا نمودار، تصاویر زمانی می‌توانند معنای دقیقی را منتقل کنند که در آن زبان و علائم مشترکی به کار رفته شده باشد. به عبارت دیگر، زمانی که در تصاویر از نماد‌های آشنا استفاده شده باشد، مفهوم آن را روشن‌تر ادراک می‌کنیم.

ویژگی‌های کلیدی ساخت عکس با چت جی پی تی 4o

تا به اینجا، برخی مفاهیم کلی از این نوآوری جدید را بیان نمودیم. اکنون اجازه دهید تا به صورت جزیی‌ و روشن‌تری و همراه با ذکر مثال تصویری، به شرح ویژگی‌های ساخت عکس با چت جی پی تی بپردازیم.

جزییات دقیق واقع گرایانه

ساخت عکس با چت جی پی تی قادر است تا جزییات درخواست شما را به صورت کاملا واقع گرایانه و مو به مو اجرا کند. یک نمونه درخواست متنی و عکس ساخته شده را با هم می‌بینیم:

متن درخواست:

یک عکس عرضی از صفحه وایت برد براق که با تلفن همراه گرفته شده است. تخته وایت برد قرار گرفته در اتاق مشرف به یک پل آبی است. میدان دید نشانگر یک زن در حال نوشتن و با یک تی‌شرت ورزشی که روی آن لوگو بزرگ OpenAI حک شده است. دست خط طبیعی و کمی آشفته به نظر می‌رسد و ما بازتاب تصویر عکاس را می‌بینیم. “برای مشاهده ادامه درخواست کلیک کنید…”

متن روی وایت برد:

(left)
“Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive”

(Right)
“Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder”

On the bottom right of the board, she draws a diagram:
“tokens -> [transformer] -> [diffusion] -> pixels”

ساخت عکس با هوش مصنوعی از وایت برد

هماطور که می‌بینید، تصویر تولید شده بسیار طبیعی، دقیق و جز به جز بر اساس پرامپت داده شده است.

ساخت عکس با محوریت متنی

پیش از این، مدل‌های هوش مصنوعی ساخت تصویر در ساخت عکس با محوریت متن، عملکرد نامناسبی داشتند. به گونه‌ای که عملا کاربردی نبوده و یا نیاز به ویرایش اساسی داشتند. از نمونه‌های عکس با محوریت متنی می‌توان ساخت پوستر با هوش مصنوعی و یا ساخت کارت ویزیت با هوش مصنوعی را نام برد.

در ادامه، یک نمونه درخواست ساخت منو رستوران با هوش مصنوعی چت جی پی تی را با هم مشاهده می‌کنیم.

متن درخواست:

من قصد دارم یک رستوران با حالت سنتی در شهر Marin افتتاح کنم. اسم رستوران Haein است. این رستوران بر روی غذاهای کُره‌ای با استفاده از مواد غذایی ارگانیک و تازه تمرکز دارد. همچنین، منو رستوران بر اساس غذاهای فصلی حالت چرخشی خواهد داشت. من می‌خواهم یک عکس طراحی کنی – یک منو با لیست غذا‌هایی که در ادامه خواهم گفت – سبک طراحی سنتی/روستایی باشد ولی در عین حال حس لوکس بودن منتقل کند.
همچنین لطفا برای هر آیتم در منو، یک طرح ظریف با استایل پیتر-خرگوشه (peter rabbit) تصویرسازی کن. دقت کن که همه‌ی متن به خوبی در منو با پشت زمینه سفید آورده شود. “برای مشاهده ادامه درخواست کلیک کنید…”

آیتم‌های منو:

(Top)

Doenjang Jjigae (Fermented Soybean Stew) – $۱۸ House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.

Galbi Jjim (Braised Short Ribs) – $۳۴ Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.

Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.

Bibimbap – $۱۹ Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.

Bossam (Heritage Pork Wraps) – $۲۸ Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.

(Bottom) Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $۱۲/glass

Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).

Hoddeok (Korean Sweet Pancake) – $۹ Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

ساخت منو با هوش مصنوعی

تمامی جزییات گفته شده در دستورالعمل کاربر، بدون هیچگونه اشتباه قابل توجهی در منو لحاظ شده است. این گونه قابلیت‌ها در طراحی بسیار کاربردی می‌باشد. (حاشیه سفید رنگ در وبسایت ما برای هماهنگی با ابعاد سایر تصاویر اضافه گردیده و در تصویر تولید شده توسط هوش مصنوعی وجود نداشت.)

ساخت تصاویر در چندین مرتبه با حفظ ساختار اصلی

یکی دیگر از ویژگی‌های متفاوت و کاربردی ساخت عکس با چت جی پی تی، امکان ساخت یک تصویر به صورت مکرر می‌باشد. به دلیل اینکه چت جی پی تی به صورت چت و دارای حافظه می‌باشد این امکان میسر شده است.

تصور کنید برای داستان خود، یک کاراکتر تصویری با هوش مصنوعی ایجاد کرده‌اید. حال نیاز دارید تا در بخش‌های متفاوت، همان کاراکتر به گونه‌های مختلفی ویرایش و تصویر سازی شود. ساخت عکس با چت جی پی تی این امکان را به وجود آورده تا بتوانید به تعداد دفعات دلخواه با ذکر نام کاراکتر و یا اپلود یکی از تصاویر قبلی، آن را با سبک مورد نظر خود ویرایش کنید؛ بدون آنکه طرح کلی دستخوش تغییر شود.

توان پردازش تعداد بالاتر متغیر

در حالی که سایر مدل‌ها در پردازش بیشتر از حدود ۶ متغیر دچار چالش هستند، چت جی پی تی می‌تواند حتی تا ۲۰ متغیر را با حفظ جزییات پردازش کند. برای توضیح بیشتر اجازه دهید تا دستورالعمل ساده‌ای را نشان دهیم.

متن درخواست:

یک عکس با نسبت مربع (۱*۱) که دارای ۴ ستون و ۴ ردیف شامل ۱۶ شی بر روی پشت زمینه سفید باشد. از سمت چپ به راست و بالا و پایین شروع کن. “برای مشاهده ادامه درخواست کلیک کنید…”

لیست اشیا:

  1. ستاره آبی
  2. مثلث قرمز
  3. مربع سبز
  4. دایره صورتی
  5. ساعت شنی نارنجی
  6. علامت بی نهایت بنفش
  7. پاپیون خال خالی سیاه و سفید
  8. رنگ آمیزی گره‌ای “۴۲”
  9. گربه نارنجی که کلاه بیسبال مشکی بر سر دارد
  10. نقشه با صندوقچه گنج
  11. یک جفت چشم بامزه
  12. ایموجی با شست بالا
  13. یک جفت قیچی
  14. یک زرافه آبی و سفید
  15. کلمه “OpenAI” با خط شکسته نوشته شده است
  16. رعد و برق رنگین کمان
عکس اشیا ساخته شده با چت جی پی تی

مطابق توضیحات ارائه شده در دستورالعمل، چت جی پی تی ۱۶ شی را با رعایت جزییات تصویرسازی نمود. (عکس اصلی طبق دستورالعمل با ابعاد ۱*۱ ساخته شده و ما به دلیل حفظ نسبت تصاویر وبسایت، آنرا ویرایش کردیم.)

توانایی یادگیری با تصاویر کاربر

تصور کنید ‌میخواهید تصویری بسازید که پیش از آن نمونه آن وجود نداشته است و یا به دلیل کمبود نمونه، هوش مصنوعی تصویرسازی مناسبی از ایده شما ارائه نکند. چت جی پی تی این قابلیت را دارد که تصاویر شما را دریافت و با استفاده از آن‌ها خود را بهبود دهد. کافی است نمونه آن‌را برای چت جی پی تی ارسال کنید و بخواهید از آن‌ها برای ساخت ایده شما الگوبرداری کند.

سطح دانش عمومی بالا

از انجایی که چت جی پی تی دانش عمومی بالایی دارد و در بسیاری از بخش‌های مختلف دارای اطلاعات فراوان است. ارتباط داخلی مستقیم میان چت جی پی تی و مدل ساخت تصویر، این امکان را فراهم می‌کند تا بدون ارائه اطلاعات اضافی از سمت کاربر، نتیجه دلخواه را ارائه کند.

ساخت عکس با چت جی پی تی با طرح استدیو جیبلی، انیمیشن دیزنی، ماینکرافت، gravity waterfall، جوجو، تبدیل عکس به نقاشی نگارگری ایرانی و … قابل انجام است. بدون آنکه نمونه ای از سمت کاربر ارائه شود. دلیل این مسئله سطح دانش وسیع چت جی پی تی در بخش های مختلف است. مسئله‌ای که در مدل‌های دیگر، با این سطح از کیفیت مشاهده نمی‌شود.

سخن پایانی

مدل جدید ساخت تصویر که در چت جی پی تی ارائه شده است، در دنیا سر‌ و صدای زیادی ایجاد کرده است. پیش از این نیز انواع مدل های هوش مصنوعی از جمله Midjourney و DALL-E توان ساخت تصاویر خیره‌کننده‌ای داشتند. اما این مدل تازه، بنابر دلایلی که در این مقاله شرح داده شد، نقش متحول‌کننده‌ای در رشد هوش مصنوعی ساخت تصویر ایفا کرده است.

از کلیدی‌ترین تفاوت‌ها می‌توان به توانایی ساخت تصاویر بر پایه متن (مانند پوستر، بنر، منو، کارت ویزیت و …) و اتصال مستقیم به پایگاه داده گسترده چت جی پی تی نام برد.

به نظر شما، با توجه به پیشرفت اخیر، آیا در حال حاضر شغل طراحان گرافیک و تصویرسازان در معرض خطر جایگزین شدن با هوش مصنوعی قرار دارد؟ نظر خود را با ما در این مقاله به اشتراک بگذارید.

نظر خود را به اشتراک بگذارید

ایمیل شما منتشر نخواهد شد. فیلدهای ضروری با * مشخص شده‌اند.