اخیرا شرکت OpenAI ویژگی جدید ساخت عکس با چت جی پی تی را به مدل خود اضافه کرده است. همانطور که میدانید، OpenAI پیش از این به منظور ساخت عکس با هوش مصنوعی، از مدلی قدرتمند با نام DALL-E استفاده میکرد که در ChatGPT نیز به صورت محدود قابل استفاده بود. بنابراین ممکن است اینطور تصور کنید که ویژگی تازهای اضافه نشده است.
اما ساخت عکس با چت جی پی تی با تصاویر تولید شده با مدل DALL-E متفاوت است. ساخت عکس با چت جی پی تی نه تنها زیبا، بلکه دقیق، ارزشمند و به شدت واقعگرا است. این مدل قادر است تا جز به جز پرامپت (دستورالعمل) شما را در عکس پیاده سازی کند. تا جایی که از آن جزییات آن حیرت خواهید کرد! با ما همراه باشید تا این ویژگی جدید را به طور کامل معرفی کنیم.

ساخت عکس با چت جی پی تی چه مزیتی دارد؟
پیش از این نیز مدلهای متعدد و قدرتمندی برای ساخت عکس با هوش مصنوعی وجود داشتند. بنابراین این سوال به وجود میآید که دست برتر این مدل چیست و چرا آنرا تحولی بزرگ در نظر گرفتهایم؟
برای پاسخ به این پرسش ابتدا اجازه بدهید تا نقل قول کوتاهی از سازنده آن داشته باشیم:
ما مدتهاست بر این باور بودیم که ساخت عکس باید یکی از قابلیتهای اصلی مدلهای زبانی ما باشد. به همین دلیل، ما پیشرفتهترین تولیدکننده تصویر خود را در مدل GPT‑4o ساختیم. نتیجه مدلی برای ساخت عکس با هوش مصنوعی شد که نه تنها زیبا، بلکه کاربردی است.
مدلهای قبلی، قادر بوده تا تصاویر خیره کننده و جذابی خلق کنند. اما در ساخت تصاویری کاربردی برای انتشار اطلاعات و جزییات با چالش مواجه بودند. از لوگو گرفته تا نمودار، تصاویر زمانی میتوانند معنای دقیقی را منتقل کنند که در آن زبان و علائم مشترکی به کار رفته شده باشد. به عبارت دیگر، زمانی که در تصاویر از نمادهای آشنا استفاده شده باشد، مفهوم آن را روشنتر ادراک میکنیم.
ویژگیهای کلیدی ساخت عکس با چت جی پی تی 4o
تا به اینجا، برخی مفاهیم کلی از این نوآوری جدید را بیان نمودیم. اکنون اجازه دهید تا به صورت جزیی و روشنتری و همراه با ذکر مثال تصویری، به شرح ویژگیهای ساخت عکس با چت جی پی تی بپردازیم.
جزییات دقیق واقع گرایانه
ساخت عکس با چت جی پی تی قادر است تا جزییات درخواست شما را به صورت کاملا واقع گرایانه و مو به مو اجرا کند. یک نمونه درخواست متنی و عکس ساخته شده را با هم میبینیم:
متن درخواست:
یک عکس عرضی از صفحه وایت برد براق که با تلفن همراه گرفته شده است. تخته وایت برد قرار گرفته در اتاق مشرف به یک پل آبی است. میدان دید نشانگر یک زن در حال نوشتن و با یک تیشرت ورزشی که روی آن لوگو بزرگ OpenAI حک شده است. دست خط طبیعی و کمی آشفته به نظر میرسد و ما بازتاب تصویر عکاس را میبینیم. “برای مشاهده ادامه درخواست کلیک کنید…”
متن روی وایت برد:
(left)
“Transfer between Modalities:
Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.
Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack
Cons:
* varying bit-rate across modalities
* compute not adaptive”
(Right)
“Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder”
On the bottom right of the board, she draws a diagram:
“tokens -> [transformer] -> [diffusion] -> pixels”

هماطور که میبینید، تصویر تولید شده بسیار طبیعی، دقیق و جز به جز بر اساس پرامپت داده شده است.
ساخت عکس با محوریت متنی
پیش از این، مدلهای هوش مصنوعی ساخت تصویر در ساخت عکس با محوریت متن، عملکرد نامناسبی داشتند. به گونهای که عملا کاربردی نبوده و یا نیاز به ویرایش اساسی داشتند. از نمونههای عکس با محوریت متنی میتوان ساخت پوستر با هوش مصنوعی و یا ساخت کارت ویزیت با هوش مصنوعی را نام برد.
در ادامه، یک نمونه درخواست ساخت منو رستوران با هوش مصنوعی چت جی پی تی را با هم مشاهده میکنیم.
متن درخواست:
من قصد دارم یک رستوران با حالت سنتی در شهر Marin افتتاح کنم. اسم رستوران Haein است. این رستوران بر روی غذاهای کُرهای با استفاده از مواد غذایی ارگانیک و تازه تمرکز دارد. همچنین، منو رستوران بر اساس غذاهای فصلی حالت چرخشی خواهد داشت. من میخواهم یک عکس طراحی کنی – یک منو با لیست غذاهایی که در ادامه خواهم گفت – سبک طراحی سنتی/روستایی باشد ولی در عین حال حس لوکس بودن منتقل کند.
همچنین لطفا برای هر آیتم در منو، یک طرح ظریف با استایل پیتر-خرگوشه (peter rabbit) تصویرسازی کن. دقت کن که همهی متن به خوبی در منو با پشت زمینه سفید آورده شود. “برای مشاهده ادامه درخواست کلیک کنید…”
آیتمهای منو:
(Top)
Doenjang Jjigae (Fermented Soybean Stew) – $۱۸ House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.
Galbi Jjim (Braised Short Ribs) – $۳۴ Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.
Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.
Bibimbap – $۱۹ Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.
Bossam (Heritage Pork Wraps) – $۲۸ Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.
(Bottom) Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $۱۲/glass
Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).
Hoddeok (Korean Sweet Pancake) – $۹ Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

تمامی جزییات گفته شده در دستورالعمل کاربر، بدون هیچگونه اشتباه قابل توجهی در منو لحاظ شده است. این گونه قابلیتها در طراحی بسیار کاربردی میباشد. (حاشیه سفید رنگ در وبسایت ما برای هماهنگی با ابعاد سایر تصاویر اضافه گردیده و در تصویر تولید شده توسط هوش مصنوعی وجود نداشت.)
ساخت تصاویر در چندین مرتبه با حفظ ساختار اصلی
یکی دیگر از ویژگیهای متفاوت و کاربردی ساخت عکس با چت جی پی تی، امکان ساخت یک تصویر به صورت مکرر میباشد. به دلیل اینکه چت جی پی تی به صورت چت و دارای حافظه میباشد این امکان میسر شده است.
تصور کنید برای داستان خود، یک کاراکتر تصویری با هوش مصنوعی ایجاد کردهاید. حال نیاز دارید تا در بخشهای متفاوت، همان کاراکتر به گونههای مختلفی ویرایش و تصویر سازی شود. ساخت عکس با چت جی پی تی این امکان را به وجود آورده تا بتوانید به تعداد دفعات دلخواه با ذکر نام کاراکتر و یا اپلود یکی از تصاویر قبلی، آن را با سبک مورد نظر خود ویرایش کنید؛ بدون آنکه طرح کلی دستخوش تغییر شود.
توان پردازش تعداد بالاتر متغیر
در حالی که سایر مدلها در پردازش بیشتر از حدود ۶ متغیر دچار چالش هستند، چت جی پی تی میتواند حتی تا ۲۰ متغیر را با حفظ جزییات پردازش کند. برای توضیح بیشتر اجازه دهید تا دستورالعمل سادهای را نشان دهیم.
متن درخواست:
یک عکس با نسبت مربع (۱*۱) که دارای ۴ ستون و ۴ ردیف شامل ۱۶ شی بر روی پشت زمینه سفید باشد. از سمت چپ به راست و بالا و پایین شروع کن. “برای مشاهده ادامه درخواست کلیک کنید…”
لیست اشیا:
- ستاره آبی
- مثلث قرمز
- مربع سبز
- دایره صورتی
- ساعت شنی نارنجی
- علامت بی نهایت بنفش
- پاپیون خال خالی سیاه و سفید
- رنگ آمیزی گرهای “۴۲”
- گربه نارنجی که کلاه بیسبال مشکی بر سر دارد
- نقشه با صندوقچه گنج
- یک جفت چشم بامزه
- ایموجی با شست بالا
- یک جفت قیچی
- یک زرافه آبی و سفید
- کلمه “OpenAI” با خط شکسته نوشته شده است
- رعد و برق رنگین کمان

مطابق توضیحات ارائه شده در دستورالعمل، چت جی پی تی ۱۶ شی را با رعایت جزییات تصویرسازی نمود. (عکس اصلی طبق دستورالعمل با ابعاد ۱*۱ ساخته شده و ما به دلیل حفظ نسبت تصاویر وبسایت، آنرا ویرایش کردیم.)
توانایی یادگیری با تصاویر کاربر
تصور کنید میخواهید تصویری بسازید که پیش از آن نمونه آن وجود نداشته است و یا به دلیل کمبود نمونه، هوش مصنوعی تصویرسازی مناسبی از ایده شما ارائه نکند. چت جی پی تی این قابلیت را دارد که تصاویر شما را دریافت و با استفاده از آنها خود را بهبود دهد. کافی است نمونه آنرا برای چت جی پی تی ارسال کنید و بخواهید از آنها برای ساخت ایده شما الگوبرداری کند.
سطح دانش عمومی بالا
از انجایی که چت جی پی تی دانش عمومی بالایی دارد و در بسیاری از بخشهای مختلف دارای اطلاعات فراوان است. ارتباط داخلی مستقیم میان چت جی پی تی و مدل ساخت تصویر، این امکان را فراهم میکند تا بدون ارائه اطلاعات اضافی از سمت کاربر، نتیجه دلخواه را ارائه کند.
ساخت عکس با چت جی پی تی با طرح استدیو جیبلی، انیمیشن دیزنی، ماینکرافت، gravity waterfall، جوجو، تبدیل عکس به نقاشی نگارگری ایرانی و … قابل انجام است. بدون آنکه نمونه ای از سمت کاربر ارائه شود. دلیل این مسئله سطح دانش وسیع چت جی پی تی در بخش های مختلف است. مسئلهای که در مدلهای دیگر، با این سطح از کیفیت مشاهده نمیشود.
سخن پایانی
مدل جدید ساخت تصویر که در چت جی پی تی ارائه شده است، در دنیا سر و صدای زیادی ایجاد کرده است. پیش از این نیز انواع مدل های هوش مصنوعی از جمله Midjourney و DALL-E توان ساخت تصاویر خیرهکنندهای داشتند. اما این مدل تازه، بنابر دلایلی که در این مقاله شرح داده شد، نقش متحولکنندهای در رشد هوش مصنوعی ساخت تصویر ایفا کرده است.
از کلیدیترین تفاوتها میتوان به توانایی ساخت تصاویر بر پایه متن (مانند پوستر، بنر، منو، کارت ویزیت و …) و اتصال مستقیم به پایگاه داده گسترده چت جی پی تی نام برد.
به نظر شما، با توجه به پیشرفت اخیر، آیا در حال حاضر شغل طراحان گرافیک و تصویرسازان در معرض خطر جایگزین شدن با هوش مصنوعی قرار دارد؟ نظر خود را با ما در این مقاله به اشتراک بگذارید.