آنچه باید در مورد ابزار جدید Whisk AI گوگل بدانید


هوش مصنوعی نحوه ایجاد و تعامل ما با محتوای دیجیتال و آخرین پیشنهاد Google را تغییر می‌دهد.هوش مصنوعی را هم بزنید، نمونه بارز این تکامل است. برخلاف ابزارهای سنتی هوش مصنوعی که به شدت به آنها متکی هستند درخواست های مبتنی بر متن، Whisk به کاربران اجازه می دهد تا با استفاده از عکس ها به عنوان ورودی، تصاویر منحصر به فردی تولید کنند. این ابزار آزمایشی که در حال حاضر از طریق آزمایشگاه‌های Google در ایالات متحده در دسترس است، از فناوری‌های پیشرفته استفاده می‌کند هوش مصنوعی جمینی و Imagen 3 برای دسترسی بیشتر به تولید تصاویر خلاقانه. در اینجا نگاهی عمیق به هوش مصنوعی Whisk، ویژگی‌های آن و نحوه عملکرد آن داریم.

Whisk AI چیست؟

Whisk AI - یک بنر رنگارنگ و خلاقانه برای ایجاد تصویر، با تصاویر متنوع از جمله یک ماهی، یک ابرقهرمان و یک زن مسن که همگی با استفاده از هوش مصنوعی Whisk ایجاد شده‌اند.
منبع: https://labs.google/fx/tools/whisk

Whisk AI نوآورانه گوگل است ابزار مولد هوش مصنوعی برای خلاقیت بصری طراحی شده است. این به کاربران اجازه می دهد تا تصاویر را برای تعریف موضوع، صحنه و سبک یک تصویر جدید آپلود کنند. به جای ایجاد اعلان‌های متنی دقیق، کاربران می‌توانند به سادگی عکس‌ها را در پلتفرم بکشند و رها کنند. سپس این تصاویر توسط Gemini AI تجزیه و تحلیل می‌شوند، که شرح‌های توصیفی را ایجاد می‌کند که به Imagen 3 داده می‌شود تا تصاویر کاملاً جدیدی تولید کند¹’²’3.

این ابزار برای آزمایش سریع به جای ویرایش دقیق طراحی شده است. چه در حال ایجاد طرح‌های سفارشی برای برچسب‌ها، سنجاق‌های میناکاری یا اسباب‌بازی‌های مخمل‌دار هستید، Whisk راهی سرگرم‌کننده برای کشف ایده‌های بصری فراهم می‌کند²’⁴.

Whisk AI چگونه کار می کند؟

Whisk AI - یک پلتفرم بازیگوش و خلاقانه که ابزاری برای ساخت مخمل خواب دار را به نمایش می گذارد و دارای یک مخمل خواب دار دایناسور زیبا و فضایی برای اضافه کردن تصویر خود است.
منبع: https://labs.google/

Whisk AI از طریق یک فرآیند دو مرحله ای بدون درز عمل می کند:

1. تجزیه و تحلیل تصویر با هوش مصنوعی Gemini
هنگامی که کاربر تصویری را آپلود می کند، هوش مصنوعی Gemini آن را تجزیه و تحلیل می کند و زیرنویس های دقیقی ایجاد می کند که ویژگی های کلیدی آن را توصیف می کند. این زیرنویس‌ها «ماهیت» تصویر آپلود شده را به‌جای تکرار دقیقاً¹’5 نشان می‌دهند.

2. تولید تصویر با Imagen 3
زیرنویس های ایجاد شده توسط Gemini توسط Imagen 3، مدل پیشرفته تولید تصویر گوگل، پردازش می شوند. Imagen 3 این توضیحات را ترکیب می کند تا تصاویر جدیدی ایجاد کند که عناصر عکس های آپلود شده را با هم ترکیب می کند و در عین حال تغییرات خلاقانه در جزئیاتی مانند رنگ ها یا بافت ها را ارائه می دهد.

این ترکیب از فناوری‌ها تضمین می‌کند که Whisk نتایج بصری قانع‌کننده‌ای تولید می‌کند و در عین حال برای کاربران بدون تخصص فنی2’7 بصری باقی می‌ماند.

ویژگی های کلیدی Whisk AI

Whisk AI - یک دونات صورتی با اسپرینکلز، طراحی بازیگوش و پر جنب و جوش.
منبع: https://blog.google/

1. درخواست های مبتنی بر تصویر

برخلاف بسیاری از ابزارهای مولد هوش مصنوعی که به ورودی‌های متنی متکی هستند، Whisk از عکس‌ها به عنوان درخواست استفاده می‌کند. کاربران می توانند چندین تصویر را برای تعریف جنبه های مختلف خروجی مورد نظر آپلود کنند – مانند موضوع (به عنوان مثال، یک شخص یا شی)، صحنه (به عنوان مثال، پس زمینه)، و سبک (مثلاً، فیلترهای هنری). این باعث می‌شود که ابزار برای کسانی که با ایجاد توضیحات متنی دقیق آشنا نیستند، نزدیک‌تر شود.

2. زیرنویس‌های مبتنی بر Gemini

هوش مصنوعی Gemini با ایجاد خودکار شرح‌های توصیفی برای تصاویر آپلود شده، نقش مهمی در عملکرد Whisk بازی می‌کند. این زیرنویس‌ها به‌عنوان پایه‌ای برای فرآیند خلاقانه Imagen 3 عمل می‌کنند و تضمین می‌کنند که هر تصویر تولید شده ماهیت عکس‌های ورودی4’5 را منعکس می‌کند.

3. Imagen 3 ادغام

Imagen 3 جدیدترین مدل تبدیل متن به تصویر گوگل است و ستون فقرات قابلیت های تولید تصویر Whisk را تشکیل می دهد. زیرنویس‌های Gemini را پردازش می‌کند تا تصاویری با کیفیت بالا تولید کند که ورودی‌های کاربر را به‌طور یکپارچه ترکیب می‌کند و در عین حال فضایی را برای تفسیر خلاقانه فراهم می‌کند⁶.

4. قابلیت های ریمیکس

Whisk با اجازه دادن به کاربران برای ترکیب مجدد آثار خود، آزمایش را تشویق می کند. با تنظیم ورودی‌ها یا افزودن پیام‌های متنی اختیاری، کاربران می‌توانند ترکیب‌های مختلفی از موضوعات، صحنه‌ها و سبک‌ها را برای تولید خروجی‌های متنوع مانند هنر دیجیتال یا کالای سفارشی³’7 کاوش کنند.

5. رابط کاربر پسند

رابط کشیدن و رها کردن Whisk فرآیند خلاقیت را ساده می کند. برای کاربرانی که تصاویر خود را ندارند، Whisk گزینه ای برای استفاده ارائه می دهد AI تولید شده است پیشنهادات به عنوان نقطه شروع⁵’ 7.

چه چیزی می توانید با هوش مصنوعی Whisk ایجاد کنید؟

Whisk AI - یک گربه ارغوانی جادویی با چشمان درخشان که روی یک گل سوسن در یک محیط آرام آب، احاطه شده توسط طبیعت، خوابیده است.
منبع: https://blog.google/

Whisk AI طیف وسیعی از نیازهای خلاقانه را برآورده می کند:

  • کالای سفارشی: با ترکیب عناصر بصری مختلف، آیتم های منحصر به فردی مانند سنجاق مینا یا اسباب بازی های مخمل خواب دار را طراحی کنید.
  • هنر دیجیتال: با ترکیب مجدد عکس‌های موجود با فیلترها یا افکت‌های جدید، سبک‌های هنری را آزمایش کنید.
  • نمونه سازی سریع: مفاهیم بصری سریع را بدون نیاز به مهارت های طراحی پیشرفته ایجاد کنید¹’²’³.

درحالی‌که Whisk در تولید سریع خروجی‌های خلاق عالی است، اما برای کارهایی که به دقت کامل پیکسلی یا ویرایش حرفه‌ای نیاز دارند، در نظر گرفته نشده است.

محدودیت های Whisk AI

با وجود ویژگی‌های نوآورانه، Whisk دارای محدودیت‌های خاصی است:

  • عدم دقت: تصاویر تولید شده ممکن است از نظر جزئیاتی مانند تناسب یا رنگ پوست از انتظارات کاربر منحرف شوند.
  • طبیعت تجربی: Whisk به عنوان یک ابزار آزمایشی که فقط از طریق Google Labs در ایالات متحده در دسترس است، هنوز در مرحله توسعه است و ممکن است هنوز همه قابلیت‌های موجود در پلتفرم‌های بالغ‌تر را ارائه ندهد²’5.
  • برای ویرایش حرفه ای مناسب نیست: طراحی شده برای کاوش سریع به جای تنظیمات دقیق، Whisk برای سازندگان معمولی مناسب تر است تا طراحان حرفه ای³’6.

Whisk چگونه با ابزارهای دیگر مقایسه می شود؟

تصویری چشمگیر از زنی که بدنش در حال تکه تکه شدن به قطعات سرامیکی است که دگرگونی و شکنندگی را به تصویر می کشد.
منبع: https://openai.com/index/dall-e-3/

Whisk از رقبایی مانند OpenAI متمایز است DALL-E یا Adobe Firefly به دلیل تمرکز آن بر اعلان های مبتنی بر عکس به جای موارد مبتنی بر متن. این رویکرد با اجازه دادن به تصاویر به جای تکیه بر ورودی های متنی دقیق¹’²’3، فرآیند خلاقانه را ساده می کند.

علاوه بر این، ادغام آن با Imagen 3 به آن برتری در تولید سریع خروجی های با کیفیت می دهد. با این حال، فقدان ویژگی‌های ویرایش پیشرفته آن به این معنی است که بیشتر به سراغ سازندگان معمولی می‌رود که به دنبال الهام هستند تا حرفه‌ای‌هایی که به دنبال نتایج دقیق‌تر هستند⁵’7.

نتیجه گیری

هوش مصنوعی Whisk گوگل یک گام مهم به جلو در دسترسی بیشتر و شهودی‌تر کردن ابزارهای هوش مصنوعی مولد است. Whisk با استفاده از زیرنویس‌های مبتنی بر Gemini و ادغام Imagen 3، راهی سریع و سرگرم‌کننده برای آزمایش ایده‌های بصری با استفاده از اعلان‌های مبتنی بر عکس به کاربران ارائه می‌دهد. در حالی که از نظر دقت و در دسترس بودن محدودیت هایی دارد، رویکرد منحصر به فرد آن آن را از سایر ابزارهای موجود در بازار متمایز می کند.

چه در حال طراحی کالاهای سفارشی باشید و چه بدون نیاز به مهارت‌ها یا نرم‌افزار پیشرفته، فرصت‌های خلاقانه را بررسی می‌کنید، Whisk یک پلتفرم جذاب برای آزمایش‌های بصری فراهم می‌کند. همانطور که Google به اصلاح این ابزار بر اساس بازخورد کاربران ادامه می‌دهد، می‌توانیم انتظار پیشرفت‌های هیجان‌انگیزتری را در آینده داشته باشیم¹’²’3.


پست آنچه باید در مورد ابزار جدید Whisk AI گوگل بدانید اول ظاهر شد ژورنال AI GPT.



منبع:aigptjournal.com