ابزار نو هوش مصنوعی گوگل، Whisk: خلق تصاویر خلاقانه با ترکیب عکس ها
به گزارش دروازه پرشیا، گوگل ابزار هوش مصنوعی جدیدی به نام Whisk معرفی نموده است که به کاربران این امکان را می دهد تا به جای وارد کردن متن، عکس های مختلف را بارگذاری نموده و تصویری خلاقانه و ترکیبی دریافت نمایند. این ابزار به طور ویژه برای الهام گیری سریع طراحی شده و به جای تمرکز بر ویرایش دقیق، کاربران را به کشف و خلاقیت بصری تشویق می نماید.
Whisk؛ دریچه ای به خلاقیت بدون محدودیت
ابزار Whisk به کاربران اجازه می دهد تصاویر مختلفی را با موضوعات، صحنه ها و سبک های متفاوت انتخاب نموده و آن ها را در یک تصویر تازه و مجذوب نماینده ترکیب نمایند. یکی از ویژگی های برجسته این ابزار، انعطاف پذیری در ایجاد خروجی های مختلف است. کاربران می توانند به یاری Whisk، تصاویری خلاقانه از انواع مفاهیم مانند اسباب بازی های نرم (Plushie)، پین های مینایی (Enamel Pins) یا استیکرها فراوری نمایند. اگرچه امکان اضافه کردن متن برای شخصی سازی بیشتر وجود دارد، این گزینه اجباری نیست. حتی بدون متن نیز، Whisk قادر است تصاویر ترکیبی منحصربه فردی فراوری کند.
چگونه Whisk کار می نماید؟
Whisk بر پایه دو فناوری قدرتمند گوگل پیشرفته است: مدل هوش مصنوعی Gemini و Imagen 3. Gemini، که دسامبر 2023 معرفی گردید، قدرت تحلیلی بالایی برای فراوری توضیحات مختصر از تصاویر ارائه شده دارد. سپس این توضیحات به Imagen 3 داده می گردد، مدلی که با دقت و خلاقیت، تصویری تازه فراوری می نماید.
یکی از مجذوب نماینده ترین ویژگی های Whisk این است که بیشتر بر ماهیت تصاویر تمرکز دارد تا یک بازسازی دقیق. به این معنا که ممکن است خروجی نهایی تفاوت هایی مانند تغییر در قد، رنگ پوست یا مدل مو داشته باشد. این ویژگی به کاربران اجازه می دهد تصاویر خود را در سبک ها و قالب های متفاوت بازآفرینی نمایند.
چالشی برای رقبا؛ رقابت بزرگ در دنیای هوش مصنوعی
ابزار Whisk تنها یکی از محصولات تازه گوگل برای تقویت جایگاهش در رقابت بزرگ هوش مصنوعی است. شرکت های دیگری نظیر OpenAI نیز در حال توسعه ابزارهای مشابه هستند. به عنوان مثال، OpenAI اخیراً ابزار فراوری ویدیو با متن به نام Sora را معرفی نموده است که این رقابت را در زمینه محصولات مصرفی هوش مصنوعی بیشتر نموده است.
یکی از مدیران گوگل این ابزار را راهی برای ایجاد تجربه های سریع بصری می داند، نه یک ویرایشگر دقیق. Whisk برای کاربران معمولی طراحی شده تا در زمان کوتاه، ایده ها و خلاقیت های خود را در قالب تصاویر خلاقانه به نمایش بگذارند.
مراحل اولیه توسعه و دسترس پذیری
Whisk هنوز در مراحل اولیه توسعه قرار گرفته است و فعلاً تنها به وسیله وب سایت Google Labs در دسترس کاربران آمریکایی است. این ابزار بیشتر به عنوان یک تفریح خلاقانه و ابزاری برای الهام بخشی طراحی شده است و گوگل برنامه دارد با دریافت بازخورد کاربران، قابلیت های آن را در آینده توسعه دهد.
قدرت DeepMind پشت Whisk
توسعه Whisk بر اساس فناوری های پیشرفته آزمایشگاه هوش مصنوعی DeepMind، که گوگل در سال 2014 خریداری کرد، اجرا شده است. DeepMind که در زمینه پژوهش های پیشرفته هوش مصنوعی معروفیت دارد، اخیراً به علت کشفیات مهم در شیمی پروتئین پیروز به دریافت جایزه نوبل شده است. این نشان از قدرت علمی و فنی تیم پشت ابزار Whisk دارد.
آینده ابزارهای هوش مصنوعی در گوگل
گوگل با ابزارهایی مانند Whisk، نشان داده که برای سال 2025 برنامه های بزرگی در زمینه هوش مصنوعی دارد. از جمله این برنامه ها می توان به سیستم عامل اندروید تازهی که با همکاری سامسونگ و کوالکام طراحی شده اشاره نمود. رقابت در این حوزه تنها به ابزارهای بصری محدود نیست و محصولات تازه در زمینه های مختلف از جمله ویدیو و متن نیز در حال توسعه هستند.
منبع: یک پزشک