به گزارش ساوت چاینا مورنینگ پست، دپارتمان Seed بایتدنس که مسئول توسعه فناوریهای هوش مصنوعی این غول فناوری است، اعلام کرد Seedream 4.0 توانایی ویرایش تصویر قدرتمندی دارد و بهطور مستقیم با «نانو بنانا» (نام رسمی Gemini 2.5 Flash Image) وارد رقابت میشود.
مدل آمریکایی «نانو بنانا» از زمان انتشار در اواخر اوت، تحسین گستردهای برای دقت و ثبات در ویرایش تصویر کسب کرده است؛ حوزهای که تاکنون یکی از چالشهای اصلی مولدهای تصویری هوش مصنوعی بوده است.
بایتدنس مدعی است Seedream 4.0 در ارزیابی داخلی موسوم بهMagicBench از Gemini 2.5 Flash Image عملکرد بهتری در تولید و ویرایش تصویر، انطباق با دستورها، هماهنگی و زیباییشناسی داشته است، هرچند این نتایج بهصورت گزارش فنی رسمی منتشر نشدهاند.
مدلSeedream 4.0 یک «تحول چشمگیر» نسبت به ابزارهای قبلی بایتدنس محسوب میشود؛ زیرا توانایی تبدیل متن به تصویر Seedream 3.0 را با قابلیت ویرایش SeedEdit 3.0 ترکیب کرده، در حالیکه همچنان با همان قیمت قبلی یعنی ۳۰ دلار برای هر ۱۰۰۰ تولید تصویر عرضه میشود.
در حال حاضر Gemini 2.5 Flash Image در صدر رتبهبندی این موسسه هم برای تولید متن به تصویر و هم برای ویرایش تصویر قرار دارد. Seedream 3.0 اکنون در جایگاه پنجم تولید متن به تصویر و ششم در ویرایش تصویر قرار دارد.
بر اساس اعلام بایتدنس، Seedream 4.0 از معماری جدیدی استفاده میکند که سرعت پردازش تصویر خام را بیش از ۱۰ برابر افزایش میدهد و ابزار را بسیار سریعتر میسازد.
بازخوردها در فضای مجازی مثبت بوده و کاربران دقت بالای قابلیت ویرایش را ستودهاند؛ قابلیتی که امکان تغییر سریع تصاویر از طریق دستورهای متنی را فراهم میکند.
این ابزار برای کاربران داخلی از طریق اپلیکیشنهای Jimeng و Doubao AI و برای مشتریان سازمانی از طریق سرویس ابری رسمی بایتدنس یعنی Volcano Engine در دسترس قرار گرفته است.
روی پلتفرم Fal.ai، قیمت Seedream 4.0 برای هر تصویر تولیدی ۰.۰۳ دلار است، در حالی که Gemini 2.5 Flash Image با قیمت ۰.۰۳۹ دلار عرضه میشود.
چین بهسرعت در حال پذیرش ابزارهای تولید تصویر و ویدئو با هوش مصنوعی است و این حوزه به میدان رقابت غولهای فناوری بزرگی چون Kuaishou Technology (اپراتور ویدئوی کوتاه) و Tencent Holdings (غول بازیسازی) تبدیل شده است.
دولت چین نیز در اواخر سال ۲۰۲۳ با بهرسمیت شناختن حق نشر محتوای تولیدشده توسط هوش مصنوعی سیگنال حمایت خود از این حوزه را فرستاد، اما اخیراً برچسبگذاری اجباری برای چنین محتواهایی را نیز الزامی کرده است.
این حوزه در سالهای اخیر شاهد موجی از محصولات جدید با قیمتهای رقابتی بوده است، از جمله ابزار تولید ویدئوی Vidu که بهطور مشترک توسط دانشگاه شینهوا و استارتاپ Shengshu AI توسعه یافته است.
توسعهدهندگان Vidu قابلیت جدیدی به نامreference-to-image را بهطور بینالمللی عرضه کردند که میتواند بر اساس ترکیب حداکثر ۷ تصویر مرجع، تصویر تولید کند. قیمت این قابلیت ۰.۶۲ یوان (۰.۰۹ دلار) برای هر تصویر است، در حالیکه Gemini 2.5 Flash Image امکان استفاده از ۹ تصویر مرجع را میدهد.
منبع: scmp