ยักษ์ใหญ่แห่งวงการเทคโนโลยี Google ประกาศเปิดตัว “Whisk” เครื่องมือ AI สุดล้ำ ที่ให้ผู้ใช้สร้างสรรค์ภาพจากภาพได้ โดยไม่ต้องพิมพ์ข้อความสั่งงาน ชูจุดเด่น “สร้างแรงบันดาลใจ” เน้น “รวดเร็ว” และ “ใช้งานง่าย” หวังนำ Gemini ผงาดในตลาด AI แข่งกับ OpenAI
ในยุคที่เทคโนโลยี AI กำลังพัฒนาไปอย่างก้าวกระโดด Google ไม่รอช้า เปิดตัว “Whisk” เครื่องมือ AI ที่ให้ผู้ใช้สามารถสร้างสรรค์ภาพจากภาพได้อย่างง่ายดาย โดยไม่จำเป็นต้องพิมพ์ Text Prompt หรือข้อความสั่งงานให้ยุ่งยากอีกต่อไป เพียงแค่ลากและวางรูปภาพที่ต้องการลงในเครื่องมือ Whisk ก็จะทำการประมวลผลและสร้างภาพใหม่ขึ้นมาให้โดยอัตโนมัติ
Whisk ทำงานอย่างไร?
Whisk ถูกออกแบบมาให้เป็น “เครื่องมือสร้างสรรค์” ที่ช่วยจุดประกายไอเดียใหม่ ๆ ให้กับผู้ใช้งาน โดย Whisk ไม่ใช่ “โปรแกรมแต่งภาพแบบเดิม ๆ” แต่เป็นเครื่องมือ AI ที่เน้นความสนุกสนาน และความรวดเร็วในการสร้างภาพ มากกว่าการสร้างผลงานระดับมืออาชีพ
ผู้ใช้สามารถอัปโหลดภาพที่ต้องการ ไม่ว่าจะเป็นภาพบุคคล ภาพสถานที่ หรือภาพสไตล์ที่ต้องการ จากนั้น Whisk จะนำภาพทั้งหมดมาผสมผสานกัน และสร้างเป็นภาพใหม่ขึ้นมา ผู้ใช้สามารถ “รีมิกซ์” ภาพที่ได้ โดยการแก้ไข หรือสลับหมวดหมู่ของภาพที่ป้อนเข้าไป เพื่อสร้างภาพที่แตกต่างออกไป เช่น ตุ๊กตา เข็มกลัด หรือสติกเกอร์ นอกจากนี้ ผู้ใช้ยังสามารถเพิ่มข้อความกำกับ เพื่อควบคุมรายละเอียดของภาพ แต่ไม่ใช่สิ่งจำเป็นในการสร้างภาพ
เบื้องหลังการทำงานของ Whisk คือการผสานพลังของ Gemini AI ตัวหลักของ Google ที่เปิดตัวไปเมื่อเดือนธันวาคม 2023 เข้ากับ Imagen 3 ซึ่งเป็น AI สร้างภาพจากข้อความรุ่นล่าสุดจาก DeepMind เมื่อผู้ใช้อัปโหลดภาพ Gemini จะสร้างคำบรรยายภาพ และส่งต่อไปยัง Imagen 3 เพื่อสร้างภาพตามคำบรรยายนั้น ๆ กระบวนการนี้จะจับ “สาระสำคัญ” ของภาพต้นแบบ มากกว่าการคัดลอกแบบเป๊ะ ๆ ซึ่งทำให้สามารถรีมิกซ์ภาพได้หลากหลาย แต่ก็อาจทำให้ภาพที่ได้แตกต่างจากภาพต้นแบบบ้างเล็กน้อย เช่น ความสูง ทรงผม หรือสีผิว ซึ่ง Google ระบุว่าเป็นข้อจำกัดที่เกิดจากการตีความของ AI
มุ่งสู่ผู้นำด้าน AI
การเปิดตัว Whisk ของ Google ในครั้งนี้ ถือเป็นอีกหนึ่งก้าวสำคัญ ในการแข่งขันด้าน AI กับ OpenAI ซึ่งก่อนหน้านี้ได้เปิดตัว Dall-E เครื่องมือสร้างภาพจากข้อความ ที่ได้รับความนิยมอย่างล้นหลาม และ Sora เครื่องมือสร้างวิดีโอจากข้อความที่เพิ่งเปิดตัวไปล่าสุด แสดงให้เห็นถึงความมุ่งมั่นของ Google ในการเป็นผู้นำด้าน AI และการนำเสนอผลิตภัณฑ์ที่ตอบโจทย์ผู้ใช้งานในยุคปัจจุบัน
Dan Ives กรรมการผู้จัดการ และนักวิเคราะห์หลักทรัพย์อาวุโสของ Wedbush Securities มองว่า Whisk เป็นการ “โชว์ศักยภาพ” อีกครั้งของ Google ในด้าน AI โดย DeepMind ถือเป็นทรัพย์สินสำคัญของ Google และผลิตภัณฑ์ AI ต่างๆ เป็นส่วนหนึ่งของ “ขุมทรัพย์” ผลิตภัณฑ์ใหม่ ที่ Google วางแผนจะเปิดตัวในปี 2025 ซึ่งรวมถึงระบบปฏิบัติการ Android รุ่นใหม่ ที่พัฒนาร่วมกับ Samsung และ Qualcomm ด้วย
Whisk ใช้งานอย่างไร?
สำหรับผู้ที่สนใจ สามารถทดลองใช้ Whisk ได้แล้ววันนี้ ผ่านเว็บไซต์ Google Labs (สำหรับผู้ใช้ในสหรัฐอเมริกา) โดยมีขั้นตอนง่าย ๆ ดังนี้
- ลงชื่อเข้าใช้เว็บไซต์ Whisk ด้วยบัญชี Google
- เลือกเทมเพลต เช่น สติกเกอร์ เข็มกลัด หรือตุ๊กตา ซึ่ง Whisk จะมีตัวเลือกให้เลือกมากมาย หรือจะอัปโหลดภาพของตัวเองก็ได้
- เลือกภาพที่ต้องการใช้ หรืออัปโหลดภาพของตัวเอง โดยสามารถเลือกได้หลายภาพ เพื่อให้ AI นำไปประมวลผล
- รอ Whisk สร้างภาพ ซึ่งจะใช้เวลาไม่นาน และเลือกรูปแบบที่ชอบ จากตัวเลือกที่ AI สร้างขึ้น
- ดาวน์โหลดภาพ หรือปรับแต่งเพิ่มเติมได้ตามต้องการ โดยสามารถเพิ่มข้อความ หรือแก้ไขภาพที่ AI สร้างขึ้นได้
ข้อดี
- ใช้งานง่าย ไม่ต้องพิมพ์ Text Prompt ให้ยุ่งยาก
- สร้างภาพได้รวดเร็ว ประหยัดเวลา
- มีเทมเพลตให้เลือกหลากหลาย หรือจะสร้างเองก็ได้
- สามารถ “รีมิกซ์” ภาพได้ตามต้องการ เพิ่มความคิดสร้างสรรค์
- เป็นเครื่องมือสร้างแรงบันดาลใจ จุดประกายไอเดียใหม่ ๆ
ข้อจำกัด
- ยังอยู่ในช่วงเริ่มต้นของการพัฒนา อาจมีข้อผิดพลาดเกิดขึ้นได้
- อาจสร้างภาพที่แตกต่างจากภาพต้นแบบ เนื่องจาก AI มีการตีความ
- เปิดให้บริการเฉพาะในสหรัฐอเมริกา ผู้ใช้ในประเทศอื่น ๆ ยังไม่สามารถใช้งานได้
แม้ Whisk จะยังอยู่ในช่วงเริ่มต้นของการพัฒนา แต่ด้วยศักยภาพของ Gemini และ Imagen 3 ที่เป็นหัวใจสำคัญ เชื่อว่า Whisk จะกลายเป็นเครื่องมือ AI ที่ได้รับความนิยม และมีบทบาทสำคัญในการสร้างสรรค์ผลงาน และต่อยอดไอเดียใหม่ ๆ ให้กับผู้คนในอนาคต โดยเฉพาะอย่างยิ่งในวงการศิลปะ การออกแบบ และการโฆษณา ที่ต้องการความรวดเร็ว และความคิดสร้างสรรค์
#Whisk #GoogleAI #Gemini #Imagen3 #AIสร้างภาพ #AI #GoogleLabs #DeepMind #เทคโนโลยี
ที่มา edition.cnn.com , zdnet.com , petapixel.com
–Meta ยกระดับแว่นตาอัจฉริยะด้วย AI, แปลภาษาเรียลไทม์ และ ฟีเจอร์ Shazam