ทำไมรูปที่เจนด้วย AI ถึงดูปลอม
90% ของคนที่เพิ่งเริ่ม Gen รูป พิมพ์ prompt แบบนี้ครับ
"ขอรูปผู้หญิงสวยๆ สไตล์เกาหลี ยิ้มน่ารักๆ"
.
ได้รูปสวยแหละ แต่ทั่วๆ ไป ไม่แตกต่าง
คนดูออกว่า AI
.
นั้นเป็นเพราะ prompt คุณมันกลางๆ
ผลลัพธ์มันก็เลยออกมากลางๆ ทั่วไป
คนเขาจับได้อยู่แล้วว่า AI ชัวร์ และ มันไม่ได้น่าสนใจเลย
เพราะภาพแบบนี้เต็ม Social จนเป็น Noise ไปแล้ว
จุดที่หลายคนพลาด: ต่อให้คุณจะเปลี่ยนไปใช้โมเดลที่ดีกว่าเดิม แต่ถ้าพื้นฐาน prompt ไม่ดี ก็จะได้ของที่เป็น Noise กลับมาอยู่ดีครับ ปัญหามันอยู่ที่ prompt ไม่ใช่โมเดล
S.C.E.N.E. Framework คืออะไร
ผมมี framework นึงชื่อ S.C.E.N.E. เป็นโครงสร้าง prompt 5 ชั้น
ที่ช่วยให้คุณเริ่ม Gen ภาพ ได้ดีกว่าคน 99%
.
หลักการมันง่ายมากครับ
มันบังคับให้คุณอธิบายภาพในหัวให้ครบ
จนคนที่ไม่เคยเห็นภาพนั้นเลย วาดตามคำของคุณได้
พอ prompt ละเอียดพอ AI มันก็ไม่ต้องมั่วเดาส่วนที่ขาด
ผลลัพธ์เลยออกมาเฉพาะตัว และ ดูสมจริง
เอาไปทำตามได้เลย 5 ชั้นมีดังนี้
| ชั้น | ตอบคำถามว่า | ใส่อะไรลงไป |
|---|---|---|
| S : Subject | ใคร / อะไรคือตัวเอกของภาพ | อายุ เชื้อชาติ รูปร่าง สีหน้า เสื้อผ้า ท่าทาง การกระทำ |
| C : Context | ที่ไหน เมื่อไหร่ บรรยากาศแบบไหน | สถานที่ ช่วงเวลาของวัน สภาพอากาศ ฤดูกาล อารมณ์ของภาพ |
| E : Execution | กล้องเห็นมันยังไง | กล้อง เลนส์ (ระยะ + รูรับแสง) การจัดเฟรม มุมกล้อง ระยะชัด ทิศทางและคุณภาพแสง |
| N : Nuance | texture ที่ทำให้ดูโปร | ฟิล์มเกรน โทนสี การอ้างอิงสไตล์ (ช่างภาพ/ผู้กำกับ/ยุค) ความเก่าของพื้นผิว |
| E : Extras | ค่าเฉพาะของแต่ละโมเดล | aspect ratio, stylize, chaos, seed, negative prompt, การถ่วงน้ำหนัก |
สองชั้นแรก (Subject กับ Context) ใช้ได้กับทุกโมเดลครับ
ส่วนชั้น Extras ตัวสุดท้าย คือที่ที่คุณพูดภาษาเฉพาะของแต่ละโมเดล (Midjourney, ChatGPT Image, อื่นๆ)
วิธีเช็คว่า prompt ของคุณดีพอหรือยัง
ก่อนกด Gen ลองเทส prompt ด้วย 2 คำถามนี้ครับ
.
[1] The ghost test
คนที่ไม่เคยเห็นภาพในหัวคุณ จะวาดตามคำของคุณได้ไหม?
ถ้ายัง แปลว่ายังอธิบายไม่ครบ
[2] The minus-one test
ลองตัดออก 1 ชั้น แล้วดูว่าภาพแย่ลงชัดเจนไหม?
ถ้าตัดแล้วไม่ต่าง แปลว่าชั้นนั้นมันเป็นแค่คำฟุ่มเฟือย ไม่ต้องใส่ก็ได้
ตัวอย่างเทียบ prompt กลางๆ กับ S.C.E.N.E.
ลองดูความต่างของ prompt 2 แบบ สำหรับภาพเดียวกันครับ
.
❌ prompt กลางๆ
"ผู้หญิงสวยในเมืองตอนกลางคืน, cinematic, 4k"
.
✅ prompt แบบ S.C.E.N.E.
- [S] ผู้หญิงเมดิเตอร์เรเนียน อายุ 32 ใส่เทรนช์โค้ตสีเบจ ยืนพิงกำแพงอิฐ
- [C] ถนนหินกรวดในลิสบอนช่วงพลบค่ำ ฝนปรอย อารมณ์เหงาๆ
- [E] ฟิล์ม 35mm, เลนส์ 50mm f/1.8, medium shot, แสงด้านข้างโทนอุ่น
- [N] Kodak Portra 400, โทน teal-amber, เกรดสีสไตล์ Wong Kar-wai
- [E]
--ar 3:2 --style raw --s 250
รูปในภาพข้างบนคือ subject คนเดียวกันเป๊ะ
ซ้าย = prompt 6 คำ / ขวา = S.C.E.N.E. 5 ชั้น
โมเดลตัวเดียวกัน แต่คนละโลกเลยครับ
สรุปแบบ Dewviko AI
รูปที่ดู สมจริง ไม่ได้มาจากโมเดลแพงกว่า
มันมาจากคนที่มี Framework การสั่ง AI ที่ดีกว่าเฉยๆ ครับ
.
ลองเอา S.C.E.N.E. ไปวางโครง prompt ครั้งหน้า
แล้วคุณจะเห็นความต่างตั้งแต่ภาพแรกเลย 555
Dewviko