Các mô hình AI tạo ảnh đang phát triển với tốc độ chóng mặt, nhưng việc chúng tạo ra những hình ảnh “khó hiểu” vẫn là điều thường thấy. Nhiều người có xu hướng đổ lỗi cho các prompt do con người đưa ra, vì vậy chúng tôi quyết định thực hiện một thử nghiệm để xem liệu AI có dễ dàng hoạt động hơn khi chỉ sử dụng các prompt do chính AI tạo ra hay không. Đây là một khám phá chuyên sâu về khả năng và hạn chế của công nghệ AI tạo ảnh hiện đại.
Quy Trình Thử Nghiệm: AI Tự Viết Lệnh, AI Tự Tạo Ảnh
Khi các mô hình AI tạo hình ảnh xuất hiện cách đây vài năm, nhiều người tin rằng đây sẽ là dấu chấm hết cho những người làm trong lĩnh vực truyền thông thị giác. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, nhưng các hình ảnh AI thường rơi vào loại khó đoán, đặc biệt nếu bạn yêu cầu những thứ phức tạp hơn (ví dụ, AI thường gặp khó khăn với việc tạo ra bàn tay).
Bạn có thể đổ lỗi cho chính các mô hình AI hoặc do kỹ năng tạo prompt không nhất quán của con người. Cách tự nhiên nhất để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có cho kết quả tốt hơn nếu bạn nhập các prompt được tạo sẵn hay không.
Để kiểm tra giả thuyết này, chúng tôi sẽ sử dụng Gemini để tạo ra một loạt các prompt mà không đề cập trực tiếp đến tên của đối tượng hoặc bức ảnh chúng tôi muốn tạo. Điều này sẽ giúp kiểm tra mức độ “đọc hiểu” của AI đối với các hướng dẫn. Tất nhiên, vẫn có khả năng mô hình sẽ lấy cảm hứng mạnh mẽ từ dữ liệu mà nó đã được đào tạo (đặc biệt khi tái tạo các bức ảnh hiện có), nhưng đây là một phần của thử nghiệm.
Công cụ chúng tôi chọn để tạo hình ảnh là Bing Image Creator, dựa trên DALL-E 3. Để thử thách mô hình này, chúng tôi sẽ bắt đầu với các hình dạng đơn giản, sau đó chuyển sang các hình ảnh phức tạp hơn khi thử nghiệm tiếp diễn. Nếu bạn đã sử dụng ChatGPT và các công cụ tương tự, bạn sẽ biết các câu trả lời của chúng có thể dư thừa như thế nào, và các prompt mà Gemini đưa ra cho chúng tôi trong lần chạy thử cũng không khác biệt. Do đó, chúng tôi quyết định giới hạn mình ở 500 ký tự để giữ các prompt nhất quán.
AI Giải Quyết Hình Khối Đơn Giản: Thành Công Nhưng Có Bất Ngờ?
Hãy bắt đầu với một hình vuông đơn giản. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không gọi tên nó, và nó đã đưa ra đoạn mô tả sau:
“Một hình có bốn cạnh với tất cả các cạnh có độ dài bằng nhau. Mỗi góc bên trong có số đo chính xác 90 độ. Đó là một tứ giác đều với các cạnh đối song song.”
Sau khi đưa mô tả này vào DALL-E, chúng tôi nhận được kết quả:
Hình ảnh AI tạo ra một hình vuông với các đường nét hình học sắc sảo
Đúng là một hình vuông, mặc dù có vẻ như nó đã đi quá xa với hình học. Đã đến lúc tăng độ khó, vì vậy chúng tôi yêu cầu AI mô tả một hình lập phương.
“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có độ dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”
Kết quả thật đáng ngạc nhiên:
Hình ảnh AI tạo ra khối lập phương Rubik trên nền trắng, thể hiện sự nhầm lẫn của AI
Bạn còn nhớ chúng tôi đã nói gì về các mô hình AI khó đoán không? Vâng, ở đây, DALL-E đã tạo ra một hình lập phương, nhưng nó hơi “lú lẫn” và biến nó thành khối Rubik. Mặc dù tránh dùng từ chính xác, AI vẫn mắc lỗi một phần – có lẽ là do sự phổ biến của món đồ chơi trí tuệ này. Điều này cho thấy ngay cả với prompt do AI tạo, kết quả vẫn có thể không như mong đợi.
AI Với Ảnh Có Chủ Thể Con Người: Khi AI Giải Mã Nghệ Thuật Kinh Điển
Tình huống khối lập phương cho thấy ngay cả với một mô tả “khách quan” chi tiết, AI vẫn có thể hiểu sai các hướng dẫn khá trực tiếp. Vậy, hãy xem nó hoạt động tốt như thế nào với các mô tả do AI tạo ra về những hình ảnh cổ điển, chẳng hạn như bức ảnh “Migrant Mother” của Dorothea Lange. Đây là bản gốc:
Ảnh gốc "Migrant Mother" của Dorothea Lange, khắc họa người mẹ và các con trong cuộc Đại Khủng hoảng
“Một người phụ nữ, gương mặt hằn rõ sự lo lắng, nhìn ra ngoài khung hình. Bà được bao quanh bởi các con của mình, khuôn mặt chúng bị che khuất hoặc quay đi. Bàn tay bà đặt gần mặt, truyền tải sự kiệt sức và lo lắng. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn cũ, và tổng thể bố cục u ám, nhấn mạnh gánh nặng hoàn cảnh của bà.”
Đây là cách DALL-E diễn giải bức ảnh nổi tiếng này:
Hình ảnh AI tạo ra lấy cảm hứng từ "Migrant Mother", với một người phụ nữ và trẻ em
Khá giống! Không hoàn toàn chính xác, vì DALL-E rõ ràng đã bỏ qua phần “được bao quanh bởi các con của bà, khuôn mặt chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ lại đảm nhiệm vai trò này.
Hãy thử một thứ phức tạp hơn. Có lẽ bạn đã từng thấy bức ảnh biểu tượng “Lunch atop a Skyscraper”:
Bức ảnh đen trắng biểu tượng "Lunch atop a Skyscraper" chụp những công nhân đang ăn trưa trên dầm thép
“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không. Họ ăn trưa, chân lủng lẳng. Dầm được treo lơ lửng trên một thành phố rộng lớn. Những người đàn ông có vẻ thư thái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh tượng được chụp từ một góc hơi thấp, nhấn mạnh chiều cao.”
Prompt tuyệt vời này đã mang lại kết quả tuyệt vời:
Hình ảnh AI tạo ra mô phỏng lại bức ảnh "Lunch atop a Skyscraper" với các công nhân ngồi trên dầm
Khi bạn bỏ qua các dấu hiệu kinh điển của hình ảnh AI (như những bát giống hệt nhau và các chủ thể bị “copy và paste”), thì nó gần như kỳ lạ về bố cục và cảm giác tổng thể. Điều này không ngạc nhiên – không chỉ bức ảnh này cực kỳ phổ biến mà nó còn thuộc phạm vi công cộng, vì vậy chúng tôi nghi ngờ rằng DALL-E đã “tiêu hóa” nội dung của nó trong quá trình đào tạo.
Khi AI Chạm Trán Hình Ảnh Phức Tạp và Trừu Tượng: Thử Thách Cuối Cùng
Vì đây là “bài kiểm tra” cuối cùng trong thử nghiệm, chúng tôi sẽ “dốc hết sức”! Mặc dù AI khá giỏi với các chủ thể con người, nhưng nó thường gặp khó khăn khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy, còn bức ảnh biểu tượng “Earthrise” chụp từ quỹ đạo mặt trăng của Apollo 8 thì sao?
Ảnh "Earthrise" nổi tiếng chụp Trái Đất mọc từ quỹ đạo Mặt Trăng bởi Apollo 8
“Một hình cầu được chiếu sáng một phần lơ lửng trong không gian tối. Một hình cầu nhỏ hơn, tông màu xám, mọc lên phía trên đường chân trời của nó. Hình cầu lớn hơn hiển thị các mảng màu xanh và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai hình cầu và bóng tối nhấn mạnh sự mong manh và cô lập của hình cầu nhỏ hơn, đang mọc lên.”
Gemini thực sự đã “đánh rơi quả bóng” (hay đúng hơn là hình cầu) với mô tả này. Xem xét việc mô tả quá trừu tượng, chúng tôi đã thêm cụm từ “chụp từ quỹ đạo mặt trăng gần” vào prompt, nhưng điều đó cũng không giúp ích nhiều:
Hình ảnh AI tạo ra Trái Đất và Mặt Trăng, không giống bức ảnh "Earthrise" gốc
Đây là một bìa album progressive rock tuyệt vời, nhưng nó không liên quan gì đến “Earthrise”. Để kết thúc thử nghiệm, chúng tôi đã chọn bức ảnh ít được biết đến nhất cho đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:
Bức ảnh đen trắng "Armco Steel" của Edward Weston, khắc họa khung cảnh công nghiệp với các bồn kim loại
“Một loạt các bể công nghiệp bằng kim loại, tròn, lấp đầy khung hình. Các hình dạng của chúng trơn tru và phình ra, tạo thành một mẫu lặp lại. Ánh sáng phản chiếu trên bề mặt, làm nổi bật các hình dạng cong của chúng và tạo cảm giác về thể tích. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình thức và kết cấu hơn là chức năng của chúng. Cảnh tượng trần trụi và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”
Có vẻ như là một prompt tốt, hãy xem DALL-E có đồng ý không:
Hình ảnh AI tạo ra các ống trụ công nghiệp xếp thẳng hàng, thể hiện độ khó khi tái tạo cảnh phức tạp
Mặc dù chúng tôi đánh giá cao những rung cảm khoa học viễn tưởng, nhưng nó không giống chút nào với bản gốc. Chúng tôi không muốn kết thúc thử nghiệm với một thất bại thảm hại, vì vậy chúng tôi quyết định giúp máy bằng cách thêm thuật ngữ “1920s photograph” (bức ảnh thập niên 1920) vào cuối prompt.
Suy nghĩ của chúng tôi là thuật ngữ cụ thể đó có thể giúp làm rõ bức ảnh chúng tôi đang đề cập. Thật không may, AI lại làm chúng tôi thất vọng một lần nữa và tạo ra một bìa album prog rock khác:
Ảnh AI tạo ra các hình trụ lớn, tròn ở phía trên, không giống ảnh "Armco Steel" gốc
Kết Luận: AI Tạo Ảnh Vẫn Là Một Ẩn Số Khó Lường
Kết quả của thử nghiệm này thật thú vị, và kết luận chúng ta có thể rút ra là AI tạo ảnh cực kỳ khó đoán, đặc biệt với các khái niệm trừu tượng. Dù prompt được tạo bởi AI và chính xác, hay do con người tạo ra và không hoàn hảo – kết quả dường như vẫn ngẫu nhiên.
Vì vậy, lần tới khi bạn cố gắng tự trách mình và khả năng tạo prompt của mình, hãy nhớ rằng kết quả có lẽ vẫn sẽ tương tự ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau. Để tìm hiểu sâu hơn về công nghệ AI tạo ảnh và các ứng dụng thực tế khác, đừng quên theo dõi các bài viết tiếp theo trên thuthuathot.com!