OpenAI vừa tung ra một bản nâng cấp khủng khiếp cho khả năng tạo hình ảnh của ChatGPT, và đây thực sự là một khoảnh khắc khiến bạn phải chớp mắt, nhìn lại rồi bắt đầu nghi ngờ thực tại. Với tư cách là một chuyên gia công nghệ tại Thuthuathot.com, chúng tôi sẽ không lãng phí thời gian của bạn với những con số, kích thước mô hình hay số giờ GPU mà mô hình mới tiêu tốn. Thay vào đó, chúng tôi sẽ cho bạn thấy chính xác những gì công cụ này có thể làm – và cách nó vượt trội so với mô hình DALL-E cũ.
Bài viết này sẽ đi sâu vào so sánh trực quan, minh bạch giữa hai công cụ tạo ảnh AI hàng đầu từ OpenAI, khám phá những cải tiến vượt bậc của ChatGPT 4o qua hàng loạt các bài kiểm tra thực tế. Mục tiêu của chúng tôi là cung cấp cho độc giả cái nhìn toàn diện và chính xác nhất về tiềm năng của công nghệ AI tạo sinh hình ảnh, giúp bạn hiểu rõ hơn về công cụ này và ứng dụng vào công việc, cuộc sống.
ChatGPT 4o thay đổi cuộc chơi tạo ảnh AI như thế nào?
Kể từ khi công nghệ tạo ảnh AI trở nên phổ biến, chúng ta đã chứng kiến những bước tiến đáng kinh ngạc. Tuy nhiên, cũng có những “điểm yếu chí mạng” mà các mô hình AI ban đầu thường mắc phải, điển hình là việc tạo ra hình ảnh “tay và ngón tay” không tự nhiên hay các chi tiết nhỏ như chữ viết. Nhưng với ChatGPT 4o, OpenAI dường như đã giải quyết được phần lớn những vấn đề này, nâng tầm chất lượng hình ảnh lên một mức độ chân thực và chi tiết chưa từng thấy.
Mô hình tạo ảnh mới tích hợp trong ChatGPT 4o không chỉ đơn thuần là một bản cập nhật; nó là một cuộc cách mạng nhỏ trong cách AI hiểu và tái tạo thế giới. Từ khả năng mô phỏng ánh sáng, kết cấu đến việc nắm bắt ngữ cảnh phức tạp, ChatGPT 4o mang lại trải nghiệm tạo hình ảnh gần như hoàn hảo, mở ra những cánh cửa mới cho các ứng dụng sáng tạo trong tương lai. Để kiểm chứng điều này, chúng tôi đã tiến hành một loạt các thử nghiệm trực tiếp, so sánh kết quả từ ChatGPT 4o với mô hình DALL-E cũ.
Kiểm chứng khả năng tạo ảnh của ChatGPT 4o qua 7 bài thử nghiệm khắc nghiệt
Để đưa ra cái nhìn khách quan nhất, chúng tôi đã sử dụng cùng một câu lệnh (prompt) cho cả DALL-E và ChatGPT 4o trong các tình huống khác nhau.
1. Khắc họa tay và ngón tay: “Gót chân Achilles” của AI
Việc tạo ra bàn tay và ngón tay chính xác luôn là một trong những thách thức lớn nhất đối với các công cụ tạo ảnh AI. Rất nhiều hình ảnh do AI tạo ra ban đầu thường có bàn tay với số ngón không đúng, ngón tay bị biến dạng hoặc vị trí không tự nhiên. Đây được xem là “dấu hiệu nhận biết” rõ ràng của một bức ảnh được tạo bởi AI. Để kiểm tra sự cải thiện, chúng tôi đã yêu cầu mô tả: “Một cận cảnh bàn tay đang chơi hợp âm E thứ trên đàn guitar, các ngón tay ấn xuống dây đàn với độ sâu trường ảnh nông.”
DALL-E:
Bàn tay đang chơi hợp âm E thứ trên đàn guitar acoustic
DALL-E đã xử lý phần ngón tay và cấu trúc giải phẫu tổng thể khá tốt. Tuy nhiên, hợp âm lại không chính xác. Bàn tay đặt quá cao trên cần đàn để chơi hợp âm E thứ. Nếu phóng to, bạn sẽ thấy cây đàn guitar có hơn bảy dây và khoảng cách giữa các dây không đều.
ChatGPT 4o:
Bàn tay đang chơi hợp âm E thứ trên đàn guitar acoustic với độ chân thực cao
Kết quả từ ChatGPT 4o thật sự ấn tượng. Hình ảnh trông giống như một bức ảnh thực tế. Cây đàn có sáu dây, khoảng cách đều đặn, và hợp âm có thể thực sự là E thứ. ChatGPT 4o đã làm rất tốt.
2. Tái hiện nhân vật lịch sử: Albert Einstein đời thường
Để thử thách khả năng tái tạo khuôn mặt và bối cảnh hiện đại, chúng tôi yêu cầu: “Albert Einstein đang ăn kem trong Công viên Trung tâm, mặc áo sơ mi và quần yếm thông thường.”
DALL-E:
Một người đàn ông giống Einstein đang ăn kem tại Công viên Trung tâm
DALL-E đã cảnh báo rằng nó không thể sử dụng hình ảnh chính xác của Einstein mà chỉ là “người có ngoại hình tương tự”. Phong cách nửa hoạt hình nửa thực tế của DALL-E thể hiện rõ ràng ở đây. Tòa nhà San Remo ở phía sau gợi ý đây là Central Park, nhưng đó là điểm cộng duy nhất.
ChatGPT 4o:
Hình ảnh chân thực của một người đàn ông giống Einstein đang ăn kem ở Central Park
Nếu thêm một bộ lọc đen trắng, bạn có thể dễ dàng bị thuyết phục rằng đây là một bức ảnh cổ điển có thật. Kem trên ốc quế trông rất thật, Albert toát lên vẻ “không quan tâm” đặc trưng, và tòa nhà San Remo vẫn đứng sừng sững ở phía sau. Mọi thứ đều khớp. ChatGPT 4o đã hoàn thành xuất sắc.
3. Biến tấu nhân vật hư cấu: Từ Sith Lord đến Geralt đi siêu thị
Tiếp tục với thử thách về khuôn mặt và con người, chúng tôi thử các nhân vật hư cấu để xem cách AI xử lý chi tiết và bản quyền.
Câu lệnh 1: “Một nhân vật giống Chúa tể Sith đang gọi taxi ở Quảng trường George, Glasgow, với mưa nhẹ và đèn giao thông ở phía sau.”
DALL-E:
Hình ảnh giống Chúa tể Sith đứng ở Quảng trường George, Glasgow
DALL-E đã làm khá tốt. Nhân vật gợi nhớ đến một Sith, và các yếu tố còn lại tương đối chính xác. Không có gì quá hoạt hình, nhưng hình ảnh không toát lên vẻ chân thực.
ChatGPT 4o:
Chúa tể Sith đầy khí chất đứng gọi taxi trong mưa ở Glasgow
Chúng tôi yêu thích bầu không khí – ánh sáng, những hạt mưa phùn, và sự hiện diện đầy uy nghi của Chúa tể Sith. Mọi thứ đều có. Vấn đề duy nhất là vị chúa tể bóng tối đang đứng trên đường gọi taxi nhưng lại đối mặt… vỉa hè. Và biển hiệu taxi lại ghi “TAXL”.
Câu lệnh 2: “Một nhân vật giống Geralt of Rivia đang đi mua sắm tại siêu thị hiện đại, đẩy xe hàng và cau mày nhìn đồ hộp.”
DALL-E:
Một người đàn ông tóc trắng, sẹo ngang mặt, giống thợ săn quái vật giả tưởng đang mua sắm tại siêu thị
Không tệ chút nào. Hình ảnh vẫn mang hơi hướng hoạt hình nhân tạo, và chữ trên hộp ngũ cốc hoàn toàn vô nghĩa, đúng như dự đoán.
ChatGPT 4o:
Geralt cau có đi siêu thị hiện đại, tái hiện chân thực đến ngỡ ngàng
Chúng tôi không thốt nên lời. Giống như hầu hết mọi người, phiên bản Geralt của ChatGPT chủ yếu giống Henry Cavill chứ không phải phiên bản trong game – nhưng nó đã hoàn hảo. Vẻ mặt cau có đúng chất, và bối cảnh trông rất tự nhiên. Bức ảnh này có thể được dùng làm cảnh quay từ một quảng cáo giao thoa kỳ lạ.
4. Chuyển đổi phong cách: Từ ảnh thực đến hoạt hình
Khả năng tạo ảnh của OpenAI không chỉ giới hạn ở chủ nghĩa hiện thực. Mặc dù DALL-E luôn có xu hướng hơi “màu mè” bất kể bạn yêu cầu gì, chúng tôi quyết định đẩy cả hai mô hình vào chế độ hoạt hình hoàn chỉnh.
Câu lệnh: “Một thuyền trưởng cướp biển phong cách hoạt hình với áo khoác đỏ dài và cánh tay máy, đang cười trên boong tàu bay. Nền trong suốt.”
DALL-E:
Thuyền trưởng cướp biển phong cách hoạt hình trên boong tàu bay do DALL-E tạo
DALL-E thực sự đã làm tốt ở đây – và thậm chí nó còn hiểu yêu cầu về nền trong suốt. Kiểu. Cái chúng ta có là mẫu ô vuông xám trắng cổ điển thường có nghĩa là trong suốt… ngoại trừ ở đây, nó được “nướng” vào hình ảnh. Vì vậy, hoàn toàn không trong suốt. Ngoài ra, trớ trêu thay, bàn tay sinh học của tên cướp biển AI của chúng ta có bốn ngón trong khi bàn tay máy có năm.
ChatGPT 4o:
Thuyền trưởng cướp biển phong cách hoạt hình với nền trong suốt rõ nét do ChatGPT 4o tạo
Phiên bản của ChatGPT 4o sắc nét và có chủ đích hơn. Phong cách tô màu khác biệt – dù tốt hơn hay không thì tùy thuộc vào cảm nhận – nhưng rõ ràng trông như thể một họa sĩ đã cố ý vẽ như vậy. Nền cũng thực sự trong suốt. Bạn có thể in hình này lên áo phông, in ra, hoặc thậm chí biến nó thành sticker WhatsApp ngay lập tức.
5. Xử lý gương và phản chiếu: Thử thách logic không gian
Gương phản chiếu – và các phản chiếu cần logic không gian để trông tự nhiên. Chúng tôi đã đưa ra một câu lệnh mà chúng tôi biết DALL-E sẽ vấp phải.
Câu lệnh 1: “Một bồn rửa phòng tắm hiện đại với bàn chải đánh răng và dao cạo trên quầy, cả hai đều hiển thị trong gương và góc nhìn thực tế – ánh sáng dịu và đều.”
DALL-E:
Bồn rửa phòng tắm hiện đại với thiết kế gọn gàng và mặt bàn sạch sẽ, phản chiếu lỗi
Đúng như dự đoán. Có một thứ gì đó cố gắng trở thành phản chiếu từ vòi nước trong gương, nhưng nó quá dài. Bàn chải đánh răng đang bay lơ lửng bên trong bồn rửa và không tạo ra phản chiếu nào. DALL-E thực sự đã đội chiếc mũ bảo hiểm AI của mình cho thử thách này.
ChatGPT 4o:
Bồn rửa phòng tắm hiện đại với phản chiếu chi tiết và chân thực hơn
Mô hình mới hơn làm tốt hơn nhiều trong việc làm cho hình ảnh trông chân thực, giống như một bức ảnh thật. Phản chiếu của vòi nước hơi lệch nhưng có thể chấp nhận được. Sau đó là bàn chải đánh răng, có phản chiếu nhưng lại không tồn tại trong thế giới vật lý – giống như một ma cà rồng ngược.
Không có người chiến thắng rõ ràng ở đây. Kết quả AI không nhất quán, vì vậy chúng tôi đã thử lại cả hai với một cái gì đó tham vọng hơn một chút:
Câu lệnh 2: “Một người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, trang phục và tư thế của cô ấy được phản chiếu chính xác, với hình ảnh cửa sổ phía sau cô ấy hiện rõ trong gương.”
DALL-E:
Người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, phản chiếu lỗi
Chúng tôi thậm chí không muốn phân tích hình ảnh này. Nếu bạn muốn làm DALL-E trông tệ, chỉ cần thêm từ “gương” vào câu lệnh của bạn.
ChatGPT 4o:
Người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, phản chiếu siêu thực
Đúng như mong đợi, phiên bản của ChatGPT 4o trông thực tế hơn nhiều – nhưng có lẽ hơi siêu thực lần này? Tư thế và trang phục của người phụ nữ được phản chiếu, nhưng chỉ một phần, giống như hiệu ứng bật ra 3D của Photoshop. Các góc phản chiếu cũng bị lệch. AI vẫn chưa thể xử lý logic không gian hoàn hảo.
6. Mô tả ô tô và đường phố: Chi tiết và chân thực đến bất ngờ
Với vai trò là một người đam mê ô tô, một trong những điều đầu tiên chúng tôi thử khi các công cụ tạo ảnh AI ra mắt là tạo ảnh ô tô. Kết quả khi đó không tốt, nhưng với mô hình mới, chúng tôi phải thử lại.
Câu lệnh: “Một chiếc Ford GT đời 2006 và một chiếc Peugeot 206 phía sau đèn giao thông màu đỏ trên phố Wall, New York, vào giữa trưa.”
DALL-E:
Chiếc Ford GT 2006 đang dừng ở đèn đỏ bên cạnh Peugeot 206, phong cách hoạt hình
DALL-E lại với phong cách hoạt hình ngày càng khó chịu của nó. Chiếc Peugeot nằm trên vỉa hè, đèn giao thông chúng tôi yêu cầu lại hướng về các tòa nhà, và biển số xe đều là những ký tự vô nghĩa.
ChatGPT 4o:
Chiếc Ford GT 2006 đang dừng ở đèn đỏ bên cạnh Peugeot 206, chân thực và chi tiết
Kết quả của ChatGPT 4o tốt hơn đáng kể. Các xe được mô tả đúng – ngay cả nắp bánh xe của chiếc Peugeot cũng chính xác và đúng thời kỳ. Chi tiết như vậy không phải ngẫu nhiên. Và điều tuyệt vời hơn nữa:
Chiếc Ford GT 2006 đang dừng ở đèn đỏ bên cạnh Peugeot 206, đẹp như ảnh thật
Chúng tôi thực sự có thể sử dụng hình ảnh này làm hình nền điện thoại. Ánh sáng, bố cục, phản chiếu – mọi thứ đều khớp. Ngoài sự vắng vẻ kỳ lạ của con phố, bức ảnh này có thể dễ dàng được coi là một bức ảnh thật.
7. Viết chữ và văn bản: Vượt qua rào cản lớn nhất
Cuối cùng, chúng ta nhắm vào “gót chân Achilles” của mọi công cụ tạo ảnh. Hầu hết các AI tạo ảnh đều gặp khó khăn trong việc viết chữ chính xác. Đến giờ, bạn đã thấy đủ các ký tự vô nghĩa từ DALL-E trong các ví dụ trước để hiểu ý chúng tôi.
Để làm cho nó thú vị hơn – và nhất quán – chúng tôi đã thêm rằng bức thư nên chứa văn bản bài diễn văn của Vua Terenas gửi Arthas từ Warcraft III.
Câu lệnh: “Một lá thư viết tay trên giấy cũ với chữ viết tay, đặt cạnh một cây bút máy và một lọ mực.”
DALL-E:
Cảnh cận cảnh một lá thư viết tay trên giấy da hơi ngả vàng, chữ viết không rõ
DALL-E đã làm điều nó giỏi nhất với văn bản: biến nó thành những ký tự lem luốc, khó hiểu. Nó vẫn cố gắng viết đúng một số từ, và bầu không khí khá ổn – bút và lọ mực trông vững chắc.
ChatGPT 4o:
Cận cảnh một lá thư viết tay trên giấy cũ với chữ viết tay rõ ràng, sắc nét
ChatGPT 4o đã hoàn thành xuất sắc – từng từ một, với chữ viết tay rõ ràng, sắc nét. Hoàn hảo đến từng chữ cái. So với DALL-E, đây là một bước nhảy vọt khổng lồ. Xin chúc mừng OpenAI.
Đánh giá tổng quan: ChatGPT 4o có thực sự là “vua” mới của AI tạo ảnh?
Công nghệ tạo ảnh AI đã đi một chặng đường dài – và điều đó thể hiện rõ ràng. ChatGPT 4o cho cảm giác như mô hình đầu tiên thực sự “hiểu” về ánh sáng, kết cấu và ngữ cảnh. Nó không chỉ tạo ra hình ảnh, mà còn tạo ra những bức ảnh có hồn, chân thực và chi tiết đến kinh ngạc, khắc phục gần như hoàn toàn các điểm yếu cố hữu của các mô hình trước đây, đặc biệt là khả năng xử lý tay, khuôn mặt và văn bản.
Mặc dù vẫn còn một số hạn chế nhất định, đặc biệt là trong việc xử lý logic không gian phức tạp liên quan đến gương và phản chiếu, nhưng ChatGPT 4o đã chứng minh được sự vượt trội rõ rệt so với DALL-E cũ trong hầu hết các lĩnh vực. Từ khả năng tái tạo chi tiết nhỏ nhất như số lượng dây đàn, độ thật của chiếc kem, đến việc giữ nguyên vẹn các ký tự trong một văn bản dài, ChatGPT 4o đã nâng tầm trải nghiệm tạo ảnh AI lên một cấp độ mới.
Tại thời điểm này, câu hỏi thực sự còn lại là: các biện pháp bảo vệ của ChatGPT mạnh đến mức nào? Chúng tôi đã dễ dàng vượt qua các hạn chế về bản quyền của nó. Sẽ mất bao lâu trước khi ai đó “jailbreak” ChatGPT và bắt đầu tạo ra bất kỳ nội dung nào họ muốn bằng mô hình cực kỳ mạnh mẽ này? Tương lai của AI tạo sinh hình ảnh chắc chắn sẽ còn nhiều điều bất ngờ, và Thuthuathot.com sẽ tiếp tục theo dõi sát sao để mang đến cho bạn những thông tin cập nhật nhất.
Bạn nghĩ sao về khả năng tạo ảnh của ChatGPT 4o? Hãy chia sẻ ý kiến của bạn trong phần bình luận bên dưới và đừng quên theo dõi Thuthuathot.com để cập nhật những thủ thuật và tin tức công nghệ mới nhất nhé!