Trong kỷ nguyên số hiện nay, khi duyệt web, việc bắt gặp một hình ảnh, một đoạn văn bản hay một đối tượng nào đó mà bạn muốn tìm hiểu thêm thông tin đã trở thành nhu cầu phổ biến. May mắn thay, các công cụ AI thị giác tích hợp trong trình duyệt như Google Lens trên Chrome và Microsoft Copilot Vision trong Edge đã ra đời để hỗ trợ đắc lực. Nhưng giữa hai “gã khổng lồ” này, đâu mới là lựa chọn tối ưu nhất cho trải nghiệm duyệt web của bạn?
Google Lens đã được tích hợp sẵn trong trình duyệt Chrome và cũng có sẵn dưới dạng ứng dụng trên điện thoại thông minh. Tương tự, trước ngày 12 tháng 6 năm 2025, Copilot Vision cũng chỉ giới hạn trong Microsoft Edge và có thể truy cập qua cờ tính năng Copilot Vision (edge://flags/#edge-copilot-vision
). Tuy nhiên, bản cập nhật mới của Microsoft Copilot Vision đã cho phép công cụ AI thị giác này hoạt động trên cả Windows 10 và Windows 11, mặc dù tại thời điểm viết bài, tính năng này vẫn chỉ giới hạn cho người dùng tại Hoa Kỳ.
So Sánh Khả Năng Nhận Diện Đối Tượng Và Đề Xuất Nhanh Chóng
Để tìm ra công cụ nào giúp bạn tìm kiếm mọi thứ nhanh hơn, tôi đã thử nghiệm Google Lens và Copilot Vision trên cùng các trang web để so sánh tốc độ và độ chính xác trong việc nhận diện đối tượng cũng như đưa ra các gợi ý hữu ích. Cụ thể, tôi đã sử dụng một bài đăng blog về các loại vải áo sơ mi và một bài đăng về cây cảnh trong nhóm Facebook, tập trung vào phần nói về vải Oxford.
Cả Google Lens và Copilot Vision đều nhận diện đối tượng ngay lập tức: cây cảnh được xác định là cây Chùm Ngây (Moringa plant). Tuy nhiên, có sự khác biệt trong cách chúng mô tả áo sơ mi Oxford. Google Lens mô tả là “Nylon Black Oxford Fabric”, trong khi Copilot Vision gọi là “Oxford Shirt and Fabric”.
Sự khác biệt thực sự lộ rõ ở các bước tiếp theo.
Google Lens tỏ ra vượt trội hơn hẳn nếu bạn muốn tìm hoặc mua món đồ mình đang xem. Nó đề xuất các mặt hàng tương tự, cung cấp liên kết sản phẩm có thể nhấp được, và chỉ dẫn bạn đến các cửa hàng hoặc bài viết blog để tìm hiểu thêm hoặc mua sắm. Bố cục hiển thị tất cả kết quả trong một thanh bên (sidebar) giúp bạn dễ dàng duyệt mà không cần rời khỏi trang hiện tại.
Ngược lại, Copilot Vision không đưa ra các gợi ý sản phẩm hay dẫn bạn đến các nguồn bên ngoài. Nó nhận diện được những gì có trên trang và có thể trả lời bất kỳ câu hỏi nào bạn có về đối tượng đó. Thật thú vị khi tìm hiểu về lợi ích sức khỏe của cây Moringa oleifera từ bài đăng trên Facebook. Khi tôi hỏi liệu có thể trồng cây này trong phòng khách không, nó trả lời: “Chắc là không”. Rõ ràng, Copilot Vision rất hữu ích nếu bạn chỉ muốn hiểu rõ hơn về một thứ gì đó, nhưng lại không phù hợp nếu bạn muốn khám phá hoặc mua sắm.
Hiệu Quả Xử Lý, Sao Chép Và Dịch Văn Bản Từ Ảnh/Tài Liệu
Tiếp theo, tôi đã thử nghiệm cả hai công cụ trên các tác vụ liên quan đến văn bản, bao gồm sao chép, dịch và đặt câu hỏi chuyên sâu. Tôi sử dụng một tệp PDF học tiếng Đức-Anh song ngữ và một ảnh quét mặt sau của thẻ căn cước để xem mỗi công cụ xử lý văn bản ở các định dạng khác nhau tốt đến mức nào.
Google Lens nổi trội trong việc trích xuất và dịch văn bản từ hình ảnh và tài liệu. Tôi có thể sao chép văn bản từ ảnh và dịch tức thì trong thanh bên, điều này cực kỳ hữu ích nếu bạn đang làm việc với tài liệu ngoại ngữ hoặc muốn nhanh chóng lấy số điện thoại, tên, hoặc số ID mà không cần phải gõ lại. Bạn cũng có thể sử dụng thanh bên để khám phá kết quả tìm kiếm, tra cứu định nghĩa nhanh, hoặc nhập thêm từ khóa để tìm thông tin liên quan. Mọi thao tác đều diễn ra trong bảng điều khiển bên và rất dễ dàng để thấy những gì bạn đang làm nổi bật.
Google Lens trích xuất và dịch văn bản từ hình ảnh chứng minh thư
Mặt khác, Copilot Vision, với tư cách là một ứng dụng, không cho phép bạn sao chép văn bản và chỉ cung cấp bản dịch bằng giọng nói, điều này có nghĩa là bạn không thể sao chép hoặc ghi chú lại như với bản dịch của Google Lens. Tuy nhiên, nó lại xử lý tương tác thời gian thực với văn bản một cách đáng ngạc nhiên. Ví dụ, khi tôi mở ảnh thẻ căn cước (tôi cố tình để ngược), tôi yêu cầu Copilot Vision đọc nội dung trên trang. Nó gợi ý xoay ảnh và phóng to. Sau khi tôi làm theo, nó đọc nội dung văn bản và thậm chí còn cung cấp bản dịch tiếng Đức khi tôi yêu cầu.
Về các câu hỏi chuyên sâu liên quan đến văn bản trên trang, Copilot Vision có thể cung cấp bất kỳ giải thích nào bạn cần về những gì bạn đang xem. Bạn sẽ phải đặt câu hỏi và nhận câu trả lời bằng lời (thông qua các phản hồi hội thoại trên màn hình).
Tuy nhiên, bản cập nhật ngày 12 tháng 6 của Copilot Vision có thể sẽ thay đổi tất cả những điều này. Theo Microsoft, Copilot Vision giờ đây bao gồm tính năng “Highlights”, mà theo tôi nghe rất giống trang kết quả của Google Lens, được gắn vào bên phải màn hình của bạn. Highlights dường như còn tiến xa hơn, có thể hiển thị nội dung hữu ích từ các ứng dụng, trình duyệt và tài liệu của bạn; về cơ bản là bất cứ thứ gì trên PC mà bạn chia sẻ với Copilot Vision. Microsoft cho biết bạn thậm chí không cần phải ra lệnh cho Copilot Vision để được trợ giúp – nó sẽ đề xuất các hành động và tệp liên quan dựa trên hoạt động của bạn. Đáng tiếc, do công cụ này hiện chỉ có sẵn ở Mỹ nên tôi chưa thể thử nghiệm.
Ai Cung Cấp Thông Tin Chuyên Sâu Tốt Hơn Từ Trang Web Và PDF?
Copilot Vision thực sự nổi bật khi tôi thử phân tích toàn bộ các trang web. Tôi đã kiểm tra cả hai công cụ trên một cuốn sách PDF đầy đủ và một trang video YouTube, cụ thể là “MKBHD’s WWDC impressions”, để xem chúng có thể tóm tắt và cung cấp thông tin chuyên sâu về nội dung rộng hơn tốt đến mức nào.
Google Lens chủ yếu giới hạn ở các phần tử riêng lẻ mà bạn nhấp vào (văn bản, đối tượng và hình ảnh). Một khi bạn làm nổi bật điều gì đó, nó có thể hiển thị thêm thông tin hoặc kết quả tương tự, nhưng nó không xử lý toàn bộ trang hoặc PDF. Vì vậy, tôi chỉ có thể làm nổi bật tiêu đề sách hoặc trang bìa để nhận được kết quả tương tự.
Copilot Vision làm nổi bật một câu trong sách PDF
Trong khi đó, Copilot Vision được thiết kế để diễn giải toàn bộ nội dung trên trang cùng một lúc. Nó đã trả lời câu hỏi của tôi về ý chính của tác giả, điều hướng đến phần quan trọng và thậm chí làm nổi bật câu liên quan (mặc dù đôi khi nó bắt đầu trục trặc và từ chối các yêu cầu tiếp theo sau trường hợp này, có lẽ do kích thước tệp lớn).
Hiệu suất của Copilot Vision đôi khi chậm với các tệp lớn, nhưng rõ ràng nó được xây dựng để tương tác với toàn bộ trang và nội dung lớn hơn.
Khi tôi thử nghiệm trên trang video, Copilot Vision đã tóm tắt những gì MKBHD nói và cách video được đón nhận. Nó thậm chí còn cung cấp các số liệu thống kê như lượt xem và lượt thích. Ngược lại, với Google Lens, tôi chỉ có thể làm nổi bật hình ảnh của MKBHD hoặc tiêu đề video để thực hiện tìm kiếm.
Google Lens Hay Copilot Vision: Lựa Chọn Nào Phù Hợp Với Bạn?
Cả Google Lens và Microsoft Copilot Vision đều là những công cụ mạnh mẽ, nhưng chúng phục vụ các mục đích cơ bản khác nhau. Thay vì một công cụ nào đó tốt hơn toàn diện, lựa chọn phù hợp nhất phụ thuộc vào cách bạn sử dụng công cụ AI thị giác của mình.
Chọn Google Lens nếu bạn muốn:
- Nhận diện tức thì sản phẩm, quần áo, hoặc cây cối và tìm nơi mua chúng.
- Sao chép và dịch văn bản trực tiếp từ hình ảnh, trang web hoặc tài liệu.
- Sử dụng giao diện thanh bên gọn gàng để duyệt liên kết và định nghĩa mà không cần rời khỏi trang.
- Nhận kết quả tìm kiếm trực quan nhanh chóng và tổng quan AI của Google mà không cần nhiều tương tác.
Google Lens đơn giản, trực tiếp và lý tưởng để nhận câu trả lời nhanh về những gì bạn thấy khi duyệt web.
Chọn Copilot Vision nếu bạn muốn:
- Tương tác với các tài liệu phức tạp, video hoặc toàn bộ trang web.
- Đặt câu hỏi chi tiết về những gì bạn đang đọc hoặc xem.
- Tóm tắt, diễn giải hoặc thảo luận văn bản với một chatbot AI thân thiện.
- Sử dụng giao diện được gắn vào (Highlights) cung cấp nhiều thông tin hơn dựa trên những gì hiển thị trên màn hình của bạn (nếu bạn đã có bản cập nhật gần đây).
Copilot Vision không chỉ nhận diện những gì bạn đang xem. Nó muốn có một cuộc trò chuyện sâu sắc với bạn về điều đó.
Về khả năng sẵn có và chi phí, Google Lens miễn phí và được tích hợp đầy đủ vào Chrome mà không có giới hạn sử dụng. Trong khi đó, Copilot Vision yêu cầu Microsoft Edge với tính năng được kích hoạt, và bạn có thể chỉ sử dụng nó vài lần mỗi ngày trừ khi bạn cân nhắc nâng cấp lên Copilot Pro.
Cá nhân tôi, tôi thường sử dụng Google Lens nhiều hơn và đó là công cụ tôi chọn làm tốt nhất tổng thể. Hầu hết thời gian, tôi chỉ muốn nhận diện thứ gì đó nhanh chóng và tiếp tục công việc, dù đó là một sản phẩm, một từ hay một hình ảnh. Google Lens làm điều đó ngay lập tức, không có rào cản. Việc nó miễn phí, dễ truy cập trong Chrome (và dưới dạng ứng dụng điện thoại thông minh), không yêu cầu thiết lập bổ sung nào khiến nó trở thành công cụ thực tế nhất cho việc duyệt web hàng ngày. Mặc dù Copilot Vision có những điểm mạnh riêng, Google Lens vẫn thắng thế nhờ sự đơn giản của nó.