OpenAI vừa giới thiệu tính năng mới là AI Agent cho người dùng Mac lẫn Windows xài thử. Vượt ra khỏi phạm vi hoạt động của một chatbot trước giờ vốn chỉ phản hồi lại thông tin mà người dùng cung cấp dựa vào dữ liệu được học trước đó (hoặc kết hợp thêm với dữ liệu realtime trên mạng), các agent sẽ tự động sử dụng các tools được cung cấp sẵn hoặc do chính nó tạo ra để hoàn thành các nhiệm vụ phức tạp của người dùng, thí dụ như lên kế hoạch chi tiết, lựa chọn so sánh mua sắm hoặc phân tích dữ liệu chuyên sâu và đưa ra định dạng đặc biệt hơn,...
Trong bài viết này mình sẽ chia sẻ toàn bộ các thông tin về cách sử dụng Agent AI này.
ChatGPT Agent là một giải pháp AI có thể thực sự tự chủ giải quyết các tác vụ phức tạp thay cho con người, không chỉ dừng lại ở khả năng trả lời văn bản mà còn thao tác được trên máy tính ảo, sử dụng trình duyệt, lập trình, tạo tài liệu, bảng tính và truy cập những nguồn dữ liệu cá nhân qua API như Google Drive, Calendar, GitHub… nếu được cấp quyền.
Về mặt kỹ thuật, ChatGPT Agent sẽ chạy một "máy tính ảo" tích hợp cùng lúc 3 công cụ là một công cụ nghiên cứu cứu sâu (tương tự như cách hoạt động của Deep Reseach) + một trình duyệt có giao diện (tương tự như Operator) và một môi trường dòng lệnh terminal để chạy code, các chương trình,... Nhờ đó AI có thể vừa tìm kiếm, đọc nội dung web chuyên sâu, vừa thao tác trực tiếp trên các giao diện phức tạp, vừa xử lý, tạo mới và chỉnh sửa file, thậm chí gọi API hay thực hiện các thuật toán lập trình để tự động hóa quy trình làm việc.
Thí dụ như khi bạn kêu nó lên kế hoạch cho một đám cưới, bao gồm trang phục, quà tặng, khách sạn phù hợp,... nó sẽ tự động lên kế hoạch các bước tư duy và sau đó từng bước thực hiện, tự đưa ra các câu hỏi. Chi tiết hơn, nó sẽ cố hiểu yêu cầu của người dùng, sau đó tự đi thu thập giá cả, rồi tự code ra công cụ khi cần để so sánh,.... Toàn bộ các hành động của nó sẽ được hiện lên để người dùng biết nó đang làm gì. Một điểm ở đâu là người dùng có thể can thiệp vào giữa quá trình agent đang chạy, nhập thêm
hướng dẫn hoặc chỉnh sửa lại những gì nó làm để đi đúng hướng.
Hiện tại tính năng Agent đã được triển khai cho người dùng bản Plus, Pro hoặc doanh nghiệp. Các bạn chỉ cần vào giao diện ChatGPT trên trình duyệt, ứng dụng chạy trên Mac hoặc Windows là đều có thể sử dụng.
Bên dưới khung chat, các bạn chỉ cần chọn Agent Mode (chế độ tác nhân). Sau đó nhập prompt vào và ChatGPT Agent sẽ bắt đầu được kích hoạt để đi giải quyết vấn đề. Mình sử dụng tài khoản ChatGPT Plus thì mỗi tháng được sử dụng Agent khoảng 40 lần.
Mình đã thử một vài thí dụ thì toàn bộ quá trình mất từ 5 tới 10 phút tùy vào độ dài và độ phức tạp của công việc. Bên dưới là một số tình huống mình test thử nó. Tất nhiên chúng ta vẫn cần prompt chi tiết, đầy đủ các yêu cầu để AI có thể hiểu được đúng ý muốn của chúng ta và đi làm việc.
Cái này gần như là bài test kinh điển cho hoạt động của một agent dạng này rồi. Mình cũng thử prompt bên dưới, nhu cầu cũng khá đơn giản thử xem ChatGPT Agent trả về cái gì
Prompt
Tôi sắp có một chuyến công tác ở Hà Nội từ ngày 10 đến ngày 12 tháng 8 2025. Hãy đặt vé máy bay Vietnam Airline giá thấp nhất, đi buổi sáng, về buổi tối, đặt khách sạn ở khu vực Phố Cổ. Gợi ý quán ăn gần đó mà tôi có thể đi bộ, cho tôi lịch trình dạng bảng.
Lúc này AI nó sẽ đi đọc hiểu yêu cầu, sau đó chạy cửa sổ trình duyệt của nó lên, bắt đầu đi tìm các trang bán vé máy bay để đi tìm vé, sau khi nó đi so sánh hết mọi thứ tìm được vé, nó chuyển sang nghiên cứu các khách sạn trên booking, chọn khách sạn, rồi lại đi tìm quán ăn,.... và cuối cùng trả về kết quả. Từng hành động của nó sẽ được hiển thị trên màn hình cửa sổ duyệt web mini mà nó dùng.
Bước tiếp theo nó sẽ yêu cầu mình xem lại và nếu đồng ý với lựa chọn của nó, AI Agent tiếp tục mở trình duyệt, tới trang nhập thông tin. Lúc này nó sẽ kêu mình tự bấm vào trình duyệt để nhập thông tin cá nhân, thanh toán. Nhìn chung thì giá vé, địa chỉ khách sạn đều phù hợp với những gì mình hình dung. Duy chỉ có các quán ăn, do mình chưa chỉ định rõ gu ăn uống nên các quán mà AI đưa ra mình thấy không thích lắm (ra đó AI phải cho mình ăn bún chả với bún đậu ở phố cổ chứ). Đồng thời, tổng thời gian cho cả tác vụ này mất 37 phút để nó hoàn tất hết mọi thứ.
Prompt:
Tôi muốn đi nghỉ dưỡng Đà Lạt chơi 4 ngày 3 đêm. Hãy lập kế hoạch, tìm phương tiện di chuyển hợp lý bằng xe khách, lên lịch trình đi tham quan nhẹ nhàng. Tôi muốn ở Homestay ở gần Trung tâm thành phố Đà Lạt. Gợi ý cho tôi danh sách các quán ăn địa phương trong ngày. Cho tôi kết quả dạng bảng.
Lần này đội Agent có vẻ làm việc nhanh hơn trước khá nhiều. Chỉ mất khoảng 7 phút cho toàn bộ các công đoạn như tìm chuyến xe, tìm ra homestay ở gần trung tâm và các địa điểm, món ăn ở Đà Lạt.
Kết quả trả về là một lịch trình mà mình thấy khá hài lòng do sự đẩy đủ và chỉnh chu, có thể mang ra xài thật được luôn rồi.
Ở tình huống này, mình thử kêu nó làm một task tập trung vào việc đi đặt hàng thử xem nó phản ứng thế nào, đặc biệt là trên một trang web bình thường chứ không phải là một trang thương mại điện tử đặc thù.
Prompt
Tạo mẫu thiết kế sticker với hình linh vật ‘vịt Donald’ cho team.
-Đặt hàng 5 miếng dán da Sticker tại Khắc tên.
-Lưu ý: từng dùng dịch vụ dán da tại Khắc tên và hài lòng.
-Thực hiện tự động từ thiết kế đến thêm vào giỏ hàng, sẵn sàng chờ xác nhận đặt hàng.
Sau khi nhấn Enter, bắt đầu AI nó sẽ đi đọc hiểu yêu cầu và lên kế hoạch thực hiện. Bước đầu tiên cho thấy nó bắt đầu đi tạo hình con vịt Donald.
Tiếp theo nó mở trình duyệt lên và bắt đầu vào xem trang web của Khắc tên. Nó mò đúng tới món hàng là khắc miếng dán sticker. Cái này mình đánh giá khá cao bởi từ câu lệnh, nó có thể hiểu được chính xác và mò vào đúng trang web, đúng đường link của một món hàng không hề đại trà, rất niche thì đã là thành công.
Lúc này AI nó tiếp tục vào web Khắc tên, bấm vào form đặt hàng, tự upload design khắc riêng theo yêu cầu lên, nhập số lượng, đưa vào giỏ hàng và hỏi mình bước tiếp theo là thanh toán.
Lúc này mình kêu nó điều chỉnh xuống còn 5 miếng thử. Kết quả trả về, nó mở trình duyệt, vào giỏ hàng và điều chỉnh. Tiếp theo nó lại yêu cầu mình thanh toán.
Điểm dở là tới đây mình vẫn chưa biết mặt mũi của sticker ra sao. MÌnh phải yêu cầu nó cho mình coi thiết kế. Và kết quả bên trên. Thấy gớm luôn. Tới chỗ này, mình vẫn có thể prompt để yêu cầu nó thay đổi thiết kế cho tới khi mình muốn. Sau đó nhấn quay trở lại quá trình đặt hàng. AI tiếp tục hỏi mình cung cấp thông tin cá nhân để tự điền vào. Mình thử đồng ý. Trang thanh toán yêu cầu các thông tin cá nhân là nó gởi lệnh đặt hàng luôn. Đoạn này mình cung cấp thông tin đầy đủ, đơn hàng sẽ được đặt và nhân viên bên đấy sẽ liên hệ xác nhận.
Vậy là có thể thấy trong tình huống này, Agent nó đặt mục tiêu cuối cùng là "hoàn tất đặt hàng" và nó sẽ làm mọi thứ (kể cả khi mình có can thiệp vào sửa hay thay đổi) thì nó vẫn hướng tới mục đích cuối cùng đó. Toàn bộ quá trình mất 12 phút tới khi AI trả về kết quả đầu tiên sau khi mình nhập prompt đầu vào. Riêng cho mục đích này thì mình thấy hiện tại mình làm đang nhanh hơn nó rồi. 😁
Prompt
Bạn hãy giúp tôi nghiên cứu các ngành nghề quán bánh mì tại Sài Gòn hiện tại. Tôi muốn có thêm thông tin về các chương trình hỗ trợ của chính phủ, các khoản hỗ trợ tài chính cho doanh nghiệp, đối tác tiềm năng mà chúng tôi có thể hợp tác tại Sài Gòn. Sau đó, tổng hợp lại thành một bản trình chiếu đẹp mắt và chuyên nghiệp, kèm hình ảnh minh họa về một dự án tiềm năng.
Với tình huống này, AI cũng bắt đầu đi tìm hiểu thông tin mà mình yêu cầu, từ các tranh web chính sách cho tới các trang báo có liên quan tới chủ đề bánh mì. Mình thấy trong quá trình đó thỉnh thoảng nó còn chụp màn hình lại. Ở những bước cuối cùng, sau khi đã có thông tin, nó bắt đầu mở cửa sổ terminal lên và code để tạo ra file ppt như yêu cầu.
Kết quả thì vè mặt thông tin là đầy đủ, tương tự như cách tính năng Deep Research trả về. File ppt cũng được tạo ra nhưng chỉ có nội dung là ổn, các hình ảnh minh họa và bố cục vẫn còn rời rạc và không đẹp.
Trong tình huống này, mình thử kêu AI làm việc khó hơn, đòi hỏi nó phải tự tìm hiểu nhiều nguồn thông tin, rồi tự đi hiểu ngữ cảnh về một chương trình đang diễn ra
của một tôn giáo, rồi cả bắt nó lập bảng và vẽ sơ đồ minh họa lịch trình đi nữa.
Prompt:
Lập lịch trình tối ưu để đi lễ tại các nhà thờ thuộc danh sách điểm hành hương năm thánh 2025 của Giáo Phận Sài Gòn.
Tôi ở 1099 Lũy Bán Bích quận Tân Phú
Hãy tối ưu quãng đường di chuyển tổng thể và hạn chế đi lại lòng vòng.
Việc đi viếng nhà thờ trong danh sách hành hương đồng thời với việc đi lễ Chủ Nhật.
Ưu tiên đi lễ sáng sớm.
Mỗi lần chỉ đi một nhà thờ.
Mỗi lần xuất phát từ nhà tôi.
Liệt kê ngày địa điểm, thông tin cho từng nhà thờ.
Gợi ý phương tiện di chuyển phù hợp (nếu có).
Đảm bảo lịch trình khả thi trong thời gian ngắn nhất để đi hết 10 nhà thờ.
Bắt đầu từ tuần sớm nhất.
Trình bày kết quả cuối cùng ở dạng:
- Bảng tính chi tiết gồm: ngày dự kiến, tên Nhà thờ, địa chỉ, quãng đường giữa nhà tôi và Nhà thờ.
- Bản đồ trực quan thể hiện thứ tự của hành trình.
Đây là kết quả cuối cùng, nó cho mình một bảng chi tiết. Kèm theo bên dưới là file csv để mình tải về luôn. Nhìn chung, toàn bộ các thông tin này mình kiểm tra lại đều chính xác và hữu ích, hoàn toàn khả thi để xài được ngoài đời.
Cuối cùng, nó cũng mở terminal để code vẽ ra sơ đồ như bên dưới (trong quá trình làm, mình thấy nó dùng code python trong terminal, xài cả pandas với mathplotlib để vẽ ra sơ đồ như bên dưới, cũng vui)
- Hãy mô tả rõ mục tiêu của bạn càng cụ thể càng tốt (mặc dù agent có thể tự động hỏi thêm ở các bước quan trọng).
- Có thể thêm/bổ sung nhiệm vụ hoặc thay đổi yêu cầu giữa chừng.
- Agent hỗ trợ các tác vụ đa bước, phối hợp nhiều công cụ: tìm kiếm, làm báo cáo, tạo file, đặt hàng online…
- Agent sẽ yêu cầu xác nhận trước khi thực hiện thao tác nhạy cảm (ví dụ: gửi email, thanh toán).
- Hiện các tác vụ yêu cầu phải hiểu đặc thù và bối cảnh thị trường, giá cả ở Việt Nam thì có vẻ ChatGPT Agent vẫn làm chưa ngon lắm, thí dụ như các tình huống đi mua vé hoặc đặt mua đồ.
Nguồn:tinhte.vn/thread/test-ai-agent-cua-chatgpt-ai-tu-xai-may-tinh-duyet-web-va-code-de-hoan-thanh-nhiem-vu.4041307/