Cách Đánh giá Hiệu năng (Benchmark) Công cụ Thuyết trình AI: Một Phương pháp luận Mở

Câu trả lời nhanh (≤60 từ): Một bài đánh giá hiệu năng công cụ thuyết trình AI công bằng sẽ chấm điểm dựa trên năm khía cạnh có thể đo lường được — tốc độ tạo, độ trung thực khi xuất tệp, khả năng chỉnh sửa, hỗ trợ ngôn ngữ và chi phí trên mỗi bản thuyết trình — sử dụng cùng một prompt duy nhất trên mọi công cụ, lặp lại nhiều lần để tính thời gian và một bảng tiêu chí (rubric) đã công bố. Bài viết này cung cấp phương pháp luận đầy đủ và một bộ công cụ thử nghiệm (harness) mã nguồn mở để bất kỳ ai (kể cả đối thủ cạnh tranh) cũng có thể tái lập hoặc phản biện các con số.

Hầu hết các danh sách "công cụ thuyết trình AI tốt nhất" đều mang tính chủ quan. Bài viết này là một phương pháp: một cách minh bạch và có thể tái lập để đo lường các công cụ thuyết trình AI sao cho kết quả có thể được kiểm chứng, chạy lại và tranh luận. Chúng tôi công bố bảng tiêu chí và bộ harness trước khi đưa ra các con số để phương pháp luận có thể đứng vững độc lập. (Kết quả được lấy từ một lần chạy thực tế; xem ghi chú trạng thái ở phía dưới.)

Năm khía cạnh đánh giá

Khía cạnh	Đo lường điều gì	Cách chấm điểm
Tốc độ tạo	Thời gian thực tế (giây) cho một bản thuyết trình 10 slide	Giá trị trung vị (median) của các lần chạy lặp lại (≥10; cùng một prompt), càng thấp càng tốt
Độ trung thực khi xuất tệp	Tệp `.pptx` có khớp với bản xem trước không?	0–5: phông chữ, bố cục, biểu đồ, hiệu ứng chuyển động được giữ nguyên
Khả năng chỉnh sửa	Các đối tượng được xuất có thể chỉnh sửa được hay chỉ là ảnh chụp màn hình?	0–5: văn bản có thể chỉnh sửa, biểu đồ có dữ liệu trực tiếp
Hỗ trợ ngôn ngữ	Chất lượng ngôn ngữ không phải tiếng Anh (CJK/RTL)	0–5: hiển thị, phông chữ, không bị lỗi ô vuông (tofu)/chồng lấp trên 5 hệ chữ viết
Chi phí mỗi bản thuyết trình	Số tiền ($) cho một bản thuyết trình 10 slide	Được quy chuẩn hóa cho một bản thuyết trình duy nhất từ giá công khai

Giao thức thử nghiệm (Quy tắc)

Một prompt duy nhất cho mọi công cụ: một chủ đề kinh doanh cố định gồm 10 slide với một biểu đồ và một tiêu đề không phải chữ Latinh. Được công bố nguyên văn trong bộ harness.
Các lượt chạy tính giờ lặp lại. Tốc độ là giá trị trung vị của 50 lần chạy trên mỗi công cụ (không phải một lần chạy may mắn duy nhất), được đo bằng thời gian thực tế từ lúc yêu cầu đến khi có tệp tải xuống.
Xác minh trên máy tính để bàn. Mọi tệp xuất ra đều được mở trong PowerPoint trên máy tính; độ trung thực/khả năng chỉnh sửa được chấm điểm bằng cách nhấp vào các đối tượng thực tế, không phải bằng cách nhìn qua ảnh thu nhỏ.
Chỉ sử dụng giá công khai. Chi phí sử dụng giá công bố của từng nhà cung cấp cho một bản thuyết trình 10 slide duy nhất, được quy chuẩn hóa (tín dụng → đô la).
Phương pháp luận trước kết quả. Bảng tiêu chí và bộ harness được chốt lại trước khi chấm điểm để ngăn chặn việc chọn lọc kết quả có lợi (cherry-picking).
Thử thách mở. Các đối thủ cạnh tranh được mời chạy lại bộ harness và gửi các bản đính chính.

Bảng tiêu chí chấm điểm (Ví dụ: độ trung thực khi xuất tệp)

5 — Giống hệt bản xem trước: phông chữ được nhúng, bố cục chính xác, biểu đồ có thể chỉnh sửa, hiệu ứng chuyển cảnh nguyên vẹn.
4 — Sai lệch nhỏ: một phông chữ bị thay thế hoặc một hiệu ứng chuyển cảnh bị mất.
3 — Sai lệch đáng kể: một số thành phần bị tràn/chồng lấp, biểu đồ bị nén thành hình ảnh.
2 — Sai lệch nghiêm trọng: nhiều thành phần chồng lấp, hầu hết các đối tượng không thể chỉnh sửa.
1 — Tệp xuất ra về cơ bản là ảnh chụp màn hình của từng slide.
0 — Không xuất được tệp
.pptx
hoạt động bình thường.

Bộ công cụ thử nghiệm (harness) mã nguồn mở

Mã lệnh đi kèm

scripts/benchmark/ai-presentation-benchmark.mjs

(trong kho lưu trữ công khai):

Tự động tính giờ các công cụ có API gốc qua N lần chạy và tính toán giá trị trung vị.
Xuất ra một khung
results.csv
có cấu trúc (công cụ × khía cạnh) cho các công cụ chấm điểm thủ công (những công cụ không có API).
In tiêu đề tái lập (ngày, mã băm prompt, số lần chạy) để bất kỳ kết quả nào cũng có thể được truy xuất nguồn gốc.

Tự chạy mã lệnh:

node scripts/benchmark/ai-presentation-benchmark.mjs --runs=50 --out=results.csv

Kết quả

Chúng tôi cố tình công bố phương pháp luận và bộ harness mã nguồn mở trước — để cách thức tạo ra các con số có thể được kiểm chứng trước khi bất kỳ con số nào được trích dẫn. Đây là trình tự trung thực: một bài đánh giá hiệu năng mà bạn có thể tái lập có giá trị hơn một bảng xếp hạng mà bạn phải tin tưởng mù quáng. Dưới đây là những gì đã được đo lường cho đến nay; các cột tốc độ và độ trung thực của từng công cụ đang được lấp đầy qua từng lần chạy và được đánh dấu rõ ràng là đang chờ xử lý thay vì ước tính.

Chi phí mỗi bản thuyết trình (tất cả 10 công cụ — giá công khai, xác minh tháng 06/2026)

Các công cụ đăng ký thuê bao được tính giá theo tháng, vì vậy con số "mỗi bản thuyết trình" chính xác phụ thuộc vào số lượng; chúng tôi liệt kê gói trả phí cơ bản và đối với các công cụ tính phí theo lượt tạo, chúng tôi đưa ra con số trên mỗi bản thuyết trình.

Công cụ	Giá trả phí cơ bản (2026)	Ghi chú
2Slides	~$0.63 / bản 10 slide (Pro $12.50/tháng) hoặc ~$2.53 PAYG	Giá theo từng bản thuyết trình; công cụ duy nhất có API công khai trong danh sách này
SlidesAI	$8.33/tháng (năm)	Gói thuê bao rẻ nhất; tiện ích bổ sung cho Google Slides
Gamma	$12/tháng (Plus)	400 tín dụng miễn phí một lần
Beautiful.ai	$12/tháng (Pro), $40/người/tháng (Team)	Dùng thử 14 ngày
Canva	$12.99/tháng (Pro)	Gói miễn phí hào phóng
Presentations.ai	~$16.50/tháng ($198/năm)	Gói Starter miễn phí; có REST API
Genspark	$19.99–24.99/tháng (Plus)	Mỗi bản thuyết trình tốn 300–500 trong số 10.000 tín dụng hàng tháng
SlideSpeak	$29/tháng cho 50 tín dụng	Chi phí theo tín dụng tăng nhanh chóng
Plus AI	~$10–15/tháng (ước tính)	Tiện ích bổ sung cho Google Slides
Presenton	Tự lưu trữ (hạ tầng + token mô hình)	Mã nguồn mở (Apache-2.0); không mất phí bản quyền theo bản thuyết trình

Nguồn: trang giá của nhà cung cấp và so sánh giá công cụ tạo thuyết trình AI 2026 của 2Slides, tháng 06/2026.

2Slides — kết quả đo lường (ghi nhận lần chạy 03/06/2026)

Các con số này đến từ một lần chạy trực tiếp, có thể tái lập đối với API của 2Slides: 10 lần tạo một bản thuyết trình 10 slide từ một prompt cố định, cộng với một lần chạy bằng tiếng Nhật, với mỗi tệp

.pptx

đầu ra được kiểm tra qua

python-pptx

Tốc độ tạo: trung vị 30.4 giây cho một bản thuyết trình 10 slide hoàn chỉnh (n=10; thấp nhất 21.5 giây, cao nhất 40.8 giây; mọi lần chạy đều tạo ra đủ 10 trang).
Độ trung thực khi xuất / khả năng chỉnh sửa: OOXML gốc, không phải xuất ảnh chụp màn hình. Mỗi bản thuyết trình có 10 phần
ppt/slides/*.xml
thực tế và 97 đối tượng khung văn bản có thể chỉnh sửa với các tham chiếu phông chữ thực — văn bản và hình khối là các đối tượng PowerPoint cấp cao nhất mà bạn có thể chỉnh sửa, không phải hình ảnh bị nén phẳng. (Lưu ý: các lần chạy prompt này tạo ra bố cục văn bản và hình ảnh; không có đối tượng biểu đồ gốc nào được tạo ra trong mẫu này, vì vậy chúng tôi không khẳng định kết quả biểu đồ có thể chỉnh sửa ở đây.)
Ngôn ngữ (CJK): Đạt. Lần chạy tiếng Nhật đã tạo ra một bản thuyết trình gốc với 57 hình khối văn bản chứa các ký tự tiếng Nhật có thể chỉnh sửa (tiêu đề mẫu: 「2026年リモートワーク現状」). (Sắc thái trung thực: tham chiếu phông chữ được giải quyết thành "Inter", vì vậy các ký tự CJK hiển thị thông qua phông chữ hệ thống thay thế của PowerPoint thay vì một phông chữ CJK được nhúng — văn bản là gốc và có thể chỉnh sửa, nhưng phông chữ CJK chuyên dụng không được nhúng.)

Ma trận kết quả

Khía cạnh	2Slides (đo lường 03/06/2026)	9 công cụ khác
Chi phí mỗi bản thuyết trình	✅ ~$0.63–2.53 (bảng trên)	✅ giá công khai (bảng trên)
Tốc độ tạo (trung vị)	✅ 30.4 giây (n=10)	— chưa đo lường trong lần chạy này
Độ trung thực / khả năng chỉnh sửa	✅ OOXML gốc, 97 khung văn bản chỉnh sửa được	— chưa đo lường trong lần chạy này
Ngôn ngữ (CJK)	✅ văn bản tiếng Nhật gốc chỉnh sửa được (có ghi chú về phông chữ thay thế)	— chưa đo lường trong lần chạy này

Ghi chú về phạm vi (trung thực): lần chạy này đo lường 2Slides trực tiếp thông qua API công khai của nó. Chín công cụ còn lại ở đây chỉ được so sánh dựa trên giá công khai — điểm số về tốc độ, độ trung thực khi xuất và ngôn ngữ của chúng được cố tình để trống thay vì ước tính, bởi vì hầu hết không có API công khai và việc chấm điểm độ trung thực công bằng đòi hỏi phải mở tệp xuất của từng công cụ trong PowerPoint trên máy tính bằng tay. Bộ harness và prompt cố định nằm trong kho lưu trữ công khai; bất kỳ ai cũng có thể thực hiện cùng một phép đo trên bất kỳ công cụ nào và gửi kết quả.

Câu hỏi thường gặp (FAQ)

H: Làm thế nào để đánh giá hiệu năng các công cụ thuyết trình AI một cách công bằng? Đ: Sử dụng một prompt duy nhất trên tất cả các công cụ, chấm điểm năm khía cạnh có thể đo lường (tốc độ, độ trung thực khi xuất, khả năng chỉnh sửa, hỗ trợ ngôn ngữ, chi phí), lấy giá trị trung vị của các lần chạy lặp lại để tính thời gian, xác minh tệp xuất trong PowerPoint trên máy tính và công bố bảng tiêu chí cũng như bộ harness trước khi đưa ra con số.

H: Tại sao lại lấy trung vị của 50 lần chạy cho tốc độ? Đ: Các lần chạy đơn lẻ thường bị nhiễu — tải máy chủ và khởi động nguội (cold starts) có thể làm sai lệch kết quả. Giá trị trung vị của 50 lần chạy là một con số ổn định và có thể bảo vệ được.

H: Tôi có thể tái lập hoặc phản biện các kết quả này không? Đ: Có. Bộ harness là mã nguồn mở và prompt được công bố nguyên văn. Hãy chạy lại và gửi các bản đính chính; đó chính là mục đích của một phương pháp luận mở.

Nguồn & đọc thêm

Cập nhật lần cuối: 03/06/2026 bởi đội ngũ 2Slides. Phương pháp luận được chốt vào ngày này; kết quả được bổ sung sau lần chạy thực tế.

Cách Đánh giá Hiệu năng (Benchmark) Công cụ Thuyết trình AI: Một Phương pháp luận Mở

Năm khía cạnh đánh giá

Giao thức thử nghiệm (Quy tắc)

Bảng tiêu chí chấm điểm (Ví dụ: độ trung thực khi xuất tệp)

Bộ công cụ thử nghiệm (harness) mã nguồn mở

Kết quả

Chi phí mỗi bản thuyết trình (tất cả 10 công cụ — giá công khai, xác minh tháng 06/2026)

2Slides — kết quả đo lường (ghi nhận lần chạy 03/06/2026)

Ma trận kết quả

Câu hỏi thường gặp (FAQ)

Nguồn & đọc thêm

About 2Slides

Summarize with AI

Products

Features

Gallery

Templates

Integrations

Resources

Comparison