Cara Melakukan Benchmark Alat Presentasi AI: Sebuah Metodologi Terbuka

Jawaban singkat (≤60 kata): Benchmark presentasi AI yang adil menilai alat berdasarkan lima dimensi terukur — kecepatan pembuatan, akurasi ekspor, kemampuan pengeditan, dukungan bahasa, dan biaya per dek — menggunakan satu prompt yang identik di setiap alat, pengujian berulang untuk pengaturan waktu, dan rubrik yang dipublikasikan. Artikel ini menyajikan metodologi lengkap dan harness open-source agar siapa pun (termasuk kompetitor) dapat mereproduksi atau menyanggah angka-angka tersebut.

Sebagian besar daftar "alat presentasi AI terbaik" bersifat opini. Daftar ini adalah sebuah metode: cara yang transparan dan dapat direproduksi untuk mengukur alat presentasi AI sehingga hasilnya dapat diaudit, dijalankan ulang, dan diperdebatkan. Kami mempublikasikan rubrik dan harness sebelum angka-angkanya agar metodologinya berdiri sendiri. (Hasil diisi dari pengujian nyata; lihat catatan status di bagian bawah.)

Lima dimensi

Dimensi	Apa yang diukur	Bagaimana penilaiannya
Kecepatan pembuatan	Detik wall-clock untuk dek 10 slide	Median dari pengujian berulang (≥10; prompt sama), lebih rendah lebih baik
Akurasi ekspor	Apakah `.pptx` sesuai dengan pratinjau?	0–5: font, tata letak, grafik, animasi tetap terjaga
Kemampuan pengeditan	Apakah objek yang diekspor dapat diedit, bukan tangkapan layar?	0–5: teks dapat diedit, grafik memiliki data langsung
Dukungan bahasa	Kualitas non-Inggris asli (CJK/RTL)	0–5: rendering, font, tidak ada tofu/tumpang tindih di 5 skrip
Biaya per dek	$ untuk satu dek 10 slide	Dinormalisasi ke satu dek dari harga publik

Protokol pengujian (aturan)

Satu prompt yang identik untuk setiap alat: topik bisnis 10 slide yang tetap dengan satu grafik dan satu tajuk non-Latin. Dipublikasikan kata demi kata dalam harness.
Pengujian waktu berulang. Kecepatan adalah median dari 50 pengujian per alat (bukan satu pengujian yang beruntung), diukur dengan wall-clock dari permintaan hingga file yang dapat diunduh.
Verifikasi desktop. Setiap ekspor dibuka di PowerPoint desktop; akurasi/kemampuan pengeditan dinilai dengan mengklik objek nyata, bukan dengan melihat sekilas thumbnail.
Hanya harga publik. Biaya menggunakan harga yang dipublikasikan setiap vendor untuk satu dek 10 slide, dinormalisasi (kredit → dolar).
Metodologi sebelum hasil. Rubrik dan harness dibekukan sebelum penilaian untuk mencegah cherry-picking.
Tantangan terbuka. Kompetitor diundang untuk menjalankan ulang harness dan mengirimkan koreksi.

Rubrik penilaian (akurasi ekspor, sebagai contoh)

5 — Identik dengan pratinjau: font tertanam, tata letak tepat, grafik dapat diedit, transisi utuh.
4 — Penyimpangan kecil: satu font diganti atau satu transisi hilang.
3 — Penyimpangan yang terlihat: beberapa aliran ulang/tumpang tindih, grafik diratakan menjadi gambar.
2 — Penyimpangan besar: banyak tumpang tindih, sebagian besar objek tidak dapat diedit.
1 — Ekspor pada dasarnya adalah tangkapan layar dari setiap slide.
0 — Tidak ada ekspor
.pptx
yang berfungsi.

Harness open-source

Skrip pendamping

scripts/benchmark/ai-presentation-benchmark.mjs

(di repo publik):

Mengukur waktu alat API asli secara otomatis selama N pengujian dan menghitung median.
Menghasilkan kerangka
results.csv
terstruktur (alat × dimensi) untuk alat yang dinilai secara manual (yang tidak memiliki API).
Mencetak header reproduksibilitas (tanggal, hash prompt, jumlah pengujian) sehingga hasil apa pun dapat dilacak ke inputnya.

Jalankan sendiri:

node scripts/benchmark/ai-presentation-benchmark.mjs --runs=50 --out=results.csv

Hasil

Kami mempublikasikan metodologi dan harness open-source terlebih dahulu, dengan sengaja — sehingga cara angka-angka tersebut dihasilkan dapat diaudit sebelum angka apa pun dikutip. Ini adalah urutan yang jujur: benchmark yang dapat Anda reproduksi lebih berharga daripada papan peringkat yang harus Anda percayai. Di bawah ini adalah apa yang telah diukur sejauh ini; kolom kecepatan dan akurasi per alat sedang diisi pengujian demi pengujian dan secara eksplisit ditandai tertunda daripada perkiraan.

Biaya per dek (semua 10 alat — harga publik, diverifikasi 2026-06)

Alat berlangganan diberi harga per bulan, jadi angka "per dek" yang ketat bergantung pada volume; kami mencantumkan tingkat berbayar awal dan, jika alat memberi harga per pembuatan, angka per dek.

Alat	Harga paket berbayar awal (2026)	Catatan
2Slides	~$0,63 / dek 10-slide (Pro $12,50/bln) atau ~$2,53 PAYG	Harga per dek; satu-satunya yang memiliki API publik dalam daftar ini
SlidesAI	$8,33/bln (tahunan)	Langganan termurah; add-on Google Slides
Gamma	$12/bln (Plus)	400 kredit gratis sekali pakai
Beautiful.ai	$12/bln (Pro), $40/pengguna/bln (Team)	Uji coba 14 hari
Canva	$12,99/bln (Pro)	Tingkat gratis yang murah hati
Presentations.ai	~$16,50/bln ($198/thn)	Tingkat Starter gratis; memiliki REST API
Genspark	$19,99–24,99/bln (Plus)	Dek berbiaya 300–500 dari 10.000 kredit bulanan
SlideSpeak	$29/bln untuk 50 kredit	Ekonomi per kredit menjadi mahal dengan cepat
Plus AI	~$10–15/bln (perkiraan)	Add-on Google Slides
Presenton	Self-host (infra + token model)	Open source (Apache-2.0); tidak ada biaya lisensi per dek

Sumber: halaman harga vendor dan perbandingan harga pembuat presentasi AI 2Slides, 2026-06.

2Slides — hasil terukur (pengujian terekam 2026-06-03)

Angka-angka ini berasal dari pengujian langsung yang dapat direproduksi terhadap API 2Slides: 10 pembuatan dek 10 slide dari satu prompt tetap, ditambah satu pengujian bahasa Jepang, dengan setiap output

.pptx

diperiksa melalui

python-pptx

Kecepatan pembuatan: median 30,4 detik untuk dek 10 slide lengkap (n=10; min 21,5 detik, maks 40,8 detik; setiap pengujian menghasilkan ke-10 halaman).
Akurasi ekspor / kemampuan pengeditan: OOXML asli, bukan ekspor tangkapan layar. Setiap dek memiliki 10 bagian
ppt/slides/*.xml
nyata dan 97 objek bingkai teks yang dapat diedit dengan referensi font nyata — teks dan bentuk adalah objek PowerPoint kelas utama yang dapat Anda edit, bukan gambar yang diratakan. (Catatan: pengujian prompt ini menghasilkan tata letak teks-dan-gambar; tidak ada objek grafik asli yang dihasilkan dalam sampel ini, jadi kami tidak mengklaim hasil grafik yang dapat diedit di sini.)
Bahasa (CJK): lulus. Pengujian bahasa Jepang menghasilkan dek asli dengan 57 bentuk teks yang berisi karakter Jepang yang dapat diedit (contoh tajuk: 「2026年リモートワーク現状」). (Nuansa jujur: referensi font diselesaikan ke "Inter", sehingga glif CJK dirender melalui fallback font sistem PowerPoint alih-alih jenis huruf CJK yang tertanam — teksnya asli dan dapat diedit, tetapi font CJK khusus tidak tertanam.)

Matriks hasil

Dimensi	2Slides (diukur 2026-06-03)	9 alat lainnya
Biaya per dek	✅ ~$0,63–2,53 (tabel di atas)	✅ harga publik (tabel di atas)
Kecepatan pembuatan (median)	✅ 30,4 detik (n=10)	— tidak diukur pada pengujian ini
Akurasi ekspor / kemampuan pengeditan	✅ OOXML asli, 97 bingkai teks dapat diedit	— tidak diukur pada pengujian ini
Bahasa (CJK)	✅ teks JP asli dapat diedit (catatan font-fallback)	— tidak diukur pada pengujian ini

Catatan cakupan (jujur): pengujian ini mengukur 2Slides secara langsung melalui API publiknya. Sembilan alat lainnya dibandingkan pada harga publik saja di sini — skor kecepatan, akurasi ekspor, dan bahasa mereka sengaja dibiarkan tidak terukur daripada diperkirakan, karena sebagian besar tidak memiliki API publik dan skor akurasi yang adil memerlukan pembukaan ekspor setiap alat di PowerPoint desktop secara manual. Harness dan prompt yang dibekukan ada di repo publik; siapa pun dapat menjalankan pengukuran yang sama pada alat apa pun dan mengirimkan hasilnya.

FAQ

T: Bagaimana cara melakukan benchmark alat presentasi AI secara adil? J: Gunakan satu prompt yang identik di semua alat, nilai lima dimensi terukur (kecepatan, akurasi ekspor, kemampuan pengeditan, dukungan bahasa, biaya), ambil median dari pengujian berulang untuk pengaturan waktu, verifikasi ekspor di PowerPoint desktop, dan publikasikan rubrik serta harness sebelum angka-angkanya.

T: Mengapa menggunakan median dari 50 pengujian untuk kecepatan? J: Pengujian tunggal bersifat fluktuatif — beban server dan cold start dapat membiaskannya. Median dari 50 pengujian adalah angka yang stabil dan dapat dipertahankan.

T: Bisakah saya mereproduksi atau menyanggah hasil ini? J: Ya. Harness ini open-source dan prompt-nya dipublikasikan kata demi kata. Jalankan ulang dan kirimkan koreksi; itulah inti dari metodologi terbuka.

Sumber & bacaan lebih lanjut

Terakhir ditinjau: 2026-06-03 oleh tim 2Slides. Metodologi dibekukan pada tanggal ini; hasil ditambahkan setelah pengujian terekam.

Cara Melakukan Benchmark Alat Presentasi AI: Sebuah Metodologi Terbuka

Lima dimensi

Protokol pengujian (aturan)

Rubrik penilaian (akurasi ekspor, sebagai contoh)

Harness open-source

Hasil

Biaya per dek (semua 10 alat — harga publik, diverifikasi 2026-06)

2Slides — hasil terukur (pengujian terekam 2026-06-03)

Matriks hasil

FAQ

Sumber & bacaan lebih lanjut

About 2Slides

Summarize with AI

Products

Features

Gallery

Templates

Integrations

Resources

Comparison