2Slides Logo
Cara Benchmark Alat Presentasi AI: Metodologi Terbuka (2026)
2Slides Team
7 min read

Cara Melakukan Benchmark Alat Presentasi AI: Sebuah Metodologi Terbuka

Jawaban singkat (≀60 kata): Benchmark presentasi AI yang adil menilai alat berdasarkan lima dimensi terukur β€” kecepatan pembuatan, akurasi ekspor, kemampuan pengeditan, dukungan bahasa, dan biaya per dek β€” menggunakan satu prompt yang identik di setiap alat, pengujian berulang untuk pengaturan waktu, dan rubrik yang dipublikasikan. Artikel ini menyajikan metodologi lengkap dan harness open-source agar siapa pun (termasuk kompetitor) dapat mereproduksi atau menyanggah angka-angka tersebut.

Sebagian besar daftar "alat presentasi AI terbaik" bersifat opini. Daftar ini adalah sebuah metode: cara yang transparan dan dapat direproduksi untuk mengukur alat presentasi AI sehingga hasilnya dapat diaudit, dijalankan ulang, dan diperdebatkan. Kami mempublikasikan rubrik dan harness sebelum angka-angkanya agar metodologinya berdiri sendiri. (Hasil diisi dari pengujian nyata; lihat catatan status di bagian bawah.)

Lima dimensi

DimensiApa yang diukurBagaimana penilaiannya
Kecepatan pembuatanDetik wall-clock untuk dek 10 slideMedian dari pengujian berulang (β‰₯10; prompt sama), lebih rendah lebih baik
Akurasi eksporApakah
.pptx
sesuai dengan pratinjau?
0–5: font, tata letak, grafik, animasi tetap terjaga
Kemampuan pengeditanApakah objek yang diekspor dapat diedit, bukan tangkapan layar?0–5: teks dapat diedit, grafik memiliki data langsung
Dukungan bahasaKualitas non-Inggris asli (CJK/RTL)0–5: rendering, font, tidak ada tofu/tumpang tindih di 5 skrip
Biaya per dek$ untuk satu dek 10 slideDinormalisasi ke satu dek dari harga publik

Protokol pengujian (aturan)

  1. Satu prompt yang identik untuk setiap alat: topik bisnis 10 slide yang tetap dengan satu grafik dan satu tajuk non-Latin. Dipublikasikan kata demi kata dalam harness.
  2. Pengujian waktu berulang. Kecepatan adalah median dari 50 pengujian per alat (bukan satu pengujian yang beruntung), diukur dengan wall-clock dari permintaan hingga file yang dapat diunduh.
  3. Verifikasi desktop. Setiap ekspor dibuka di PowerPoint desktop; akurasi/kemampuan pengeditan dinilai dengan mengklik objek nyata, bukan dengan melihat sekilas thumbnail.
  4. Hanya harga publik. Biaya menggunakan harga yang dipublikasikan setiap vendor untuk satu dek 10 slide, dinormalisasi (kredit β†’ dolar).
  5. Metodologi sebelum hasil. Rubrik dan harness dibekukan sebelum penilaian untuk mencegah cherry-picking.
  6. Tantangan terbuka. Kompetitor diundang untuk menjalankan ulang harness dan mengirimkan koreksi.

Rubrik penilaian (akurasi ekspor, sebagai contoh)

  • 5 β€” Identik dengan pratinjau: font tertanam, tata letak tepat, grafik dapat diedit, transisi utuh.
  • 4 β€” Penyimpangan kecil: satu font diganti atau satu transisi hilang.
  • 3 β€” Penyimpangan yang terlihat: beberapa aliran ulang/tumpang tindih, grafik diratakan menjadi gambar.
  • 2 β€” Penyimpangan besar: banyak tumpang tindih, sebagian besar objek tidak dapat diedit.
  • 1 β€” Ekspor pada dasarnya adalah tangkapan layar dari setiap slide.
  • 0 β€” Tidak ada ekspor
    .pptx
    yang berfungsi.

Harness open-source

Skrip pendamping

scripts/benchmark/ai-presentation-benchmark.mjs
(di repo publik):

  • Mengukur waktu alat API asli secara otomatis selama N pengujian dan menghitung median.
  • Menghasilkan kerangka
    results.csv
    terstruktur (alat Γ— dimensi) untuk alat yang dinilai secara manual (yang tidak memiliki API).
  • Mencetak header reproduksibilitas (tanggal, hash prompt, jumlah pengujian) sehingga hasil apa pun dapat dilacak ke inputnya.

Jalankan sendiri:

node scripts/benchmark/ai-presentation-benchmark.mjs --runs=50 --out=results.csv

Hasil

Kami mempublikasikan metodologi dan harness open-source terlebih dahulu, dengan sengaja β€” sehingga cara angka-angka tersebut dihasilkan dapat diaudit sebelum angka apa pun dikutip. Ini adalah urutan yang jujur: benchmark yang dapat Anda reproduksi lebih berharga daripada papan peringkat yang harus Anda percayai. Di bawah ini adalah apa yang telah diukur sejauh ini; kolom kecepatan dan akurasi per alat sedang diisi pengujian demi pengujian dan secara eksplisit ditandai tertunda daripada perkiraan.

Biaya per dek (semua 10 alat β€” harga publik, diverifikasi 2026-06)

Alat berlangganan diberi harga per bulan, jadi angka "per dek" yang ketat bergantung pada volume; kami mencantumkan tingkat berbayar awal dan, jika alat memberi harga per pembuatan, angka per dek.

AlatHarga paket berbayar awal (2026)Catatan
2Slides~$0,63 / dek 10-slide (Pro $12,50/bln) atau ~$2,53 PAYGHarga per dek; satu-satunya yang memiliki API publik dalam daftar ini
SlidesAI$8,33/bln (tahunan)Langganan termurah; add-on Google Slides
Gamma$12/bln (Plus)400 kredit gratis sekali pakai
Beautiful.ai$12/bln (Pro), $40/pengguna/bln (Team)Uji coba 14 hari
Canva$12,99/bln (Pro)Tingkat gratis yang murah hati
Presentations.ai~$16,50/bln ($198/thn)Tingkat Starter gratis; memiliki REST API
Genspark$19,99–24,99/bln (Plus)Dek berbiaya 300–500 dari 10.000 kredit bulanan
SlideSpeak$29/bln untuk 50 kreditEkonomi per kredit menjadi mahal dengan cepat
Plus AI~$10–15/bln (perkiraan)Add-on Google Slides
PresentonSelf-host (infra + token model)Open source (Apache-2.0); tidak ada biaya lisensi per dek

Sumber: halaman harga vendor dan perbandingan harga pembuat presentasi AI 2Slides, 2026-06.

2Slides β€” hasil terukur (pengujian terekam 2026-06-03)

Angka-angka ini berasal dari pengujian langsung yang dapat direproduksi terhadap API 2Slides: 10 pembuatan dek 10 slide dari satu prompt tetap, ditambah satu pengujian bahasa Jepang, dengan setiap output

.pptx
diperiksa melalui
python-pptx
.

  • Kecepatan pembuatan: median 30,4 detik untuk dek 10 slide lengkap (n=10; min 21,5 detik, maks 40,8 detik; setiap pengujian menghasilkan ke-10 halaman).
  • Akurasi ekspor / kemampuan pengeditan: OOXML asli, bukan ekspor tangkapan layar. Setiap dek memiliki 10 bagian
    ppt/slides/*.xml
    nyata dan 97 objek bingkai teks yang dapat diedit dengan referensi font nyata β€” teks dan bentuk adalah objek PowerPoint kelas utama yang dapat Anda edit, bukan gambar yang diratakan. (Catatan: pengujian prompt ini menghasilkan tata letak teks-dan-gambar; tidak ada objek grafik asli yang dihasilkan dalam sampel ini, jadi kami tidak mengklaim hasil grafik yang dapat diedit di sini.)
  • Bahasa (CJK): lulus. Pengujian bahasa Jepang menghasilkan dek asli dengan 57 bentuk teks yang berisi karakter Jepang yang dapat diedit (contoh tajuk: γ€Œ2026εΉ΄γƒͺγƒ’γƒΌγƒˆγƒ―γƒΌγ‚―ηΎηŠΆγ€). (Nuansa jujur: referensi font diselesaikan ke "Inter", sehingga glif CJK dirender melalui fallback font sistem PowerPoint alih-alih jenis huruf CJK yang tertanam β€” teksnya asli dan dapat diedit, tetapi font CJK khusus tidak tertanam.)

Matriks hasil

Dimensi2Slides (diukur 2026-06-03)9 alat lainnya
Biaya per dekβœ… ~$0,63–2,53 (tabel di atas)βœ… harga publik (tabel di atas)
Kecepatan pembuatan (median)βœ… 30,4 detik (n=10)β€” tidak diukur pada pengujian ini
Akurasi ekspor / kemampuan pengeditanβœ… OOXML asli, 97 bingkai teks dapat dieditβ€” tidak diukur pada pengujian ini
Bahasa (CJK)βœ… teks JP asli dapat diedit (catatan font-fallback)β€” tidak diukur pada pengujian ini

Catatan cakupan (jujur): pengujian ini mengukur 2Slides secara langsung melalui API publiknya. Sembilan alat lainnya dibandingkan pada harga publik saja di sini β€” skor kecepatan, akurasi ekspor, dan bahasa mereka sengaja dibiarkan tidak terukur daripada diperkirakan, karena sebagian besar tidak memiliki API publik dan skor akurasi yang adil memerlukan pembukaan ekspor setiap alat di PowerPoint desktop secara manual. Harness dan prompt yang dibekukan ada di repo publik; siapa pun dapat menjalankan pengukuran yang sama pada alat apa pun dan mengirimkan hasilnya.

FAQ

T: Bagaimana cara melakukan benchmark alat presentasi AI secara adil? J: Gunakan satu prompt yang identik di semua alat, nilai lima dimensi terukur (kecepatan, akurasi ekspor, kemampuan pengeditan, dukungan bahasa, biaya), ambil median dari pengujian berulang untuk pengaturan waktu, verifikasi ekspor di PowerPoint desktop, dan publikasikan rubrik serta harness sebelum angka-angkanya.

T: Mengapa menggunakan median dari 50 pengujian untuk kecepatan? J: Pengujian tunggal bersifat fluktuatif β€” beban server dan cold start dapat membiaskannya. Median dari 50 pengujian adalah angka yang stabil dan dapat dipertahankan.

T: Bisakah saya mereproduksi atau menyanggah hasil ini? J: Ya. Harness ini open-source dan prompt-nya dipublikasikan kata demi kata. Jalankan ulang dan kirimkan koreksi; itulah inti dari metodologi terbuka.

Sumber & bacaan lebih lanjut


Terakhir ditinjau: 2026-06-03 oleh tim 2Slides. Metodologi dibekukan pada tanggal ini; hasil ditambahkan setelah pengujian terekam.

About 2Slides

Create stunning AI-powered presentations in seconds. Transform your ideas into professional slides with 2slides AI Agent.

Try For Free