

Cara Melakukan Benchmark Alat Presentasi AI: Sebuah Metodologi Terbuka
Jawaban singkat (β€60 kata): Benchmark presentasi AI yang adil menilai alat berdasarkan lima dimensi terukur β kecepatan pembuatan, akurasi ekspor, kemampuan pengeditan, dukungan bahasa, dan biaya per dek β menggunakan satu prompt yang identik di setiap alat, pengujian berulang untuk pengaturan waktu, dan rubrik yang dipublikasikan. Artikel ini menyajikan metodologi lengkap dan harness open-source agar siapa pun (termasuk kompetitor) dapat mereproduksi atau menyanggah angka-angka tersebut.
Sebagian besar daftar "alat presentasi AI terbaik" bersifat opini. Daftar ini adalah sebuah metode: cara yang transparan dan dapat direproduksi untuk mengukur alat presentasi AI sehingga hasilnya dapat diaudit, dijalankan ulang, dan diperdebatkan. Kami mempublikasikan rubrik dan harness sebelum angka-angkanya agar metodologinya berdiri sendiri. (Hasil diisi dari pengujian nyata; lihat catatan status di bagian bawah.)
Lima dimensi
| Dimensi | Apa yang diukur | Bagaimana penilaiannya |
|---|---|---|
| Kecepatan pembuatan | Detik wall-clock untuk dek 10 slide | Median dari pengujian berulang (β₯10; prompt sama), lebih rendah lebih baik |
| Akurasi ekspor | Apakah .pptx | 0β5: font, tata letak, grafik, animasi tetap terjaga |
| Kemampuan pengeditan | Apakah objek yang diekspor dapat diedit, bukan tangkapan layar? | 0β5: teks dapat diedit, grafik memiliki data langsung |
| Dukungan bahasa | Kualitas non-Inggris asli (CJK/RTL) | 0β5: rendering, font, tidak ada tofu/tumpang tindih di 5 skrip |
| Biaya per dek | $ untuk satu dek 10 slide | Dinormalisasi ke satu dek dari harga publik |
Protokol pengujian (aturan)
- Satu prompt yang identik untuk setiap alat: topik bisnis 10 slide yang tetap dengan satu grafik dan satu tajuk non-Latin. Dipublikasikan kata demi kata dalam harness.
- Pengujian waktu berulang. Kecepatan adalah median dari 50 pengujian per alat (bukan satu pengujian yang beruntung), diukur dengan wall-clock dari permintaan hingga file yang dapat diunduh.
- Verifikasi desktop. Setiap ekspor dibuka di PowerPoint desktop; akurasi/kemampuan pengeditan dinilai dengan mengklik objek nyata, bukan dengan melihat sekilas thumbnail.
- Hanya harga publik. Biaya menggunakan harga yang dipublikasikan setiap vendor untuk satu dek 10 slide, dinormalisasi (kredit β dolar).
- Metodologi sebelum hasil. Rubrik dan harness dibekukan sebelum penilaian untuk mencegah cherry-picking.
- Tantangan terbuka. Kompetitor diundang untuk menjalankan ulang harness dan mengirimkan koreksi.
Rubrik penilaian (akurasi ekspor, sebagai contoh)
- 5 β Identik dengan pratinjau: font tertanam, tata letak tepat, grafik dapat diedit, transisi utuh.
- 4 β Penyimpangan kecil: satu font diganti atau satu transisi hilang.
- 3 β Penyimpangan yang terlihat: beberapa aliran ulang/tumpang tindih, grafik diratakan menjadi gambar.
- 2 β Penyimpangan besar: banyak tumpang tindih, sebagian besar objek tidak dapat diedit.
- 1 β Ekspor pada dasarnya adalah tangkapan layar dari setiap slide.
- 0 β Tidak ada ekspor yang berfungsi.
.pptx
Harness open-source
Skrip pendamping
scripts/benchmark/ai-presentation-benchmark.mjs- Mengukur waktu alat API asli secara otomatis selama N pengujian dan menghitung median.
- Menghasilkan kerangka terstruktur (alat Γ dimensi) untuk alat yang dinilai secara manual (yang tidak memiliki API).
results.csv - Mencetak header reproduksibilitas (tanggal, hash prompt, jumlah pengujian) sehingga hasil apa pun dapat dilacak ke inputnya.
Jalankan sendiri:
node scripts/benchmark/ai-presentation-benchmark.mjs --runs=50 --out=results.csv
Hasil
Kami mempublikasikan metodologi dan harness open-source terlebih dahulu, dengan sengaja β sehingga cara angka-angka tersebut dihasilkan dapat diaudit sebelum angka apa pun dikutip. Ini adalah urutan yang jujur: benchmark yang dapat Anda reproduksi lebih berharga daripada papan peringkat yang harus Anda percayai. Di bawah ini adalah apa yang telah diukur sejauh ini; kolom kecepatan dan akurasi per alat sedang diisi pengujian demi pengujian dan secara eksplisit ditandai tertunda daripada perkiraan.
Biaya per dek (semua 10 alat β harga publik, diverifikasi 2026-06)
Alat berlangganan diberi harga per bulan, jadi angka "per dek" yang ketat bergantung pada volume; kami mencantumkan tingkat berbayar awal dan, jika alat memberi harga per pembuatan, angka per dek.
| Alat | Harga paket berbayar awal (2026) | Catatan |
|---|---|---|
| 2Slides | ~$0,63 / dek 10-slide (Pro $12,50/bln) atau ~$2,53 PAYG | Harga per dek; satu-satunya yang memiliki API publik dalam daftar ini |
| SlidesAI | $8,33/bln (tahunan) | Langganan termurah; add-on Google Slides |
| Gamma | $12/bln (Plus) | 400 kredit gratis sekali pakai |
| Beautiful.ai | $12/bln (Pro), $40/pengguna/bln (Team) | Uji coba 14 hari |
| Canva | $12,99/bln (Pro) | Tingkat gratis yang murah hati |
| Presentations.ai | ~$16,50/bln ($198/thn) | Tingkat Starter gratis; memiliki REST API |
| Genspark | $19,99β24,99/bln (Plus) | Dek berbiaya 300β500 dari 10.000 kredit bulanan |
| SlideSpeak | $29/bln untuk 50 kredit | Ekonomi per kredit menjadi mahal dengan cepat |
| Plus AI | ~$10β15/bln (perkiraan) | Add-on Google Slides |
| Presenton | Self-host (infra + token model) | Open source (Apache-2.0); tidak ada biaya lisensi per dek |
Sumber: halaman harga vendor dan perbandingan harga pembuat presentasi AI 2Slides, 2026-06.
2Slides β hasil terukur (pengujian terekam 2026-06-03)
Angka-angka ini berasal dari pengujian langsung yang dapat direproduksi terhadap API 2Slides: 10 pembuatan dek 10 slide dari satu prompt tetap, ditambah satu pengujian bahasa Jepang, dengan setiap output
.pptxpython-pptx- Kecepatan pembuatan: median 30,4 detik untuk dek 10 slide lengkap (n=10; min 21,5 detik, maks 40,8 detik; setiap pengujian menghasilkan ke-10 halaman).
- Akurasi ekspor / kemampuan pengeditan: OOXML asli, bukan ekspor tangkapan layar. Setiap dek memiliki 10 bagian nyata dan 97 objek bingkai teks yang dapat diedit dengan referensi font nyata β teks dan bentuk adalah objek PowerPoint kelas utama yang dapat Anda edit, bukan gambar yang diratakan. (Catatan: pengujian prompt ini menghasilkan tata letak teks-dan-gambar; tidak ada objek grafik asli yang dihasilkan dalam sampel ini, jadi kami tidak mengklaim hasil grafik yang dapat diedit di sini.)
ppt/slides/*.xml - Bahasa (CJK): lulus. Pengujian bahasa Jepang menghasilkan dek asli dengan 57 bentuk teks yang berisi karakter Jepang yang dapat diedit (contoh tajuk: γ2026εΉ΄γͺγ’γΌγγ―γΌγ―ηΎηΆγ). (Nuansa jujur: referensi font diselesaikan ke "Inter", sehingga glif CJK dirender melalui fallback font sistem PowerPoint alih-alih jenis huruf CJK yang tertanam β teksnya asli dan dapat diedit, tetapi font CJK khusus tidak tertanam.)
Matriks hasil
| Dimensi | 2Slides (diukur 2026-06-03) | 9 alat lainnya |
|---|---|---|
| Biaya per dek | β ~$0,63β2,53 (tabel di atas) | β harga publik (tabel di atas) |
| Kecepatan pembuatan (median) | β 30,4 detik (n=10) | β tidak diukur pada pengujian ini |
| Akurasi ekspor / kemampuan pengeditan | β OOXML asli, 97 bingkai teks dapat diedit | β tidak diukur pada pengujian ini |
| Bahasa (CJK) | β teks JP asli dapat diedit (catatan font-fallback) | β tidak diukur pada pengujian ini |
Catatan cakupan (jujur): pengujian ini mengukur 2Slides secara langsung melalui API publiknya. Sembilan alat lainnya dibandingkan pada harga publik saja di sini β skor kecepatan, akurasi ekspor, dan bahasa mereka sengaja dibiarkan tidak terukur daripada diperkirakan, karena sebagian besar tidak memiliki API publik dan skor akurasi yang adil memerlukan pembukaan ekspor setiap alat di PowerPoint desktop secara manual. Harness dan prompt yang dibekukan ada di repo publik; siapa pun dapat menjalankan pengukuran yang sama pada alat apa pun dan mengirimkan hasilnya.
FAQ
T: Bagaimana cara melakukan benchmark alat presentasi AI secara adil? J: Gunakan satu prompt yang identik di semua alat, nilai lima dimensi terukur (kecepatan, akurasi ekspor, kemampuan pengeditan, dukungan bahasa, biaya), ambil median dari pengujian berulang untuk pengaturan waktu, verifikasi ekspor di PowerPoint desktop, dan publikasikan rubrik serta harness sebelum angka-angkanya.
T: Mengapa menggunakan median dari 50 pengujian untuk kecepatan? J: Pengujian tunggal bersifat fluktuatif β beban server dan cold start dapat membiaskannya. Median dari 50 pengujian adalah angka yang stabil dan dapat dipertahankan.
T: Bisakah saya mereproduksi atau menyanggah hasil ini? J: Ya. Harness ini open-source dan prompt-nya dipublikasikan kata demi kata. Jalankan ulang dan kirimkan koreksi; itulah inti dari metodologi terbuka.
Sumber & bacaan lebih lanjut
- Penelitian Aysenne / Princeton GEO β mengutip sumber dan statistik meningkatkan visibilitas AI sebesar 30β40%
- 2Slides: Mengapa Alat Slide AI Rusak pada Ekspor PowerPoint Β· Benchmark Kecepatan Presentasi AI
Terakhir ditinjau: 2026-06-03 oleh tim 2Slides. Metodologi dibekukan pada tanggal ini; hasil ditambahkan setelah pengujian terekam.
About 2Slides
Create stunning AI-powered presentations in seconds. Transform your ideas into professional slides with 2slides AI Agent.
Try For Free