Inference Speed Calculator

Estimasi kecepatan inferensi model AI (tokens/detik)

Kecepatan Inferensi
403.2 tokens/s
Bandwidth
1008 GB/s
Bits per Token
16-bit

Kecepatan Inferensi

403.2 tokens/detik

Bandwidth

1008 GB/s

Hasil akan dihitung secara otomatis saat input terisi

Kalkulator Kecepatan Inferensi AI: Hitung Latency & Throughput Model Machine Learning

Hitung kecepatan inferensi model AI: latency, throughput, dan FLOPS. Gratis, akurat, dan mudah digunakan untuk evaluasi performa model ML.

Rumus Kecepatan Inferensi Model AI

Latency = Waktu Total / Jumlah Request | Throughput = Jumlah Request / Waktu Total | FLOPS = 2 × N × D × L × H × S

Keterangan:

  • LatencyWaktu yang dibutuhkan model untuk memproses satu request inferensi
    Waktu yang dibutuhkan model untuk memproses satu request inferensi(contoh: 50 ms per request)
  • ThroughputJumlah request yang dapat diproses per satuan waktu
    Jumlah request yang dapat diproses per satuan waktu(contoh: 20 request/detik)
  • FLOPSFloating Point Operations per Second, mengukur komputasi yang dibutuhkan
    Floating Point Operations per Second, mengukur komputasi yang dibutuhkan(contoh: 150 GFLOPS)
  • NJumlah token atau batch size
    Jumlah token atau batch size(contoh: Batch size = 32)
  • DDimensi embedding model
    Dimensi embedding model(contoh: Dimensi = 768)
  • LJumlah layer dalam model
    Jumlah layer dalam model(contoh: 12 layer)
  • HJumlah attention heads
    Jumlah attention heads(contoh: 12 heads)
  • SPanjang sequence input
    Panjang sequence input(contoh: 512 token)

Cara Menggunakan Kalkulator Kecepatan Inferensi Model AI

  1. 1

    Masukkan Parameter Model

    Isi parameter model AI Anda seperti jumlah layer, dimensi embedding, jumlah attention heads, dan panjang sequence input. Parameter ini menentukan kompleksitas komputasi model.

  2. 2

    Tentukan Batch Size dan Waktu Inferensi

    Masukkan jumlah request yang diproses sekaligus (batch size) dan total waktu yang dibutuhkan untuk menyelesaikan inferensi dalam milidetik atau detik.

  3. 3

    Hitung dan Analisis Hasil

    Klik tombol hitung untuk mendapatkan nilai latency, throughput, dan estimasi FLOPS. Gunakan hasil ini untuk mengevaluasi apakah model Anda memenuhi kebutuhan performa aplikasi.

  4. 4

    Bandingkan dengan Kebutuhan Aplikasi

    Bandingkan hasil perhitungan dengan SLA (Service Level Agreement) aplikasi Anda. Jika latency terlalu tinggi, pertimbangkan optimasi seperti quantization, pruning, atau distilasi model.

Contoh Perhitungan

Contoh 1: Evaluasi Model Transformer untuk Chatbot

Soal:

Sebuah perusahaan menggunakan model transformer dengan 12 layer, dimensi 768, 12 attention heads, dan sequence length 512 token. Model memproses 100 request dalam 5 detik. Berapa latency dan throughput-nya?

Penyelesaian:
  1. 1.Hitung FLOPS: 2 × 100 × 768 × 12 × 12 × 512 = 113.246.208.000 operasi
  2. 2.Hitung Latency: 5000 ms / 100 request = 50 ms per request
  3. 3.Hitung Throughput: 100 request / 5 detik = 20 request/detik
Hasil:Latency: 50 ms/request | Throughput: 20 req/s | FLOPS: ~113 GFLOPS

Dengan latency 50ms, model ini cocok untuk chatbot real-time yang membutuhkan respons cepat. Throughput 20 req/s cukup untuk aplikasi dengan traffic sedang.

Contoh 2: Optimasi Model untuk Edge Device

Soal:

Sebuah model CNN untuk image classification memiliki 50 layer konvolusi dengan dimensi 256, batch size 16, dan memproses 200 gambar dalam 8 detik. Berapa performanya?

Penyelesaian:
  1. 1.Hitung FLOPS: 2 × 16 × 256 × 50 × 224 × 224 = 20.552.089.600 operasi
  2. 2.Hitung Latency: 8000 ms / 200 gambar = 40 ms per gambar
  3. 3.Hitung Throughput: 200 gambar / 8 detik = 25 gambar/detik
Hasil:Latency: 40 ms/gambar | Throughput: 25 img/s | FLOPS: ~20.5 GFLOPS

Model ini memiliki performa yang baik untuk edge device. Latency 40ms memungkinkan klasifikasi gambar secara real-time pada perangkat mobile.

Contoh 3: Perbandingan Dua Arsitektur Model

Soal:

Bandingkan dua model: Model A (6 layer, dimensi 512) vs Model B (24 layer, dimensi 1024). Keduanya memproses 50 request dalam waktu yang sama yaitu 10 detik.

Penyelesaian:
  1. 1.Model A FLOPS: 2 × 50 × 512 × 6 × 8 × 256 = 6.442.450.944 operasi
  2. 2.Model B FLOPS: 2 × 50 × 1024 × 24 × 16 × 256 = 103.079.215.104 operasi
  3. 3.Latency keduanya: 10000 ms / 50 = 200 ms/request
  4. 4.Throughput keduanya: 50 / 10 = 5 request/detik
Hasil:Model A: 6.4 GFLOPS | Model B: 103 GFLOPS | Latency sama: 200ms | Throughput sama: 5 req/s

Meskipun latency dan throughput sama, Model B membutuhkan komputasi 16x lebih besar. Model A lebih efisien untuk deployment dengan resource terbatas.

Pertanyaan yang Sering Diajukan (FAQ)

Apa itu inferensi dalam konteks model AI?
Inferensi adalah proses menggunakan model AI yang sudah dilatih untuk membuat prediksi atau keputusan berdasarkan data baru. Berbeda dengan training yang membutuhkan banyak data dan waktu, inferensi adalah eksekusi model untuk menghasilkan output dari input tertentu.
Mengapa kecepatan inferensi penting?
Kecepatan inferensi menentukan seberapa cepat model AI dapat merespons request. Dalam aplikasi real-time seperti chatbot, rekomendasi produk, atau deteksi objek, latency yang tinggi dapat mengurangi pengalaman pengguna dan menurunkan efisiensi sistem.
Bagaimana cara mengurangi latency model AI?
Beberapa teknik untuk mengurangi latency meliputi: (1) Quantization - mengurangi presisi angka dari float32 ke int8, (2) Pruning - menghapus weight yang tidak penting, (3) Distilasi - membuat model lebih kecil dengan pengetahuan dari model besar, (4) Caching - menyimpan hasil inferensi yang sering diminta, (5) Batch processing - memproses beberapa request sekaligus.
Apa perbedaan antara latency dan throughput?
Latency adalah waktu yang dibutuhkan untuk memproses satu request, diukur dalam milidetik atau detik. Throughput adalah jumlah request yang dapat diproses per satuan waktu, diukur dalam request per detik. Keduanya penting: latency rendah untuk respons cepat, throughput tinggi untuk menangani banyak pengguna.
Apakah FLOPS sama dengan kecepatan inferensi?
Tidak sepenuhnya. FLOPS mengukur jumlah operasi floating point yang dibutuhkan, sedangkan kecepatan inferensi juga dipengaruhi oleh faktor lain seperti bandwidth memori, optimasi software, dan arsitektur hardware. Model dengan FLOPS lebih rendah bisa lebih cepat jika dioptimasi dengan baik.
Bagaimana memilih hardware yang tepat untuk inferensi AI?
Pilih hardware berdasarkan kebutuhan: GPU untuk paralelisasi tinggi, TPU untuk workload Google Cloud, CPU untuk model kecil, atau specialized chip seperti NVIDIA Jetson untuk edge devices. Pertimbangkan juga VRAM, bandwidth memori, dan dukungan framework yang digunakan.

Kalkulator Terkait

Referensi