Seorang pengguna Reddit baru-baru ini menjalankan satu eksperimen menarik untuk menilai prestasi beberapa model AI percuma untuk pengekodan dan melihat model mana yang benar-benar berfungsi dengan baik dalam situasi pembangunan sebenar. Selepas menguji beberapa model secara perbandingan, pengguna tersebut mendapati bahawa Kimi 2.5 memberikan prestasi terbaik, malah mengatasi beberapa model daripada syarikat teknologi besar.
Berikut adalah ringkasan eksperimen tersebut dan dapatan utamanya.
Persediaan Eksperimen
Pengguna tersebut mereka satu ujian yang agak mudah tetapi bijak untuk melihat sejauh mana model AI mampu memahami dokumentasi, kebergantungan (dependencies), dan tugasan pembangunan sebenar.
Tugasnya adalah membina aplikasi Flutter yang ringkas yang boleh menerima fail PDF dan membahagikannya kepada dua fail PDF berasingan.
Namun terdapat satu cabaran.
Pakej Flutter yang diberikan kepada model AI hanyalah pakej paparan PDF (PDF viewer). Ia tidak mempunyai fungsi untuk membahagikan PDF secara langsung. Sebaliknya, pakej ini dibina di atas enjin PDF peringkat rendah (lower-level PDF engine) yang sebenarnya mempunyai keupayaan untuk membahagikan PDF.
Untuk menyelesaikan tugasan ini dengan betul, model AI perlu:
- Membaca dokumentasi pakej Flutter tersebut.
- Menyedari bahawa pakej itu tidak boleh membahagikan PDF secara langsung.
- Mengetahui bahawa enjin PDF peringkat rendah mempunyai fungsi tersebut.
- Menggunakan enjin itu untuk mengubah suai aplikasi Flutter yang diberikan.
Sebagai langkah pertama, pengguna bertanya kepada semua model soalan mudah:
“Adakah pakej tahap tinggi ini boleh membahagikan PDF?”
Menariknya, kebanyakan model menjawab “ya” walaupun jawapannya salah.
Hanya Codex dan GLM5 yang menjawab dengan betul bahawa pakej tersebut tidak boleh membahagikan PDF.
Tugasan Kod
Selepas ujian dokumentasi, pengguna memberikan kepada semua model aplikasi Flutter yang sangat ringkas (sekitar 10 baris kod) yang hanya memaparkan fail PDF menggunakan pakej viewer tersebut.
Kemudian model diminta untuk mengubah suai aplikasi tersebut supaya boleh membahagikan PDF.
Semua model diuji dengan syarat berikut:
- Thinking / reasoning mode diaktifkan
- Menggunakan versi percuma terkini
- Tiada model berbayar digunakan
Model-model tersebut dinilai berdasarkan:
- Ketepatan kod
- Bilangan kesilapan
- Kecekapan kod
- Jumlah pembetulan yang diperlukan
Kedudukan Model dan Keputusan
🥇 Kimi 2.5 Thinking — Juara
Kimi 2.5 memberikan prestasi terbaik dalam eksperimen ini.
Model ini menghasilkan kod yang terus berfungsi tanpa sebarang kesilapan. Tiada masalah sintaks, tiada kesilapan logik, dan penyelesaian yang diberikan hanya menggunakan pakej yang benar-benar diperlukan.
Kod tersebut boleh terus dijalankan tanpa perlu pembetulan tambahan. Inilah yang menjadikan Kimi 2.5 jelas mengatasi model lain dalam ujian ini.
🥈 Sonnet 4.6 Extended — Tempat Kedua
Sonnet memberikan prestasi yang hampir setanding dengan Kimi 2.5.
Kod yang dihasilkan sebenarnya berfungsi dengan baik tetapi terdapat satu kesilapan sintaks kecil. Pengguna hanya perlu membuang satu perkataan const untuk membuatkan kod tersebut berfungsi.
Disebabkan kesilapan itu sangat kecil dan mudah diperbaiki, Sonnet masih mendapat kedudukan yang tinggi.
🥉 GPT-5 Thinking Mini — Baik tetapi Kurang Efisien
GPT-5 Thinking Mini juga menghasilkan kod yang berfungsi tanpa kesilapan.
Namun model ini mengimport beberapa pakej yang tidak diperlukan. Walaupun ini tidak menyebabkan aplikasi rosak, ia menjadikan kod tersebut sedikit kurang efisien berbanding Kimi 2.5 dan Sonnet.
Disebabkan perkara ini, ia berada di tempat ketiga.
4. Grok Expert
Grok menghasilkan kod yang hampir betul tetapi terdapat sekitar tiga kesilapan sintaks.
Kesilapan ini masih boleh diperbaiki secara manual, tetapi jumlah kesilapan yang lebih banyak menyebabkan kedudukannya lebih rendah berbanding model teratas.
5. Gemini 3.1 Pro Thinking (High)
Percubaan pertama daripada Gemini mempunyai banyak kesilapan — sekitar enam hingga tujuh kesalahan.
Dua daripadanya agak pelik kerana model tersebut menggunakan kata kunci yang sebenarnya tidak wujud dalam bahasa Dart atau pakej Flutter tersebut.
Selepas kesilapan tersebut diberikan semula kepada model, jawapan yang diperbaiki menjadi lebih baik. Namun masih terdapat satu isu yang boleh mengelirukan pembangun Flutter yang baru belajar.
Dengan jumlah kesilapan yang agak banyak, prestasi ini dianggap mengecewakan.
6. DeepSeek DeepThink
DeepSeek menghadapi kesukaran dalam percubaan pertama.
Kod yang dihasilkan mengandungi kesilapan yang sukar difahami, dan memerlukan beberapa pusingan pembetulan.
Akhirnya ia berjaya menghasilkan kod yang berfungsi, tetapi hanya selepas beberapa kali iterasi dan kira-kira lima pembetulan.
7. GLM5 DeepThink
GLM5 gagal menyelesaikan tugasan ini.
Walaupun selepas beberapa kali percubaan dan pembetulan, model ini terus mengulangi kesilapan yang sama berkaitan dengan satu kata kunci tertentu.
Walaupun pengguna telah memberitahu kesilapan tersebut secara langsung, model itu masih menghasilkan kesilapan yang sama berulang kali.
8. Codex
Prestasi Codex agak unik.
Pada awalnya, ia berjaya mengenal pasti bahawa pakej tahap tinggi tidak boleh membahagikan PDF, sesuatu yang gagal dilakukan oleh kebanyakan model lain.
Namun apabila ditanya tentang enjin PDF peringkat rendah yang sebenarnya boleh membahagikan PDF, Codex tetap menjawab bahawa ia tidak boleh melakukannya.
Dengan kata lain, ia berjaya pada langkah pertama tetapi gagal memahami kebergantungan yang lebih mendalam.
Pengajaran Penting daripada Eksperimen Ini
Salah satu perkara menarik daripada eksperimen ini ialah bagaimana prestasi model AI boleh berbeza bergantung kepada jenis tugasan.
Banyak model AI sangat baik dalam menghasilkan:
- HTML
- CSS
- JavaScript
- Skrip Python
Namun apabila melibatkan framework sebenar seperti Flutter, yang bergantung kepada dokumentasi terkini dan beberapa lapisan kebergantungan, sebahagian model mula menghadapi kesukaran.
Pengguna tersebut juga menyatakan bahawa beliau sebenarnya menjangkakan GLM5 berada dalam lima model teratas kerana sebelum ini ia mampu menghasilkan halaman HTML dengan baik. Tetapi dalam ujian ini, prestasinya agak mengecewakan.
Mengapa Kimi 2.5 Menonjol
Berdasarkan eksperimen ini, Kimi 2.5 mempunyai tiga kelebihan utama:
- Ia memahami dokumentasi berlapis dengan betul
- Ia menghasilkan kod yang bersih dan efisien
- Ia memberikan penyelesaian yang terus berfungsi pada percubaan pertama
Apa yang lebih mengejutkan ialah Kimi 2.5 bukan dibangunkan oleh syarikat teknologi gergasi seperti Google atau Anthropic, namun masih mampu memberikan hasil yang paling tepat.
Gabungan ketepatan, kelajuan, dan kod tanpa kesilapan inilah yang membuatkan pengguna Reddit tersebut akhirnya menyimpulkan:
“Kimi 2.5 adalah model AI terbaik yang pernah saya gunakan.”
Mengapa Kimi 2.5 Menawarkan Nilai Terbaik untuk Pembangun (Developers)
1. Kelebihan Kos Adalah Faktor Paling Penting
Sebab paling utama mengapa pembangun semakin menggunakan Kimi 2.5 ialah kerana kosnya yang jauh lebih rendah berbanding model AI termaju yang lain.
Untuk penggunaan API:
| Model | Input (setiap 1 juta token) | Output (setiap 1 juta token) |
|---|---|---|
| Kimi 2.5 | $0.60 | $3.00 |
| Claude Opus | $5.00 | $25.00 |
| Model kelas GPT-5 | ~ $5+ | ~ $20+ |
Ini bermakna Kimi boleh menjadi sekitar 8–9 kali lebih murah berbanding model proprietari terkemuka untuk beban kerja yang sama.
Untuk Penggunaan Berskala Besar
Perbezaan kos menjadi sangat besar apabila digunakan pada skala yang besar.
Contohnya, jika menjalankan 1 juta permintaan API setahun:
- Kimi 2.5: sekitar $13,800
- Claude Opus: sekitar $390,000
Dalam Aliran Kerja Pembangun Sebenar
Jika sebuah startup memproses 100 juta token sebulan:
- Model gaya ChatGPT: kira-kira $9,000 sebulan
- Kimi 2.5: kira-kira $310 sebulan
Perbezaan kos pada tahap ini mengubah secara asas cara pembangun menggunakan AI.
Daripada perlu berjimat dengan setiap prompt, pembangun boleh:
- menjalankan loop agen AI yang besar
- menganalisis keseluruhan codebase
- melakukan penjanaan kod dan debugging secara berterusan
tanpa perlu risau tentang kos token.