Seorang pengguna Reddit baru-baru ini menjalankan satu eksperimen menarik untuk menilai prestasi beberapa model AI percuma untuk pengekodan dan melihat model mana yang benar-benar berfungsi dengan baik dalam situasi pembangunan sebenar. Selepas menguji beberapa model secara perbandingan, pengguna tersebut mendapati bahawa Kimi 2.5 memberikan prestasi terbaik, malah mengatasi beberapa model daripada syarikat teknologi besar.

Contents

🥇 Kimi 2.5 Thinking — Juara
🥈 Sonnet 4.6 Extended — Tempat Kedua
🥉 GPT-5 Thinking Mini — Baik tetapi Kurang Efisien
4. Grok Expert
5. Gemini 3.1 Pro Thinking (High)
6. DeepSeek DeepThink
7. GLM5 DeepThink
8. Codex
Mengapa Kimi 2.5 Menawarkan Nilai Terbaik untuk Pembangun (Developers)

1. Kelebihan Kos Adalah Faktor Paling Penting
Untuk Penggunaan Berskala Besar
Dalam Aliran Kerja Pembangun Sebenar

Berikut adalah ringkasan eksperimen tersebut dan dapatan utamanya.

Persediaan Eksperimen

Pengguna tersebut mereka satu ujian yang agak mudah tetapi bijak untuk melihat sejauh mana model AI mampu memahami dokumentasi, kebergantungan (dependencies), dan tugasan pembangunan sebenar.

Tugasnya adalah membina aplikasi Flutter yang ringkas yang boleh menerima fail PDF dan membahagikannya kepada dua fail PDF berasingan.

Namun terdapat satu cabaran.

Pakej Flutter yang diberikan kepada model AI hanyalah pakej paparan PDF (PDF viewer). Ia tidak mempunyai fungsi untuk membahagikan PDF secara langsung. Sebaliknya, pakej ini dibina di atas enjin PDF peringkat rendah (lower-level PDF engine) yang sebenarnya mempunyai keupayaan untuk membahagikan PDF.

Untuk menyelesaikan tugasan ini dengan betul, model AI perlu:

Membaca dokumentasi pakej Flutter tersebut.
Menyedari bahawa pakej itu tidak boleh membahagikan PDF secara langsung.
Mengetahui bahawa enjin PDF peringkat rendah mempunyai fungsi tersebut.
Menggunakan enjin itu untuk mengubah suai aplikasi Flutter yang diberikan.

Sebagai langkah pertama, pengguna bertanya kepada semua model soalan mudah:

“Adakah pakej tahap tinggi ini boleh membahagikan PDF?”

Menariknya, kebanyakan model menjawab “ya” walaupun jawapannya salah.

Hanya Codex dan GLM5 yang menjawab dengan betul bahawa pakej tersebut tidak boleh membahagikan PDF.

Tugasan Kod

Selepas ujian dokumentasi, pengguna memberikan kepada semua model aplikasi Flutter yang sangat ringkas (sekitar 10 baris kod) yang hanya memaparkan fail PDF menggunakan pakej viewer tersebut.

Kemudian model diminta untuk mengubah suai aplikasi tersebut supaya boleh membahagikan PDF.

Semua model diuji dengan syarat berikut:

Thinking / reasoning mode diaktifkan
Menggunakan versi percuma terkini
Tiada model berbayar digunakan

Model-model tersebut dinilai berdasarkan:

Ketepatan kod
Bilangan kesilapan
Kecekapan kod
Jumlah pembetulan yang diperlukan

Kedudukan Model dan Keputusan

🥇 Kimi 2.5 Thinking — Juara

Kimi 2.5 memberikan prestasi terbaik dalam eksperimen ini.

Model ini menghasilkan kod yang terus berfungsi tanpa sebarang kesilapan. Tiada masalah sintaks, tiada kesilapan logik, dan penyelesaian yang diberikan hanya menggunakan pakej yang benar-benar diperlukan.

Kod tersebut boleh terus dijalankan tanpa perlu pembetulan tambahan. Inilah yang menjadikan Kimi 2.5 jelas mengatasi model lain dalam ujian ini.

🥈 Sonnet 4.6 Extended — Tempat Kedua

Sonnet memberikan prestasi yang hampir setanding dengan Kimi 2.5.

Kod yang dihasilkan sebenarnya berfungsi dengan baik tetapi terdapat satu kesilapan sintaks kecil. Pengguna hanya perlu membuang satu perkataan const untuk membuatkan kod tersebut berfungsi.

Disebabkan kesilapan itu sangat kecil dan mudah diperbaiki, Sonnet masih mendapat kedudukan yang tinggi.

🥉 GPT-5 Thinking Mini — Baik tetapi Kurang Efisien

GPT-5 Thinking Mini juga menghasilkan kod yang berfungsi tanpa kesilapan.

Namun model ini mengimport beberapa pakej yang tidak diperlukan. Walaupun ini tidak menyebabkan aplikasi rosak, ia menjadikan kod tersebut sedikit kurang efisien berbanding Kimi 2.5 dan Sonnet.

Disebabkan perkara ini, ia berada di tempat ketiga.

4. Grok Expert

Grok menghasilkan kod yang hampir betul tetapi terdapat sekitar tiga kesilapan sintaks.

Kesilapan ini masih boleh diperbaiki secara manual, tetapi jumlah kesilapan yang lebih banyak menyebabkan kedudukannya lebih rendah berbanding model teratas.

5. Gemini 3.1 Pro Thinking (High)

Percubaan pertama daripada Gemini mempunyai banyak kesilapan — sekitar enam hingga tujuh kesalahan.

Dua daripadanya agak pelik kerana model tersebut menggunakan kata kunci yang sebenarnya tidak wujud dalam bahasa Dart atau pakej Flutter tersebut.

Selepas kesilapan tersebut diberikan semula kepada model, jawapan yang diperbaiki menjadi lebih baik. Namun masih terdapat satu isu yang boleh mengelirukan pembangun Flutter yang baru belajar.

Dengan jumlah kesilapan yang agak banyak, prestasi ini dianggap mengecewakan.

6. DeepSeek DeepThink

DeepSeek menghadapi kesukaran dalam percubaan pertama.

Kod yang dihasilkan mengandungi kesilapan yang sukar difahami, dan memerlukan beberapa pusingan pembetulan.

Akhirnya ia berjaya menghasilkan kod yang berfungsi, tetapi hanya selepas beberapa kali iterasi dan kira-kira lima pembetulan.

7. GLM5 DeepThink

GLM5 gagal menyelesaikan tugasan ini.

Walaupun selepas beberapa kali percubaan dan pembetulan, model ini terus mengulangi kesilapan yang sama berkaitan dengan satu kata kunci tertentu.

Walaupun pengguna telah memberitahu kesilapan tersebut secara langsung, model itu masih menghasilkan kesilapan yang sama berulang kali.

8. Codex

Prestasi Codex agak unik.

Pada awalnya, ia berjaya mengenal pasti bahawa pakej tahap tinggi tidak boleh membahagikan PDF, sesuatu yang gagal dilakukan oleh kebanyakan model lain.

Namun apabila ditanya tentang enjin PDF peringkat rendah yang sebenarnya boleh membahagikan PDF, Codex tetap menjawab bahawa ia tidak boleh melakukannya.

Dengan kata lain, ia berjaya pada langkah pertama tetapi gagal memahami kebergantungan yang lebih mendalam.

Pengajaran Penting daripada Eksperimen Ini

Salah satu perkara menarik daripada eksperimen ini ialah bagaimana prestasi model AI boleh berbeza bergantung kepada jenis tugasan.

Banyak model AI sangat baik dalam menghasilkan:

HTML
CSS
JavaScript
Skrip Python

Namun apabila melibatkan framework sebenar seperti Flutter, yang bergantung kepada dokumentasi terkini dan beberapa lapisan kebergantungan, sebahagian model mula menghadapi kesukaran.

Pengguna tersebut juga menyatakan bahawa beliau sebenarnya menjangkakan GLM5 berada dalam lima model teratas kerana sebelum ini ia mampu menghasilkan halaman HTML dengan baik. Tetapi dalam ujian ini, prestasinya agak mengecewakan.

Mengapa Kimi 2.5 Menonjol

Berdasarkan eksperimen ini, Kimi 2.5 mempunyai tiga kelebihan utama:

Ia memahami dokumentasi berlapis dengan betul
Ia menghasilkan kod yang bersih dan efisien
Ia memberikan penyelesaian yang terus berfungsi pada percubaan pertama

Apa yang lebih mengejutkan ialah Kimi 2.5 bukan dibangunkan oleh syarikat teknologi gergasi seperti Google atau Anthropic, namun masih mampu memberikan hasil yang paling tepat.

Gabungan ketepatan, kelajuan, dan kod tanpa kesilapan inilah yang membuatkan pengguna Reddit tersebut akhirnya menyimpulkan:

“Kimi 2.5 adalah model AI terbaik yang pernah saya gunakan.”

Mengapa Kimi 2.5 Menawarkan Nilai Terbaik untuk Pembangun (Developers)

1. Kelebihan Kos Adalah Faktor Paling Penting

Sebab paling utama mengapa pembangun semakin menggunakan Kimi 2.5 ialah kerana kosnya yang jauh lebih rendah berbanding model AI termaju yang lain.

Untuk penggunaan API:

Model	Input (setiap 1 juta token)	Output (setiap 1 juta token)
Kimi 2.5	$0.60	$3.00
Claude Opus	$5.00	$25.00
Model kelas GPT-5	~ $5+	~ $20+

Ini bermakna Kimi boleh menjadi sekitar 8–9 kali lebih murah berbanding model proprietari terkemuka untuk beban kerja yang sama.

Untuk Penggunaan Berskala Besar

Perbezaan kos menjadi sangat besar apabila digunakan pada skala yang besar.

Contohnya, jika menjalankan 1 juta permintaan API setahun:

Kimi 2.5: sekitar $13,800
Claude Opus: sekitar $390,000

Dalam Aliran Kerja Pembangun Sebenar

Jika sebuah startup memproses 100 juta token sebulan:

Model gaya ChatGPT: kira-kira $9,000 sebulan
Kimi 2.5: kira-kira $310 sebulan

Perbezaan kos pada tahap ini mengubah secara asas cara pembangun menggunakan AI.

Daripada perlu berjimat dengan setiap prompt, pembangun boleh:

menjalankan loop agen AI yang besar
menganalisis keseluruhan codebase
melakukan penjanaan kod dan debugging secara berterusan

tanpa perlu risau tentang kos token.

Persediaan Eksperimen

Tugasan Kod

Kedudukan Model dan Keputusan

🥇 Kimi 2.5 Thinking — Juara

🥈 Sonnet 4.6 Extended — Tempat Kedua

🥉 GPT-5 Thinking Mini — Baik tetapi Kurang Efisien

4. Grok Expert

5. Gemini 3.1 Pro Thinking (High)

6. DeepSeek DeepThink

7. GLM5 DeepThink

8. Codex

Pengajaran Penting daripada Eksperimen Ini

Mengapa Kimi 2.5 Menonjol

Mengapa Kimi 2.5 Menawarkan Nilai Terbaik untuk Pembangun (Developers)

1. Kelebihan Kos Adalah Faktor Paling Penting

Untuk Penggunaan Berskala Besar

Dalam Aliran Kerja Pembangun Sebenar

Editor's Pick

Top Writers

Oponion

You Might Also Like

News

Technology

Health

Culture

More

Subscribe

Join Us!