Model Terbaik Baru Telah Hadir (GPT-5.4)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업경제 뉴스AI/미래기술

Transcript

00:00:00Kalian bisa mereset penghitung hari karena ada model baru yang terbaik.
00:00:03Kali ini ada GPT 5.4 dan saya sudah mengujinya, jadi inilah yang perlu kalian ketahui,
00:00:07serta kelebihan dan kekurangannya dalam 5 menit 40 detik.
00:00:11Jadi, ini dia poin-poin pentingnya.
00:00:17GPT 5.4 lebih unggul dalam pekerjaan pengetahuan dan pencarian web, serta punya kemampuan penggunaan komputer asli,
00:00:22ada fitur pencarian alat baru yang akan saya jelaskan nanti, dan responsnya bisa diarahkan di tengah jalan,
00:00:26ada mode cepat baru dan juga memiliki jendela konteks 1 juta token.
00:00:30Tampaknya tujuan 5.4 adalah menggabungkan kemampuan pengkodean Codex 5.3 dengan pengetahuan,
00:00:34pencarian web, dan keterampilan kerja profesional GPT 5.2 untuk menjadikan 5.4 model serba bisa.
00:00:40yang bisa melakukan segalanya.
00:00:41Dan menurut tolok ukur pihak ketiga dari Artificial Analysis, mereka benar-benar berhasil
00:00:45mencapai tujuan tersebut.
00:00:46Model ini menduduki peringkat sebagai model pengkodean terbaik, model agen terbaik, dan juga bersaing
00:00:49dengan Gemini sebagai model kecerdasan terbaik.
00:00:51Jika kita fokus pada poin yang menurut saya paling menarik, itu adalah
00:00:55penggunaan komputer secara asli.
00:00:56OpenAI tampaknya merancang ini sebagai model serbaguna pertama dengan kemampuan
00:01:00penggunaan komputer bawaan, sehingga sangat mahir menulis kode untuk mengoperasikan komputer via pustaka seperti
00:01:04Playwright, serta memberikan perintah mouse dan keyboard berdasarkan tangkapan layar.
00:01:08Mereka merilis keahlian eksperimental Playwright, jadi saya mencobanya.
00:01:12Di Codex menggunakan 5.4 dengan penalaran tingkat tinggi, saya memberikan perintah untuk membuat pengalaman 3D interaktif
00:01:16dari Tower Bridge di London.
00:01:18Saya juga menggunakan keahlian baru tersebut serta keahlian pembuatan gambar sehingga ia bisa menghasilkan
00:01:22asetnya sendiri untuk digunakan sebagai tekstur.
00:01:24Nah, pengalamannya sendiri cukup mirip dengan Codex 5.3 yang hingga saat ini
00:01:29menjadi model favorit saya.
00:01:30Setelah sekitar 20 menit mengerjakan tugas tersebut, saat itulah ia mulai menggunakan
00:01:33keahlian Playwright yang baru, dan pengalamannya cukup memuaskan.
00:01:37Ia membuka browser, mengeklik, menavigasi pemandangan, mengidentifikasi masalah visual
00:01:41yang perlu diperbaiki seperti latar belakang yang tidak menyatu dengan pemandangan, lalu kembali
00:01:45ke kode, memperbaikinya, dan mengulanginya lagi, semuanya terasa sangat lancar dan alami.
00:01:50Iterasi pertama proyek ini memakan waktu sekitar 30 menit untuk diselesaikan hanya dari
00:01:54satu perintah awal, dan setelah itu saya mengirimkan beberapa tindak lanjut untuk meminta detail tambahan
00:01:58dan beberapa perbaikan seperti posisi perahu yang miring dan jalanan yang tumpang tindih dengan tekstur lain, dan ia
00:02:03kembali bekerja selama sekitar 30 menit untuk setiap perintah, membuka
00:02:07Chrome, memverifikasi, dan melakukan perubahan hingga memberikan versi final ini dalam waktu sekitar satu setengah jam
00:02:11dan 3 perintah saja. Memang belum sempurna, tapi untuk pengembangan yang sepenuhnya
00:02:16tanpa campur tangan manusia, menurut saya ini tidak buruk. Model ini adalah pilihan mutlak
00:02:20bagi kalian yang sudah menyukai Codex 5.3.
00:02:24Namun, saya merasa lucu karena setelah sekitar 2 jam menggunakannya, sistem memberi tahu
00:02:27bahwa saya bisa menghemat satu jam jika beralih ke mode cepat yang baru.
00:02:31Ini sebenarnya model yang sama persis, kecerdasan yang sama, dan pengalaman yang sama, hanya saja
00:02:35memberikan kecepatan token hingga 1,5x lebih cepat karena biayanya 2x lipat dari penggunaan biasa, jadi pada dasarnya
00:02:41ini hanyalah tingkat prioritas dan bukan model yang berbeda.
00:02:44Poin lain yang menurut saya sangat menarik dalam rilis ini adalah pencarian alat.
00:02:48Ini memecahkan masalah pemuatan semua definisi alat ke dalam sistem prompt di awal,
00:02:52karena jika kalian punya terlalu banyak alat dan server MCP, itu akan membuang-buang token
00:02:56dan menyebabkan pembengkakan konteks yang bisa memengaruhi kualitas hasil.
00:03:00Sekarang dengan GPT 5.4, prompt hanya berisi daftar ringan dari alat yang tersedia dan model tersebut
00:03:05punya kemampuan mencari alat, sehingga saat model membutuhkan sebuah alat, ia tinggal mencari
00:03:09definisi alat tersebut dan menambahkannya ke percakapan tepat saat dibutuhkan.
00:03:13OpenAI mengatakan hal ini mengurangi penggunaan token hingga 47% dan mereka menunjukkannya dalam tolok ukur
00:03:18dengan 36 server MCP di mana akurasinya tetap terjaga.
00:03:22Selain fitur-fitur baru itu, model ini benar-benar fokus pada penyempurnaan alat,
00:03:26baik dalam cara model menggunakannya maupun kapan ia memilih untuk menggunakannya, dan
00:03:30ini membuahkan hasil dalam tolok ukur tersebut, tapi jujur saja tidak banyak yang bisa
00:03:34dilaporkan selain fakta bahwa ya, model baru ini lebih baik dari model sebelumnya.
00:03:38Saya rasa kelebihan model ini bisa diringkas: lebih pintar, berjalan lebih lama, dan
00:03:42menggunakan alat dengan lebih baik, artinya ia bisa menyelesaikan tugas yang lebih sulit daripada model lama.
00:03:47Ya, berita terkininya adalah model ini lebih baik dari versi sebelumnya, tapi sekarang mari kita bahas
00:03:51beberapa kekurangannya.
00:03:52Yang paling terasa bagi saya adalah kecepatannya.
00:03:54Meskipun saya suka model yang berpikir lebih lama, terkadang rasanya GPT 5.4
00:03:59melakukannya secara berlebihan, atau mungkin proses berpikirnya memang lambat, dan saya jelas
00:04:04bukan satu-satunya yang merasa begitu.
00:04:05Hasil dari Artificial Analysis menunjukkan bahwa GPT 5.4 membutuhkan waktu terlama untuk mengembalikan
00:04:09sebuah token dengan selisih yang cukup jauh, dan hal yang sama berlaku untuk waktu
00:04:14pengembalian 500 token pertama.
00:04:15Saya tidak yakin apakah ini masalah model atau masalah penyedia layanan saat ini, jadi mungkin
00:04:19ini akan membaik seiring waktu, tapi pandangan yang lebih pesimis adalah ini dibuat lambat agar
00:04:24kalian menggunakan mode cepat yang baru.
00:04:26Kekurangan lainnya adalah kenaikan harga bagi kalian yang menggunakan API.
00:04:29Model dasarnya seharga $2,50 per satu juta token input dan $15 per satu juta token output,
00:04:34tapi untuk model pro, harganya sangat mahal.
00:04:37Harganya $30 per satu juta token input dan $180 per satu juta token output, dan lebih
00:04:43parah lagi jika kalian ingin memanfaatkan jendela konteks 1 juta token yang baru, setiap input
00:04:47di atas 272.000 token akan ditagih dua kali lipat dari tarif normal.
00:04:52Jadi, saya sarankan untuk memadatkan konteks kalian untuk saat ini.
00:04:55Kekurangan terakhir adalah desain UI, dan meskipun ini agak subjektif, saya meminta
00:04:59Opus 4.6 dan GPT 5.4 untuk membuat situs web kafe, dan menurut saya Opus lebih baik di sini meskipun keduanya
00:05:05tidak ada yang benar-benar memukau saya.
00:05:07Masalah utama saya dengan GPT 5.4 dan beberapa model GPT lainnya
00:05:11adalah semuanya tampak memiliki UI yang sangat mirip.
00:05:14Model ini sepertinya sangat menyukai UI bergaya kartu buram dan tentu saja gradasi.
00:05:19Dan jelas ini hanya satu pengujian yang saya lakukan, tapi di Design Arena model ini juga tidak berperingkat
00:05:23terlalu tinggi, jadi itu adalah hal yang belum terlalu dikuasai OpenAI saat ini.
00:05:27Secara keseluruhan, saya akan menggunakan model ini sehari-hari karena saya penggemar Codex, tapi saya penasaran
00:05:32apa pendapat kalian.
00:05:33Apa model pilihan kalian?
00:05:34Beri tahu saya di kolom komentar di bawah, jangan lupa berlangganan dan seperti biasa, sampai jumpa
00:05:37di video berikutnya.

Key Takeaway

GPT 5.4 adalah model AI multimodal yang sangat kuat dalam pengkodean dan penggunaan alat otomatis, meskipun pengguna harus membayar harga lebih tinggi untuk kecepatan dan jendela konteks yang luas.

Highlights

GPT 5.4 diperkenalkan sebagai model serba bisa yang menggabungkan kemampuan pengkodean Codex 5.3 dengan kecerdasan profesional GPT 5.2.

Fitur unggulan 'Computer Use' memungkinkan model mengoperasikan komputer secara asli melalui pustaka seperti Playwright dan tangkapan layar.

Sistem 'Tool Search' baru berhasil mengurangi penggunaan token hingga 47% dengan memuat definisi alat hanya saat dibutuhkan.

Model ini memiliki jendela konteks yang sangat besar hingga 1 juta token, namun dengan struktur biaya tambahan yang signifikan.

Kekurangan utama terletak pada kecepatan respons yang lambat (latensi token tinggi) dan biaya API yang jauh lebih mahal untuk versi Pro.

Dalam hal desain antarmuka (UI), GPT 5.4 dinilai masih kalah estetika dibandingkan dengan kompetitornya seperti Opus 4.6.

Timeline

Pengenalan GPT 5.4 dan Posisi Pasar

Video dimulai dengan pengumuman peluncuran GPT 5.4 sebagai model AI terbaru yang memegang predikat terbaik saat ini. Narator menjelaskan bahwa model ini dirancang untuk menjadi solusi serba bisa dengan menggabungkan kekuatan pengkodean dari Codex 5.3 dan kemampuan kerja profesional dari GPT 5.2. Berdasarkan analisis pihak ketiga dari Artificial Analysis, model ini menduduki peringkat teratas dalam kategori pengkodean dan penggunaan agen. Selain itu, GPT 5.4 bersaing ketat dengan Gemini dalam hal kecerdasan umum dan kemampuan pencarian web. Penjelasan ini memberikan konteks bahwa OpenAI mencoba mendominasi pasar dengan satu model yang ahli di segala bidang.

Demonstrasi Kemampuan Penggunaan Komputer Asli

Bagian ini menyoroti fitur 'Computer Use' yang memungkinkan model mengendalikan mouse, keyboard, dan browser secara mandiri. Pengujian dilakukan dengan memberikan perintah untuk membuat pengalaman 3D Tower Bridge di London menggunakan pustaka Playwright. Model tersebut mampu bekerja selama satu setengah jam dengan hanya tiga perintah awal, termasuk memperbaiki kesalahan visual secara otomatis. Narator mencatat bahwa proses iterasi ini terasa sangat lancar karena model bisa melihat tangkapan layar dan langsung mengubah kode yang bermasalah. Meskipun hasilnya belum sempurna, kemampuan bekerja tanpa campur tangan manusia ini dianggap sebagai lompatan besar bagi pengguna setia Codex.

Mode Cepat dan Efisiensi Pencarian Alat

Pembicara membahas tentang 'Mode Cepat' baru yang menawarkan kecepatan token 1,5 kali lebih tinggi namun dengan biaya dua kali lipat. Fitur penting lainnya yang dibahas adalah 'Tool Search' yang memecahkan masalah pembengkakan konteks pada server MCP. Alih-alih memuat semua definisi alat di awal, model kini hanya mencari dan memuat alat yang diperlukan secara dinamis selama percakapan. Klaim dari OpenAI menyatakan bahwa metode ini berhasil memangkas penggunaan token hingga 47% tanpa mengurangi akurasi tugas. Efisiensi ini sangat krusial bagi pengembang yang bekerja dengan banyak integrasi alat eksternal agar kualitas hasil tetap terjaga.

Kekurangan: Masalah Kecepatan dan Latensi

Meskipun memiliki banyak keunggulan, GPT 5.4 dikritik karena kecepatan responsnya yang terasa sangat lambat dibandingkan model sebelumnya. Data dari Artificial Analysis mengonfirmasi bahwa model ini membutuhkan waktu paling lama untuk mengembalikan token pertama dan menyelesaikan 500 token pertama. Narator berspekulasi apakah kelambatan ini merupakan keterbatasan teknis atau strategi pemasaran untuk mendorong pengguna beralih ke mode cepat yang berbayar lebih mahal. Hal ini menjadi catatan penting bagi pengguna yang mementingkan efisiensi waktu dalam alur kerja harian mereka. Kelemahan ini dianggap sebagai hambatan utama bagi adopsi massal yang lebih luas saat ini.

Analisis Biaya API dan Estetika Desain

Bagian akhir video merinci struktur harga API yang mengalami kenaikan signifikan, terutama untuk model Pro yang mencapai $180 per satu juta token output. Pengguna juga diperingatkan tentang tarif ganda jika menggunakan jendela konteks di atas 272.000 token, sehingga disarankan untuk memadatkan konteks sebelum mengirim permintaan. Dari sisi desain, narator membandingkan hasil pembuatan situs web antara GPT 5.4 dan Opus 4.6, di mana Opus dinilai memiliki estetika yang lebih baik. GPT 5.4 dianggap terlalu sering menggunakan gaya visual yang seragam seperti kartu buram dan gradasi yang monoton. Video ditutup dengan pertanyaan kepada penonton mengenai model AI pilihan mereka untuk penggunaan sehari-hari.

Community Posts

View all posts