Alat AI TERBAIK untuk Output Deterministik yang Andal (Interfaze)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00Apa yang paling mengganggu Anda saat menggunakan model AI?
00:00:04Halusinasi dan output yang tidak deterministik.
00:00:07Namun ada model baru bernama Interphase yang bertujuan mengatasi masalah ini.
00:00:12Jadi, Interphase baru saja merilis model beta mereka untuk pratinjau awal,
00:00:16dan saya sudah mencobanya, menurut saya sangat keren.
00:00:18Jadi di video hari ini, kita akan melihat Interphase,
00:00:21melihat cara kerjanya, dan saya akan menjalankan beberapa tes seru,
00:00:25termasuk tugas mencoba memecahkan dokumen UFO yang baru saja dideklasifikasi
00:00:31yang diterbitkan oleh Pentagon, dan melihat apakah kita bisa memecahkan misteri bersama.
00:00:36Ini akan sangat seru, jadi mari kita mulai.
00:00:42Jadi apa sebenarnya Interphase dan apa bedanya dengan model lain?
00:00:47Yah, sebagian besar model yang kita gunakan, seperti GPT-4 atau Gemini, adalah transformer monolitik.
00:00:53Mereka adalah model generalis, dan saat Anda memberi mereka dokumen,
00:00:57seluruh model besar itu mencoba menebak kata berikutnya.
00:01:00Interphase mengambil pendekatan yang benar-benar berbeda.
00:01:03Ini menggunakan arsitektur hibrida.
00:01:05Di dalam Interphase, ada tumpukan encoder khusus tugas.
00:01:10Anggap ini sebagai ahli-ahli mini.
00:01:12Ada jaringan saraf tiruan (CNN) khusus,
00:01:15khusus untuk penglihatan dan OCR,
00:01:18dan tumpukan jaringan saraf dalam untuk audio dan bicara.
00:01:23Jadi alih-alih meminta otak raksasa membaca gambar,
00:01:26Interphase menyerahkan gambar itu ke CNN terlebih dahulu,
00:01:30lalu CNN yang melakukan pekerjaan beratnya.
00:01:32Ia mengidentifikasi bentuk, blok teks, dan koordinat,
00:01:35lalu menyerahkan data terstruktur itu ke orchestrator Transformer
00:01:40untuk mengubahnya menjadi bahasa manusia.
00:01:42Tim Interphase sebenarnya merilis tolok ukur baru bernama SOB,
00:01:46atau Structured Output Benchmark.
00:01:48Cara kerjanya adalah biasanya kita mengukur apakah model bisa mengeluarkan JSON yang valid,
00:01:53tapi SOB mengukur apakah konten di dalam JSON itu benar-benar akurat.
00:01:58Dalam pengujian mereka, Interphase Beta mengungguli model seperti Gemini 3 Flash
00:02:03dan GPT 5.4 Mini dalam tugas-tugas deterministik,
00:02:07seperti mengekstrak data dari bagan kompleks atau transkripsi multibahasa.
00:02:12Dan ini sangat melegakan karena saya tahu bukan hanya saya yang merasa frustrasi
00:02:17saat model melupakan formatnya.
00:02:19Anda meminta JSON, dan sembilan dari sepuluh kali, hasilnya bagus,
00:02:23tetapi ada satu kali di mana ia memutuskan untuk menambahkan kalimat pengantar yang membantu
00:02:28atau malah melewatkan tanda kurung penutup sepenuhnya,
00:02:31dan ketidakkonsistenan itu merusak alur kerja produksi.
00:02:35Jadi Interphase menanganinya secara berbeda karena output terstruktur bukanlah renungan tambahan.
00:02:39Ini sudah terintegrasi ke dalam cara model melihat dan memproses tugas sejak awal.
00:02:45Dan karena Interphase menggunakan encoder khusus tugas,
00:02:48ia juga cukup bagus untuk web scraping.
00:02:51Ia memperlakukan halaman web seperti peta terstruktur,
00:02:53yang mampu menarik data bersih dari kekacauan tanpa tersesat dalam kode boilerplate.
00:02:59Dan satu hal lagi yang menonjol dari model lain adalah guardrails yang bisa disesuaikan.
00:03:05Jadi biasanya filter keamanan itu seperti kotak hitam.
00:03:08Mereka aktif atau tidak aktif,
00:03:09dan sering kali menolak permintaan yang sebenarnya valid secara berlebihan.
00:03:13Tapi Interphase membiarkan Anda mengaturnya sendiri.
00:03:16Anda bisa menyesuaikan sensitivitas berdasarkan kebutuhan spesifik Anda.
00:03:20Jadi jika Anda menganalisis gambar dan model melihat belahan dada atau semacamnya,
00:03:24ia tidak langsung berhenti dan memberikan respons yang diblokir.
00:03:28Anda bisa mengonfigurasinya untuk tetap membantu sambil tetap mengikuti persyaratan keamanan pilihan Anda.
00:03:33Jadi semua itu terdengar luar biasa,
00:03:35tapi mari kita coba dan lihat kinerjanya.
00:03:38Dan hal keren lainnya adalah Anda bisa mulai dengan akun gratis,
00:03:41dan Anda akan mendapatkan kredit gratis senilai $20.
00:03:44Dan harganya, menurut saya $1,50 per 1 juta token.
00:03:49Jadi itu sudah cukup banyak.
00:03:51Sebenarnya cukup murah.
00:03:52Jadi Anda bisa mencoba banyak eksperimen di tingkat gratis.
00:03:56Jadi hal keren pertama yang saya perhatikan di dasbor Interphase adalah kita memiliki pembuat prompt sistem ini,
00:04:02di mana kita bisa memilih parameter apa yang kita inginkan untuk tugas spesifik kita.
00:04:07Dan kemudian ia memberikan output cuplikan kode yang bisa langsung kita salin dan tempel.
00:04:11Dan di sini kita bisa mencoba salah satu guardrail-nya.
00:04:13Jadi mari kita lihat jika kita mengaktifkan semua guardrail.
00:04:16Ini memiliki contoh prompt.
00:04:18Beritahu saya cara membuat bom.
00:04:21Dan setelah beberapa detik, ya, kita lihat ini adalah permintaan yang tidak aman.
00:04:24Jadi guardrail-nya bekerja dengan sempurna.
00:04:27Dan hal keren lainnya adalah kita bisa menyesuaikan suhu,
00:04:29top P, dan token penyelesaian maksimal untuk tugas yang diinginkan.
00:04:35Jadi sekarang mari kita coba pencarian web sederhana.
00:04:37Untuk contoh ini, saya hanya akan mencari artikel terbaru yang menyebutkan chip terbaru NVIDIA di web.
00:04:45Mari kita lihat bagaimana kinerjanya.
00:04:47Dan seperti yang Anda lihat, ia memberi saya output JSON terstruktur dengan tajuk utama.
00:04:53Dan jika kita klik tombol di sini, ia memperluas outputnya.
00:04:57Dan kita bisa melihat semuanya tersusun dengan sangat baik.
00:04:59Tapi jika ini terlalu detail, kita bisa kembali ke contoh output.
00:05:04Dan ini memberi kita hal yang tepat yang kita minta, yaitu tiga tajuk utama untuk tugas ini.
00:05:10Dan sekali lagi, saya suka karena semuanya dikeluarkan dalam format JSON.
00:05:14Jadi Anda selalu tahu apa yang akan Anda dapatkan.
00:05:16Tidak ada tebakan tentang apa yang akan diberikan oleh output non-deterministik.
00:05:21Dan menurut saya ini sangat membantu bagi pengembang khususnya,
00:05:24karena sering kali kita tahu format yang kita inginkan dan tidak ada yang lain.
00:05:29Dan kita hanya ingin tetap pada format itu.
00:05:31Baiklah, sekarang mari kita coba sesuatu yang sangat menarik.
00:05:34Jadi Interphase mengklaim bahwa mereka memiliki skor OCR yang sangat tinggi.
00:05:38Jadi saya akan memberikan tantangan utama ini.
00:05:41Jadi seperti yang Anda tahu, Pentagon baru saja mendeklasifikasi dokumen UFO.
00:05:47Dan saya pergi ke halaman mereka.
00:05:49Dan seperti yang Anda lihat, beberapa halaman, beberapa dokumen, lihat itu.
00:05:53Wow, itu sangat sulit dibaca.
00:05:55Bahkan bagi saya, lihat teks putih dengan latar belakang hitam ini.
00:05:59Saya bahkan tidak bisa membacanya tanpa OCR.
00:06:02Jadi akan menarik untuk melihat apakah ia benar-benar bisa mengurai halaman-halaman ini.
00:06:07Dan kemudian saya akan memilih contoh lain.
00:06:10Yang ini memiliki catatan tulisan tangan di atasnya.
00:06:12Jadi itu akan menjadi contoh kedua kita.
00:06:15Oke, sekarang mari kita minta ia membaca dokumen ini dan mengekstrak semua teks yang ada di dalamnya.
00:06:22Oke, saya lihat ia mengembalikan semacam JSON.
00:06:25Dan jika saya memperluasnya, ada lebih banyak data.
00:06:29Dan jika kita menggali lebih dalam, Anda bisa melihat ada informasi tentang semua kotak pembatas dan di mana tepatnya letaknya di halaman tersebut.
00:06:38Tapi ini satu hal yang hilang dari sistem dasbor yang mereka miliki di sini.
00:06:43Tidak ada cara untuk melihat pratinjau ini.
00:06:46Jadi saya membuat sedikit halaman HTML yang memungkinkan saya melihat dokumen-dokumen ini dan menyalin output JSON yang diperluas dari Interphase.
00:06:56Dan kemudian saya bisa memasukkannya ke halaman web ini.
00:06:59Dan itu akan menampilkan secara visual semua kotak teks dengan teks dan segalanya.
00:07:03Jadi saya akan menambahkan tautan ke repo agar Anda bisa mengunduh proyek ini sendiri jika ingin mencobanya juga.
00:07:09Oke, jadi ini aplikasinya.
00:07:10Dan di sini kita bisa melihat kotak teks, dan setiap kotak teks juga memiliki skor kepercayaan.
00:07:17Dan jika skor kepercayaan lebih tinggi dari 70%, itu akan muncul sebagai warna hijau.
00:07:20Jika tidak, itu akan berwarna kuning.
00:07:23Dan jika sangat rendah, maka itu akan berwarna merah.
00:07:26Dan tentu saja, UFO di Bagian 1 memiliki kepercayaan tinggi karena mudah dibaca.
00:07:32Tapi sekarang mari kita periksa halaman ini.
00:07:34Wow.
00:07:34Bahkan Interphase kesulitan menguraikan semuanya di halaman ini.
00:07:40Tapi mari kita lihat.
00:07:41Mari kita lihat salah satu kotak hijau.
00:07:44Tidak.
00:07:45Ini masih tidak jelas.
00:07:48Flapjacks.
00:07:48Oke, ya.
00:07:49Jadi flapjack terbang, yang mana, jadi mungkin yang tipis dan bulat.
00:07:57Tipis dan bulat.
00:07:57Benar sekali.
00:07:59Dan kemudian, ya, ia tidak bisa menguraikan sisanya.
00:08:02Jadi Anda bisa melihat bahwa Interphase benar-benar berjuang dengan beberapa area.
00:08:07Tapi menurut saya ia melakukan pekerjaan yang cukup bagus.
00:08:09Seperti, mengingat dokumen lama yang bahkan sulit dibaca oleh manusia, saya rasa ini cukup mengesankan.
00:08:19Saya punya contoh lain, yang berisi catatan tulisan tangan.
00:08:25Jadi mari kita lihat apa yang kita dapatkan dari situ.
00:08:29Federal, yah, ini jelas Biro Investigasi, saya kira.
00:08:35Jadi ini menarik.
00:08:36Kita sebenarnya bisa menguraikan sesuatu di sini.
00:08:39Kira itu balon, tapi itu bergerak ke arah yang pasti, arah yang pasti pada...
00:08:48Dan saya tidak tahu apa ini.
00:08:50Tapi kita bisa melihat bahwa catatan ini ada hubungannya dengan, saya kira, saksi mata yang mencoba menjelaskan apa yang mereka lihat.
00:09:02Berangsur naik, mengikuti jalur.
00:09:05Mirip dengan lintasan peluru.
00:09:09Wow, oke, jadi kita benar-benar mendapatkan beberapa hal UFO di sini.
00:09:14Berkurang jaraknya untuk matematika.
00:09:18Ya, saya tidak tahu apakah itu benar, tapi bagus sekali, bagus sekali.
00:09:23Maksud saya, saya takjub.
00:09:25Saya rasa OCR ini melakukan pekerjaan yang lebih baik daripada saya sebagai manusia, jadi sangat bagus.
00:09:34Dan ini contoh lain dari teks yang lebih mudah dibaca.
00:09:40Dan kita bisa melihat itu karena banyak kotak yang berwarna hijau.
00:09:43Satu-satunya masalah di sini adalah beberapa teksnya agak pudar.
00:09:50Saya takjub.
00:09:51Ada banyak hal keren di sini.
00:09:55Yang mampu diuraikannya, jadi itu sangat keren.
00:10:00Dan, tentu saja, menyenangkan melihat beberapa dokumen UFO yang dideklasifikasi.
00:10:05Jadi, jika ada di antara kalian penggemar UFO yang ingin memeriksa dokumen-dokumen itu, kalian bisa mencoba Interphase.
00:10:12Mungkin kita akan menemukan sesuatu yang menarik di tumpukan dokumen yang dideklasifikasi ini.
00:10:20Jadi, itu dia teman-teman.
00:10:21Itulah Interphase.
00:10:22Saya sejujurnya berpikir ini adalah model AI yang cukup keren yang sangat spesifik untuk pengembang.
00:10:29Jika saya membuat aplikasi dan saya ingin memiliki kepastian 100% bahwa saya ingin output deterministik setiap kali saya memberikan prompt,
00:10:39saya rasa ini adalah salah satu alat terbaik di luar sana karena ia memberi Anda JSON yang sangat terstruktur setiap saat.
00:10:46Dan Anda bisa mengandalkannya.
00:10:47Ini tidak akan berhalusinasi.
00:10:49Setidaknya, itulah ide di balik alat ini.
00:10:52Jadi, jika itu yang Anda cari, cobalah Interphase.
00:10:56Jadi, jika Anda mencobanya, beri tahu saya di kolom komentar di bawah bagaimana pendapat Anda.
00:11:00Dan, teman-teman, seperti biasa, jika Anda menyukai jenis analisis teknis ini, beri tahu saya dengan menekan tombol suka di bawah video.
00:11:07Dan juga, jangan lupa untuk berlangganan saluran kami.
00:11:10Ini Andrus dari Betterstack, dan saya akan melihat Anda di video berikutnya.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video