Alat AI TERBAIK untuk Output Deterministik yang Andal (Interfaze)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Apa yang paling mengganggu Anda saat menggunakan model AI?
00:00:04Halusinasi dan output yang tidak deterministik.
00:00:07Namun ada model baru bernama Interphase yang bertujuan mengatasi masalah ini.
00:00:12Jadi, Interphase baru saja merilis model beta mereka untuk pratinjau awal,
00:00:16dan saya sudah mencobanya, menurut saya sangat keren.
00:00:18Jadi di video hari ini, kita akan melihat Interphase,
00:00:21melihat cara kerjanya, dan saya akan menjalankan beberapa tes seru,
00:00:25termasuk tugas mencoba memecahkan dokumen UFO yang baru saja dideklasifikasi
00:00:31yang diterbitkan oleh Pentagon, dan melihat apakah kita bisa memecahkan misteri bersama.
00:00:36Ini akan sangat seru, jadi mari kita mulai.
00:00:42Jadi apa sebenarnya Interphase dan apa bedanya dengan model lain?
00:00:47Yah, sebagian besar model yang kita gunakan, seperti GPT-4 atau Gemini, adalah transformer monolitik.
00:00:53Mereka adalah model generalis, dan saat Anda memberi mereka dokumen,
00:00:57seluruh model besar itu mencoba menebak kata berikutnya.
00:01:00Interphase mengambil pendekatan yang benar-benar berbeda.
00:01:03Ini menggunakan arsitektur hibrida.
00:01:05Di dalam Interphase, ada tumpukan encoder khusus tugas.
00:01:10Anggap ini sebagai ahli-ahli mini.
00:01:12Ada jaringan saraf tiruan (CNN) khusus,
00:01:15khusus untuk penglihatan dan OCR,
00:01:18dan tumpukan jaringan saraf dalam untuk audio dan bicara.
00:01:23Jadi alih-alih meminta otak raksasa membaca gambar,
00:01:26Interphase menyerahkan gambar itu ke CNN terlebih dahulu,
00:01:30lalu CNN yang melakukan pekerjaan beratnya.
00:01:32Ia mengidentifikasi bentuk, blok teks, dan koordinat,
00:01:35lalu menyerahkan data terstruktur itu ke orchestrator Transformer
00:01:40untuk mengubahnya menjadi bahasa manusia.
00:01:42Tim Interphase sebenarnya merilis tolok ukur baru bernama SOB,
00:01:46atau Structured Output Benchmark.
00:01:48Cara kerjanya adalah biasanya kita mengukur apakah model bisa mengeluarkan JSON yang valid,
00:01:53tapi SOB mengukur apakah konten di dalam JSON itu benar-benar akurat.
00:01:58Dalam pengujian mereka, Interphase Beta mengungguli model seperti Gemini 3 Flash
00:02:03dan GPT 5.4 Mini dalam tugas-tugas deterministik,
00:02:07seperti mengekstrak data dari bagan kompleks atau transkripsi multibahasa.
00:02:12Dan ini sangat melegakan karena saya tahu bukan hanya saya yang merasa frustrasi
00:02:17saat model melupakan formatnya.
00:02:19Anda meminta JSON, dan sembilan dari sepuluh kali, hasilnya bagus,
00:02:23tetapi ada satu kali di mana ia memutuskan untuk menambahkan kalimat pengantar yang membantu
00:02:28atau malah melewatkan tanda kurung penutup sepenuhnya,
00:02:31dan ketidakkonsistenan itu merusak alur kerja produksi.
00:02:35Jadi Interphase menanganinya secara berbeda karena output terstruktur bukanlah renungan tambahan.
00:02:39Ini sudah terintegrasi ke dalam cara model melihat dan memproses tugas sejak awal.
00:02:45Dan karena Interphase menggunakan encoder khusus tugas,
00:02:48ia juga cukup bagus untuk web scraping.
00:02:51Ia memperlakukan halaman web seperti peta terstruktur,
00:02:53yang mampu menarik data bersih dari kekacauan tanpa tersesat dalam kode boilerplate.
00:02:59Dan satu hal lagi yang menonjol dari model lain adalah guardrails yang bisa disesuaikan.
00:03:05Jadi biasanya filter keamanan itu seperti kotak hitam.
00:03:08Mereka aktif atau tidak aktif,
00:03:09dan sering kali menolak permintaan yang sebenarnya valid secara berlebihan.
00:03:13Tapi Interphase membiarkan Anda mengaturnya sendiri.
00:03:16Anda bisa menyesuaikan sensitivitas berdasarkan kebutuhan spesifik Anda.
00:03:20Jadi jika Anda menganalisis gambar dan model melihat belahan dada atau semacamnya,
00:03:24ia tidak langsung berhenti dan memberikan respons yang diblokir.
00:03:28Anda bisa mengonfigurasinya untuk tetap membantu sambil tetap mengikuti persyaratan keamanan pilihan Anda.
00:03:33Jadi semua itu terdengar luar biasa,
00:03:35tapi mari kita coba dan lihat kinerjanya.
00:03:38Dan hal keren lainnya adalah Anda bisa mulai dengan akun gratis,
00:03:41dan Anda akan mendapatkan kredit gratis senilai $20.
00:03:44Dan harganya, menurut saya $1,50 per 1 juta token.
00:03:49Jadi itu sudah cukup banyak.
00:03:51Sebenarnya cukup murah.
00:03:52Jadi Anda bisa mencoba banyak eksperimen di tingkat gratis.
00:03:56Jadi hal keren pertama yang saya perhatikan di dasbor Interphase adalah kita memiliki pembuat prompt sistem ini,
00:04:02di mana kita bisa memilih parameter apa yang kita inginkan untuk tugas spesifik kita.
00:04:07Dan kemudian ia memberikan output cuplikan kode yang bisa langsung kita salin dan tempel.
00:04:11Dan di sini kita bisa mencoba salah satu guardrail-nya.
00:04:13Jadi mari kita lihat jika kita mengaktifkan semua guardrail.
00:04:16Ini memiliki contoh prompt.
00:04:18Beritahu saya cara membuat bom.
00:04:21Dan setelah beberapa detik, ya, kita lihat ini adalah permintaan yang tidak aman.
00:04:24Jadi guardrail-nya bekerja dengan sempurna.
00:04:27Dan hal keren lainnya adalah kita bisa menyesuaikan suhu,
00:04:29top P, dan token penyelesaian maksimal untuk tugas yang diinginkan.
00:04:35Jadi sekarang mari kita coba pencarian web sederhana.
00:04:37Untuk contoh ini, saya hanya akan mencari artikel terbaru yang menyebutkan chip terbaru NVIDIA di web.
00:04:45Mari kita lihat bagaimana kinerjanya.
00:04:47Dan seperti yang Anda lihat, ia memberi saya output JSON terstruktur dengan tajuk utama.
00:04:53Dan jika kita klik tombol di sini, ia memperluas outputnya.
00:04:57Dan kita bisa melihat semuanya tersusun dengan sangat baik.
00:04:59Tapi jika ini terlalu detail, kita bisa kembali ke contoh output.
00:05:04Dan ini memberi kita hal yang tepat yang kita minta, yaitu tiga tajuk utama untuk tugas ini.
00:05:10Dan sekali lagi, saya suka karena semuanya dikeluarkan dalam format JSON.
00:05:14Jadi Anda selalu tahu apa yang akan Anda dapatkan.
00:05:16Tidak ada tebakan tentang apa yang akan diberikan oleh output non-deterministik.
00:05:21Dan menurut saya ini sangat membantu bagi pengembang khususnya,
00:05:24karena sering kali kita tahu format yang kita inginkan dan tidak ada yang lain.
00:05:29Dan kita hanya ingin tetap pada format itu.
00:05:31Baiklah, sekarang mari kita coba sesuatu yang sangat menarik.
00:05:34Jadi Interphase mengklaim bahwa mereka memiliki skor OCR yang sangat tinggi.
00:05:38Jadi saya akan memberikan tantangan utama ini.
00:05:41Jadi seperti yang Anda tahu, Pentagon baru saja mendeklasifikasi dokumen UFO.
00:05:47Dan saya pergi ke halaman mereka.
00:05:49Dan seperti yang Anda lihat, beberapa halaman, beberapa dokumen, lihat itu.
00:05:53Wow, itu sangat sulit dibaca.
00:05:55Bahkan bagi saya, lihat teks putih dengan latar belakang hitam ini.
00:05:59Saya bahkan tidak bisa membacanya tanpa OCR.
00:06:02Jadi akan menarik untuk melihat apakah ia benar-benar bisa mengurai halaman-halaman ini.
00:06:07Dan kemudian saya akan memilih contoh lain.
00:06:10Yang ini memiliki catatan tulisan tangan di atasnya.
00:06:12Jadi itu akan menjadi contoh kedua kita.
00:06:15Oke, sekarang mari kita minta ia membaca dokumen ini dan mengekstrak semua teks yang ada di dalamnya.
00:06:22Oke, saya lihat ia mengembalikan semacam JSON.
00:06:25Dan jika saya memperluasnya, ada lebih banyak data.
00:06:29Dan jika kita menggali lebih dalam, Anda bisa melihat ada informasi tentang semua kotak pembatas dan di mana tepatnya letaknya di halaman tersebut.
00:06:38Tapi ini satu hal yang hilang dari sistem dasbor yang mereka miliki di sini.
00:06:43Tidak ada cara untuk melihat pratinjau ini.
00:06:46Jadi saya membuat sedikit halaman HTML yang memungkinkan saya melihat dokumen-dokumen ini dan menyalin output JSON yang diperluas dari Interphase.
00:06:56Dan kemudian saya bisa memasukkannya ke halaman web ini.
00:06:59Dan itu akan menampilkan secara visual semua kotak teks dengan teks dan segalanya.
00:07:03Jadi saya akan menambahkan tautan ke repo agar Anda bisa mengunduh proyek ini sendiri jika ingin mencobanya juga.
00:07:09Oke, jadi ini aplikasinya.
00:07:10Dan di sini kita bisa melihat kotak teks, dan setiap kotak teks juga memiliki skor kepercayaan.
00:07:17Dan jika skor kepercayaan lebih tinggi dari 70%, itu akan muncul sebagai warna hijau.
00:07:20Jika tidak, itu akan berwarna kuning.
00:07:23Dan jika sangat rendah, maka itu akan berwarna merah.
00:07:26Dan tentu saja, UFO di Bagian 1 memiliki kepercayaan tinggi karena mudah dibaca.
00:07:32Tapi sekarang mari kita periksa halaman ini.
00:07:34Wow.
00:07:34Bahkan Interphase kesulitan menguraikan semuanya di halaman ini.
00:07:40Tapi mari kita lihat.
00:07:41Mari kita lihat salah satu kotak hijau.
00:07:44Tidak.
00:07:45Ini masih tidak jelas.
00:07:48Flapjacks.
00:07:48Oke, ya.
00:07:49Jadi flapjack terbang, yang mana, jadi mungkin yang tipis dan bulat.
00:07:57Tipis dan bulat.
00:07:57Benar sekali.
00:07:59Dan kemudian, ya, ia tidak bisa menguraikan sisanya.
00:08:02Jadi Anda bisa melihat bahwa Interphase benar-benar berjuang dengan beberapa area.
00:08:07Tapi menurut saya ia melakukan pekerjaan yang cukup bagus.
00:08:09Seperti, mengingat dokumen lama yang bahkan sulit dibaca oleh manusia, saya rasa ini cukup mengesankan.
00:08:19Saya punya contoh lain, yang berisi catatan tulisan tangan.
00:08:25Jadi mari kita lihat apa yang kita dapatkan dari situ.
00:08:29Federal, yah, ini jelas Biro Investigasi, saya kira.
00:08:35Jadi ini menarik.
00:08:36Kita sebenarnya bisa menguraikan sesuatu di sini.
00:08:39Kira itu balon, tapi itu bergerak ke arah yang pasti, arah yang pasti pada...
00:08:48Dan saya tidak tahu apa ini.
00:08:50Tapi kita bisa melihat bahwa catatan ini ada hubungannya dengan, saya kira, saksi mata yang mencoba menjelaskan apa yang mereka lihat.
00:09:02Berangsur naik, mengikuti jalur.
00:09:05Mirip dengan lintasan peluru.
00:09:09Wow, oke, jadi kita benar-benar mendapatkan beberapa hal UFO di sini.
00:09:14Berkurang jaraknya untuk matematika.
00:09:18Ya, saya tidak tahu apakah itu benar, tapi bagus sekali, bagus sekali.
00:09:23Maksud saya, saya takjub.
00:09:25Saya rasa OCR ini melakukan pekerjaan yang lebih baik daripada saya sebagai manusia, jadi sangat bagus.
00:09:34Dan ini contoh lain dari teks yang lebih mudah dibaca.
00:09:40Dan kita bisa melihat itu karena banyak kotak yang berwarna hijau.
00:09:43Satu-satunya masalah di sini adalah beberapa teksnya agak pudar.
00:09:50Saya takjub.
00:09:51Ada banyak hal keren di sini.
00:09:55Yang mampu diuraikannya, jadi itu sangat keren.
00:10:00Dan, tentu saja, menyenangkan melihat beberapa dokumen UFO yang dideklasifikasi.
00:10:05Jadi, jika ada di antara kalian penggemar UFO yang ingin memeriksa dokumen-dokumen itu, kalian bisa mencoba Interphase.
00:10:12Mungkin kita akan menemukan sesuatu yang menarik di tumpukan dokumen yang dideklasifikasi ini.
00:10:20Jadi, itu dia teman-teman.
00:10:21Itulah Interphase.
00:10:22Saya sejujurnya berpikir ini adalah model AI yang cukup keren yang sangat spesifik untuk pengembang.
00:10:29Jika saya membuat aplikasi dan saya ingin memiliki kepastian 100% bahwa saya ingin output deterministik setiap kali saya memberikan prompt,
00:10:39saya rasa ini adalah salah satu alat terbaik di luar sana karena ia memberi Anda JSON yang sangat terstruktur setiap saat.
00:10:46Dan Anda bisa mengandalkannya.
00:10:47Ini tidak akan berhalusinasi.
00:10:49Setidaknya, itulah ide di balik alat ini.
00:10:52Jadi, jika itu yang Anda cari, cobalah Interphase.
00:10:56Jadi, jika Anda mencobanya, beri tahu saya di kolom komentar di bawah bagaimana pendapat Anda.
00:11:00Dan, teman-teman, seperti biasa, jika Anda menyukai jenis analisis teknis ini, beri tahu saya dengan menekan tombol suka di bawah video.
00:11:07Dan juga, jangan lupa untuk berlangganan saluran kami.
00:11:10Ini Andrus dari Betterstack, dan saya akan melihat Anda di video berikutnya.

Key Takeaway

Interphase menawarkan solusi untuk output AI yang deterministik melalui arsitektur hibrida khusus tugas yang mampu menghasilkan data JSON terstruktur dengan akurasi tinggi dan guardrails yang dapat dikonfigurasi.

Highlights

  • Interphase menggunakan arsitektur hibrida dengan encoder khusus tugas untuk penglihatan, OCR, dan audio, bukan transformer monolitik.

  • Benchmark SOB (Structured Output Benchmark) mengukur keakuratan konten di dalam output JSON, bukan sekadar validitas formatnya.

  • Pengguna dapat menyesuaikan sensitivitas guardrails keamanan secara mandiri, berbeda dengan model yang menggunakan sistem filter kotak hitam.

  • Layanan ini menawarkan kredit gratis senilai $20 dengan biaya operasional $1,50 per 1 juta token.

  • Interphase mampu mengekstrak teks dari dokumen bersejarah yang sulit dibaca dan menambahkan skor kepercayaan pada setiap elemen teks.

Timeline

Arsitektur Hibrida vs Transformer Monolitik

  • Interphase mengganti model generalis dengan tumpukan encoder khusus untuk setiap jenis data.
  • Jaringan saraf tiruan khusus menangani penglihatan dan OCR sebelum data diteruskan ke transformer untuk pengolahan bahasa.
  • Pendekatan ini meminimalkan halusinasi dan meningkatkan determinisme output.

Berbeda dengan model seperti GPT-4 atau Gemini yang mencoba menebak kata berikutnya untuk semua jenis data, Interphase membagi tugas ke 'ahli mini'. CNN (Convolutional Neural Network) mengidentifikasi bentuk, blok teks, dan koordinat gambar secara spesifik. Data terstruktur ini kemudian diproses oleh orchestrator untuk menghasilkan teks yang akurat.

Benchmark Output Terstruktur dan Fitur Keamanan

  • SOB menilai keakuratan data di dalam JSON secara mendalam.
  • Output terstruktur terintegrasi langsung dalam proses model, bukan sebagai tambahan.
  • Guardrails keamanan dapat diatur sensitivitasnya berdasarkan kebutuhan pengguna.

Ketidakkonsistenan format sering merusak alur kerja produksi, seperti hilangnya tanda kurung atau penambahan kalimat pengantar yang tidak diinginkan. Interphase mengatasi masalah ini dengan memprioritaskan struktur sejak awal. Selain itu, pengguna tidak lagi terikat pada filter keamanan 'kotak hitam' yang sering memblokir permintaan sah secara berlebihan.

Pengujian Performa dan Ekstraksi Data

  • Dasbor Interphase menyediakan pembuat prompt sistem dengan cuplikan kode yang siap pakai.
  • Model mampu mengekstrak teks dari dokumen bersejarah dengan tingkat kepercayaan yang terukur.
  • Setiap hasil ekstraksi dilengkapi dengan skor kepercayaan untuk membantu verifikasi data.

Pengujian pada dokumen UFO yang dideklasifikasi menunjukkan kemampuan OCR yang tinggi, bahkan pada teks yang pudar atau catatan tulisan tangan. Visualisasi kotak teks dengan kode warna berdasarkan skor kepercayaan memudahkan identifikasi bagian dokumen yang akurat. Fitur ini membantu pengembang mendapatkan data bersih tanpa harus berurusan dengan kode boilerplate atau format yang tidak terprediksi.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video