Saat ini, Anda hampir tidak bisa melewati satu jam saja tanpa membaca tentang AI generatif. Meskipun kita masih berada dalam fase embrio dari apa yang beberapa orang sebut sebagai “mesin uap” dari revolusi industri keempat, tidak diragukan lagi bahwa “GenAI” sedang membentuk transformasi hampir setiap industri - mulai dari keuangan dan perawatan kesehatan hingga hukum dan di luar itu.
Aplikasi pengguna yang keren mungkin menarik sebagian besar sorotan, tetapi perusahaan yang mendorong revolusi ini saat ini yang paling diuntungkan. Bulan ini saja, pembuat chip Nvidia sebentar menjadi perusahaan paling berharga di dunia, sebuah raksasa senilai $3,3 triliun didorong secara substansial oleh permintaan akan kekuatan komputasi AI.
Namun, selain GPU (unit pemrosesan grafis), bisnis juga memerlukan infrastruktur untuk mengelola aliran data - untuk menyimpan, memproses, melatih, menganalisis, dan, akhirnya, membuka potensi penuh AI.
Satu perusahaan yang ingin memanfaatkan ini adalah Onehouse, sebuah startup California yang berusia tiga tahun yang didirikan oleh Vinoth Chandar, yang menciptakan proyek open source Apache Hudi saat menjabat sebagai arsitek data di Uber. Hudi membawa manfaat gudang data ke danau data, menciptakan apa yang dikenal sebagai "data lakehouse," yang memungkinkan mendukung tindakan seperti pengindeksan dan melakukan kueri real-time pada set data besar, baik itu data terstruktur, tidak terstruktur, atau semi-terstruktur.
Sebagai contoh, sebuah perusahaan e-commerce yang terus-menerus mengumpulkan data pelanggan yang mencakup pesanan, umpan balik, dan interaksi digital terkait lainnya akan memerlukan sistem untuk menerima semua data itu dan memastikan data tetap terkini, yang mungkin membantu perusahaan merekomendasikan produk berdasarkan aktivitas pengguna. Hudi memungkinkan data diambil dari berbagai sumber dengan latensi minimal, dengan dukungan untuk menghapus, memperbarui, dan memasukkan data (“upsert”), yang sangat penting untuk kasus penggunaan data real-time seperti itu.
Onehouse membangun ini dengan data lakehouse yang sepenuhnya dikelola yang membantu perusahaan menerapkan Hudi. Atau, sebagaimana diungkapkan oleh Chandar, itu “memulai proses pengambilan dan standarisasi data ke dalam format data terbuka” yang dapat digunakan dengan hampir semua alat utama dalam ekosistem ilmu data, AI, dan machine learning.
“Onehouse mengabstraksikan pembangunan infrastruktur data tingkat rendah, membantu perusahaan AI fokus pada model mereka,” kata Chandar kepada TechCrunch.
Hari ini, Onehouse mengumumkan telah mengumpulkan $35 juta dalam putaran pendanaan Seri B saat membawa dua produk baru ke pasaran untuk meningkatkan kinerja Hudi dan mengurangi biaya penyimpanan dan pemrosesan cloud.
Diturunkan di (data) lakehouse
Chandar menciptakan Hudi sebagai proyek internal di Uber pada tahun 2016, dan sejak perusahaan panggilanan itu mendonasikan proyek ke Yayasan Apache pada tahun 2019, Hudi telah diadopsi oleh Amazon, Disney dan Walmart.
Chandar meninggalkan Uber pada tahun 2019, dan, setelah menghabiskan waktu singkat di Confluent, mendirikan Onehouse. Startup ini muncul dari mode stealth pada tahun 2022 dengan pendanaan seed sebesar $8 juta, dan diikuti oleh putaran Seri A sebesar $25 juta yang satu-saat setelah itu. Kedua putaran tersebut dipimpin bersama oleh Mitra Greylock dan Addition.
Firma VC ini bergabung lagi untuk tindak lanjut Seri B, meskipun kali ini, Craft Ventures yang dipimpin oleh David Sacks memimpin putaran tersebut.
“Data lakehouse dengan cepat menjadi arsitektur standar untuk organisasi yang ingin menggabungkan data mereka untuk mendukung layanan baru seperti analitik real-time, ML prediktif, dan GenAI,” kata mitra Craft Ventures Michael Robinson dalam sebuah pernyataan.
Untuk konteks, gudang data dan danau data serupa dalam cara mereka berfungsi sebagai repositori pusat untuk mempool data. Tetapi keduanya melakukannya dengan cara yang berbeda: Gudang data ideal untuk memproses dan menanyakan data terstruktur yang historis, sementara danau data telah muncul sebagai alternatif yang lebih fleksibel untuk menyimpan sejumlah besar data mentah dalam format aslinya, dengan dukungan untuk berbagai jenis data dan kueri berperforma tinggi.
Hal ini membuat danau data ideal untuk beban kerja AI dan machine learning, karena lebih murah untuk menyimpan data mentah yang telah diubah, dan pada saat yang sama, memiliki dukungan untuk kueri yang lebih kompleks karena data dapat disimpan dalam bentuk aslinya.
Namun, kompromi adalah seperangkat kompleksitas manajemen data yang seluruhnya baru, yang meningkatkan risiko buruknya kualitas data mengingat berbagai jenis data dan format yang ada. Ini sebagian merupakan apa yang Hudi bertujuan untuk selesaikan dengan membawa beberapa fitur kunci gudang data ke danau data, seperti transaksi ACID untuk mendukung integritas dan keandalan data, serta meningkatkan manajemen metadata untuk dataset yang lebih beragam.
Karena ini adalah proyek sumber terbuka, setiap perusahaan dapat menerapkan Hudi. Sekilas melihat logo-logo di situs web Onehouse mengungkapkan beberapa pengguna impresif: AWS, Google, Tencent, Disney, Walmart, Bytedance, Uber, dan Huawei, untuk beberapa. Namun kenyataan bahwa perusahaan-perusahaan terkenal tersebut memanfaatkan Hudi secara internal mengindikasikan usaha dan sumber daya yang dibutuhkan untuk membangunnya sebagai bagian dari pengaturan data lakehouse on-premises.
“Meskipun Hudi menyediakan fungsi kaya untuk mengambil, mengelola, dan mentransformasi data, perusahaan masih harus mengintegrasikan sekitar setengah lusin alat sumber terbuka untuk mencapai tujuan mereka terkait data lakehouse berkualitas produksi,” kata Chandar.
Inilah mengapa Onehouse menawarkan platform cloud-native yang sepenuhnya dikelola yang mengambil, mentransformasi, dan mengoptimalkan data dalam sebagian kecil waktu.
“Pengguna dapat menjalankan data lakehouse terbuka dan menggunakan hampir semua layanan penting yang berlokasi di awan dengan leluasa, gudang dan mesin danau data,” kata Chandar.
Perusahaan agak ragu-ragu tentang menyebutkan pelanggan komersialnya, selain dari pasangan yang terdaftar dalam studi kasus, seperti perusahaan unicorn India Apna.
“Sebagai perusahaan muda, kami saat ini tidak membagi seluruh daftar pelanggan komersial Onehouse secara publik,” kata Chandar.
Dengan $35 juta segar di bank, Onehouse kini memperluas platformnya dengan alat gratis bernama Onehouse LakeView, yang memberikan observabilitas ke dalam fungsionalitas lakehouse untuk wawasan tentang statistik tabel, tren, ukuran file, sejarah timeline, dan lainnya. Ini membangun pada metrik observabilitas yang ada yang diberikan oleh proyek inti Hudi, memberikan konteks tambahan pada beban kerja.
“Tanpa LakeView, pengguna harus menghabiskan banyak waktu untuk menginterpretasikan metrik dan memahami seluruh tumpukan untuk menentukan penyebab akar masalah kinerja atau ketidakefisienan dalam konfigurasi pipa data,” kata Chandar. “LakeView mengotomatisasi ini dan memberikan peringatan email tentang tren positif atau negatif, menandai kebutuhan manajemen data untuk meningkatkan kinerja kueri.”
Di samping itu, Onehouse juga meluncurkan produk baru bernama Table Optimizer, layanan cloud yang dikelola yang mengoptimalkan tabel yang ada untuk mempercepat pengambilan dan transformasi data.
‘Terbuka dan interoperabel’
Tidak bisa diabaikan banyak pemain besar lainnya di ruang tersebut. Teman-teman seperti Databricks dan Snowflake semakin merangkul paradigma lakehouse: Pada awal bulan ini, Databricks dilaporkan meluangkan $1 miliar untuk mengakuisisi perusahaan bernama Tabular, dengan pandangan untuk menciptakan standar lakehouse umum.
Onehouse telah memasuki ruang yang panas pastinya, tetapi mereka berharap fokus mereka pada sistem “terbuka dan interoperabel” yang membuat lebih mudah menghindari perangkat vendor akan membantu mereka bertahan dari ujian waktu. Praktis, mereka menjanjikan kemampuan untuk membuat salinan tunggal data menjadi universal diakses dari hampir di mana saja, termasuk Databricks, Snowflake, Cloudera, dan layanan asli AWS, tanpa harus membangun silo data terpisah di masing-masing.
Seperti Nvidia dalam ranah GPU, tidak bisa diabaikan peluang yang menanti setiap perusahaan di ruang pengelolaan data. Data adalah dasar pengembangan AI, dan tidak memiliki cukup data berkualitas baik adalah alasan utama mengapa banyak proyek AI gagal. Tetapi bahkan ketika data sudah ada dalam jumlah besar, perusahaan masih memerlukan infrastruktur untuk mengambil, mentransformasi, dan menstandarisasi agar bermanfaat. Itu memberikan harapan baik bagi Onehouse dan sejenisnya.
“Dari segi pengelolaan data dan pemrosesan, saya percaya bahwa data berkualitas yang disampaikan oleh landasan infrastruktur data yang solid akan memainkan peran penting dalam membawa proyek AI ini masuk ke kasus penggunaan produksi dunia nyata - untuk menghindari masalah data sampah/dosis masuk data,” kata Chandar. “Kami mulai melihat permintaan semacam ini dari pengguna data lakehouse, karena mereka kesulitan untuk menyesuaikan kebutuhan pemrosesan data dan kueri untuk membangun aplikasi AI terbaru ini pada data skala perusahaan.”