Saya nak komen bab "near real-time" dalam perenggan nombor 1 dan kenapa ia sesuai untuk jenis DATA PADU.
Near real-time merujuk kepada cara data di proses dan kebiasaannya kepada latency dan kelajuan data di ingest oleh server dan client.
Real-time ini biasa di guna untuk sistem perlu di seragam serta merta macam ATM atau macam password authentication. Sudah tentu hardware yang di perlukan juga lebih mahal sebab nak maintain IOPS yang tinggi. Contoh mudah data boleh di simpan dalam GEN4 SSD. Sistem juga perlu network bandwidth yang lower latency mungkin dalam saat atau mili-saat, kalau tak network akan jadi botleneck.
Near real-time data processing kurang sedikit dari Real-time, kadang boleh sampai 5 minit hingga satu jam. Kalau sejam lebih itu sudah di kira batch data processing. Untuk pangkalan data yang besar macam PADU ( bagi saya Tasik Data lebih tepat dari pangkalan DATA), near real time processing dah mencukupi.
Satu, kos overhead yang rendah contoh boleh pakai lower tier SSD macam SATA ke, tak perlukan latency yang rendah, maka client yang pakai connection yang tak berapa nak stabil pun masih lagi okay. Dan bila client ( web browser) connect ke front-end server, session dia mungkin lama contoh 10 minit ke atas, berbanding kalau kita access banking API, 3 minit idle aje, bank akan cuba untuk disconnect session. Sebab setiap available session tu, akan guna server processing power. Obviously untuk sebab keselamatan juga, nanti ada man in the middle attack kalau biar session terbuka tanpa di tutup.
Dan bahagian terakhir tu untuk analitik berkala, bermakna data tadi akan di gunakan untuk machine learning. Dari sini mereka akan dapat real figure median (lebih bagus dari mean @ average) pendapatan rakyat untuk menyalurkan subsidi bersasar.
Dan kenapa subsidi bersasar ini penting, contohnya pendapatan 10K di Selangor, tak sama dengan 10K di Kelantan, jadi dengan adanya Tasik Data macam PADU ini, pengekelasan semula T20/M40/B40 boleh di buat dengan lebih tepat tanpa ada kelas rakyat yang terpinggir.
MMMS