Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak
Merhabalar bu yazımda size başka bir clusterde bulunan mongo databasesinde yer alan bir collectionu spark-mongo connector yardımıyla HDFS'e bir tablo olarak yazmayı göstereceğim. İlk olarak kavramlardan biraz bahsetmek istiyorum. Spark: Büyük veri ortamlarında veri işleme için
Spark Streaming ile Kafka + Delta Lake Upsert İşlemi
Merhabalar bugünkü yazımda size pyspark ile kafkadan topicleri okuyup json formatına göre şemaya uygun düzenleyip delta lake tablosuna upsert işleminden bahsedeceğim. Pyspark : Apache Spark Hadoop üzerinde uygulanan ve genellikle Java diline benzeyen Scala ile yazılır.
ODI ile Oracle ve Hive Veri Tabanları Data Migration
Büyük veri ortamlarında operasyonel işlerden biri olan rdbms veri tabanları ile büyük veri ortamları arasında verinin taşınmasıdır. Çalışma ortamı olarak oracle'ın ücretsiz olarak sanallaştırılmış büyük veri ortamını kullanabilirsiniz. Bu yazıda oracle data integrator ürününün knowlodge modüllerini
Apache Iceberg
Apache iceberg, petabyte boyutundaki tablolar için tasarlanmış açık kaynak kodlu bir tablo formatıdır. Tablo formatını, bir tabloyu oluşturan tüm dosyaların düzenlenmesini, yönetilmesini ve izlenmesini en iyi şekilde gerçekleştirtiren bir katman olarak düşünebiliriz. 2017 yılında Netflix tarafından
Pega Predictive Models
Predictive analytics uses past data to find patterns and uses those patterns to predict what will likely happen in the future. A person can create predictive analysis models in Pega Prediction Studio. There are three options
Oracle Data Integrator’a Giriş
Oracle Data Integrator ya da yaygın olarak duyduğumuz kısaltması ile ODI, Oracle’ın geliştirdiği bir ELT aracıdır. Oracle Data Integrator; Spark, Spark Streaming, Hive ve Kafka gibi birçok Big Data teknolojisini ve Oracle, Exadata, Teradata, IBM DB2,