PySpark Window Functions
Merhabalar bugünkü yazımda size PySpark Window Functions’ın işlevinden ve PySpark Sql ve PySpark DataFrame API ile kullanımından bahsedeceğim. Pyspark: Apache Spark, Scala programlama dilinde yazılmıştır. PySpark, Apache Spark ve Python işbirliğini desteklemek yani Spark için yazılmış
Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak
Merhabalar bu yazımda size başka bir clusterde bulunan mongo databasesinde yer alan bir collectionu spark-mongo connector yardımıyla HDFS'e bir tablo olarak yazmayı göstereceğim. İlk olarak kavramlardan biraz bahsetmek istiyorum. Spark: Büyük veri ortamlarında veri işleme için
Spark Streaming ile Kafka + Delta Lake Upsert İşlemi
Merhabalar bugünkü yazımda size pyspark ile kafkadan topicleri okuyup json formatına göre şemaya uygun düzenleyip delta lake tablosuna upsert işleminden bahsedeceğim. Pyspark : Apache Spark Hadoop üzerinde uygulanan ve genellikle Java diline benzeyen Scala ile yazılır.
ODI ile Oracle ve Hive Veri Tabanları Data Migration
Büyük veri ortamlarında operasyonel işlerden biri olan rdbms veri tabanları ile büyük veri ortamları arasında verinin taşınmasıdır. Çalışma ortamı olarak oracle'ın ücretsiz olarak sanallaştırılmış büyük veri ortamını kullanabilirsiniz. Bu yazıda oracle data integrator ürününün knowlodge modüllerini
Apache Iceberg
Apache iceberg, petabyte boyutundaki tablolar için tasarlanmış açık kaynak kodlu bir tablo formatıdır. Tablo formatını, bir tabloyu oluşturan tüm dosyaların düzenlenmesini, yönetilmesini ve izlenmesini en iyi şekilde gerçekleştirtiren bir katman olarak düşünebiliriz. 2017 yılında Netflix tarafından
Pega Predictive Models
Predictive analytics uses past data to find patterns and uses those patterns to predict what will likely happen in the future. A person can create predictive analysis models in Pega Prediction Studio. There are three options