Blog2021-06-30T16:50:53+03:00
103, 2022

PySpark Window Functions

By |March 1st, 2022|Genel|

Merhabalar bugünkü yazımda size PySpark Window Functions’ın  işlevinden ve PySpark Sql ve PySpark DataFrame API ile kullanımından bahsedeceğim. Pyspark: Apache Spark, Scala programlama dilinde yazılmıştır. PySpark, Apache Spark ve Python işbirliğini desteklemek yani Spark için yazılmış

3011, 2021

Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak

By |November 30th, 2021|BIG DATA|

Merhabalar bu yazımda size başka bir clusterde bulunan mongo databasesinde yer alan bir collectionu spark-mongo connector yardımıyla HDFS'e bir tablo olarak yazmayı göstereceğim. İlk olarak kavramlardan biraz bahsetmek istiyorum. Spark:  Büyük veri ortamlarında veri işleme için

1811, 2021

Spark Streaming ile Kafka + Delta Lake Upsert İşlemi

By |November 18th, 2021|BIG DATA|

Merhabalar bugünkü yazımda size pyspark ile kafkadan topicleri okuyup json formatına göre şemaya uygun düzenleyip delta lake tablosuna upsert işleminden bahsedeceğim. Pyspark : Apache Spark Hadoop üzerinde uygulanan ve genellikle Java diline benzeyen Scala ile yazılır.

1506, 2021

ODI ile Oracle ve Hive Veri Tabanları Data Migration

By |June 15th, 2021|BIG DATA|

Büyük veri ortamlarında operasyonel işlerden biri olan rdbms veri tabanları ile büyük veri ortamları arasında verinin taşınmasıdır. Çalışma ortamı olarak oracle'ın ücretsiz olarak sanallaştırılmış büyük veri ortamını kullanabilirsiniz. Bu yazıda oracle data integrator ürününün knowlodge modüllerini

2605, 2021

Apache Iceberg

By |May 26th, 2021|BIG DATA|

Apache iceberg, petabyte boyutundaki tablolar için tasarlanmış açık kaynak kodlu bir tablo formatıdır. Tablo formatını, bir tabloyu oluşturan tüm dosyaların düzenlenmesini, yönetilmesini ve izlenmesini en iyi şekilde gerçekleştirtiren bir katman olarak düşünebiliriz. 2017 yılında Netflix tarafından

Go to Top