30 11, 2021

Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak

By |2021-11-30T14:58:10+03:00November 30th, 2021|BIG DATA|0 Comments

Merhabalar bu yazımda size başka bir clusterde bulunan mongo databasesinde yer alan bir collectionu spark-mongo connector yardımıyla HDFS’e bir tablo olarak yazmayı göstereceğim.

İlk olarak kavramlardan biraz bahsetmek istiyorum.

Spark:  Büyük veri ortamlarında veri işleme için open source bir hesaplama frameworkudur. Pyspark ise Python’da Apache Spark için bir arayüzdür. Python programlama dilini kullanarak uygulamalar yazmanıza imkan tanır.

MongoDB:

18 11, 2021

Spark Streaming ile Kafka + Delta Lake Upsert İşlemi

By |2021-11-18T12:37:17+03:00November 18th, 2021|BIG DATA|0 Comments

Merhabalar bugünkü yazımda size pyspark ile kafkadan topicleri okuyup json formatına göre şemaya uygun düzenleyip delta lake tablosuna upsert işleminden bahsedeceğim.

Pyspark : Apache Spark Hadoop üzerinde uygulanan ve genellikle Java diline benzeyen Scala ile yazılır. Apache Spark’ın Python ile entegrasyonuna Pyspark deniyor. Yani Python geliştiricilerin Spark çerçevesiyle arabirim oluşturmasına, verilerin

15 06, 2021

ODI ile Oracle ve Hive Veri Tabanları Data Migration

By |2021-07-27T15:20:49+03:00June 15th, 2021|BIG DATA|0 Comments

Büyük veri ortamlarında operasyonel işlerden biri olan rdbms veri tabanları ile büyük veri ortamları arasında verinin taşınmasıdır. Çalışma ortamı olarak oracle’ın ücretsiz olarak sanallaştırılmış büyük veri ortamını kullanabilirsiniz.

Bu yazıda oracle data integrator ürününün knowlodge modüllerini kullanarak oracle veri tabanı ile hive ortamına datanın aktarılmasını inceleyeceğiz.

ODI

26 05, 2021

Apache Iceberg

By |2021-07-27T15:21:39+03:00May 26th, 2021|BIG DATA|0 Comments

Apache iceberg, petabyte boyutundaki tablolar için tasarlanmış açık kaynak kodlu bir tablo formatıdır. Tablo formatını, bir tabloyu oluşturan tüm dosyaların düzenlenmesini, yönetilmesini ve izlenmesini en iyi şekilde gerçekleştirtiren bir katman olarak düşünebiliriz. 2017 yılında Netflix tarafından ortaya çıkarılan

6 05, 2021

Oracle Data Integrator’a Giriş

By |2021-07-29T15:19:33+03:00May 6th, 2021|BIG DATA|0 Comments

 Oracle Data Integrator ya da yaygın olarak duyduğumuz kısaltması ile ODI, Oracle’ın geliştirdiği bir ELT aracıdır.

Oracle Data Integrator; Spark, Spark Streaming, Hive ve Kafka gibi birçok Big Data teknolojisini ve Oracle, Exadata, Teradata, IBM DB2, Netezza gibi birçok DWH platformunu destekler. ODI bu ortamlar arasında veri entegrasyonunu da mümkün

9 11, 2020

APACHE ATLAS

By |2021-07-27T15:24:11+03:00November 9th, 2020|BIG DATA|0 Comments

Apache Atlas, Hadoop clusterleri üzerinde data governance(veri yönetişimi) ve metadata yönetimi için araçtır. Metadataları toplamak, işlemek ve sürdürmek için tek başına bir çözümdür.

Ölçeklendirilebilir ve genişletilebilir bir hizmet setidir. Kullanıcıların, veri ekosistemindeki servislere ait metadataların tek bir yerden yönetmesini sağlar.

Atlas nasıl çalışır?

Apache

Go to Top