16 05, 2023

Hadoop Nedir?

By |2023-05-16T16:29:52+03:00May 16th, 2023|BIG DATA|0 Comments

Hadoop Nedir?

RDBMS(Relational Database Management System) yani ilişkisel veri tabanı yönetim sistemlerinden farklı olarak verileri tek bir bilgisayarda tutmayıp gelen verileri -her birinin kendine ait işlemcisi ve rami- olan Node’lerde(küme) HDFS dosya sistemi ile denormalize bir şekilde veriyi saklayan ve işlenmesine olanak sağlayan açık kaynak kodlu kütüphanedir.

HDFS(Hadoop Distributed File System) nedir?

Sıradan sunucuların disklerini bir araya getirerek

30 11, 2021

Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak

By |2021-11-30T14:58:10+03:00November 30th, 2021|BIG DATA|0 Comments

Merhabalar bu yazımda size başka bir clusterde bulunan mongo databasesinde yer alan bir collectionu spark-mongo connector yardımıyla HDFS’e bir tablo olarak yazmayı göstereceğim.

İlk olarak kavramlardan biraz bahsetmek istiyorum.

Spark:  Büyük veri ortamlarında veri işleme için open source bir hesaplama frameworkudur. Pyspark ise Python’da Apache Spark için bir arayüzdür. Python programlama dilini kullanarak uygulamalar yazmanıza imkan tanır.

MongoDB:

18 11, 2021

Spark Streaming ile Kafka + Delta Lake Upsert İşlemi

By |2021-11-18T12:37:17+03:00November 18th, 2021|BIG DATA|0 Comments

Merhabalar bugünkü yazımda size pyspark ile kafkadan topicleri okuyup json formatına göre şemaya uygun düzenleyip delta lake tablosuna upsert işleminden bahsedeceğim.

Pyspark : Apache Spark Hadoop üzerinde uygulanan ve genellikle Java diline benzeyen Scala ile yazılır. Apache Spark’ın Python ile entegrasyonuna Pyspark deniyor. Yani Python geliştiricilerin Spark çerçevesiyle arabirim oluşturmasına, verilerin

15 06, 2021

ODI ile Oracle ve Hive Veri Tabanları Data Migration

By |2021-07-27T15:20:49+03:00June 15th, 2021|BIG DATA|0 Comments

Büyük veri ortamlarında operasyonel işlerden biri olan rdbms veri tabanları ile büyük veri ortamları arasında verinin taşınmasıdır. Çalışma ortamı olarak oracle’ın ücretsiz olarak sanallaştırılmış büyük veri ortamını kullanabilirsiniz.

Bu yazıda oracle data integrator ürününün knowlodge modüllerini kullanarak oracle veri tabanı ile hive ortamına datanın aktarılmasını inceleyeceğiz.

ODI

26 05, 2021

Apache Iceberg

By |2021-07-27T15:21:39+03:00May 26th, 2021|BIG DATA|0 Comments

Apache iceberg, petabyte boyutundaki tablolar için tasarlanmış açık kaynak kodlu bir tablo formatıdır. Tablo formatını, bir tabloyu oluşturan tüm dosyaların düzenlenmesini, yönetilmesini ve izlenmesini en iyi şekilde gerçekleştirtiren bir katman olarak düşünebiliriz. 2017 yılında Netflix tarafından ortaya çıkarılan

9 11, 2020

APACHE ATLAS

By |2023-01-17T11:39:22+03:00November 9th, 2020|BIG DATA|0 Comments

Apache Atlas, Hadoop clusterleri üzerinde data governance(veri yönetişimi) ve metadata yönetimi için araçtır. Metadataları toplamak, işlemek ve sürdürmek için tek başına bir çözümdür.

Ölçeklendirilebilir ve genişletilebilir bir hizmet setidir. Kullanıcıların, veri ekosistemindeki servislere ait metadataların tek bir yerden yönetmesini sağlar.

Atlas nasıl çalışır?

Apache

Go to Top