BIG DATA Archives

16 05, 2023

Hadoop Nedir?

By admin|2023-05-16T16:29:52+03:00May 16th, 2023|BIG DATA|0 Comments

Hadoop Nedir?

RDBMS(Relational Database Management System) yani ilişkisel veri tabanı yönetim sistemlerinden farklı olarak verileri tek bir bilgisayarda tutmayıp gelen verileri -her birinin kendine ait işlemcisi ve rami- olan Node’lerde(küme) HDFS dosya sistemi ile denormalize bir şekilde veriyi saklayan ve işlenmesine olanak sağlayan açık kaynak kodlu kütüphanedir.

HDFS(Hadoop Distributed File System) nedir?

Sıradan sunucuların disklerini bir araya getirerek

4 10, 2022

Yarn, Airflow Dag Loglarının, Hadoop Dosya İşlemlerinin Hive Tablosuna Yazılması

By admin|2022-10-04T10:57:24+03:00October 4th, 2022|BIG DATA|0 Comments

Veri mühendisliği bir çok farklı domainde ki veriyi; kontrol etme, depolama, manipüle etme gibi bir çok işlevselliğe sahip olmayı gerektiren bir meslek dalıdır. Bu çalışmada

Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak
Gallery
Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak

BIG DATA

30 11, 2021

Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak

By Tolga Tezel|2021-11-30T14:58:10+03:00November 30th, 2021|BIG DATA|0 Comments

Merhabalar bu yazımda size başka bir clusterde bulunan mongo databasesinde yer alan bir collectionu spark-mongo connector yardımıyla HDFS’e bir tablo olarak yazmayı göstereceğim.

İlk olarak kavramlardan biraz bahsetmek istiyorum.

Spark: Büyük veri ortamlarında veri işleme için open source bir hesaplama frameworkudur. Pyspark ise Python’da Apache Spark için bir arayüzdür. Python programlama dilini kullanarak uygulamalar yazmanıza imkan tanır.

MongoDB:

Spark Streaming ile Kafka + Delta Lake Upsert İşlemi
Gallery
Spark Streaming ile Kafka + Delta Lake Upsert İşlemi

BIG DATA

18 11, 2021

Spark Streaming ile Kafka + Delta Lake Upsert İşlemi

By Mert Oğurcu|2021-11-18T12:37:17+03:00November 18th, 2021|BIG DATA|0 Comments

Merhabalar bugünkü yazımda size pyspark ile kafkadan topicleri okuyup json formatına göre şemaya uygun düzenleyip delta lake tablosuna upsert işleminden bahsedeceğim.

Pyspark : Apache Spark Hadoop üzerinde uygulanan ve genellikle Java diline benzeyen Scala ile yazılır. Apache Spark’ın Python ile entegrasyonuna Pyspark deniyor. Yani Python geliştiricilerin Spark çerçevesiyle arabirim oluşturmasına, verilerin

ODI ile Oracle ve Hive Veri Tabanları Data Migration
Gallery
ODI ile Oracle ve Hive Veri Tabanları Data Migration

BIG DATA

15 06, 2021

ODI ile Oracle ve Hive Veri Tabanları Data Migration

By admin|2021-07-27T15:20:49+03:00June 15th, 2021|BIG DATA|0 Comments

Büyük veri ortamlarında operasyonel işlerden biri olan rdbms veri tabanları ile büyük veri ortamları arasında verinin taşınmasıdır. Çalışma ortamı olarak oracle’ın ücretsiz olarak sanallaştırılmış büyük veri ortamını kullanabilirsiniz.

Bu yazıda oracle data integrator ürününün knowlodge modüllerini kullanarak oracle veri tabanı ile hive ortamına datanın aktarılmasını inceleyeceğiz.

ODI

Apache Iceberg
Gallery
Apache Iceberg

BIG DATA

26 05, 2021

Apache Iceberg

By admin|2021-07-27T15:21:39+03:00May 26th, 2021|BIG DATA|0 Comments

Apache iceberg, petabyte boyutundaki tablolar için tasarlanmış açık kaynak kodlu bir tablo formatıdır. Tablo formatını, bir tabloyu oluşturan tüm dosyaların düzenlenmesini, yönetilmesini ve izlenmesini en iyi şekilde gerçekleştirtiren bir katman olarak düşünebiliriz. 2017 yılında Netflix tarafından ortaya çıkarılan

APACHE ATLAS
Gallery
APACHE ATLAS

BIG DATA

9 11, 2020

APACHE ATLAS

By Tolga Tezel|2023-01-17T11:39:22+03:00November 9th, 2020|BIG DATA|0 Comments

Apache Atlas, Hadoop clusterleri üzerinde data governance(veri yönetişimi) ve metadata yönetimi için araçtır. Metadataları toplamak, işlemek ve sürdürmek için tek başına bir çözümdür.

Ölçeklendirilebilir ve genişletilebilir bir hizmet setidir. Kullanıcıların, veri ekosistemindeki servislere ait metadataların tek bir yerden yönetmesini sağlar.

Atlas nasıl çalışır?

Apache

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

BIG DATA

Spark – MongoDB entegrasyonu ile tabloları MongoDB’den HDFS ortamına aktarmak

Spark Streaming ile Kafka + Delta Lake Upsert İşlemi

ODI ile Oracle ve Hive Veri Tabanları Data Migration

Apache Iceberg

APACHE ATLAS

COMPANY

OUR SERVICES

GET IN TOUCH WITH BENTEGO