Python ile Veri Setine İlk Bakış

Python günümüzde kullanımı son derecede yüksek olan dillerden biridir. Yapay zekanın yükselişi ile birlikte python da paralel şekilde yükselişe geçmiştir. Özellikle veri analizi, veri bilimi ve makine öğrenmesi vb. gibi yapay zeka alanlarında sıkça adı geçmektedir. Bu yazımda da sizlere python ile veri setine ilk bakış nasıl yapılır ve nasıl analiz edilir sorularının cevaplarını giriş seviyesinde açıklamaya çalışacağım.

Bu yazıda 4 ana madde yer alacaktır. Bunlar:

Genel Resim
Kategorik Değişken Analizi (Analysis of Categorical Variables)
Sayısal Değişken Analizi (Analysis of Numerical Variables)
Hedef Değişken Analizi (Analysis of Target Variable)

Not: Yukarıdaki yöntemlerin hepsinde titanic veri seti kullanılmıştır.

[/fusion_content_box][fusion_content_box title=”” backgroundcolor=”” icon=”” iconflip=”” iconrotate=”” iconspin=”” iconcolor=”” circlecolor=”” circlebordersize=”” circlebordercolor=”” outercirclebordersize=”” outercirclebordercolor=”” image=”” image_id=”” image_max_width=”” link=”” linktext=”” link_target=”” animation_type=”” animation_direction=”left” animation_speed=”0.3″ animation_offset=””]

1.Genel Resim

Genel resim dediğimiz şey aslında veri setimizin nasıl veriler içerdiği, matris yapısının nasıl olduğu, içerisinde null değer olup olmadığını anlamak üzere pandas kütüphanesinde bulunan built-in fonksiyonların kullanıldığı bir yöntemdir.

Kütüphanelerimizi import etmekle işe başlayalım:

Kullanılabilecek fonksyionlar :

df.head(): ilk indexten itibaren içine yazılan n değeri kadar satır döner. deafult değeri n=5’tir.
df.tail(): head() fonksiyonunun kuyruk tarafında çalışan hali.
df.shape: kaça kaçlık matris olduğunu döner
df.info(): sütunların hangi veri tipinden olduğunu söyler
df.columns: sütun isimlerini liste halinde döner
df.index: başlangıç – bitiş index değerini ve ne kadar atlayarak gittiğini döner
df.isnull().values.any(): Herhangi bir null değerin olup olmadığının kontrolü için
df.isnull().sum(): null değerlerin toplamı

İşleri otomatize etmek için örnek bir fonksiyon kullanımı :

[/fusion_content_box][fusion_syntax_highlighter theme=”” language=”json” line_numbers=”yes” line_wrapping=”” copy_to_clipboard=”” copy_to_clipboard_text=”” hide_on_mobile=”small-visibility,medium-visibility,large-visibility” class=”” id=”” font_size=”” border_size=”” border_color=”” border_style=”” background_color=”” line_number_background_color=”” line_number_text_color=”” margin_top=”0″ margin_right=”” margin_bottom=”” margin_left=””]ZGVmIGNoZWNrX2RmKGRhdGFmcmFtZSwgaGVhZD01KToKICAgIHByaW50KCIjIyMjIyMjIyMjIyMjIyMjIyMjIyMgU2hhcGUgIyMjIyMjIyMjIyMjIyMjIyMjIyMjIikKICAgIHByaW50KGRhdGFmcmFtZS5zaGFwZSkKICAgIHByaW50KCIjIyMjIyMjIyMjIyMjIyMjIyMjIyMgVHlwZXMgIyMjIyMjIyMjIyMjIyMjIyMjIyMjIikKICAgIHByaW50KGRhdGFmcmFtZS5kdHlwZXMpCiAgICBwcmludCgiIyMjIyMjIyMjIyMjIyMjIyMjIyMjIEhlYWQgIyMjIyMjIyMjIyMjIyMjIyMjIyMjIikKICAgIHByaW50KGRhdGFmcmFtZS5oZWFkKGhlYWQpKQogICAgcHJpbnQoIiMjIyMjIyMjIyMjIyMjIyMjIyMjIyBUYWlsICMjIyMjIyMjIyMjIyMjIyMjIyMjIyIpCiAgICBwcmludChkYXRhZnJhbWUudGFpbChoZWFkKSkKICAgIHByaW50KCIjIyMjIyMjIyMjIyMjIyMjIyMjIyMgTkEgIyMjIyMjIyMjIyMjIyMjIyMjIyMjIikKICAgIHByaW50KGRhdGFmcmFtZS5pc251bGwoKS5zdW0oKSkKCmNoZWNrX2RmKGRmKQ==[/fusion_syntax_highlighter][fusion_syntax_highlighter theme=”” language=”txt” line_numbers=”no” line_wrapping=”” copy_to_clipboard=”” copy_to_clipboard_text=”” hide_on_mobile=”small-visibility,medium-visibility,large-visibility” class=”” id=”” font_size=”12″ border_size=”” border_color=”” border_style=”dashed” background_color=”” line_number_background_color=”” line_number_text_color=”” margin_top=”0″ margin_right=”” margin_bottom=”” margin_left=””]T3V0W106CiMjIyMjIyMjIyMjIyMjIyMjIyMjIyBTaGFwZSAjIyMjIyMjIyMjIyMjIyMjIyMjIyMKKDg5MSwgMTUpCiMjIyMjIyMjIyMjIyMjIyMjIyMjIyBUeXBlcyAjIyMjIyMjIyMjIyMjIyMjIyMjIyMKc3Vydml2ZWQgICAgICAgICAgaW50NjQKcGNsYXNzICAgICAgICAgICAgaW50NjQKc2V4ICAgICAgICAgICAgICBvYmplY3QKYWdlICAgICAgICAgICAgIGZsb2F0NjQKc2lic3AgICAgICAgICAgICAgaW50NjQKcGFyY2ggICAgICAgICAgICAgaW50NjQKZmFyZSAgICAgICAgICAgIGZsb2F0NjQKZW1iYXJrZWQgICAgICAgICBvYmplY3QKY2xhc3MgICAgICAgICAgY2F0ZWdvcnkKd2hvICAgICAgICAgICAgICBvYmplY3QKYWR1bHRfbWFsZSAgICAgICAgIGJvb2wKZGVjayAgICAgICAgICAgY2F0ZWdvcnkKZW1iYXJrX3Rvd24gICAgICBvYmplY3QKYWxpdmUgICAgICAgICAgICBvYmplY3QKYWxvbmUgICAgICAgICAgICAgIGJvb2wKZHR5cGU6IG9iamVjdAojIyMjIyMjIyMjIyMjIyMjIyMjIyMgSGVhZCAjIyMjIyMjIyMjIyMjIyMjIyMjIyMKICAgc3Vydml2ZWQgIHBjbGFzcyAgICAgc2V4ICAgYWdlICBzaWJzcCAgcGFyY2ggICAgIGZhcmUgZW1iYXJrZWQgIGNsYXNzICBcCjAgICAgICAgICAwICAgICAgIDMgICAgbWFsZSAgMjIuMCAgICAgIDEgICAgICAwICAgNy4yNTAwICAgICAgICBTICBUaGlyZCAgIAoxICAgICAgICAgMSAgICAgICAxICBmZW1hbGUgIDM4LjAgICAgICAxICAgICAgMCAgNzEuMjgzMyAgICAgICAgQyAgRmlyc3QgICAKMiAgICAgICAgIDEgICAgICAgMyAgZmVtYWxlICAyNi4wICAgICAgMCAgICAgIDAgICA3LjkyNTAgICAgICAgIFMgIFRoaXJkICAgCjMgICAgICAgICAxICAgICAgIDEgIGZlbWFsZSAgMzUuMCAgICAgIDEgICAgICAwICA1My4xMDAwICAgICAgICBTICBGaXJzdCAgIAo0ICAgICAgICAgMCAgICAgICAzICAgIG1hbGUgIDM1LjAgICAgICAwICAgICAgMCAgIDguMDUwMCAgICAgICAgUyAgVGhpcmQgICAKCiAgICAgd2hvICBhZHVsdF9tYWxlIGRlY2sgIGVtYmFya190b3duIGFsaXZlICBhbG9uZSAgCjAgICAgbWFuICAgICAgICBUcnVlICBOYU4gIFNvdXRoYW1wdG9uICAgIG5vICBGYWxzZSAgCjEgIHdvbWFuICAgICAgIEZhbHNlICAgIEMgICAgQ2hlcmJvdXJnICAgeWVzICBGYWxzZSAgCjIgIHdvbWFuICAgICAgIEZhbHNlICBOYU4gIFNvdXRoYW1wdG9uICAgeWVzICAgVHJ1ZSAgCjMgIHdvbWFuICAgICAgIEZhbHNlICAgIEMgIFNvdXRoYW1wdG9uICAgeWVzICBGYWxzZSAgCjQgICAgbWFuICAgICAgICBUcnVlICBOYU4gIFNvdXRoYW1wdG9uICAgIG5vICAgVHJ1ZSAgCiMjIyMjIyMjIyMjIyMjIyMjIyMjIyBUYWlsICMjIyMjIyMjIyMjIyMjIyMjIyMjIwogICAgIHN1cnZpdmVkICBwY2xhc3MgICAgIHNleCAgIGFnZSAgc2lic3AgIHBhcmNoICAgZmFyZSBlbWJhcmtlZCAgIGNsYXNzICBcCjg4NiAgICAgICAgIDAgICAgICAgMiAgICBtYWxlICAyNy4wICAgICAgMCAgICAgIDAgIDEzLjAwICAgICAgICBTICBTZWNvbmQgICAKODg3ICAgICAgICAgMSAgICAgICAxICBmZW1hbGUgIDE5LjAgICAgICAwICAgICAgMCAgMzAuMDAgICAgICAgIFMgICBGaXJzdCAgIAo4ODggICAgICAgICAwICAgICAgIDMgIGZlbWFsZSAgIE5hTiAgICAgIDEgICAgICAyICAyMy40NSAgICAgICAgUyAgIFRoaXJkICAgCjg4OSAgICAgICAgIDEgICAgICAgMSAgICBtYWxlICAyNi4wICAgICAgMCAgICAgIDAgIDMwLjAwICAgICAgICBDICAgRmlyc3QgICAKODkwICAgICAgICAgMCAgICAgICAzICAgIG1hbGUgIDMyLjAgICAgICAwICAgICAgMCAgIDcuNzUgICAgICAgIFEgICBUaGlyZCAgIAoKICAgICAgIHdobyAgYWR1bHRfbWFsZSBkZWNrICBlbWJhcmtfdG93biBhbGl2ZSAgYWxvbmUgIAo4ODYgICAgbWFuICAgICAgICBUcnVlICBOYU4gIFNvdXRoYW1wdG9uICAgIG5vICAgVHJ1ZSAgCjg4NyAgd29tYW4gICAgICAgRmFsc2UgICAgQiAgU291dGhhbXB0b24gICB5ZXMgICBUcnVlICAKODg4ICB3b21hbiAgICAgICBGYWxzZSAgTmFOICBTb3V0aGFtcHRvbiAgICBubyAgRmFsc2UgIAo4ODkgICAgbWFuICAgICAgICBUcnVlICAgIEMgICAgQ2hlcmJvdXJnICAgeWVzICAgVHJ1ZSAgCjg5MCAgICBtYW4gICAgICAgIFRydWUgIE5hTiAgIFF1ZWVuc3Rvd24gICAgbm8gICBUcnVlICAKIyMjIyMjIyMjIyMjIyMjIyMjIyMjIE5BICMjIyMjIyMjIyMjIyMjIyMjIyMjIwpzdXJ2aXZlZCAgICAgICAgIDAKcGNsYXNzICAgICAgICAgICAwCnNleCAgICAgICAgICAgICAgMAphZ2UgICAgICAgICAgICAxNzcKc2lic3AgICAgICAgICAgICAwCnBhcmNoICAgICAgICAgICAgMApmYXJlICAgICAgICAgICAgIDAKZW1iYXJrZWQgICAgICAgICAyCmNsYXNzICAgICAgICAgICAgMAp3aG8gICAgICAgICAgICAgIDAKYWR1bHRfbWFsZSAgICAgICAwCmRlY2sgICAgICAgICAgIDY4OAplbWJhcmtfdG93biAgICAgIDIKYWxpdmUgICAgICAgICAgICAwCmFsb25lICAgICAgICAgICAgMApkdHlwZTogaW50NjQ=[/fusion_syntax_highlighter][fusion_content_box title=”” backgroundcolor=”” icon=”” iconflip=”” iconrotate=”” iconspin=”” iconcolor=”” circlecolor=”” circlebordersize=”” circlebordercolor=”” outercirclebordersize=”” outercirclebordercolor=”” image=”” image_id=”” image_max_width=”” link=”” linktext=”Read More” link_target=”” animation_type=”” animation_direction=”left” animation_speed=”0.3″ animation_offset=””]

Çıktımızı sırasıyla inceleyecek olursak:

shape çıktısı (891, 15) gelmiş. Bu da 891 adet kayıtın ve 15 farklı verinin olduğunu gösterir. Bu veri setinde 15 farklı değişkenin sadece 1’i hedef değişkendir.
dtype çıktısı ile ilk maddede bahsedilen 15 farklı verinin tiplerini görmüş olduk. Verimizi detaylı olarak analiz etmek istersek bu değerlere çok dikkat etmemiz gerekiz. Bazı değişkenler her ne kadar numerik gözükse bile bunlar kategorik, her ne kadar kategorik gözükse bile numerik olabilir. Dolayısıyla bunları göz önünde bulundurmalıyız.
head()/tail() sayesinde veri setimizin nasıl doldurulduğunu görmüş oluyoruz. Örneğimizde kullandığımız titanic veri setinin hepsini bastırmak kolay ve zahmetsiz gözükebilir. Ancak büyük çaplı projelerde milyonlarca hatta milyarlarca satır olduğunu düşünürsek veri setinin tamamını bastırmanın maaliyeti bir hayli yüksek olacaktır.
isnull().sum() null değerleri görmemizi sağladı. İleride yapacağımız herhangi bir istatistik işleminde ya da model eğitiminin öncesinde null değerleri manipule etmek önemli.

[/fusion_content_box][fusion_content_box title=”” backgroundcolor=”” icon=”” iconflip=”” iconrotate=”” iconspin=”” iconcolor=”” circlecolor=”” circlebordersize=”” circlebordercolor=”” outercirclebordersize=”” outercirclebordercolor=”” image=”” image_id=”” image_max_width=”” link=”” linktext=”Read More” link_target=”” animation_type=”” animation_direction=”left” animation_speed=”0.3″ animation_offset=””]

2.Kategorik Değişken Analizi (Analysis of Categorical Variables)

Kategorik verilerin analizi için kullanılan en basit yöntemlerden biri dağılımın oranını bulmak. Bu sayede değişkenlerin target(hedef) değerini ne kadar etkileyip etkilemeyeceğini tahmin edebiliriz. Ancak direkt hedef değişkene göre analiz yapılmak istenirse yazının 4. Bölümüne göz atılması gerekir.

Bunun için ufak bir fonksiyon yazabiliriz. Bu fonksiyon bir dataframe oluştursun. İçinde 2 column olsun ; kategorik değişkenin ismi ve oran(ratio). Ne kadar veri olduğunu bulmak için dataframe[col_name].value_counts() kodunu kullanabiliriz. Oranı hesaplamak için ise basit bir matematik formulü kullanacağız. 🖊 100istenilen_değer / toplam_değer yani `100 dataframe[col_name].value_counts() / len(dataframe)`

3. Sayısal Değişken Analizi (Analysis of Numerical Variables)

Sayısal değişkenleri analiz etmek için olmazsa olmaz fonksiyonumuz df.describe(). Çıktının transpozunu alıp almamak tamamiyle size kalmış. Ben görünüş ve okunabilirlik açısından tranpozunu almayı tercih ediyorum.

df.describe().T: Sütunların istatistiksel özetini gösterir. Bu özete NaN değerler dahil edilmez.

4.Hedef Değişken Analizi (Analysis of Target Variable)

Hedef değişken analizini 2 ana başlık altında inceleyeceğiz:

Hedef Değişkenin Kategorik Değişkenler ile Analizi
Hedef Değişkenin Sayısal Değişkenler ile Analizi

Bu bölümde dataframe.groupby() fonksiyonunun önemi bir hayli fazla. Bu fonksiyonun kısaca işlemi, birbirinden ayrı sütunları birleştirip bir takım işlemler yapmamıza olanak sağlar. SQL’deki groupby ile aynı işlevdedir.

4.1 Hedef Değişkenin Kategorik Değişkenler ile Analizi

Kategorik değişkenleri hedef değişkenlerle analiz edebilmek için kegorik değere göre gruplamamız gerekir. Çünkü bir kategoriye ne kadar hedef değişkenin düştüğünü öğrenmek istiyoruz.

4.2 Hedef Değişkenin Sayısal Değişkenler ile Analizi

Sayısal değişkenlerde ise durum biraz farklı. Sayısal değişkenler herhangi bir şekilde kategori içermediğinden ve sürekli(continuous) olduklarından bunları gruplamamız mantıksızdır. Dolayısıyla burada hedef değişkene göre gruplarız ve böylece hedef değişkene sayısal sütundaki değerlerin etkisini gözlemleyebiliriz.

Referanslar

https://pandas.pydata.org/docs/reference/frame.html

https://seaborn.pydata.org/

https://towardsdatascience.com/exploratory-data-analysis-in-python-a-step-by-step-process-d0dfa6bf94ee

http://www.sefidian.com/2021/07/02/measure-the-correlation-between-numerical-and-categorical-variables-and-the-correlation-between-two-categorical-variables-in-python-chi-square-and-anova/

[/fusion_content_box][/fusion_builder_column][/fusion_builder_row][/fusion_builder_container]

Open-Source Big Data Solutions

Real-Time Streaming Solutions

DWH Solutions

Data Lake Solutions

AI & DL/ML Solutions

Customer Journey Solutions

Business Process Automation

-

-

-

Docman

Training

-

Python ile Veri Setine İlk Bakış

Python ile Veri Setine İlk Bakış

1.Genel Resim

Kullanılabilecek fonksyionlar :

2.Kategorik Değişken Analizi (Analysis of Categorical Variables)

3. Sayısal Değişken Analizi (Analysis of Numerical Variables)

4.Hedef Değişken Analizi (Analysis of Target Variable)

4.1 Hedef Değişkenin Kategorik Değişkenler ile Analizi

4.2 Hedef Değişkenin Sayısal Değişkenler ile Analizi

Referanslar

Menu

Company

Legal

Open-Source Big Data Solutions

Real-Time Streaming Solutions

DWH Solutions

Data Lake Solutions

AI & DL/ML Solutions

Customer Journey Solutions

Business Process Automation

-

-

-

Docman

Training

-