Python ile Veri Temizleme: Pandas, Eksik Veri ve Raporlama
Gerçek veri genellikle temiz gelmez. Eksik değer, yanlış tip, duplicate kayıt, tutarsız tarih formatı ve boş kolonlar veri analizinin ilk engelleridir. Bu derste Pandas ile veri temizleme yaklaşımını öğreneceksin.
Öğrenme Hedefleri
- CSV verisini Pandas ile okumak
- Eksik değerleri analiz etmek
- Duplicate kayıtları temizlemek
- Tip dönüşümü yapmak
- Basit rapor çıktısı üretmek
CSV Okuma
info() verinin tiplerini ve eksik değer durumunu hızlı gösterir.
Eksik Veri Kontrolü
Eksik veri her zaman silinmez. Bazı durumlarda doldurulur, bazı durumlarda satır analiz dışı bırakılır.
Eksik Veriyi Doldurma
Sayısal değerlerde ortalama veya medyan kullanılabilir, fakat bunu otomatik karar gibi düşünme. Eksik verinin neden oluştuğunu anlamak gerekir.
Duplicate Temizleme
Eğer benzersiz alan varsa:
Tip Dönüşümü
Yanlış tipler analiz sonuçlarını bozar.
Groupby Raporu
Bu çıktı iş tarafına gönderilebilir bir ilk rapordur.
Kalite Kontrol Fonksiyonu
Basit bir veri kalite özeti:
Bu rapor hangi kolonun temizlenmesi gerektiğini hızlı gösterir.
Gerçek Hayat Uyarıları
- Para değerlerini string bırakma.
- Tarih kolonlarını object olarak analiz etme.
- Duplicate kayıtları silmeden önce neden oluştuğunu anla.
- Eksik veriyi doldururken raporda belirt.
- Analiz çıktısını tekrar üretilebilir yap.
Veri analizi sadece grafik çizmek değildir; temiz, açıklanabilir ve tekrar üretilebilir süreç kurmaktır.
Alıştırma
Bir satış CSV dosyası için:
- Eksik kolonları listele
- Duplicate siparişleri sil
- Tarih kolonunu dönüştür
- Kategori bazlı toplam satış raporu üret
- Veri kalite raporunu CSV olarak kaydet
Mini Proje
Bir e-ticaret CSV dosyası hayal et:
Bu dosyada eksik amount, duplicate order_id ve bozuk tarih değerleri olsun. Temizledikten sonra kategori bazlı ciro raporu çıkar ve category-report.csv olarak kaydet.
Sonraki Adım
Veri analizi tarafında Python Pandas ve NumPy dersini, genel alan seçimi için Python ile Ne Yapılır? yazısını oku.