Giriş: Zekâdan Önce Veri Vardır
Bir insanın öğrenebilmesi için deneyimlere, örneklere ve bilgiye ihtiyacı vardır. Yapay zekâ da farklı değildir.
Ancak onun bilgi kaynağı “deneyim” değil, veridir.
Veri olmadan yapay zekâ bir anlam taşımaz. Ne öğrenebilir, ne karar verebilir, ne de tepki verebilir. Tıpkı yakıtı olmayan bir araba gibi…
Bu makalede verinin yapay zekâ için neden vazgeçilmez olduğunu, hangi türlerinin kullanıldığını, ne kadar önemli olduğunu ve veriye dair karşılaşılan zorlukları ele alacağız.
Veri Nedir?
Veri; işlenmemiş, ham bilgi parçacıklarıdır.
- 1 rakamı bir veridir.
- “Kedi” kelimesi bir veridir.
- Bir fotoğraftaki pikseller, bir ses kaydındaki titreşimler, bir mesajlaşmadaki emojiler hep birer veridir.
Yapay zekâ açısından veri, girdidir. Model bu girdilerle eğitilir, test edilir, tahmin üretir.
Ne kadar çok ve kaliteli veri varsa, yapay zekânın başarısı da o kadar yüksek olur.
Veri Türleri: Yapay Zekânın Besin Grupları
1. Yapılandırılmış Veri
- Sütunlara ve satırlara bölünmüş, belirli bir düzene sahip veriler
- Excel tabloları, veritabanları örnek verilebilir
- Kolay analiz edilir, ama sınırlı bilgi içerir
2. Yapılandırılmamış Veri
- Herhangi bir düzene sahip olmayan veriler
- Metinler, e-postalar, görseller, videolar, ses kayıtları
- Bugün kullanılan verilerin %80’i bu türdedir
3. Yarı Yapılandırılmış Veri
- Etiketli ama serbest yapıya sahip veriler
- Örnek: HTML sayfaları, e-posta başlıkları, log dosyaları
4. Gerçek Zamanlı Veri (Streaming Data)
- Sürekli akan veriler: IoT cihazları, trafik kameraları, finans verileri
- Yapay zekâ bu verileri anlık olarak analiz ederek tepki verebilir
Büyük Veri (Big Data) Nedir?
Yapay zekânın gelişimi, büyük veriyle doğrudan ilişkilidir.
Big Data, klasik veri işleme yöntemlerinin kaldıramayacağı kadar hacimli, hızlı ve çeşitli verileri ifade eder.
Büyük verinin 5 temel özelliği (5V):
Özellik | Açıklama |
---|---|
Volume (Hacim) | Verinin miktarı (terabaytlar, petabaytlar) |
Velocity (Hız) | Veri akışının gerçek zamanlılığı |
Variety (Çeşitlilik) | Farklı formatlarda veri (metin, ses, video) |
Veracity (Güvenilirlik) | Verinin doğruluğu ve temizliği |
Value (Değer) | Veriden sağlanan fayda |
Veri Temizliği: Çöpten Zekâ Çıkmaz
Yapay zekâya kötü veri verirseniz, kötü sonuçlar alırsınız.
İngilizce’de bu durumu şöyle özetlerler: “Garbage in, garbage out.”
Veri temizliği neden gereklidir?
- Eksik, bozuk veya çelişkili veriler öğrenmeyi bozar
- Eğitilen model yanıltıcı kararlar verebilir
- İnsanlara, kurumlara zarar verecek hatalı sistemler ortaya çıkabilir
Temizlik aşamaları:
- Eksik verilerin tamamlanması
- Tekrar edenlerin silinmesi
- Hatalı formatların düzeltilmesi
- Anlamlı olmayan verilerin ayıklanması
Etiketli Veri ve Etiketlenmemiş Veri
🟩 Etiketli Veri (Labeled Data)
- Girdinin ne olduğu bellidir.
- Örnek: Bir görselin “kedi” olarak etiketlenmesi
- Denetimli öğrenme için gereklidir
🟥 Etiketlenmemiş Veri (Unlabeled Data)
- Ham veridir, ne olduğu belirtilmemiştir
- Denetimsiz öğrenme ve ön eğitimli modellerde kullanılır
Etiketleme işlemi genellikle insanlar tarafından yapılır ve zaman alıcıdır. Bu yüzden veri kümesi hazırlamak bazen, model yazmaktan daha uzun sürebilir.
Verinin Nereden Geldiği: Kaynaklar
Kaynak | Açıklama |
---|---|
Kullanıcı Etkileşimleri | Sosyal medya, arama geçmişi, alışveriş verisi |
Sensörler | IoT cihazları, medikal aygıtlar |
Görüntü/Ses | Kamera kayıtları, güvenlik sistemleri, çağrı merkezi verileri |
Metin | Belgeler, e-postalar, yorumlar |
Açık Veri Setleri | Kaggle, UCI, HuggingFace, Google Dataset Search gibi platformlar |
Veri Gizliliği ve Etik
Veri sadece teknik değil, aynı zamanda etik bir konudur.
AI sistemleri:
- Kişisel verileri analiz edebilir
- Mahremiyet ihlallerine yol açabilir
- Yanlı (biased) veriyle eğitilirse adaletsiz sonuçlar üretir
Bu yüzden veriyle çalışan herkesin şu ilkeleri benimsemesi gerekir:
- GDPR, KVKK gibi yasalara uyum
- Veri anonimleştirme
- İzinli veri toplama
- Veride çeşitlilik ve temsil
Gerçek Hayatta Veri ve Yapay Zekâ
Örnek 1: Netflix
- Hangi türleri izliyorsun?
- Ne zaman bırakıyorsun?
- Hangi oyuncular seni etkiliyor?
Bu verilerle yapay zekâ sana özel öneriler sunar.
Örnek 2: Sağlık
- Kan şekeri değerleri, nabız, ilaç geçmişi
- Yapay zekâ bu verileri analiz ederek hastalık riski tahmini yapabilir
Verisiz Yapay Zekâ Olur mu?
Kısa cevap: Hayır.
Veri, yapay zekânın öğrenme yeteneğinin temelidir.
Ancak bazı yeni modeller az veriyle öğrenmeyi hedefliyor:
- Few-shot learning
- Zero-shot learning
- Transfer learning
Bu yaklaşımlar, verinin az olduğu alanlarda da yapay zekânın kullanılabilmesini sağlar.
Sonuç: Yapay Zekânın Akciğeri
Veri, yapay zekâ için sadece bir girdi değil; onun anlamlandırma, öğrenme ve karar verme kapasitesini belirleyen ana kaynaktır.
Bugün yapay zekâ ne kadar güçlüyse, bu gücün ardında o kadar zengin, kaliteli ve temiz bir veri vardır.
İyi veri; adil, güvenilir, güçlü bir yapay zekânın temelidir.