Zaman Serilerinde Veri Madenciliği için Geliştirilmiş Topluluk Yöntemleri

Yönetici(ler): 
Kaynak: 
Başlama Tarihi: 
31/10/2014
Bitiş Tarihi: 
30/10/2017
Özet: 

Zaman serisi verilerinin son on yılda artan bir şekilde kullanımı bu alandaki veri madenciliği üzerine araştırma ve geliştirme girişimlerini hızlandırmıştır. Zaman serisi verileri giderek yaygınlaşan bir veri türüdür. Örneğin, 1974-1980 yılları arasında rastgele seçilmiş 15 gazete ve dergiden alınan 4000 örnek resimin %75’nin zaman serisi olduğu gösterilmiştir. Değişik araştırma alanlarındaki (örneğin tıp, eğitim ve finans) birçok veri kaynağı doğal olarak zaman serisi oluşturur (örneğin elektrokardiyogram (EKG), günlük sıcaklık, haftalık satışlar, hisse senedi değerleri). Ancak, zaman serilerini bir takım özelliklere sahip olduğunda veriden anlamlı bilgi çıkarmada zorluklar yaşanmaktadır. Bu özellikler verinin çok büyük ve kirli olması (örneğin eksik ya da yanlış bilgi içermesi), birden fazla farklı tipte bilgi bulunması (örneğin metin verisi) ya da zaman serisi olmayan verilerin bulunmasıdır. Birden fazla kaynaktan gelen bilgilerin birleştirilmesi pek çok uygulama için çok önemlidir. Ayrıca uygulamaya bağlı olarak zaman serileri arasındaki ilişkinin modellenmesi (bu ilişki çoğunlukla doğrusal değildir) gerekebilir ama doğrusal olmayan ilişkileri modellemek zorludur. Bu nedenle, karmaşık zaman serisi verisinden anlamlı bilgi üretebilmek için gürbüz yaklaşımlara ihtiyaç vardır. Araştırmanın amacı belirtilen kritik zorluklar altında zaman serisi veri madenciliği algoritmalarının geliştirilmesidir. Yaklaşım ağaç tabanlı topluluk öğrenme stratejilerinden yararlanarak, birden fazla istatistiksel öğrenme görevini ele alacaktır (örneğin, gözetimli (supervised) öğrenme, kümeleme, anomali tespiti).