Ana içeriğe atla

Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme: Normalleştirme Etkeninin Önemi

Bu makalede Akademik Bilişim 2010’da yayınlanmış olan bir çalışmanın giriş kısmı anlatılmıştır. Bilgiye erişim sistemleri, belge arşivlerinde kullanıcıların isteklerine uygun belgelere, kullanıcıların kolay bir şekilde erişimlerini sağlayan sistemlerdir. Bu sistemlerin temel amacı, kullanıcıların bilgi ihtiyaçlarını karşılamak için, belge arşivlerindeki ilgili (relevant) belgelerin hepsine erişmek, ilgisiz (non-relevant) belgeleri ise çıkartmaktır.
İnternetin yaygınlaşmasıyla daha da büyüyen veri havuzundaki bilginin çıkarılması günümüzün en popüler konularından biri olmuştur. Kullanıcıların arama motorlarında yaptıkları sorgulamalarının sonuçlarının kullanıcıların isteklerine en iyi cevabı verebilmesi de büyük önem kazanmıştır. Bilgiye erişim modeli, kullanıcının ihtiyaç duyduğu belgeye ulaşırken, belge arşivindeki sorgulamasını, belgenin içerdiği kelimeler ile yapmasına olanak tanımaktadır.
Çalışmada, kullanıcının ihtiyacı olan ilgili belgelere en iyi oranda erişerek arama kalitesinin arttırılması amaçlanmıştır. Bu amaçla, vektör uzay modeli ve eksenli benzersiz normalleştirme modeli kullanılarak bu modelinin arama kalitesindeki olumlu etkileri gözlemlenmiştir.
Bilgiye erişim modelinde kullanılan en klasik yöntemlerden biri de vektör uzay modelidir. Salton’un vektör uzay modeli, her bir belgeyi içerisindeki terimlerin ağırlığından oluşan bir vektör olarak tanımlar. Her bir terimin ağırlığını hesaplarken, terimin belgede geçme sayısıyla, bütün belge arşivinde geçme sayısını oranlayarak bir ağırlık elde eder. Bir terimin belgedeki ağırlığı hesaplanırken, uzun belgeler kısa belgelere göre avantajlı duruma geçebilir. Bu yüzden belge uzunluklarını normalleştirmek gerekmektedir. Belge uzunluklarının normalleştirilme gereksinimleri şunlardır:
  • Yüksek terim frekansları: Uzun belgeler, genelde aynı terimi çokça kez tekrar eder. Bu yüzden terim sıklık etkeni uzun belgeler için çok yüksek olur. Bu da belgedeki terimlerinin ağırlığının artmasına; sorgu ve belge benzerliği değerinin yüksek olmasına ve uzun belgelerin kısa belgelere göre daha avantajlı hale gelmesine sebep olur.
  • Fazla sayıda terim: Uzun belgeler fazla sayıda farklı terim içerir. Bu da bir sorgu ile belgenin eşleşme sayısını arttırırken aynı zamanda da belge doküman benzerliğini arttırır ve erişimde kısa belgelere göre uzun belgeleri daha şanslı bir konuma getirir.
Çalışmada ilk yöntem olan vektör uzay modelindeki normalleştirme için kosinüs benzerliği kullanılmıştır. Belgeler vektör uzunluklarına bölünerek birim vektör haline getirilmişlerdir. Fakat bu durumda belgelerin uzunlukları tamamen göz ardı edilmiştir. Belgedeki normalizasyon faktörü yine terimin ağırlığına bağımlı kalmıştır. Belgeler büyüdükçe kosinüs benzerliğinin erişim performansında zayıf kaldığı gözlemlenmiştir.
Çalışmadaki ikinci yöntem olan eksenli benzersiz normalleştirme modelinin, farklı uzunluktaki belgeler için çıkan sorunlara daha etkin bir çözüm getirerek, daha başarılı olduğu gözlemlenmiştir. Bu durumda vektörlerin birim vektör olması gerekmemektedir. Eksenli benzersiz normalleştirme modeli belgelerdeki farklı terim sayısını bir normalleştirme etkeni olarak kullanarak, farklı uzunluklardaki tüm belgelerin erişim aşamasında aynı şansa sahip olmasını sağlamaktadır. Sonuç olarak bu durum da erişim performansı arttırmaktadır.
Çalışma ile ilgili detaylara bu linkten erişebilirsiniz.
Referanslar
  • Salton G, Wong A, Yang CS. A Vector Space Model For Automatic Indexing. Communications of ACM. 1975. 18 (11): 613-620
  • Singhal A, Buckley C and Mitra M. Pivoted Document Length Normalization. Proceedings of SIGIR. 1996. p. 21-29
  • Theodora Tsikrika and Jana Kludas. Overview of the wikipediaMM task at ImageCLEF 2008. In Evaluating Systems for Multilingual and Multimodal Information Access, Proceedings of the 9th Workshop of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science, vol. 5709, pp. 539-550, Springer 2009.
  • Manning D. Chirstopher, Raghavan Prabhakar and Schütze Hinrich. An Introduction to Information Retrieval, Cambridge University Press, 2009.
  • E. Garcia. Implementation and application of term weights in mysql environment, 10 2006.
  • E. Garcia. The Classic Vector Space Model,10,2006.
  • Singhal A, "Modern Information Retrieval: A Brief Overview,2006.
  • April Kontostathis and Scott Kulp, The Effect of Normalization when Recall Really Matters,2008.
  • Ricardo Baeza-Yates,Berthier Ribeiro-Neto,Modern Information Retrieval,1999.
Özlem KARAGEDİK, Deniz KILINÇ

Yorumlar

Bu blogdaki popüler yayınlar

UML ve Modelleme – Bölüm 4 (Class (Sınıf) Diyagramları)

Bir önceki makalemizde UML modellemede kullanılan ilk diyagram olan Use Case diyagramını incelemiştik. Bu makalemizde nesne tabanlı programlamada kullanılan sınıflar ve sınıfların arasındaki ilişkileri modelleyebileceğimiz diyagramlar olan Class(Sınıf) diyagramlarını inceleyeceğiz. UML’de sınıflar, nesne tabanlı programlama mantığı ile tasarlanmıştır. Sınıf diyagramının amacı bir model içerisinde sınıfların tasvir edilmesidir. Nesne tabanlı uygulamada, sınıfların kendi özellikleri (üye değişkenler), işlevleri (üye fonksiyonlar) ve diğer sınıflarla ilişkileri bulunmaktadır. UML’de sınıf diyagramlarının genel gösterimi aşağıdaki gibidir. Şekil 1. Class Diyagram Şekil1’de görüldüğü üzere bir dikdörtgeni 3 parçaya bölüyoruz. En üst bölüm sınıf adını, orta kısım özellik listesini (üye değişkenler) ve en son kısım, işlev listesini (üye fonksiyonlar) göstermektedir. Çoğu diyagramlarda alt iki bölüm çıkarılır. Genelde tüm özellik ve işlevler gösterilmemektedir. Ama

Yazılım Maliyet Tahmineleme Tecrübeleri

Yazılım mühendisliğinde maliyet hesabı her zaman problem olmuştur. "Bu iş kaç Adam/Gün tutar?" sorusuyla sıkça karşılaşıyoruz. Adam/gün veya Adam/ay ölçütleri bir kaynağın/kişinin belirtilen zaman dilimindeki iş gücü anlamına gelir. Tabi bu noktada yine kafa karışıklıkları başlar. 6 A/G'lik bir işi hızlandıralım diye 2 kişi ile yapmaya çalışsak ve kaynak/kod, modül, altyapı, insan vb. her bir şeyi bir kenara bıraksak, matematiksel basit formülle 6/2=3 A/G'de biter? Gerçek hayat böyle değil, öncelikle bunu anlamamız lazım. Hep şu örnek verilir; "Aynı bebeği 2 kadın birlikte daha kısa sürede doğurur mu?" Eğer bunun cevabı "Evet" ise (veya bir gün böyle bir durum ortaya çıkarsa), yazımı değiştirmem gerekecek:) Mevzu gerçekten derin...Maliyet hesabı; bulunduğunuz firmanın yazılım süreçlerini hangi methodlarla uyguladığına, ilgili işin o dönemdeki aciliyetine, (şirket yönetiminin baskısına:)) vb. bir çok duruma bağlı olabilir. Örneğin; bizim firmada e

UML ve Modelleme – Bölüm 3 (Use Case Diyagramlar)

Önceki iki makalemizde ( 1 , 2 ) UML’e genel olarak değinip ve modellemede kullanacağımız dokuz diyagram hakkında bilgiler vermiştik. Bu makalemizde Use Case diyagramından detaylı bahsedeceğiz. Öncelikle, genel Use case diyagramının tanımını hatırlayalım. “Bir kullanıcı ve bir sistem arasındaki etkileşimi anlatan senaryo topluluğudur.” Ivar Jacobson Senaryo tanımı için der ki: “Aktörle sistem arasında gerçekleştirilen, sonucunda aktöre farkedilir getirisi/ faydası oluşan etkileşimli diyalogdur. ” UML Use Case Diyagramları  sistemin işlevselliğini açıklamak amacıyla kullanılır. Sistemin birbirinden ayrı özelliklerinin detaylarını göstermekten ziyade, Use Case Diyagramlar, tüm mevcut işlevselliği göstermek için kullanılabilir. Buradaki en önemli noktalardan biri,   Use Case Diyagramlar temelde sequence diyagram ve akış diyagramlarından farklıdır. Use Case diyagramlar dört ana elemandan oluşmaktadır. Aktörler , Sistem (Proje kapsamını belirtir) , Use Caseler ve bunlar ara