Bu makalede Akademik Bilişim 2010’da yayınlanmış olan bir çalışmanın giriş kısmı anlatılmıştır. Bilgiye erişim sistemleri, belge arşivlerinde kullanıcıların isteklerine uygun belgelere, kullanıcıların kolay bir şekilde erişimlerini sağlayan sistemlerdir. Bu sistemlerin temel amacı, kullanıcıların bilgi ihtiyaçlarını karşılamak için, belge arşivlerindeki ilgili (relevant) belgelerin hepsine erişmek, ilgisiz (non-relevant) belgeleri ise çıkartmaktır.
İnternetin yaygınlaşmasıyla daha da büyüyen veri havuzundaki bilginin çıkarılması günümüzün en popüler konularından biri olmuştur. Kullanıcıların arama motorlarında yaptıkları sorgulamalarının sonuçlarının kullanıcıların isteklerine en iyi cevabı verebilmesi de büyük önem kazanmıştır. Bilgiye erişim modeli, kullanıcının ihtiyaç duyduğu belgeye ulaşırken, belge arşivindeki sorgulamasını, belgenin içerdiği kelimeler ile yapmasına olanak tanımaktadır.
Çalışmada, kullanıcının ihtiyacı olan ilgili belgelere en iyi oranda erişerek arama kalitesinin arttırılması amaçlanmıştır. Bu amaçla, vektör uzay modeli ve eksenli benzersiz normalleştirme modeli kullanılarak bu modelinin arama kalitesindeki olumlu etkileri gözlemlenmiştir.
Bilgiye erişim modelinde kullanılan en klasik yöntemlerden biri de vektör uzay modelidir. Salton’un vektör uzay modeli, her bir belgeyi içerisindeki terimlerin ağırlığından oluşan bir vektör olarak tanımlar. Her bir terimin ağırlığını hesaplarken, terimin belgede geçme sayısıyla, bütün belge arşivinde geçme sayısını oranlayarak bir ağırlık elde eder. Bir terimin belgedeki ağırlığı hesaplanırken, uzun belgeler kısa belgelere göre avantajlı duruma geçebilir. Bu yüzden belge uzunluklarını normalleştirmek gerekmektedir. Belge uzunluklarının normalleştirilme gereksinimleri şunlardır:
- Yüksek terim frekansları: Uzun belgeler, genelde aynı terimi çokça kez tekrar eder. Bu yüzden terim sıklık etkeni uzun belgeler için çok yüksek olur. Bu da belgedeki terimlerinin ağırlığının artmasına; sorgu ve belge benzerliği değerinin yüksek olmasına ve uzun belgelerin kısa belgelere göre daha avantajlı hale gelmesine sebep olur.
Çalışmada ilk yöntem olan vektör uzay modelindeki normalleştirme için kosinüs benzerliği kullanılmıştır. Belgeler vektör uzunluklarına bölünerek birim vektör haline getirilmişlerdir. Fakat bu durumda belgelerin uzunlukları tamamen göz ardı edilmiştir. Belgedeki normalizasyon faktörü yine terimin ağırlığına bağımlı kalmıştır. Belgeler büyüdükçe kosinüs benzerliğinin erişim performansında zayıf kaldığı gözlemlenmiştir.
Çalışmadaki ikinci yöntem olan eksenli benzersiz normalleştirme modelinin, farklı uzunluktaki belgeler için çıkan sorunlara daha etkin bir çözüm getirerek, daha başarılı olduğu gözlemlenmiştir. Bu durumda vektörlerin birim vektör olması gerekmemektedir. Eksenli benzersiz normalleştirme modeli belgelerdeki farklı terim sayısını bir normalleştirme etkeni olarak kullanarak, farklı uzunluklardaki tüm belgelerin erişim aşamasında aynı şansa sahip olmasını sağlamaktadır. Sonuç olarak bu durum da erişim performansı arttırmaktadır.
Çalışma ile ilgili detaylara bu linkten erişebilirsiniz.
Referanslar
- Salton G, Wong A, Yang CS. A Vector Space Model For Automatic Indexing. Communications of ACM. 1975. 18 (11): 613-620
- Singhal A, Buckley C and Mitra M. Pivoted Document Length Normalization. Proceedings of SIGIR. 1996. p. 21-29
- Theodora Tsikrika and Jana Kludas. Overview of the wikipediaMM task at ImageCLEF 2008. In Evaluating Systems for Multilingual and Multimodal Information Access, Proceedings of the 9th Workshop of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science, vol. 5709, pp. 539-550, Springer 2009.
- Manning D. Chirstopher, Raghavan Prabhakar and Schütze Hinrich. An Introduction to Information Retrieval, Cambridge University Press, 2009.
- E. Garcia. Implementation and application of term weights in mysql environment, 10 2006.
- E. Garcia. The Classic Vector Space Model,10,2006.
- Singhal A, "Modern Information Retrieval: A Brief Overview,2006.
- April Kontostathis and Scott Kulp, The Effect of Normalization when Recall Really Matters,2008.
- Ricardo Baeza-Yates,Berthier Ribeiro-Neto,Modern Information Retrieval,1999.
Özlem KARAGEDİK, Deniz KILINÇ
Yorumlar
Yorum Gönder