Arama motorları nasıl çalışır?
 
 Editör'den
 Linux Güvenliği - 1
 PKI Nedir? - 2
 Arama Motorları
 OpenOffice.org 1.1 - 1
 Web Sayfalarında  Kullanılabilirlik - 1
 Kitap İncelemesi -
 Web Teorisi: Giriş
 CISN Arşiv
 Anket
 Geribildirim
 
     
 

Arama motorları, bir leb-i derya olan www'de detay bilgi aramanıza yardımcı olan temel araçlardır. Gelişmiş arama motorları olmasaydı gün geçtikçe devasa şekilde büyüyen Internet ağı uzerinde bilgiyi bulabilmek, elinizde belirli bir URL adresi de yok ise, gerçekten çok zor olurdu. İnternet’in genelinde arama yapan motorlar, aslında ağı doğrudan taramazlar. Her biri, sunucular üzerinde bulunan milyarlarca web sayfasından seçilerek oluşturulan ve web sayfalarının metin biçimlerinin tamamını içeren bir veritabanını tararlar. Yani bir arama motoruyla ağı taradığınızda, bir anlamda, gerçek web sayfasının bir miktar bayatlamış bir kopyasını aramaktasınız. Ancak arama motorlarının arama sonucunda buldukları bağlantılara (linklere) tıkladığınızda, elbette o sayfanın güncel halini asıl sunucudan almış olursunuz.

Temel olarak üç tip arama motoru vardır: örümcekler (spiders) (1) ile çalışanlar, insanların iletileri ile çalışanlar, ve bu iki tipin bir bileşimi ile çalışanlar.

Örümcekler ile çalışan motorlar siberuzaya örümcek denen programlar yollayan motorlardır. Bu örümcekler bir internet sayfasını ziyaret eder, burada bulunan bilgiyi okur ve hafızalarına alır, sitenin meta etiketlerine (meta tags) (2) bakar ve sayfada bulunan diğer bağlantıları da ziyaret ederler. Örümcek topladığı bütün bu bilgileri, verinin indekslendiği yer olan merkezi bir depoya getirir. Örümcek daha sonra düzenli olarak önceden ziyaret ettiği sitelere geri döner ve değişiklikleri kaydeder. Bu ziyaretlerin sıklığı arama motorunun sistem yöneticileri tarafından belirlenir. Arama motoru veritabanları bu örümcekler tarafından seçilir ve inşaa edilir. Bu örümceklerin yaptıkları eylem ingilizcede "bir böcek gibi oradan oraya gezinmek" anlamına gelen bir fiil olan "crawl" ile tanımlanmaktadır; ancak gerçekte bu programlar oldukları yerde durmaktadırlar. Veritabanında zaten bulunan sayfalardaki bağlantıları, veritabanına dahil etme olasılığını göz önünde bulundurarak tararlar. Bu programlar düşünemezler, bir URL adresi belirleyip adres satırına giremezler veya bir bilgiyi aramaya "karar verip" kendi kendilerine web’de onu aramaya kalkışamazlar Eğer bir web sayfasına başka bir sayfada bağlantı verilmemişse, arama motoru örümcekleri bu sayfayı bulamazlar. Başka bir sayfadan hiçbir bağlantı verilmemiş olan çiçeği burnunda bir web sayfasının arama motorlarına girebilmesi için yapılması gereken şey, sayfanın sahibinin arama motoru şirketlerine sayfa adresini elden göndermesi ve sayfanın veritabanlarına dahil olmasını rica etmesidir. Bütün arama motoru şirketleri buna imkân vermektedir. Örümcekler sayfaları bulunca onları "indeksleme" işi için başka bir bilgisayar programına gönderirler. Bu program sayfadaki metni, bağlantıları ve diğer içerikleri tanır ve arama motorunun veritabanı dosyaları arasına katar. Böylece veritabanı anahtar kelimelerle veya servise sunulmuş herhangi bir diğer ileri düzey arama tekniği ile aranabilir. Arama ölçütleri içerikle çakışırsa sayfa bulunur.

İnsanlar vasıtasıyla oluşturulan arama motorları insanların bilgi iletmesi sonucunda, bu bilgiyi indeksler ve kataloglarlar. Sadce insanlar tarafından iletilen bilgi indekse eklenir.

Her iki durumda da, bir bilgiyi bulmak için arama motorunda sorgulama yaptığınızda, internet ağını taramak yerine aslında arama motorunun yaratmış olduğu indeks üzerinde çalışmaktasınız. Bu indeksler, bilginin bir araya toplanması, depolanması ve peşinden taranmaya başlamasıyla oluşan devasa boyuttaki veritabanlarıdır. Yahoo! veya Google gibi ticari arama motorlarında yapılan arama sonuçlarında, bazen çalışmayan sayfa bağlantılarını listelenmesinin nedenini de bu durum açıklar. Arama sonuçları indekse bağlı olduğu için, eğer indeks, bir internet sayfasının geçersiz hale gelmesinden sonra henüz güncellenmemiş ise, arama motoru bu sayfayı hala geçerli imiş gibi listeleyecek, ancak sorgulamayı yapan kişi bağlantıya ulaşamayacaktır. İndeks yenilenene ve güncellenene kadar sonuçlar bu şekilde listelenecektir.

Örümceklerin hangi bilgileri bulduğuna ve insanların ilettiği bilgilere göre değişlik gösterecekleri için bütün indeksler tam anlamıyla aynı olamaz; bu yüzden aynı arama yapıldığında farklı arama motorlarında farklı sonuçlar listelenecektir. Üstelik indeksleri tararken her arama motoru aynı algoritmayı kullanmaz. Algoritma, kullanıcının aradığı bilginin indeksteki bilgi ile olan ilgisini belirlemek için arama motorunun kullandığı bir sistemdir.

Bir arama motoru algoritmasının aradığı şeylerden biri anahtar kelimelerin frekansları ve web sayfasındaki yerleridir. Daha yüksek frekansa sahip olduğu görülen sayfalar doğal olarak konuyla ilgisi dyüksek olanlardır. Neyseki, arama motoru teknolojisindeki son gelişmeler, anahtar kelime yığmak (keyword stuffing / spamdexing) diye adlandırılan kötü kullanımların önüne geçebilecek düzeye gelmiştir. Algoritmaların analiz ettiği bir başka husus ise sayfaların diğer sayfalara bağlanma şekilleridir. Sayfaların birbirine nasıl bağlandığına bakarak bir arama motoru hem sayfanın ne ile ilgili olduğuna, hem de "önem" derecesine göre sayfanın sonuclar listesinindeki konumuna karar verebilir. (Sayfaların birbirine nasıl bağlandığına bakması sırasında, bağlantı sayfalarındaki anahtar kelimelerin asıl sayfadaki anahtar kelimelere benzeyip benzemediğini gözler).

Önerilen Arama Motorları: Özellikler Tablosu

Arama Motoru Google Teoma AlltheWeb Advanced Alta Vista Advanced
Boyut, tip
(testler ve başka grafikler)
DEVASA. 2 milyardan fazla. Fakat 3 milyardan fazla olduğunu iddia etmektedir; ancak yaklaşık 1milyarı tam olarak indekslenmemiştir, yani tam bir metin olarak taranamaz durumdadırlar.) BÜYÜK. 1 milyar adet tam indekslenmiş, aranabilir durumda sayfası olduğunu söylemektedir. Diğer 1 milyarlık kısım ise kısmi olarak indekslenmiştir. DEVASA. 3 milyardan fazla indekslenmiş, aranabilir durumda sayfa mevcut. BÜYÜK, fakat Google ve AllTheWeb arama motorlarından daha küçüktür.
Önemli özellikler ve kısıtlamalar PageRank kullanarak sayfaları popülerlik sıralamasına sokar. Her arama için, OR (ya da) dışında ancak 10 kelime girilebilir. Bir sayfanın ilk 101 KB’lık kısmını, bir PDF’in 120KB’lık kısmını indeksler. Subject-Specific Popularity (Konuya Özel Sıralama) kullanarak sıralama yapar. Sonuçlar kısmında daha arıtılmış bir arama için terim önerir. Pek çok bağlantısı olan sayfaları da sonuçlar kısmında öneri olarak verir. Sayfa araması yaparken URL Investigator kullanır. Ölçüm birimlerini çevirmek için Conversion özelliğini kullanmaktadır. Boole taraması ve Advanced Search (İleri Düzey Arama) bölümünde sonuçları yetkin biçimde tasnif edebilen SORT BY kutucuğu. Temel arama özelliğini kullanırken ticari, ödemeli ve rehber içerikli girişlerden bağışık tutabilir.
Sonuçları Sıralaması Diğer sayfalardan bu sayfaya verilen bağlantılara bağlı olarak popülerliğini ölçme: pek çok sayfa bağlantı verdiyse sıralamada yukarıda olur. Eşleştirme ve sıralamada sayfaların "önbellekli” versiyonları kullanılır. Sayfanın en son hali olmayabilir. Konuya Özel Sıralama (Subject-Specific Popularity) kullanarak sıralama yapar. Bir sayfaya ilgili diğer sayfalardan ulaşır. Bu arama motoru da "öneme” ve diğer sayfalara olan bağlantılara göre arama yapıyor görünmekte. İleri Düzey Arama'da (Advanced Search) BUNU İÇERMELİ (SHOULD INCLUDE) seçeneği kutunun içinde belirlenen kelime veya kelime grubuna öncelik verir. Boole taramasında rank:kelime girildiğinde bu kelimeye göre sıralama yapması gerekir. Boole taraması için girilen kutunun altındaki Sorted by kutusu ndan belirlediğiniz terimlere göre arama yaparsınız. Boş bırakırsanız ilgiye göre sıralama yapar.
Dil Başlıca Latin dilleri ve Latin dilleri dışındaki diller. Başlıca Latin dilleri. Başlıca Latin dilleri ve Latin dilleri dışındaki diller. Denk düşen karakter setlerini belirlemenize olanak tanır. Kapsamlı liste başlıca Latin dilleri ve Latin dilleri dışındak dilleri içermektedir.
Çeviri Bazı sayfaların akabindeki Bu sayfayı çevir (Translate this page) bağlantısı. Belli başlı Avrupa dillerinden ingilizceye çeviri. Çeviri servisi yok. Çeviri servisi yok. İngilizce'den başka dillere veya başka dillerden İngilizce'ye çeviri.

Meta-arama motorlarında, arama kutucuğunun içine anahtar kelimeleri girebilirsiniz ve o sizin aramanızı aynı anda muhtelif özel arama motorlarına ve onların web sayfası veritabanlarına iletir. Birkaç saniye içerisinde sorgulama yaptığınız bütün arama motorlarından sonuçları alırsınız. Meta-arama motorları, web sayfalarından müteşekkil bir veritabanı oluşturmazlar. Sadece sizin arama kelimelerinizi, arama motorlarının veritabanlarına gönderirler. Meta arama yapmak bazı durumlarda gerçekten işe yaramaktadır. Birbirinden farklı arama motorlarını öğrenip tanımaktansa tek bir noktada arama yapmanın size daha çok zaman kazandıracağını düşünebilirsiniz. Aslında bu, neyi taradıklarına ve sonuçları nasıl düzenlediklerine daha çok bağlıdır. Sorguladıkları veritabanlarından daha iyi olamayacakları bir gerçektir. İki ayrı meta arama motoru ailesi vardır:

  • İyi veritabanlarını arayan, karmaşık aramaları yapabilen, sonuçları bütünlük halinde sunan, çift sonuçları eleyen ve arama sonuçlarınızı konu konu ayırmak gibi daha başka özellikleri de barındıran Meta arama motorları.

  • Derinlikli ve kapsamlı biçimde taramanıza yardımcı olacak gereçler arama sonuçlarında aradığınız şeyi bulabilmenizi sağlayacak iyi özelliklere sahiptir. Bu gereçler bir konuyu çok derinlikli araştıran ciddi araştırmacılar için uygundur.

    Meta Arama Motorları

    Meta Arama Gereci Aranan motorlar Karmaşık Arama Yeteneği Sonuçları Gösterme
    Vivisimo Şu anda Netscape (Google), Lycos (AllTheWeb motoruna benzeyen FAST), MSN Search (Inktomi), lii.org, ve diğerlerini aramaktadır. İleri Düzey Arama (Advanced Search) bölümünde kendinize göre ayarlar yapabilirsiniz. Boole işleci (Boolean operators) ve alan kısıtlaması (field limiting) ile karmaşık aramalar yapar. Arama yapmak için girilen kelimelere dayanarak konulara ayrılmış sonuçlar listesi (Vivisimo Clustering Engine). Konu başlıkları belli başlı temalardır. Her bir temaya tıklayarak sonuçların içinde arama yapın. Alt kısımda başlıkları, URL adreslerini ve açıklamaları kaydedebilir ve bunlar içinde arama yapabilir.
    Metacrawler & Dogpile Google, Yahoo, AltaVista, Ask Jeeves, About, LookSmart, Overture ve FindWhat’ı aramaktadır. Boole mantığını, özellikle ileri düzey arama modlarında kabul etmektedir. Her arama sonucunun içinde konu kümeleri oluşturan Vivisimo kümeleme teknolojisini kullanılr. Dogpile her bir arama motoru sonucunu, tek bir listeye toplanmış şekilde değil, ayrı ayrı görmenizi sağlar.

    Derinlikli ve Ciddi Bir Arama Yapmak için Meta Arama Kullanma

    Meta Arama Gereci Aranan motorlar Karmaşık Arama Yeteneği Sonuçları Gösterme
    SurfWax My Search Sets (Arama Kümelerim) ifadesine tıklayın ve şu arama motorlarını içeren listeden seçim yapın: AllTheWeb, AltaVista, AOL, Excite, Google, Hotbot, MSN, NBCi, OpenDirectory, Yahoo!. Ücretsiz düzeyde 3 arama kümesi ya da 500 tane kaynağın bulunduğu havuzdan 10 adet kaynak. " ", +/- işaretlerini kabul etmektedir. Varsayılan kelimeler arasında AND (ve) bulunmaktadır. Basit arama yapılması önerilir. SurfWax'in SiteSnaps ve diğer özellikleri sonuçlar içinde kapsamlı araştırma yapma olanağı tanır. My Preferences (Tercihlerim) özelliği ile kendinize göre ayarlama yapabilirsiniz. Aramaları InfoCubby özelliği ile kaydedebilir. Sonuçlar konuyla ilgisine, site başlıklarının alfabetik olarak sıralanmasına ya da kaynağa göre tasnif edilebilir. FocusWords özelliği kelimeleri sayfadaki bağlamında gösterir. "ContextZooming" (Bağlama Odaklanma) özelliği sayfada girdiğiniz terimlere ait daha çok bağlam bulur. Çoğu sayfada imajlar ve bağlantılar hakkında istatistiki bilgi sağlar.
    Copernic Agent Advanced Search (İleri Düzey Arama) özelliğinden sonra gelen Properties (Özellikler ) düğmesine basarak, arama motorları listesinden Google ve diğerlerini seçin. Bazı iyi tercihler şunlardır: AltaVista, AOL, EuroSeek, Fast/AllTheWeb, Google, Hotbot, Lycos, MSN, Netscape Netcenter, Open Directory Project, Teoma, Wisenut, Yahoo! ALL, ANY, Phrase, ve dahası. Refine seçeneği altında sonuçlar arasında Boole araması da yapabilir. Kapsamlı bir Help menüsü desteği. Internet Explorer ile bütünleşik. İnternetten indirilmeli ve kurulmalıdır. Fakat en temel versiyonu ücretsizdir. Pek çok ileri düzey özelliği vardır, sonuçların görüntülenme şekli değiştirilebilir, daha önceki aramalar takip edilebilir.

    Kaynaklar ve yararlı bağlantılar:

    (1) Çev. notu: Bu metinde İngilizce'de ayrı iki kelimenin, yani crawler kelimesi ile spider kelimesinin karşılığı olarak tek bir kelime, yani örümcek kelimesi kullanılmıştır. İngilizce'de "bir böcek gibi ağır ağır gezinen" anlamına gelip aslında terim olarak bir bilgisayar programını ifade eden crawler için Türkçede tek bir kelime karşılığı yoktur. Bu kelimenin anlamının sadece örümcek kelimesi ile verilmesi yeterli bulunmuştur

    (2) Çev. notu: Meta etiketler, bir web sayfası hakkında bilgi sağlayan HTML etiketleridir. HTML etiketlerinden farklı olarak, sayfanın görüntüsü değiştirme konusunda herhangi bir etkileri yoktur.

    Cihan YILDIRIM-YÜCEL

  •  
         
      - BAŞA DÖN -