Motor de cautare web
De la Saferpedia
Un motor de căutare web este un instrument conceput pentru a căuta informații cu privire la World Wide Web. Rezultatele de căutare sunt de obicei prezentate ȋntr-o listă și sunt numite hit-uri. Informațiile pot fi reprezentate sub formă de pagini web, imagini, informații și alte tipuri de fișiere. Spre deosebire de directoarele web, care sunt ȋntreținute de editori umani, motoarele de căutare operează algoritmic sau sunt un amestec ȋntre operarea algoritmică (automată) și operatorii umani.
Cuprins |
Istoric
Prima unealtă folosită pentru căutarea pe internet a fost Archie. Denumirea vine de la „archive” (arhivă) fără litera „v”. A fost creat ȋn 1990 de Alan Emtage, student la Universitatea McGill din Montreal. Programul descărca listele de directoare a tuturor fișierelor, plasate public, pe site-uri FTP (File Transfer Protocol), creând o bază de date scanabilă după numele de fișiere; cu toate acestea, Archie nu indexa conținutul acestor site-uri.
Apariția lui Gopher (creat ȋn anul 1991 de Mark McCahill de la Universitatea din Minnesota) a condus la două noi programe de căutare, Veronica și Jughead. Ca și Archie, ele Căutau titlurile și numele de fișiere stocate ȋn sistemele de indexare Gopher. Veronica asigura o căutare, după un cuvânt cheie, a titlurilor de meniu a lui Gopher din ȋntreaga sa listă. Jughead a fost un instrument folosit pentru obținerea de informții specifice de la serverele Gopher.
Ȋn vara anului 1993, nu exista nici un motor de căutare pentru web, deși existau numeroase cataloage specializate, ȋntreținute manual. Oscar Nierstrasz, de la Universitatea din Geneva, a scris o serie de scripturi Perl, care copia ȋn oglindă aceste pagini și le rescria ȋntr-un format standard, care a format bazele pentru catalogul W3Catalog, primul motor de căutare web primitiv, lansat pe 2 septembrie 1993.
Ȋn iunie 1993, Matthew Gray, pe atunci la Institultul de Tehnologii Massachusetts, a produs ceea ce a fost probabil primul robot web, World Wide Web-ul Wanderer bazat pe Perl și la folosit pentru a generea un index numit „Wandex”. Scopul lui Wanderer a fost să măsoare mărimea World Wide Web-ului, ceea ce a și făcut până la sfârșitul anului 1995. Al doilea motor de căutare web Aliweb a apărut ȋn noiembrie 1993. Aliweb nu a folosit un robot web, dar ȋn schimb depindea de notificările administratorilor de site-uri web, de existența unui fișier index ȋn format particular pentru fiecare site.
Jump Station (lansat ȋn decembrie 1993) a folosit un robot web pentru a găsi pagini web și pentru a le construi un index și a folosit un formular web ca interfață pentru programul de interogare. Astfel, acesta a fost prima unealtă de descoperire a resurselor, care combina cele trei caracteristici esențiale a unui motor de căutare (vizitare, indexare și căutare) așa cum este descris mai jos. Din cauza resurselor limitate disponibile pe platforma pe care rula, indexarea și căutarea erau limitate la titlurile și pozițiile găsite ȋn paginile web pe care le ȋntâlnea crawler-ul (vizitatorul).
Unul din primele motoare de căutare „full-text” bazat pe crawlere (vizitatoare) a fost WebCrawler, care a fost lansat ȋn anul 1994. Spre deosebire de predecesorii săi, acesta permitea utilizatorilor să caute orice cuvânt ȋn orice pagină web, care de atunci a devenit standardul pentru majoritatea motoarelor de căutare. Acesta a fost, de asemenea, primul care a fost cunoscut de publicul din lume. De asemena, ȋn 1994, a fost lansat și Lycos.
Curând, după acestea, au apărut multe motoare de căutare care concurau pentru popularitate. Aici se includ Magellan, Excite, Infoseek, Inktomi, Northern Light și AltaVista. Yahoo! a fost printre cele mai populare căi pentru oameni de a găsi pagini web de interes, dar funcția sa de căutare funcționa mai degrebă pe directoarele sale web, ȋn loc să funcționeze pe copii „full-text” a paginilor web. Căutătorii de informații puteau parcurge directorul, dar nu puteau face căutări bazate pe cuvinte cheie.
Ȋn jurul anului 2000, motorul de căutare Google a crescut ȋn importanță. Compania a obținut rezultate mai bune pentru mai multe căutări, cu o inovație numită „PageRank” (Rang de pagină). Acest algoritm iterativ, clasează paginile web ȋn funcție de PageRank și de numărul de site-uri web care fac legătură spre acea pagină. De asemenea, Google a menținut o interfață minimalistă a motorului său de căutare. Ȋn contrast, mulți dintre concurenții săi au incorporat motorul de căutare ȋntr-un portal web.
Până ȋn anul 2000, Yahoo! a furnizat servicii de căutare bazate pe motorul de căutare Inktomi. Ȋn anul 2002, Yahoo! a achiziționat Inktomi, iar ȋn anul 2003 a achiziționat Overture (care deținea AlltheWeb și AltaVista). Yahoo! a renunțat la motorul de căutare Google din anul 2004, când a lansat propriul motor de căutare bazat pe tehnologiile combinate al achizițiilor sale.
Microsoft a lansat primul motor de căutare MSN ȋn toamna anului 1998 folosind rezultate de căutare de la Inktomi. La ȋnceputul anului 1999, site-ul a ȋnceput să afișeze listări amestecate de la Looksmart și Inktomi, cu excepția unei perioade scurte de timp din 1999 când erau afișate rezultate de la AltaVista. Ȋn anul 2004, Microsoft a ȋnceput o tranziție la propria tehnologie de căutare, alimentată de propriul crawler web (numit msnbot).
Redenumirea motorului de căutare al Microsoft, Bing, a fost lansat la 1 iunie 2009. La 29 iulie 2009, Yahoo! și Microsoft au finalizat un acord, prin care motorul Yahoo! avea să fie propulsat de tehnologia lui Microsoft, Bing.
Potrivit Hitbox, popularitatea motorului de căutare Google din ȋntreaga lume a atins cota maximă de 82.7% ȋn decembrie 2008. Topul din iulie 2009 a arătat că Google (78.4%) pierdea trafic ȋn favoarea lui Baidu (8.87%) și Bing (3.17%). De asemenea, erau ȋn declin și cotele de piață al motoarelor Yahoo! (7.16%) și AOL (0.6%).
Ȋn Statele Unite, Google deținea 63.2% din cota de piață ȋn mai 2009, potrivit Nielsen NetRatings. Ȋn republica populară Chineză, Baidu deținea 61.6% din cota de piață pentru căutările web din iulie 2009.
Funcționarea motoarelor de căutare web
Un motor de căutare operează ȋn următoarea ordine:
- Crawler web („vizita” web)
- Indexare
- Căutare
Motoarele de căutare web funcționează prin stocarea de informații despre paginile web, pe care le preia din fișierele html. Aceste pagini sunt preluate de către un crawler web ( uneori cunoscut și sub denumirea de „spider” care ȋnseamnă păianjen) – un browser web automatizat, care urmărește fiecare legătură din site. Excluderile pot fi făcute prin utilizarea de robots.txt. conținutul fiecărei pagini este apoi analizat pentru a determina modul ȋn care acesta ar trebui să fie indexat ( de exemplu, sunt extrase cuvinte din titluri sau câmpuri speciale numite meta tag-uri). Datele despre paginile web sunt stocate ȋn indexul unei baze de date, pentru a fi utilizate mai târziu ȋn interogări. O interogare poate fi un singur cuvânt. Scopul unui index este să permită informațiilor să fie găsite cât mai repede posibil. Unele motoare de căutare cum ar fi Google, stochează sursele paginilor ȋn ȋntregime sau parțial, precum și informații despre paginile web, ȋn timp ce altele, cum ar fi AltaVista, stochează fiecare cuvânt al fiecărei pagini găsite.
Când un utilizator introduce o interogare ȋntr-un motor de căutare (de obicei folosind cuvinte cheie), motorul ȋși examinează indexul și oferă o listă a celor mai potrivite pagini web ȋn funcție de criteriile sale, de obicei, cu un scurt rezumat care conține titlul documentului și uneori texte parțiale. Indexul este construit din informațiile stocate cu datele și metoda prin care informația este indexată. Din păcate nu există un motor de căutare care să permită căutarea documentelor după dată. Majoritatea motoarelor de căutare permit folosirea operatorilor booleeni (AND, OR sau NOT) pentru a specifica interogarea. Operatorii booleeni suntfolosiți pentru căutăriliterale care permit utilizatorului să perfecționeze și să extindă termenii de căutare. motorul caută cuvinte sau fraze exeact așa cum au fost introduse ȋn câmpul de căutare. Unele motoare oferă o facilitațe avansată de căutare numită căutare de proximitate care permite utilizatorilor să definească dinstanța dintre cuvintele cheie. Există, de asemena, conceptul bazat pe căutarea de cercetare, unde căutarea implică folosirea analizelor statistice pe paginile care conțin cuvintele sau frazele de căutare.
Utilitatea unui motor de căutare depinde de relevanța rezultatelor. Deși pot exista milioane de pagini web care includ un cuvânt sau o frază, unele pagini pot fi mai relevante, mai populare sau mai autoritare decât altele. Majoritatea motoarelor de căutare utilizează metode de clasificare a rezultatelor pentru a oferi, ȋn top, cele mai bune rezultate. Modalitatea prin care un motor de căutare decide care pagini sunt cele mai potrivite și ȋn ce ordine sunt afișate, variază mult de la un motor la altul. De asemenea, metodele se modifică ȋn timp pe măsură ce se schimbă utilizarea Internetului și pe măsură ce evoluează tehnologia. Există două tipuri principale de motoare de căutare care au evoluat. Unul este un sistem de cuvinte cheie predefinite și aranjate ierarhic pe care oamenii le-au programat pe larg. Celălalt este un sistem care generează un index inversat care alalizează textul localizat.
Cele mai multe motoare de căutare web sunt „societăți” comerciale susținute de venituri din publicitate, și, ca urmare, unele folosesc practica de a permite agenților de publicitate să plătească bani pentru a le afișa site-urile ȋn primele căutări. Acele motoare de căutare care nu acceptă bani pentru rezultate bune ȋn motorul de căutare, fac bani prin rularea de rezultate ȋnrudite (ads), alături de rezultatele obișnuite. Motoarele de căutare fac bani de fiecare dată când cineva face click pe unul din anunțurile ads.
Motoare de căutare de jocuri
Un motor de căutare de jocuri este similar cu un motor de căutare web, dar care include doar rezultate legate de industria jocurilor video. Piața ȋn creștere din industria jocurilor video cere o platformă de căutare mai specifică pentru găsirea informațiilor despre jocuri.
Unii specialiști ȋn site-uri web au incorporat o facilitate de căutare care afișează doar rezultate care țin de jocuri. Exemplele includ GamePublic, Gamespot, KakaGames, şi GameSpider.
Legături externe
Acest termen se află ȋn stadiu de dezvoltare.
Contribuiti la dezvoltarea acestui termen.




