Una (breve) storia dei motori di ricerca

26 Gen

I primi mesi del 2012 sono stati segnati da alcune impegnative ricerche condotte sul web che mi hanno portato a conoscere più profondamente la rete e i suoi meandri. All’interno di un lavoro ben più ampio e complesso, ovvero la mia tesi di laurea magistrale, cadeva questo capitolo, completamente dedicato ai motori di ricerca. Ho voluto compiere una sorta di viaggio nel tempo cercando di conoscere la natura dei search engines, quei fantastici amichetti che oggi rispondono alle nostre domande in millisecondi e risolvono per noi problemi non indifferenti. Di seguito potete leggere dunque una breve (punti di vista!) cronostoria dei motori di ricerca, dalla nascita a Goo…ehm, ad oggi.

Ovviamente sconsiglio la lettura a chiunque non sia realmente interessato al topic (a meno che non si tratti di masochismo).

l vero e grande laboratorio di sperimentazione furono, come spesso accade nella storia americana, le istituzioni universitarie. Le start-up nate all’ombra delle università circondate dalla Silicon Valley, in particolare la Stanford University, dimostrarono tutta la loro autorevolezza nel reperire investitori e nell’avviare progetti di grande forza innovatrice. Proprio in questi luoghi la «storia dei motori di ricerca» vede il suo cominciamento e, in qualche modo, la sua fine.

In una sorta di magma primordiale composto da pacchetti di informazioni che viaggiavano attraverso la rete, cominciarono a nascere i primi archivi. Sin dalla nascita delle prime teorizzazioni di ipertesto e di sapere condiviso, si era posto l’accento sull’importanza di registrare e mantenere vivo un magazzino di informazioni che fosse consultabile da tutti e in qualsiasi momento.

Uno dei pionieri del concetto di on-line storage e hypertext fu Vannevar Bush che nel suo testo As we may think risalente ad un lontano e improbabile 1945, con grande lungimiranza scrisse:

The difficulty seems to be, not so much that we publish unduly in view of the extent and variety of present day interests, but rather that publication has been extended far beyond our present ability to make real use of the record. The summation of human experience is being expanded at a prodigious rate, and the means we use for threading through the consequent maze to the momentarily important item is the same as was used in the days of square-rigged ships. A record, if it is to be useful to science, must be continuously extended, it must be stored, and above all it must be consulted.

Nel testo di Bush si legge una straordinaria immagine del futuro pensato come un sistema in cui una grande mole di informazioni, «continuamente estesa, conservata ma soprattutto consultabile», sarebbe potuta essere d’aiuto al genere umano. Vannevar Bush paragona il concetto di index, e quindi di consultazione, a quello di association, caratteristico del funzionamento della mente umana che permette di “saltare” da un concetto ad un altro, attraverso relazioni pertinenti. A ben vedere, a distanza di quasi 70 anni, l’ipertesto su cui si fonda il web è qualcosa di molto simile a quanto descritto dal genio statunitense.

Una volta compresa l’importanza dell’immenso archivio rappresentato dal world wide web, che cominciava a raccogliere milioni e milioni di documenti, nei centri di ricerca delle più innovative università si cominciò a lavorare all’unica cosa che risultava naturalmente conseguente ad una tale creazione: un potente metodo di consultazione.

Importante fare innanzitutto una distinzione tra directory  e motore di ricerca (o search engine).

Le directory sono dei veri e propri cataloghi dove le pagine web non sono indicizzate, né vengono misurate con strumenti robotizzati. Dietro le directories di solito vi sono dei veri editori che ne curano il contenuto secondo precise direttive. Le più note directories sono Dmoz e Yahoo!.

I search engines sono invece dei programmi che in brevissimo tempo scandagliano milioni di documenti, facenti parte del loro index, offrendo risultati alla ricerca effettuata da un utente – la query. I documenti vengono trovati e analizzati da spiders o crawlers, software dedicati all’analisi delle pagine, che ottengono risultati da un database  all’interno del quale vengono indicizzate tutte le pagine web precedentemente memorizzate.

Il primo embrione di un motore di ricerca risale al 1990 e fu creato da uno studente canadese della McGill University of Montreal, Alan Emtage. Archie, così fu chiamato, era più propriamente una directory con indicizzati una quantità significativa di documenti, circa 2,6 milioni. Archie rispondeva alla richiesta dell’utente con il relativo risultato solo se l’utente conosceva perfettamente il nome del file che stava cercando, un funzionamento simile al Google Sitemap dei nostri giorni [3]. Uno dei grandi meriti di Archie  fu quello di attirare su di sé le attenzioni di molti studiosi, così da avviare numerosissimi gruppi di ricerca sul document retrieval  in internet.

Ben presto (1991) nacque Gopher, creato da Mark MacHill dell’Università del Minnesota. Pur essendo molto simile al suo predecessore, Gopher poté godere di due ulteriori sistemi usati per l’invio di file, Veronica e Jughead, creati dal gruppo di System Computing Services dell’Università del Nevada. Il motore di ricerca Veronica, in particolare, si proponeva come la vera alternativa ad Archie, pur basandosi sulla ricerca di soli documenti di testo.

Fino a questo momento, ovvero i primi anni ’90, lo scambio di file sulla rete avveniva tramite FTP (files transfer protocol), un metodo funzionale all’interno di piccoli gruppi di persone ma piuttosto scomodo se ampliato all’intera audience di internet, allora in vertiginosa crescita. Era il 1991 quando Tim Berners-Lee, al tempo impiegato al CERN di Ginevra, propose il concetto di hypertext alla base di quello che diventò presto il World Wide Web.  Il primo sito web creato fu http://info.cern.ch, on-line nell’Agosto del 1991. La grande novità fu la creazione del protocollo HTTP (HyperText Transfer Protocol) che da lì a qualche anno diventò lo standard mondiale. Già da qualche anno Berners-Lee collezionava le URL di molti siti web, inserendoli in una sua lista personale e d’uso privato. Così facendo, Berners-Lee poneva le basi per la prima e più antica directory del web: il W3Catalog, sviluppato successivamente da Oscar Nierstrasz dell’Università di Ginevra. Il W3Catalog  si limitava a riflettere le pagine già disponibili su internet, riformattandole sotto voci individuali. Non poteva ovviamente godere di un’interfaccia grafica (una tecnologia ancora inesistente) e ben presto si rivelò inefficiente, così che venne ritirato nel 1996.

Nato il world wide web, si assistette alla nascita del primo “cercatore” del web, ovvero il primo robot capace di esplorare a gran velocità il vasto mare di informazioni in esso contenute. Risale al 1993 il primo World wide web wanderer creato da Matthew Gray, interessato inizialmente a calcolare “soltanto” la grandezza della rete. Intuite le potenzialità di un tale strumento, il wanderer  venne modificato e utilizzato per catturare URLs, venendo così a creare un suo personale indice chiamato Wandex. Sfortunatamente il (ro)bot mostrò presto alcune gravi lacune che fecero dubitare delle sue potenzialità, tra cui il fatto che tendesse ad accedere ripetutamente alle stesse pagine, creando non pochi problemi ai siti web (come se li intasasse) e compromettendo i risultati della ricerca.

Nell’Ottobre del 1993 fu creato un nuovo web index da Martij Koster, chiamato Aliweb, che sulla scia di Archie aveva come obiettivo la raccolta di tutti i siti presenti sul web. La grande novità era rappresentata dalla possibilità per ogni singolo utente di inviare il proprio sito, con URL e relativa descrizione, per includerlo nell’indicizzazione, così da permettere a Koster di non avere bisogno di un bot. Purtroppo Aliweb non ebbe lunga vita perché molti utenti non capirono come “segnalare” il loro sito a causa di un processo complesso e poco chiaro.

Nel Dicembre del 1993 nascono le prime forme di web search engines simili a quelli da noi oggi conosciuti, come JumpStation e i relativi bot World Wide Web Worm e Repository-Based Software Engineering Spider (RBSE). JumpStation catalogava le informazioni attraverso il titolo e l’header  delle pagine web ma ben presto, a causa della grande quantità di informazioni, rallentò il suo funzionamento fino a spegnersi del tutto. Oltretutto sia JumpStation che il WWW Worm rispondevano alle query dell’utente ritornando i risultati nello stesso ordine in cui avevano raccolto le URL, senza alcun criterio di merito o rilevanza. Il RBSE spider ebbe invece l’intuizione di sviluppare una forma di page ranking che, tempo dopo, fallì a causa di un non adeguata analisi dei link.

Sempre nel 1993 sei studenti non ancora laureati di Stanford diedero avvio ad un progetto chiamato Architext  che puntava  a rendere più efficiente la ricerca sul web attraverso l’analisi statistica della relazione tra le parole. Il loro progetto venne presto finanziato e ciò che risultò dal loro lavoro fu acquistato da un’importante compagnia (per la cifra di 6,5 miliardi di dollari) che trasformò Architext in Excite@Home. Nonostante la geniale innovazione il progetto Excite fallì miseramente (le cause sono ancora oggetto di discussione) e anni dopo fu acquistato ad una cifra relativamente bassa da un altro provider, Infospace.

Nel 1994 fece la sua comparsa la prima vera web directory che fu subito un successo anche grazie alla conglobazione dei precedenti Gopher e Telnet. Il nome di questa prima storica directory fu EINet Galaxy, seguita ben presto da esempi simili. Yahoo! Directory nacque proprio in quegli anni, esattamente nell’Aprile del 1994, grazie all’impegno di David Filo e Jerry Yang. Inizialmente nata come una raccolta delle loro pagine preferite, Yahoo! vinse la concorrenza grazie ad un’importante novità. Ogni sito web indicizzato era provvisto di una descrizione scritta da un editore, con il relativo URL. Yahoo! crebbe notevolmente cominciando ad inserire siti commerciali e facendo pagare una quota annua per far parte della directory.

Dmoz fu creata da una serie di webmasters, capitanati da Rich Skrenta, stufi di dover aspettare tempi lunghissimi per essere inclusi nella Yahoo! Directory. Attualmente Dmoz (il nome originale è Open Directory project) è la più grande directory al mondo, amministrata e curata quasi interamente da volontari. Nel Novembre del 1998 fu comprata da Netscape, che lo stesso mese fu comprata da AOL per 4,5 miliardi di dollari.

Negli anni a seguire vennero create directory con target ben precisi. Una di queste fu la Librarian’s Internet Index, creata da Karen Schneider per i bibliotecari di tutto il mondo, con lo scopo di collezionare risorse qualitativamente credibili perché selezionate da esperti. Un’altra fu Business.com, creata per raccogliere soltanto siti di business.

Una directory che per qualche tempo diede filo da torcere a Yahoo!  fu LookSmart, fondata nel 1995 e fortemente connessa a Msn (Microsoft). LookSmart purtroppo, non riuscì a sostenere il proprio modello di business quando l’azienda di Resmond decise di escluderla dalla sua partnership. A poco servì l’acquisto del motore di ricerca WiseOut e del sito di social bookmarking Furl nel 2006.

Facendo un salto nel passato, torniamo al 20 Aprile 1994 quando, grazie all’impegno di  Brian Pinkerton dell’Università di Washington, fece la sua apparizione Web Crawler, il primo bot ad indicizzare intere pagine web. In poco tempo il sistema diventò così popolare da sovraccaricarsi e non poter essere usato durante il giorno. Fu ben presto comprato da AOL che comprò anche Excite, usandolo per potenziare la sua rete di ricerca. WebCrawler rappresentò senza dubbio un momento di svolta nella storia dei motori di ricerca.

A poco più di un anno dalla sua comparsa si vide l’ingresso sul mercato di Lycos, Infoseek e OpenText. Lycos divenne pubblico nel Luglio del 1994 con un catalogo di circa  54,000 documenti. Oltre ad un innovativo sistema di  ricerca basato sulla rilevanza delle altre ricerche, sull’identificazione dei prefissi delle parole e su un’approssimazione delle parole nella ricerca, Lycos dimostrò in poco tempo la sua grande potenza nell’ispezionare il web. Ad Agosto, solo dopo un mese dalla sua nascita, il suo index  era di 394.000 documenti che divennero 1,5 milioni nel Gennaio del 1995 e più di 60 milioni nel Novembre del 1996.  Lycos superò ogni record e diventò in meno di un anno il motore di ricerca con il più ampio index al mondo. Tutt’altra storia per Infoseek, la cui grande ricchezza fu essenzialmente l’aver convinto Netscape a utilizzarlo come motore di ricerca predefinito. Infoseek aveva invece la peculiarità di dare ai webmaster la possibilità di caricare i loro siti in tempo reale.

Furono molte le innovazioni portate dal motore di ricerca AltaVista che, quando fece la sua comparsa, mostrò di avere tutte le carte in regola per diventare il miglior sistema di document retrieval. AltaVista aveva una larghezza di banda quasi illimitata per i tempi e fu il primo motore di ricerca a offrire le query in un linguaggio naturale. Inoltre permetteva ai più esperti metodi di ricerca avanzati e consentiva a tutti i webmasters di aggiungere o cancellare la propria URL in sole ventiquattro ore.  A causa di un discutibile management, AltaVista fu quasi del tutto “schiacciato” dall’incombenza di nuovi arrivati come Inktomi e soprattutto Google. Nel 2003 venne acquistato da Overture, poi acquistata da Yahoo!, che oggi usa AltaVista soltanto occasionalmente come piattaforma per testare nuovi servizi.

La Inktomi Corporation, con il suo motore di ricerca Hotbot, fu pioniere del paid inclusion model e divenne ben presto molto popolare. Entrata sul mercato il 20 Maggio del 1996, Inktomi  si trovò ben presto in difficoltà per via del modello di business non particolarmente profittevole. Yahoo! comprò l’intera azienda nel Dicembre 2003.

Nell’Aprile del 1997 venne invece reso pubblico Ask Jeeves, promosso come “il primo motore di ricerca a linguaggio naturale”. Ask Jeeves si basava su una tecnologia fornita da DirectHit che si proponeva di fare un ranking delle pagine web sulla base della loro rilevanza. Molti webmasters trovarono ben presto numerosi trucchi per “ingannare” questa tecnologia e falsarne i risultati, così ben presto fu soppiantata dalla tecnologia alla base di un nuovo motore di ricerca, Teoma. Nel 2005 la IAC di Barry Diller acquistò Ask Jeeves includendolo tra i numerosi servizi già in suo possesso (match.com, ticketmaster.com, citysearch.com).

A questo punto andrebbe annoverata la comparsa di Google, attualmente campione indiscusso tra i motori di ricerca. Al gigante di Mountain View ho dedicato però un intero post che potete consultare cliccando qui.

Prima di abbandonare completamente questa breve cronostoria dei motori di ricerca, bisogna soffermarsi su Microsoft e i suoi avvicendamenti relativi al web. Anche la softwarehouse più famosa al mondo ha ovviamente tentato di ritagliarsi uno spazio all’interno di questo ricco e fruttuoso contesto.

Nel 1998 Microsoft lanciò il suo primo motore di ricerca, Msn Search che visualizzava i risultati del sistema Inktomi, cui abbiamo già accennato. Nel 1999 a questi risultati vennero aggiunti i risultati tratti da Looksmart e poco dopo, per un breve periodo, da AltaVista. Nel 2004 Microsoft cominciò a esplicitare l’interesse verso un cambio di rotta e avviò lo sviluppo di un proprio motore di ricerca. Venne prodotto al tempo un crawler chiamato msnbot.

Il 1 Giugno 2009 Microsoft sviluppò e lanciò sul mercato il motore di ricerca Bing, interamente sviluppato in-house. Appena un mese dopo, nel Luglio 2009, Yahoo! e Microsoft raggiunsero un accordo per cui il famoso motore di ricerca Yahoo! Search sarebbe stato powered by the Microsoft Bing Technology. Si assistette dunque al congiungimento di due giganti come Microsoft e Yahoo! , apparentemente uniti nella lotta all’egemonia di Google.

Si è posto l’accento su quest’ultimo passaggio perché nel 2011 il re dei social networks Facebook ha stretto un accordo con l’azienda di Bill Gates al fine di implementare il motore di ricerca interno al sito, con lo scopo di “aprirlo” all’intero mondo del web utilizzando la tecnologia Microsoft Bing. Una svolta decisamente da non sottovalutare.


[1] Gran parte delle informazioni che si ritrovano nel corso di questo capitolo sono state raccolte sul web, da vari e numerosi siti come searchenginehistory.com.

[2] il saggio “As we may think” fu pubblicato nel 1945 sul The Atlantic, una rivista statunitense. Nell’articolo Bush dichiarava le sue preoccupazioni sulla direzione che gli sforzi scientifici stavano prendendo, più verso la creazione di armi di distruzione che verso la creazione di sistemi per la conoscenza universale e la condivisione di saperi.

[3] le informazioni sono state raccolte dal sito http://www.seobythesea.com. Per avere maggiori informazioni su Archie, cliccare qui.

Annunci

6 Risposte to “Una (breve) storia dei motori di ricerca”

  1. Fischölkapseln maggio 1, 2013 a 10:00 pm #

    Nice post. I used to be checking continuously this blog and I am impressed!
    Extremely helpful information specially the last part :
    ) I deal with such information a lot. I was seeking this particular information for a long time.
    Thank you and good luck.

    • Ottavio M. maggio 2, 2013 a 7:43 pm #

      Thank you! I feel honoured! 😉
      I have to say that I tried to have a look at your blog but I don’t speak German and I didn’t want to kill your contents with Google Translate 😉

  2. Tina aprile 22, 2013 a 1:17 pm #

    My partner and I stumbled over here coming from a different
    web address and thought I may as well check things out.
    I like what I see so now i’m following you. Look forward to looking at your web page again.

    • Ottavio M. aprile 24, 2013 a 11:37 pm #

      Well, thanks a lot! You’re more than welcome here…I hope you’ll enjoy some of the other stuff I’m going to post in the next few weeks (I hope I’ll find the time for them!)

Trackbacks/Pingbacks

  1. Google compie 18 anni: storia, aggiornamenti ed evoluzione semantica - Digital Sfera - settembre 27, 2016

    […] I motori di ricerca sono nati come risposta al bisogno di adottare un adeguato metodo di consultazione al crescere del numero di siti web: se volete approfondire, questo articolo vi racconta molti dettagli sulla storia dei motori di ricerca. […]

  2. E Google fu. (1995-99) parte 1/3 « breadcrumbs - febbraio 4, 2013

    […] dei motori di ricerca prima di proseguire con la lettura, vi invito a leggere un precedente post (storia dei motori di […]

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: