Gaia Bottà

Gli editori: robots.txt è roba vecchia

Numerose associazioni di editori hanno compilato un protocollo standard che permette loro di decidere come i contenuti vengano indicizzati e trattati dai motori di ricerca

Roma - Via libera alla negoziazione tra editori e crawler dei motori di ricerca. I documenti protetti da copyright potrebbero non essere più disseminati senza controllo fra le pagine dei risultati offerti dai trovarobe sul web: con l'avvento dello standard Automated Content Access Protocol (ACAP), annunciato ieri, sono i detentori dei diritti sui contenuti delle pagine web a decidere il destino dei propri testi, delle proprie immagini e dei propri video.

L'idea di lavorare ad un protocollo più sofisticato dell'ormai tredicenne robots.txt era stata annunciata nel 2006 da un gruppo di esponenti dell'editoria online, che rivendicavano ai motori di ricerca un più ferreo controllo sui propri contenuti. È poco flessibile lo standard finora utilizzato dai webmaster per impartire istruzioni ai bot che battono a tappeto la rete raccogliendo contenuti da indicizzare. Troppo limitativo per autori e editori gestire testi, video e immagini semplicemente concedendo o negando l'indexing: la scelta aut aut impediva ai detentori dei diritti di regolare l'accesso ai propri contenuti con una serie di paletti e di concessioni.

L'esigenza di un controllo più stringente si è mostrata evidente ai detentori dei diritti con l'avvento di servizi di aggregazione di notizie offerti dai motori di ricerca, non sempre disposti ad adeguarsi al loro concetto di fair use.
Sarà il bollino digitale ACAP, opportunamente declinato dagli editori, ad elargire concessioni e a impartire istruzioni ai crawler, a determinare tempi e modalità dell'indexing dei contenuti. Le principali novità? La possibilità di imporre dei limiti temporali all'indicizzazione e alla conservazione nella cache, la possibilità di limitare ad anteprime o sommari i contenuti che i motori di ricerca possono mostrare attraverso i loro servizi. Ulteriore tag dello standard ACAP, un misterioso "other", capace di bandire tutti gli utilizzi del contenuto se non quelli espressamente permessi attraverso gli altri comandi. Grande escluso dal protocollo è il tag che avrebbe garantito agli editori di decidere sull'accesso ai documenti in base alla localizzazione della ricerca: "la tecnologia - ha spiegato Francis Cave, a capo della divisione tecnica di ACAP - non è ancora affidabile al cento per cento".

Il protocollo ACAP, un anno di sperimentazioni alle spalle con la collaborazione del motore di ricerca francese Exalead, è stato rilasciato come standard aperto. Non sarà solo appannaggio delle organizzazioni che hanno inizialmente aderito al progetto, potrà essere implementato e personalizzato a seconda delle esigenze.

Nelle FAQ dedicate ad ACAP si spiega che non c'è ragione per cui, online, gli editori non possano negoziare con terze parti delle esclusive, non c'è ragione per cui non possano decidere se incoraggiare o arginare la diffusione dei contenuti di loro proprietà. "Ma molti servizi di aggregazione si sono assunti il diritto di adottare un atteggiamento disinvolto rispetto al copyright", ricordano da ACAP, sottolineando come il protocollo rappresenti "per gli editori e per i fornitori di contenuti un nuovo modo per istituire un regime di permessi che possano essere compresi dagli aggregatori".

La palla ora passa ai motori di ricerca: spetterà loro decidere dell'efficacia del protocollo, accettando o rifiutando di ammaestrare i propri bot affinché comprendano le istruzioni fornite dagli autori dei contenuti.

Gaia Bottà
7 Commenti alla Notizia Gli editori: robots.txt è roba vecchia
Ordina
  • Oh, ce lo dicono pure in faccia:
    "Il protocollo rappresenta per gli editori e per i fornitori di contenuti un nuovo modo di istituire un regime"!!!!!!

    Dell'ipotesi che quando uno "PUBBLICA" qualcosa, perda una parte del controllo di quello che ha fatto a favore del PUBBLICO, proprio non gli passa per la testa. Non ne parliamo poi del fatto che chi PAGA qualcosa di PUBBLICATO oltre a remunerare il lavoro altrui acquisti anche dei DIRITTI su quel lavoro che non possono essere di tipo VESSATORIO o stile PATTI LEONINI, nemmeno questo viene in mente....

    Putroppo se uno mi fa un contratto qualsiasi vessatorio o leonino, questo è nullo se non in doppia firma. Mentre se acquisto un disco, senza nemmeno una firma, sono sottoposto ad ogni tipo di vessazione, in italia e buona parte dell'Europa. Negli USA invece (patria di Google) esiste il concetto di Fair Use, che, contrariamente a quanto vogliano far credere NON è un CONCESSIONE degli autori, ma una parte integrante di quello stesso testo che dice che la COLLETTIVITA' ha concesso dei DIRITTI agli AUTORI sulle proprie OPERE anche a scapito di diritti della stessa collettività perché questi PRODUCANO ALTRE OPERE, non perché possano diventare ricchi limitando libertà naturalmente sempre esistite, molto prima dell'avvento del Copyright e della Stampa. Copiare, in natura, è venuto molto prima...
    non+autenticato
  • Mentre il crawler buono rispettera' le direttive, e mostrera' l'anteprima o il sommario (per la gioia degli spammer che hanno ulteriori modi di dirottare gli utenti), il crawler cattivo o stupido indicizzera' tutto e se ne fottera' altamente di scadenza di cache o altro.

    Chi dei due diventera' piu' popolare? Rotola dal ridere Ocio che e' la volta che google passa la palla a baidu o chi per lui.
    non+autenticato
  • L'RDF esiste da un pezzo, e le Creative Commons hanno da tempo formulato una sintassi di etichettatura dei contenuti. Basterebbe adottare quella ed etichettare tutti i contenuti dei quali si voglia regolare la difusione. Fra l'altro, un sistema di semplice (ma efficacie) etichettatura sarebbe più che sufficiente per applicare un eventuale "enforcement" legale, senza bisogno di ricorrere a meccanismi DRM di blindatura, che non funzionano e che sono sempre più invisi agli utenti. Infine, un sistema di identificazione certa dei termini di copyright di un file o di uno stream consentirebbe ai programmi di distinguere prontamente ciò che è libero da ciò che non lo è, e penso che la cosa avrebbe risvolti molto ... ehm ... interessanti Occhiolino
    non+autenticato
  • Domanda: questo nuovo standard viene letto da google?
  • Assolutamente no!
    Per il momento quello che hanno fatto è decidere uno standard. Ma dalle poche cose scritte nell'articolo, semplicemente quello che si può fare con questo standard lo si può fare anche adesso con il file robots e con la pubblicità. Quello che vogliono fare è semplicemente avere pubblicità gratis dai motori di ricerca. Secondo te come risponderanno i motori di ricerca?
    non+autenticato
  • - Scritto da: Gian
    > Assolutamente no!
    > Per il momento quello che hanno fatto è decidere
    > uno standard. Ma dalle poche cose scritte
    > nell'articolo, semplicemente quello che si può
    > fare con questo standard lo si può fare anche
    > adesso con il file robots e con la pubblicità.

    No leggi meglio. Non si può fare con robots.txt. Non puoi dire di leggere solo due righe di un testo lungo, per dirne una.
    non+autenticato
  • - Scritto da: Normal

    > No leggi meglio. Non si può fare con robots.txt.
    > Non puoi dire di leggere solo due righe di un
    > testo lungo, per dirne
    > una.

    No. Non è questo che volevo dire. E' certo che non puoi dire di leggere due righe, ma puoi raggiungere gli stessi risultati. Metti le due righe in una pagina pubblica collegata alla pagina completa, ma non pubblica. E via dicendo per tutti i restanti casi.
    Per questo ti dicevo che la risposta dei search non può che essere negativa.
    non+autenticato