Scraping dello schermo Web: consigli utili da Semalt

Al giorno d'oggi, i dati possono diventare la risorsa più importante. Pertanto, non è mai una buona idea lasciarlo scivolare nelle mani dei concorrenti. Tuttavia, a volte può essere difficile prevenirlo a causa della raschiatura dello schermo. Questa è una tecnica utilizzata da anni per estrarre dati dalle pagine Web.

Questo metodo pone due problemi significativi a un'azienda. Prima di tutto, i dati possono essere utilizzati per ottenere un vantaggio rispetto a un'azienda, forse con una sottoquotazione dei prezzi, nonché per ottenere informazioni sui prodotti. Inoltre, se eseguita in modo persistente, la tecnica può anche ridurre le prestazioni di un sito Web.

Generalmente, la raschiatura dello schermo è un concetto che è stato creato dai primi programmi di emulazione terminale un paio di decenni fa. È una tecnica programmatica che estrae informazioni dagli schermi progettati principalmente per essere visualizzati dall'uomo. Il programma finge di essere un essere umano e legge i dati, raccogliendo informazioni preziose ed elaborandole per l'archiviazione.

La tecnica si è evoluta in modo significativo nel corso degli anni, in particolare con l'invenzione dei web crawler. Si è ulteriormente evoluto con lo sviluppo della raschiatura di schermi al dettaglio elettronico, ad esempio i siti Web di confronto dei prezzi. Questi siti Web utilizzano programmi che visitano periodicamente il popolare e-retail per ottenere i prezzi più recenti e le informazioni sulla disponibilità per un determinato prodotto o servizio. Questi dati vengono quindi archiviati in un database e utilizzati per fornire revisioni comparative del panorama dell'e-retail.

Lo screen scraping competitivo ha una varietà di impatti negativi sui sistemi IT di un'azienda in quanto è solo un altro esempio di traffico indesiderato. Studi recenti hanno dimostrato che almeno il 61% di tutto il traffico è generato dai bot. Questi robot consumano risorse vitali e larghezza di banda destinata agli utenti Web reali, il che può comportare un aumento del tasso di latenza per i clienti reali.

La raschiatura dello schermo dura da molto tempo. Tuttavia, non è più di recente che le vittime di questo comportamento stanno iniziando a reagire. Alcuni hanno rivendicato pratiche commerciali sleali e violazioni del diritto d'autore mentre, al contrario, le aziende che effettuano il raschiamento si difendono sostenendo la libertà di informazione.

Molti proprietari di siti Web hanno fatto ricorso a politiche di utilizzo sulle loro pagine Web che vietano lo scraping aggressivo. Sfortunatamente, non possono applicare queste politiche e quindi il problema non sembra scomparire presto.

Anni fa, eBay ha introdotto un'API che consente ai buoni scraper di accedere ai tuoi dati. Tuttavia, non impedisce la raccolta dannosa di informazioni da utilizzare a vantaggio della concorrenza. L'unica vera difesa può essere ottenuta facendo uso della tecnologia che può bloccare i visitatori non umani del tuo sito web. Ciò consente agli utenti reali di accedere al tuo sito Web mentre impedisce ai crawler di causare danni.

Altri modi efficaci per combattere lo scraping dello schermo sono l'uso di tecniche come l'intelligence della reputazione IP, il rilevamento delle fonti IP contraffatto, l'analisi del comportamento richiesta-risposta, la valutazione del livello di minaccia in tempo reale e l'applicazione della geolocalizzazione.