Session isolation e rendering delle pagine web

Session isolation e rendering
delle pagine web
GIACOMO ZECCHINI
Marketing Technology Director
MERJ
#SMConnect
twitter.com/giacomozecchini
slideshare.com/giacomozecchini
speakerdeck.com/giacomozecchini

● Web rendering e motori di ricerca
● Background e contesto della ricerca
● Cosa si intende per “session isolation”
● Esempi pratici e problemi reali
● Come risolvere il problema
● Test
● Conclusioni
Di cosa parleremo oggi?
@giacomozecchini

Web rendering e motori
di ricerca
@giacomozecchini

Non siamo più negli anni ‘90
L’introduzione su internet di nuovi rendering
pattern ha cambiato molte cose, siamo
passati dall’HTML statico a nuovi pattern più
complessi come Client-Side Rendering e
Progressive Hydration.
https://www.patterns.dev/posts/rendering-introduction/ @giacomozecchini

@giacomozecchini
I motori di ricerca eseguono il rendering delle pagine
I principali motori di ricerca, per riuscire ad
utilizzare gli stessi contenuti visualizzati dagli
utenti tramite browser, sono stati forzati ad
eseguire il rendering delle pagine utilizzando
veri e propri browser.
https://developers.google.com/search/docs/crawling-indexing/javascript/javascript-seo-basics

@giacomozecchini
Web Rendering System
I motori di ricerca hanno sviluppato dei web
rendering system (o web rendering service),
dei sistemi in grado di fare il rendering di un
grande numero di pagine utilizzando headless
browser automatizzati.
“Googlebot & JavaScript: A Closer Look at the WRS”: https://www.youtube.com/watch?v=Qxd_d9m9vzo

Web Crawler cercano di seguire
Di conseguenza, anche se più lentamente, vari
Web Crawler hanno iniziato ad aggiungere il
rendering alle loro funzionalità.
@giacomozecchini

Il rendering è un argomento complesso
Eseguire il rendering delle pagine in modo
automatico su larga scala è un argomento più
complesso di quanto sembra.
@giacomozecchini

Non esiste un metodo standard
Non esistendo un metodo standard possiamo
addirittura dire che nemmeno Google esegue
il rendering “correttamente”. Ogni sistema di
web rendering è costruito per rispondere a
determinati bisogni e include compromessi.
@giacomozecchini

Background e contesto
della ricerca
@giacomozecchini

Web Crawler e soluzioni personalizzate
A Merj utilizziamo vari web crawler.
Nel caso di bisogni particolari e complessi,
non coperti dalle funzionalità dei tool esistenti,
progettiamo delle soluzioni custom.
@giacomozecchini

Da dove è partita la ricerca
Il progetto da cui è nata successivamente
questa ricerca riguardava la costruzione di
una data pipeline: dalla creazione di un data
source, delle pagine HTML, all’inserimento
delle stesse in un machine learning model.
@giacomozecchini

L’integrità dei dati è fondamentale
Durante lo sviluppo del progetto, il team “Legal
& Compliance” della compagnia ci ha chiesto
assicurazioni sull’integrità dei dati inseriti nel
machine learning model.
@giacomozecchini

Dati contrastanti nell’output dei tool
In aggiunta al processo standard di
valutazione dell’integrità dei dati, abbiamo
incluso nei test alcuni dei web crawling tool
più utilizzati, ﬁnendo per trovare alcuni dati
contrastanti.
@giacomozecchini

Cosa si intende per
“session isolation”
@giacomozecchini

Richieste “stateless”
Il concetto “stateless”, applicato alle richieste
HTTP di bot come Googlebot, è molto simile
alla session isolation, che però è applicata al
rendering delle pagine.
@giacomozecchini

Session isolation 101
Una sessione di rendering è considerata
“isolata”, se durante il rendering la pagina non
può accedere a dati immagazzinati nel
browser storage da rendering precedenti e
comunicare con altre pagine che vengono
renderizzate parallelamente.
@giacomozecchini

Esempi pratici e
problemi reali
@giacomozecchini

Customizzazione dei contenuti
@giacomozecchini
Alcuni dei problemi reali causati da una
mancata session isolation li possiamo trovare
in tutti quei siti web che hanno delle
customizzazioni dei contenuti basate sulla
navigazione degli utenti.

Box dei “Prodotti visti di recente”
@giacomozecchini
Un esempio abbastanza pratico e semplice da
visualizzare sono i box dei “Prodotti visti di
recente”. Questi box mostrano la storia di
navigazione recente dell’utente, con link ai vari
prodotti, e si possono trovare su moltissimi
siti web.

Box dei “Prodotti visti di recente”
@giacomozecchini
Per tutti e tre i precedenti esempi il box
“Prodotti visti di recente” è implementato
salvando le pagine visitate dall’utente durante
la navigazione nella memoria del browser.

I dati in memoria inﬂuenzano il rendering
@giacomozecchini
Per quei web crawler che eseguono il
rendering delle pagine web senza isolare le
sessioni di rendering, i dati salvati nella
memoria del browser possono inﬂuenzare i
risultati.

Un corretto rendering produce risultati diversi
@giacomozecchini
Se osserviamo come i motori di ricerca e i
web crawler che hanno una corretta session
isolation eseguono il rendering delle pagine, il
risultato è differente.

Questa differenza nel rendering delle pagine
produce contenuti aggiuntivi e link
“fantasma”. Questi contenuti aggiuntivi e link
sono visibili solo nei risultati dei tool con
problemi di session isolation.
Contenuti aggiuntivi e link “fantasma”
@giacomozecchini

@giacomozecchini
Senza session isolation
Con session isolation

L’ordine di crawling/rendering conta
@giacomozecchini
A seconda dell’ordine di crawling e rendering i
risultati di un tool che non ha una corretta
session isolation possono includere contenuti
addizionali che cambiano ogni volta.

@giacomozecchini
Partendo dalla PAGINA 1
Partendo dalla PAGINA 3

Tre problemi principali
@giacomozecchini
Riassumendo, senza un’adeguata session
isolation i risultati prodotti:
● Hanno problemi di integrità
● Sono diversi da quelli prodotti dai principali
motori di ricerca
● Rendono diﬃcile il debug dei problemi

Alcuni degli effetti per chi lavora nella SEO
@giacomozecchini
Le analisi si baseranno su dati sbagliati:
● Le analisi dei contenuti avranno dati
aggiuntivi
● Le analisi dei link interni avranno X% link
aggiuntivi
* I contenuti e link aggiuntivi non saranno visibili da Google & Co

Alcuni degli effetti per chi lavora nella SEO
@giacomozecchini
Tutto questo si traduce in:
● Analisi sbagliate
● Scelte errate
● Perdita di tempo e soldi

Questo problema non si limita ai Web Crawler
Questo problema è diﬃcile da individuare ed
è bene far notare che può inﬂuenzare tutti quei
sistemi che utilizzano browser-based
software come Web Performance tool e
anche CI/CD pipelines.
@giacomozecchini

Se è un’opzione deve essere chiara
Ci sono alcuni casi dove mantenere dei dati in
memoria è necessario per completare dei test
o altro. In questi casi dovrebbe essere
un’opzione speciﬁcata molto chiaramente.
@giacomozecchini

Come risolvere il
problema
@giacomozecchini

Costruiamo un sistema di web rendering
@giacomozecchini
Poniamo il caso vogliate costruire un sistema
di web rendering senza problemi con la
session isolation.
Di seguito alcune soluzioni incorrette o
parziali e inﬁne la soluzione ottimale.

Soluzione incorretta o parziale #1
@giacomozecchini
Pulire i Cookie del browser dopo il rendering
di ogni pagina. È una scelta pessima, non solo
i Cookie hanno accesso alla memoria del
Browser.

@giacomozecchini
Aprire e chiudere il browser per ogni singola
pagina e cancellare “manualmente” le cartelle
ed i ﬁle dove il browser salva i dati ad ogni
rendering. Rimuove i dati ma non è eﬃciente.

@giacomozecchini
Usare la modalità incognito. Finché rimane
aperta la modalità incognito le pagine
possono accedere alla memoria del browser e
può esserci comunicazione tra le varie tab. La
soluzione può funzionare solo se viene chiuso
e riaperto il browser per ogni pagina. Non è
eﬃciente, ricordate?

La soluzione ottimale è usare Browser Context
@giacomozecchini
Introdotto a BlinkOn 6, il Browser Context è un
modo eﬃciente per avere una corretta session
isolation. Ogni Browser Context è eseguito in
un renderer process separato, la memoria è
isolata (cookies, cache, local storage, etc.) e la
comunicazione cross-tab tra differenti
Browser Context non è possibile.

Come utilizzare il Browser Context
@giacomozecchini
Aprire e chiudere un nuovo Browser Context
per ogni pagina di cui dobbiamo fare il
rendering. Questa procedura garantirà una
corretta session isolation.

Usare questa soluzione avrà un effetto
minimo sulle performance del web crawler.
La maggioranza degli utenti dei tool di web
crawling rinuncerebbero sicuramente a
qualche secondo per garantire l’integrità dei
dati.
Data integrity > Performance
@giacomozecchini

Documentazione tecnica
@giacomozecchini
● https://chromedevtools.github.io/devtools-protocol/
tot/Target/#method-createBrowserContext
● https://pptr.dev/next/api/puppeteer.browser.createi
ncognitobrowsercontext
● https://playwright.dev/docs/api/class-browserconte
xt

Metodologia
@giacomozecchini
Per testare i web crawler abbiamo creato un
testing environment con 1000 pagine che
cercano di comunicare tra di loro accedendo
alla memoria del browser o tramite cross-tab
communication.

Perché 1000 pagine?
@giacomozecchini
Abbiamo utilizzato 1000 pagine per
massimizzare la possibilità di avere il
rendering di due o più pagine parallelamente.
Utilizzare meno pagine avrebbe potuto creare
falsi negativi.

Storage isolation
@giacomozecchini
I seguenti test si basano su Web API che
permettono il salvataggio e l’accesso a dati
salvati nella memoria del browser. Il goal dei
test è quello di capire se durante il rendering
di una pagina è possibile accedere a dei dati
salvati durante il rendering di altre pagine.

Test #1: Cookie
@giacomozecchini
https://developer.mozilla.org/en-US/docs/Web/API/Document/cookie
I Cookie non hanno bisogno di presentazioni, permettono di salvare
informazioni nella memoria del browser.
Spiegazione test: ogni pagina crea e salva un cookie, poi cerca di
leggere se vengono salvati altri cookie nella memoria del browser
dalle altre pagine.
Il test fallisce se: la pagina riesce a leggere un cookie che non
proviene dalla pagina stessa.

Test #2: IndexedDB
@giacomozecchini
https://developer.mozilla.org/en-US/docs/Web/API/IndexedDB_API
IndexedDB è un JavaScript-based object-oriented database che
permette di salvare e leggere informazioni nella memoria del browser.
Spiegazione test: ogni pagina crea o si connette al database e salva
un oggetto, poi cerca di leggere se vengono salvati altri oggetti nella
memoria del browser dalle altre pagine.
Il test fallisce se: la pagina riesce a leggere un oggetto che non

Test #3: LocalStorage
@giacomozecchini
https://developer.mozilla.org/en-US/docs/Web/API/Window/localStorage
LocalStorage permette di salvare e leggere key/value nella memoria
del browser.
Spiegazione test: ogni pagina salva un oggetto nella memoria, poi
cerca di leggere se vengono salvati altri oggetti nella memoria del
browser dalle altre pagine.

Test #4: SessionStorage
@giacomozecchini
https://developer.mozilla.org/en-US/docs/Web/API/Window/sessionStorage
SessionStorage è come il LocalStorage ma i dati non persistono in
memoria e sono cancellati quando la sessione viene chiusa.
Spiegazione test: ogni pagina salva un oggetto nella memoria, poi
cerca di leggere se vengono salvati altri oggetti nella memoria del
browser dalle altre pagine.

Cross-tab communication
@giacomozecchini
I seguenti test si basano su Web API che
permettono l’invio e la ricezione di dati. Il goal
dei test è quello di capire se durante il
rendering di una pagina sono stati ricevuti dei
messaggi da altre pagine.

Test #5: Broadcast Channel
@giacomozecchini
https://developer.mozilla.org/en-US/docs/Web/API/Broadcast_Channel_API
Broadcast Channel permette l’invio e la ricezione di messaggi
attraverso un “channel” che può connettere ﬁnestre, tab, iframe, etc.
Spiegazione test: ogni pagina si connette al channel e invia un
messaggio, poi aspetta di ricevere messaggi provenienti dalle altre
pagine.
Il test fallisce se: la pagina riceve un messaggio che proviene dalle
altre pagine.

Test #6: Shared Worker
@giacomozecchini
https://developer.mozilla.org/en-US/docs/Web/API/SharedWorker
Shared Worker permette l’invio e la ricezione di messaggi attraverso
lo stesso worker che può connettere ﬁnestre, tab, iframe, etc.
Spiegazione test: ogni pagina si connette allo Shared Worker e invia
un messaggio, poi aspetta di ricevere messaggi provenienti dalle altre
pagine.
Il test fallisce se: la pagina riceve un messaggio che proviene dalle
altre pagine.

@giacomozecchini
Test Risultati
Cookie Il 29% dei tool ha fallito il test
IndexedDB Il 64% dei tool ha fallito il test
LocalStorage Il 71% dei tool ha fallito il test
SessionStorage Il 21% dei tool ha fallito il test
Broadcast Channel Il 14% dei tool ha fallito il test
Shared Worker Il 14% dei tool ha fallito il test
Il 71% dei tool ha fallito almeno uno dei test.

GitHub link
@giacomozecchini
Potete replicare l’ambiente di
test utilizzando il codice
pubblicato su GitHub:
https://github.com/merj/test-
crawl-session-isolation

Non cancellate i dati manualmente!
@giacomozecchini
Un web crawler potrebbe passare tutti i test di
questa ricerca cancellando manualmente i
dati della memoria del browser alla ﬁne del
rendering di ogni pagina, questo approccio è
pericoloso e non garantisce l’integrità dei
dati.

Utilizzare scorciatoie non è lungimirante
@giacomozecchini
Le Web API incluse nella ricerca non sono le
uniche che hanno accesso alla memoria del
browser o che permettono comunicazione
cross-tab. Cercare di aggiungere tutte le
nuove Web API alla lista dei dati da cancellare
è un processo complesso e molto
dispendioso in termini di tempo.

Migliorare la qualità del web crawling!
@giacomozecchini
Le risposte dei vendor sono state molto trasparenti ed alcuni di
loro ci hanno incluso nell’intero processo di correzione dei
problemi.
Siamo soddisfatti che il nostro obiettivo di migliorare la qualità
di web crawling dell’industria sia stato compreso.

@giacomozecchini
Web Crawler Status
Ahrefs Ha corretto i problemi - 15 Novembre 2022
Botify Ha passato tutti i test
ContentKing Ha corretto i problemi - 27 Ottobre 2022
FandangoSEO Ricerca inviata, in corso di verifica da parte del tool
JetOctopus Ricerca inviata, in corso di verifica da parte del tool
Lumar (formerly Deepcrawl) Ha passato tutti i test
Netpeak Spider Ricerca inviata, in corso di verifica da parte del tool
OnCrawl Ha passato tutti i test
Ryte Ha corretto i problemi - 10 Ottobre 2022
Screaming Frog Ha corretto i problemi - 17 Agosto 2022
SEO PowerSuite WebSite Auditor Ricerca inviata, in corso di verifica da parte del tool
SEOClarity Ricerca inviata, in corso di verifica da parte del tool
Sistrix Ha passato tutti i test
Sitebulb Ricerca inviata, in corso di verifica da parte del tool
Tabella aggiornata al: 15/11/2022

Considerazioni ﬁnali
@giacomozecchini
● Il rendering è un argomento
complesso
● La validazione dei dati è uno
step cruciale

Blog
Abbiamo pubblicato la ricerca
sul blog con tutti i dettagli:
https://merj.com/blog/validat
ing-session-isolation-for-web-
crawling-to-provide-data-integ
rity
@giacomozecchini

Grazie!
Domande? Mi trovate su Twitter, i DM
sono aperti: @giacomozecchini
slideshare.com/giacomozecchini
speakerdeck.com/giacomozecchini
@giacomozecchini

Session isolation e rendering delle pagine web

Recommended

Recommended

More Related Content

Similar to Session isolation e rendering delle pagine web

Similar to Session isolation e rendering delle pagine web (20)

Session isolation e rendering delle pagine web