10.10.14

Para empezar bien el día miremos unos cuantos logs del servidor

Una tarea pesada pero importante en SEO es sin duda la revisión periódica de códigos de error del servidor y muy especialmente de errores .

!! Eso se hace con Kibana !!  Si, ya lo se pero los que empezamos trabajando con sistemas siempre tenemos un momento para disfrutar mirando datos en bruto.

tail -f -n  1000000000 /home/var/log/access_log | egrep 'Googlebot' |egrep ' 401 | 402 | 403 | 404 | 405 | 406 | 407 | 408 | 409 | 410 | 411 | 412 | 413 | 414 | 415 | 416 | 417 | 421 | 422 | 423 | 424 | 425 | 426 | 499 | 500 | 501 | 502 | 503 | 504 | 505 | 506 | 507 | 508 | 509 | 510 '

Un sencillo comando como este nos permitirá ver ahora que está pasando con google y los errores de indexación. Vale la pena agrupar por casos (especialmente 404 not found y 404 forbidden)

Ojo con algun robot que se quiera hacer pasar por google, lo descubriremos facilmente con:
tail -n  1000000000 /home/var/log/access_log | egrep 'Googlebot' | awk ' {print substr($3,0,40)'} | sort |uniq -c
Esto nos dará la lista de IPS usadas por googlebot para que después de cada rango miremos si pertenecen a google:
 host 66.249.79.92

Ojo a CDN's que se conectarán con sus propias ips haciendo de proxy para google.

Parece pesado pero con greps + awk a la larga puedes filtrar, agrupar, clasificar y procesar grandes volúmenes de información en tiempo real.