Google y los caracteres especiales en una URL

¿Es correcto usar caracteres especiales en las URL de nuestra web? ¿Google tiene problemas para rastrear las URL con caracteres especiales? ¿Cómo puede afectar esto a nuestro sitio? La respuesta es sencilla, ya que Google se ha pronunciado sobre la cuestión en un par de ocasiones.

La versión oficial más reciente es de diciembre del 2015, cuando John Muller (analista de tendencias de webmasters para Google en Zurich), contestó a una pregunta similar en el foro para Webmasters de Google («Google Crawler Truncates Comma in URL and Reports 404»):

I generally recommend avoiding special characters like commas, semicolons, colons, spaces, quotes etc. in URLs, to help keep things simple. URLs like that are often harder to automatically link (when someone posts in a forum or elsewhere), and hard for us to recognize correctly when we parse text content to try to find new URLs. When they’re linked normally or submitted through a sitemap directly, they work as expected. However, when we try to recognize the URL in something that we crawl as a HTML or a text page, then we’ll probably «guess» them wrong — which is fine, since we’ve probably already seen them through the normal links & sitemap usage. In practice this doesn’t matter, finding links which don’t work is perfectly normal for us; it won’t break the crawling, indexing, or ranking of your site assuming we can crawl it otherwise. We’ll show these as 404s in Search Console because they return 404, but they’re not something critical that you need to suppress. If you want to move to a cleaner URL structure that’s less-likely to be misinterpreted like that, you can use normal 301 redirects & rel=canonical elements on the page. It’ll generally take some time to crawl & reindex the URLs like that though, so you’ll continue to see these old URLs in Search Console in the meantime. Cheers, John

Otras respuestas oficiales de Google

No es la primera vez que se habla del tema. En marzo del 2012 se publicó una video respuesta en el canal oficial de Google Webmasters en Youtube: “Do you recommend using special characters in URLs?”. La respuesta, como vemos, es la misma: se pueden usar pero mejor que nos abstengamos de ello.

El 12 de enero del 2016, un usuario del Foro en español de Google para Webmasters lanzó una pregunta donde se exponía un caso similar: un cliente usa caracteres especiales en sus URL. ¿Cómo es el uso correcto de los caracteres especiales en las URLs?

A pesar de que Google admite tener algunas dificultades para rastrar URLs con caracteres especiales, la conclusión general es que no existe una prohibición o una incapacidad total para trabajar con estas URL. Para Google no existe un listado de caracteres prohibidos o poco recomendables para las URL. De un modo u otro, Google es capaz de acceder a las páginas con una URL difícil, ya sea «recomponiendo» la dirección o usando el sitemap para el rastreo completo del sitio.

¿Significa esto que puedo poner caracteres especiales en una URL?

Que Google tenga métodos para corregir errores en la lectura de las URL con caracteres especiales no significa que tengamos barra libre para su uso.
Los caracteres especiales pueden estar justificados. Por ejemplo, cuando guardamos en una URL información introducida por el usuario en un formulario, o cuando el usuario está realizando una navegación personalizada y se incluyen variables de sesión. Es decir, cuando el uso de el caracter que usamos se corresponde al propósito para el que se considera reservado.

Sí, has leído bien. A pesar de no existir un listado de «caracteres especiales prohibidos», si que existe un estándar de caracteres reservados, y en él se define el rol que se le ha asignado a cada uno dentro de la estructura de una URL. Si os interesa el tema, podéis leer el documento aquí. Prestad atención, porque este documento tiene partes obsoletas.

En resumen, lo que nos interesa está en el punto 2.3 del documento de estándares, donde se habla de los caracteres «no reservados» y que, por lo tanto, que pueden ser usados sin problemas en una URL.

Characters that are allowed in a URI but do not have a reserved
purpose are called unreserved. These include uppercase and lowercase
letters, decimal digits, hyphen, period, underscore, and tilde.
unreserved = ALPHA / DIGIT / «-» / «.» / «_» / «~»

Entonces, ¿qué sentido tiene usar caracteres especiales en una URL? Bajo mi punto de vista, si no se hace para un propósito justificado, no tiene sentido alguno.

Introducir caracteres especiales complica las cosas para el usuario: dificulta la comprensión, memorización y reproducción de la URL, provocando que el usuario acabe en páginas 404 cuando intenta reintroducir la dirección de forma manual. Además, ¿qué ocurre si un usuario no dispone de ese caracter en su teclado?

El razonamiento para no usar caracteres especiales no se sustenta en la capacidad de Google para comprender y procesar una URL, sino en que sea viable para el usuario entender lo que está visualizando. Excluir estos caracteres de forma sistemática, mejorará la experiencia del usuario, la usabilidad y la navegación por la página. Crear reglas para la construcción de patrones de URL dotará a nuestro sitio web de consistencia y facilitará el SEO de forma sustancial.

La regla general: siempre «user friendly»

Debemos recordar que todo lo que es malo para el usuario es malo para Google. El uso de los caracteres especiales sigue el mismo principio que la construcción de patrones URL friendly. Cuanto más sencillo y humano sea el patrón de la URL, mejor. Cuanto mayor sea la facilidad del usuario para comprender el contenido de la URL a partir de su patrón, mayor será la confianza..

En resumen: Google desaconseja su uso y los estándares indican que los caracteres especiales (salvo excepciones) están reservados para un propósito concreto, por lo tanto… abstenerse.


Puntúa este post ;)
Esto apestaBah, ni chica ni limonáPasable¡Oh! Me gusta tu rollo¡Genial! ¡Justo lo que quería! (8 Votos, puntuación media: 4,38 de 5)
Loading...

1 comentario

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *