Aujourd’hui, j’ai décidé de faire une enquête sur Google RankBrain. Ce dernier est en place depuis 2015, mais son rôle reste assez mystérieux. Pour ma part, plus j’en ai appris sur Rank Brain et plus je voyais autre chose qu’une énième mise à jour d’algorithmes.

Je vous propose ici, de partager avec vous toutes mes recherches sur Google Rank Brain. Cela vous permettra de voir comment Google l’utilise dans son moteur de recherche, mais aussi, d’en découvrir l’aspect technique. En d’autres mots, nous allons lever le capot, pour mieux comprendre son influence directe sur le SEO .

Qu’est-ce que le Rank Brain?

C’est le troisième facteur le plus important dans le classement des pages sur Google (juste après le contenu et les liens). Mais qu’est-ce que c’est au juste ce fameux Rank Brain ?

Les premiers articles sur Rank Brain .

Tout commence en 2015. Un article a été publié sur le site bloomberg.com. Il s’appelle « Google transforme son moteur de recherche en une intelligence artificielle ». Dans cet article on apprend que Google utilise des briques de l’intelligence artificielle. Ce dernier l’utiliserait depuis quelques mois dans ses résultats de recherche.

Logo identité visuelle RankBrain

Ce qui se cache derrière Rank Brain ?

L’intelligence artificielle, c’est ce que l’on appelle en fait le machine learning. Pour être encore plus précis, Google Rank Brain utilise une branche du « machine learning », qui s’appelle le  Deep Learning. Je reviendrai plus en détail sur le « machine learning » et le « Deep Learning » dans un prochain article.

Maintenant, revenons à notre article de bloomberg de 2015. Greg Corrado, qui est alors senior Research Scientist chez Google, explique que Rank Brain utilise l’intelligence artificielle. Il l’utilise pour intégrer de grandes quantités de langage écrit dans des entités mathématiques. Ces entités sont appelées des vecteurs. Tout cela est mis en place pour permettre à l’ordinateur de les comprendre.

Si Rank Brain voit un mot ou une phrase qu’il ne connaît pas, il peut deviner ceux qui auront un sens similaire. Il peut filtrer le résultat en conséquence. Greg Corrado affirme également que Rank Brain fait partie des centaines de signaux de Google. Ces derniers sont utilisés par Google pour classer ses pages de résultats.

Petit aparté sur le Machine Learning

Sachez simplement, que le principe est de nourrir des algorithmes avec des données. Ces données, qu’on appelle les données d’apprentissage, vont être généralement préparées par des hommes. Elles vont permettre à la machine, d’apprendre à reproduire une décision humaine.

Google utilise déjà le «Machine Learning» depuis un certain temps. C’est par exemple le cas dans Google translate. En effet, Google translate utilise des algorithmes «Deep Learning», pour la traduction de textes d’une langue à l’autre. Il est également présent dans l’application Gmail, qui utilise des algorithmes de classification, pour détecter les spams, ou ranger les mails dans les bons onglets.

Pourquoi Rank Brain utilise le AI ?

Avant que Rank Brain ne soit officiellement validé, il y a eu chez Google, un duel entre l’AI et des experts de l’équipe Search. Ce qui s’est passé, c’est que «l’AI » a dépassé les experts Google Search. En effet, il a eu un taux de réussite de 80% contre 70% pour l’humain. En quelques mois, Rank Brain est ainsi devenu le troisième signal le plus important dans le classement des pages.

AI la ligne directrice Google 2020 ?

Nous allons faire un petit saut dans le temps. Deux ans plus tard, on est donc en 2017, lors de la conférence Google I/O. Sundar Pichai, le Président directeur général de Google, démarre sa Keynote en dévoilant la nouvelle philosophie de l’entreprise : Mobile first to AI first. L’intelligence artificielle a définitivement percé, elle n’est plus seulement une évolution technique des services que propose Google. Elle devient la ligne directrice pour la société et ses différentes entités.

Aujourd’hui «l’AI» est présente dans tous les services de Google, ou presque. On va la retrouver dans la recherche d’images, la traduction, les suggestions Youtube, Gmail, ou dans l’assistant personnel Duplex. Duplex, qu’on a pu voir au Google I/O en 2018, était d’ailleurs l’une des annonces les plus marquantes. Mais l’utilisation du Deep learning dans les résultats de recherche chez Google, a été l’un des virages AI les moins faciles à prendre.

Un article de Wired paraît en 2016. Il s’appelle «comment Google est en train de se transformer en une entreprise Machine Learning First ». Les ingénieurs de Google, vont y détailler cette période charnière, avec la montée du machine learning chez Google.

On y apprend notamment, qu’il y a eu un gros travail d’évangélisation en interne. L’utilisation des technologies d’intelligence artificielle, comme le Machine Learning, prouve que même chez l’un des géants du web comme Google, il y a eu une phase de démocratisation de la data science en interne.

Est-ce la fin du contrôle par l’humain ?

Si on prend un peu de recul, qu’est-ce qu’on remarque avec Google? L’arrivée de Rank Brain, a permis à Google de passer d’un moteur de recherche codé en dur (en quelque sorte avec du code statique et des conditions), à quelque chose de plus évolutif face aux nouveaux comportements des utilisateurs.

L’allongement des requêtes, la recherche vocale, etc, tout devient donc plus évolutif. Cela est dû au fait que Rank Brain est constamment alimenté en données pour améliorer ses connaissances. Cela se traduit en donnant des résultats sur la SERP, qui vont être plus pertinents pour l’utilisateur. En effet, ce dernier est toujours plus pressé, et grâce à ces évolutions, il gagne du temps, ce qui est positif pour Google. L’arrivée de Rank Brain a également permis à Google de montrer l’exemple dans l’utilisation de technologies d’intelligence artificielle .

Il ne faut pas oublier que Google est aussi un fournisseur de cloud. Avec l’utilisation du Deep Learning par ses équipes, ainsi que par le monde extérieur, Google a créé un certain nombre d’outils. On peut par exemple citer le Tensorflow, qui est un framework de Machine Learning open source. De nos jours, ce dernier est l’un des plus utilisés dans le monde.

L’utilisation des processeurs TPU .

photographie d’un processeur TPU

Il y a également les processeurs TPU. Les «Tensor Processing Unit», qui peuvent être vues comme une grosse amélioration des CPU. Plus récemment, des GPU, puisqu’ils sont à peu près 30 fois plus rapides que ces derniers.

La preuve de l’utilisation des TPU .

Jeffrey Dean est le co-fondateur de l’équipe Google Brain, qui travaille sur les projets AI. Dans un de ses articles, il affirme que sans les TPU, il n’aurait jamais pu créer Rank Brain.

Quel est le rôle de Rank Brain dans la SERP ?

Fonctionnement global de rankbrain

Je vous propose qu’on analyse un peu son rôle dans les SERPs. On sait, grâce à l’interview de Greg Corrado dans l’article de Bloomberg 2015, que Rank Brain permet à Google de mieux interpréter et comprendre le sens des requêtes, ainsi que l’intention de l’utilisateur. On y apprend également que Rank Brain est utilisé dans toutes les langues et sur toutes les requêtes.

Mais, il y a un autre aspect de Rank Brain qui est assez mystérieux. Celui dont on entend le moins parler, mais qui fascine parce qu’il a fait naître beaucoup de spéculations. C’est le rôle de Rank Brain dans le classement des pages. Cela a été évoqué officiellement pour la première fois, dans un podcast de 2016 du site marketing Land. Le podcast s’appelle « Gary Illyes machine learning and rankbrain ». Gary illyes, est un webmaster Trend analyste chez Google. Dans l’interview du podcast, il explique une des choses qui a le plus contribué à me faire revoir toutes mes croyances autour du SEO. En fait, il dit que Google utilise le Machine Learning pour produire et créer de nouveaux signaux.

Quelle place occupe Rank Brain dans l’ensemble des algorithmes ?

On va maintenant plonger dans le cœur du moteur de recherche, pour voir la place qu’occupe Rank Brain au milieu des autres algorithmes. C’est impossible de parler de Rank Brain sans évoquer un autre algorithme. Je vais donc vous parler de Hummingbird, également connu sous le nom de Colibri. Ce dernier est apparu deux ans avant Rank Brain, et a permis à Google de mettre un coup d’accélérateur dans la recherche sémantique. Plus globalement, dans la compréhension et le traitement des requêtes en langage naturel.

Afin de comprendre au mieux les requêtes et d’y apporter la meilleure réponse possible, Google doit décrypter le contexte et le sens, c’est-à-dire l’intention de l’utilisateur. Pour cela, il va prendre en compte des éléments comme l’emplacement géographique de l’utilisateur, son historique de recherche.

Création du Knowledge Graph Google

Google va étudier chaque mot de la requête, pour essayer de les relier à des éléments qu’il connaît. Avant ça, il s’était longtemps appuyé sur différentes techniques :

  • l’utilisation de la racine des mots
  • l’utilisation de bases de données de synonymes
  • la reconnaissance d’identité dans la requête.

Pour cela, il allait chercher dans ses bases d’entités, et directement chez Wikipedia, Free base, et plus récemment Wiki Data. Tout ça, jusqu’à ce que finalement il  fabrique sa propre base de données ultime, son Knowledge graph. C’est grâce à cette dernière, que quand vous cherchez CEO de Tesla, Google comprend qu’en fait vous parlez d’Elon Musk .

Colibri, la suite directe du Knowledge Graph

Colibri, a aidé Google à passer de la recherche de chaînes de caractères à la recherche d’entités. Le fameux slogan que vous n’avez pas pu rater, si vous faites du SEO, c’est «things, not strings». Grâce à  Hummingbird, l’interprétation des requêtes est devenue très bonne, en particulier pour celles qui contiennent des synonymes, ou des entités, déjà présentes dans les bases de données de Google. Alors c’était pas mal, mais pas encore optimal pour Google, puisqu’ils ont décidé d’aller encore plus loin.

On peut imaginer que maintenir à jour en permanence des bases de données de synonymes et d’entités, est un travail colossal. Quand on couple cela au volume de nouvelles requêtes faites chaque jour sur Google, on voit tout de suite l’ampleur de la tâche.

L’apparition constante de nouvelles requêtes

Lors de mes recherches sur Rank Brain, je suis tombé sur un article publié sur l’un des blogs de Google en 2017. Il s’appelle «nos dernières améliorations de qualité pour le moteur de recherche», et on va y découvrir qu’il y a 15% de nouvelles requêtes à gérer chaque jour ! C’est un chiffre qui est complètement dingue!

C’est face à ces difficultés que Rank Brain a fait son entrée. Contrairement à ce que l’on pourrait penser, Rank Brain n’a pas remplacé l’algorithme Hummingbird. En fait, c’est un morceau de ce qu’on appelle plus communément l’algorithme Google. Dans son article, qui s’appelle «FAQ tout sur l’algorithme Google Rank Brain», Danny Sullivan, co-créateur du site Search Engine Land, a trouvé une bonne métaphore pour l’expliquer. Il dit que le «Hummingbird» est l’algorithme de recherche globale.

Tout comme une voiture à un moteur global en elle, ce dernier peut être composé de diverses pièces telles qu’un filtre à huile, une pompe à carburant, un radiateur, etc. De la même manière,  Hummingbird  comprend plusieurs parties, avec Rank Brain qui est notamment l’une des plus récentes.

Comment Rank Brain aide Google pour traiter les requêtes ?

Parlons maintenant de la façon dont Rank Brain aide Google à mieux comprendre les requêtes, en s’appuyant sur du Deep Learning. On l’a vu, chaque jour sur Google, il y a à peu près 15 % de nouvelles requêtes. C’est-à-dire des expressions ou des mots clés que Google n’avait jamais vus avant. De plus, il y a de grandes chances pour que ce pourcentage augmente à mesure que la recherche vocale se démocratise. En effet, cette dernière amène une hausse des requêtes en langage naturel, ce qui veut dire des vraies phrases et une suite de mots clés. Cela amène une certaine complexité pour Google dans la façon dont il doit traiter les requêtes. Il faut quand même noter qu’avant Rank Brain, Google était déjà capable de gérer certains types de requêtes inconnues .

On a parlé de stemming, de l’exploitation des synonymes, et de la reconnaissance d’identité des mots. De manière plus globale, on a évoqué Hummingbird et le Knowledge Graph. Pour résumer un peu ces méthodes, Google essaye de simplifier la requête, et d’en comprendre le plus de termes possible. Mais ce que fait Rank Brain est totalement différent, car il exploite chaque mot de la requête pour en extraire le sens complet .

La notion de Mots Vides

Dans une interview qui a été donnée au SMX 2016, Gary Illyes a donné quelques clarifications sur ce changement de la méthode d’interprétation des requêtes. Il parle notamment des mots vides, qui sont les prépositions, les articles, les pronoms, etc. On les appelle aussi les stops word (en anglais) et on les utilise de plus en plus. En fait, à mesure qu’on parle naturellement dans nos requêtes, Gary Illyes nous explique que Rank Brain comprend qu’il ne faut pas supprimer certains mots vides. Par exemple, parfois le mot «avec» est supprimé d’une requête pour l’interpréter, mais Rank Brain comprend qu’il faut le garder.

Le dépôt d’un mystérieux brevet par Google…

En 2015, qui je le rappelle, est l’année où Rank Brain a été dévoilée, Google dépose un brevet, interprété par Bill Slawski, le créateur du blog «SEO By the Sea».

Il a décidé d’en écrire un article : «Investiguer Google Rank Brain et les substitutions de termes dans les requêtes». Dans ce dernier, il explique que ce brevet ressemble très fortement à Rank Brain. On y découvre une méthode que Google Rank Brain pourrait utiliser pour transformer la requête de l’internaute. Notamment, en utilisant des termes de substitution grâce à une technique qui s’appelle le Word embedding.

Comment Google utilise le Word Embedding ?

Le but est de préciser la requête à la place de l’internaute, c’est-à-dire de deviner ce qu’il a voulu dire. Vous allez voir c’est assez impressionnant.

Dans le brevet, il y a un exemple concret qui est la requête «New York Yankees Stadium». Google va la transformer en une nouvelle requête, dont il va se servir pour créer sa page de résultats SERPs.

Dans le brevet, on voit que Google passe de la requête «New York Yankees Stadium» à «Yankees baseball New York Stadium». Google ajoute donc le mot «base-ball» et échange également l’ordre des mots.

J’ai rapidement évoqué le Word Embedding, car c’est la dernière pièce du puzzle qui nous manquait pour comprendre la façon dont Rank Brain traite les requêtes.

La reconstruction linguistique algorithmique

Un petit saut dans le temps, et on va faire un petit crochet par l’année 2013. Une équipe de chez Google, dirigée par un certain Tomas Mikolov, travaille sur l’idée de reconstruire les contextes linguistiques des mots.

Il a d’ailleurs publié un article sur le blog open source de Google qui s’intitule : «apprendre la signification derrière les mots».Dans celui-ci, il explique que son équipe vient de donner naissance à l’algorithme Word2Vec, qui est défini comme une sorte de boîte à outils open source. Il va promouvoir la recherche, sur la façon dont le machine learning peut s’appliquer aux problèmes de langage naturel.

Concrètement Word2Vec lis des corpus de textes, comme par exemple, toutes les pages Wikipedia, et créer immédiatement une sorte de carte visuelle des concepts. Cela va lui permettre de regrouper les notions proches dans la visualisation.

Il va utiliser une technique qui permet de représenter les mots ou les phrases d’un texte par des vecteurs (objets mathématiques permettant à l’ordinateur de les comprendre). C’est ce que l’on appelle le Word Embedding.

Le fonctionnement du Word Embedding

Le but du Word Embedding est d’identifier des relations entre les mots, en calculant une distance entre eux. Plus les termes apparaissent fréquemment les uns à côté des autres dans les corpus de textes, plus ils seront considérés comme proches. Concrètement, chaque mot unique dans le contenu va se voir attribuer un vecteur dans l’espace. Cela va leur permettre d’être positionné de telle façon, que les mots qui partagent des relations et des contextes communs dans le corpus, vont être situés à proximité les uns des autres.

Cette approche va nous permettre de savoir, d’un point de vue mathématique, que le mot «Paris» est lié au mot «France». Le fait de transformer des mots en objets mathématiques offre aussi un autre avantage. Cela va rendre possible la réalisation d’opérations algébriques sur les représentations vectorielles des mots. Par exemple, les mots hommes et femmes sont liés, et si on fait (frère hommes + femmes) cela va nous donner (= sœurs).

C’est très pratique pour retrouver des relations entre les mots. Avec le Word Embedding, on est capable de saisir énormément de degrés différents de similarités entre les mots. On peut également deviner un mot proche sémantiquement, même s’il n’a potentiellement aucun lien d’un point de vue orthographique.

Quel rapport avec Rank Brain ?

Lorsque Rank Brain voit un mot ou une phrase qu’il ne connaît pas dans une requête, il peut deviner ceux qui auront un sens similaire, grâce au Word Embedding. En effet, le texte qui est transformé en vecteur, peut de cette façon-là être compris par des réseaux de neurones : c’est-à-dire pour une utilisation de type Learning.

Pour schématiser très rapidement les réseaux de neurones, ce sont des procédés informatiques, qui permettent de simuler le fonctionnement du cerveau humain. On s’en sert pour prédire une sortie, à partir de données en entrées. Pour Rank Brain, en entrée, on a parfois des requêtes ambiguës, qui peuvent être longues ou de plus en plus complexes, avec des éléments qu’il ne connaît pas toujours. Ces dernières vont être transformées en vecteur. En sortie, il doit deviner ce qui s’en rapproche le plus dans ce qu’il connaît, car il doit répondre à l’intention de l’internaute.

Est-ce que Google utilise l’algorithme Word2Vec dans Rank Brain ?

Jennifer Slegg, du site SEMpost, a posé cette question à Google, au moment de la sortie de Rank Brain. Elle a reçu une réponse très Googlienne : c’est lié a Word2Vec en ce sens que Rank Brain utilise des embedding .

Catégories : Défintions

0 commentaire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *