In augustus 2013 heeft Google het volledige zoekmachine algoritme vervangen. Het nieuwe algoritme werd ‘Hummingbird’ genoemd, omdat Google belooft dat het algoritme precies en snel is.
Nu we een jaar later zijn (2014), wat is de impact hiervan tot nu toe? Wat weten we eigenlijk van Google Hummingbird? En wat zien we ervan in de zoekresultaten? Een analyse over hoe Hummingbird werkt, de belofte van Google en of dit waargemaakt wordt.
Geen tijd om bijna 3.000 woorden te lezen? Download dan de Frankwatching podcast waar in ik toelichting & verdieping geef op dit artikel. => Download op iTunes
Inhoudsopgave
- Ontwikkeling van het web
- Zoekmachines begrepen betekenis niet
- Betekenis beschrijven: triples
- Waarom betekenis belangrijk is
- Het antwoord: Hummingbird
- De facts: wat Google zegt
- Praktijk: wat merken we ervan?
- Voorbeelden uit Nederland
- Conclusie: belofte waargemaakt
Ontwikkeling web
Om te begrijpen wat het Hummingbird algoritme inhoudt, is het belangrijk om te begrijpen hoe het web zich ontwikkelt.
Het internet kent verschillende fasen. Op moment bevindt het internet zich in de fase Web 3.0 waarvan het semantisch web een belangrijk kenmerk vormt.
Twee pijlers lijken een belangrijke rol te spelen bij de ontwikkeling van het web.
- Socialisatie
- Semantiek
1. Socialisatie
De eerste pijler socialisatie verwijst naar de continue groei van het aantal connecties of relaties tussen mensen. Met name door de opkomst van vele sociale netwerken tijdens Web 2.0 is deze ontwikkeling snel van start gegaan.
2. Semantiek
Semantiek, ofwel de groei van connecties of relaties tussen data of zelfs informatie vormt de tweede pijler heeft pas later meer nadruk gekregen.
Het semantisch web is/was er met name op gericht om alle webcontent en web services op een dergelijke manier te beschrijven, beschikbaar op verschillende computers/systemen (gedecentraliseerd), waarbij webapplicaties in staat zijn om via open technologieën de data op intelligente wijze te benutten.
Anders gezegd: machines/systemen zijn in staat om – zonder tussenkomst van mensen – data te begrijpen en relaties te leggen.
In dit artikel beperken we ons tot zoekmachines, maar zal hetgeen beschreven wordt min of meer ook toepasbaar zijn buiten zoekmachines om.
Afbeelding 1: ontwikkeling van het web
Ook Google heeft zich door de jaren heen flink met het web mee doorontwikkeld.
Kijk maar eens naar hoe de zoekresultaten er in 1999 uitzagen:
Afbeelding 2: Google zoekresultaten uit 1999
Taal: syntaxis en semantiek
Om de ontwikkeling van het web en het Hummingbird algoritme van Google te begrijpen, staan we kort stil bij de opbouw van een taal. Elke taal heeft haar eigen syntaxis en semantiek.
Syntaxis (taalkunde) is een studie die alles omvat wat met de opbouw en structuur van zinnen te maken heeft (subdiscipline van de grammatica). Semantiek (betekenisleer) is een wetenschap die zich bezighoudt met de betekenis van symbolen (o.a. woorden en zinnen).
Syntaxis is hoe we iets zeggen. Semantiek is de betekenis van hetgeen je zegt. Het resultaat van syntaxis en semantiek is communicatie. Als mens kunnen we iets op verschillende manieren zeggen of verwoorden zonder dat de betekenis daarvan verandert. Maar een kleine aanpassing in de syntax kan de betekenis in z’n geheel veranderen.
Web: HTML en Markup
Voor het algoritme van een zoekmachine zoals Google is het zeer belangrijk om een exact gedefinieerde syntaxis en semantiek te gebruiken. De menselijke taal is namelijk veel te ingewikkeld om door een computer begrepen te worden.
Programmeertalen, maar bijvoorbeeld ook HTML zijn exact gedefinieerde, formele talen die een computer begrijpen kan. Een browser is in staat om HTML (syntax) om te zetten in een leesbare pagina, maar heeft geen idee wat de betekenis is van de inhoud binnen die pagina.
Zoekmachines begrepen betekenis niet
Voor zoekmachines was dit in de beginfase van het web niet veel anders, alhoewel zoekmachines dankzij het gebruik van bepaalde HTML syntax zoals paginatitel, headings en links tussen documenten beter werden in het selecteren van relevante documenten en in de zoekresultaten te presenteren.
Maar voor zoekmachines bleef onduidelijk wat er met de inhoud van het document bedoeld werd en lag de nadruk qua inhoud op de beschikbaarheid van keywords (trefwoorden). Zoekmachine-optimalisatie (SEO) was tot voor kort dan ook altijd gefocust rondom zoektermen.
Afbeelding 3: het web zoals het begon: een door hyperlinks gekoppelde verzameling van documenten
Betekenis en entiteiten
Inhoudelijk behandelen (web)documenten allerlei onderwerpen, zoals producten, mensen, boeken, evenementen, bedrijven, accomodaties, etc. Een beschrijving van kenmerken maakt duidelijk welke kleur schoenen het zijn of welke ingrediënten een recept bevat.
We hebben het dan over entiteiten en de kenmerken, ofwel properties, waarover ze beschikken. Het semantisch web is er op gericht om computers en dus ook zoekmachines te laten begrijpen wat de betekenis is van entiteiten binnen (web)documenten door relaties tussen entiteit en kenmerken te beschrijven.
Het semantisch web ontwikkelt zich daarmee van een web van documenten naar een web van entiteiten.
Afbeelding 4: het web van nu: entiteiten met hun eigenschappen
Betekenis beschrijven: triples
We gaan dus van keywords naar entiteiten, of van ’strings’ to ’things’. Van woorden die gebruikt worden om dingen te beschrijven naar het ding dat beschreven wordt.
Het semantisch web beschikt over een standaard om ‘dingen’ of objecten te beschrijven. Dit wordt uitgevoerd in de vorm van zogeheten “triples”: een drieledige structuur van Subject, Predicaat en Object.
- Het subject is de entiteit die beschreven wordt.
- Het predicaat is welk kenmerk of aspect van die entiteit beschreven wordt.
- Het object tenslotte is wat de waarde van dat kenmerk is.
Afbeelding 5: triples gevisualiseerd met 3 voorbeelden
Alle informatie wordt in het semantische web dus gestructureerd volgens een gestandaardiseerde taal. Men spreekt dan ook wel over Structured Data.
Schema.org
De zoekmachines Google, Yahoo, Bing (en later) Yandex) hebben in 2011 de standaard Schema.org gelanceerd: een standaard taal om data te structureren. En ook hier is het geen toeval dat Schema.org van triples gebruikmaakt.
Maar zelfs zonder dat Schema.org is gebruikt om informatie te structureren, kan Google steeds vaker de betekenis van een zoekvraag begrijpen en een antwoord geven.
Bekijk bijvoorbeeld eens dit voorbeeld uit de VS (bron):
Afbeelding 6: voorbeeld van een antwoord, zonder expliciete structured data (zoals Schema.org)
Waarom is dit allemaal belangrijk?
Goed. Helder, al die theorie. Maar waarom zijn het semantische web, triples en entiteiten belangrijk? Het antwoord zit in de ambitie van Google:
“Larry Page, onze medeoprichter en CEO, beschreef de ‘perfecte zoekmachine’ ooit als iets ‘dat precies begrijpt wat je bedoelt en je precies vertelt wat je wilt weten’…??? (bron)
Anders gezegd: Google wil je antwoorden geven op jouw (zoek)vragen. En niet een lijstje met documenten waar je antwoord misschien op te vinden is.
Google wil dus van een zoekmachine naar een “antwoordmachine??? ontwikkelen. En in de afgelopen twee jaar zijn daar al een paar duidelijke producten en diensten voor gelanceerd, namelijk:
- Google Knowledge Graph (meer informatie)
- Voice Search (meer informatie)
- Google Now (meer informatie)
Om dergelijke producten en diensten te kunnen leveren, is het simpelweg noodzakelijk dat Google de betekenis van (web)documenten en informatie begrijpt. En om de betekenis van informatie te begrijpen en antwoorden te kunnen geven, leunt Google steeds meer op entiteiten (en steeds minder op keywords).
Eind 2012 zaten er in Google Knowledge Graph al 570 million entiteiten en meer dan 18 miljard relaties tussen deze entiteiten (bron). Sindsdien zullen deze aantallen alleen maar fors verder gegroeid zijn.
Bijvoorbeeld de Knowledge Graph zou je misschien ook wel beter de “Entity Graph??? kunnen noemen. En bij het (semantisch) zoeken anno nu past misschien wel beter de naam “Entity Search???.
Het antwoord: Hummingbird
Google is dus al langer bezig met structured data. Maar om echt te ontwikkelen tot de beoogde “antwoordmachine??? was een volledig nieuw algoritme nodig. Hummingbird draait volledig op het begrijpen van informatie en het geven van antwoorden.
Wist je dat 15% van alle zoekopdrachten bij Google nooit eerder gezien zijn door de zoekmachine (bron)? Hoe geef je dan toch een goed antwoord? Om op die onbekende zoekopdrachten een relevant antwoord te kunnen geven, is het noodzakelijk om de betekenis van die onbekende zoekopdrachten te kunnen bepalen. En dat is precies wat Hummingbird beoogt.
Voor de volledigheid: het algoritme van Google is één van de 3 hoofdonderdelen van de zoekmachine. Een zoekmachine bestaat namelijk uit een 1) crawler, 2) index en 3) algoritme. In een notendop vereenvoudigd: de crawler verzamelt de informatie, wat in de index opgeslagen wordt. Het algoritme bepaalt vervolgens de rangschikking van de zoekresultaten. Het algoritme is dus de kern van een zoekmachine en mag gezien worden als het belangrijkste onderdeel.
De facts: wat Google zegt
We weten nu waarom Hummingbird geïntroduceerd is en wat het algoritme zou moeten doen. Maar wat weten we er eigenlijk echt van? Google heeft er weinig over naar buiten gebracht, maar dit is wat we tot nu toe weten:
- Hummingbird live sinds augustus 2013
- Hummingbird is volledig nieuw algoritme
- Google begrijpt betekenis van woorden beter
- Bestaande en nieuwe ranking factoren
1. Hummingbird live sinds augustus 2013
Het nieuwe algoritme werd in september 2013 aangekondigd tijdens de 15e verjaardag van Google. Daar gaf Google aan dat het nieuwe algoritme al een maand geleden, dus in augustus 2013, in gebruik was genomen, zoals dit persverslag aangeeft:
“Google started using Hummingbird about a month ago, it said. Google only announced the change today.”
2. Volledig nieuw algoritme
Hummingbird is een compleet nieuw algoritme, geen uitbreiding of aanpassing van bestaande algoritmes.
Vanuit het hierboven aangehaalde persverslag:
“When Google switched to Hummingbird, it’s as if it dropped the old engine out of a car and put in a new one. Hummingbird is a brand new engine.???
Google gaf overigens in juni 2014 aan dat er meer dan 500 verschillende (sub)algoritmes gebruikt worden (bron). Kortom, binnen het totale (Hummingbird) algoritme bestaan er meer dan 500 signalen en algoritmes.
3. Google begrijpt betekenis
Google belooft dat Hummingbird de betekenis achter zoekopdrachten beter begrijpt. En pagina’s die beter aansluiten op de betekenis van zoektermen zullen beter scoren (dan pagina’s die alleen met de woorden uit een zoekopdracht matchen).
Dat geeft ook de hoogste baas van het zoekalgoritme, Amit Singhal, aan tijdens de aankondiging van Hummingbird (bron: YouTube):
“We now get that the words in the search box are real world people, places and things, and not just strings to be managed on a web page.”
Google heeft ook al eerder aangegeven datze in staat zijn om automatisch te betekenis van woorden te achterhalen. Bijvoorbeeld in een blogpost uit (toevallig?) augustus 2013 (link):
“Word2vec uses distributed representations of text to capture similarities among concepts. For example, it understands that Paris and France are related the same way Berlin and Germany are (capital and country), and not the same way Madrid and Italy are. This chart shows how well it can learn the concept of capital cities, just by reading lots of news articles — with no human supervision:”
En Google heeft al in 2011 een patent toegewezen gekregen (bron) dat beschrijft hoe de zoekmachine betekenis kan toekennen aan zoekopdrachten (door semantische relaties te leggen tussen zoekopdrachten):
“A search query for a search engine may be improved by incorporating alternate terms into the search query that are semantically similar to terms of the search query, taking into account information derived from the search query. An initial set of alternate terms that may be semantically similar to the original terms in the search query is generated.???
In de eerder genoemde “antwoord-producten???, zoals Knowledge Graph en Voice Search, is te zien dat Google de belofte waarmaakt.
4. Zelfde & nieuwe ranking factoren
Ondanks dat Hummingbird een compleet nieuw algoritme is, worden nog steeds dezelfde ranking factoren gebruikt. Maar Google geeft tegelijkertijd aan dat er ook nieuwe factoren gebruikt (gaan) worden:
“In general, Hummingbird — Google says — is a new engine built on both existing and new parts, organized in a way to especially serve the search demands of today, rather than one created for the needs of ten years ago, with the technologies back then. Hummingbird is a brand new engine, though it continues to use some of the same parts of the old, like Penguin and Panda.”
Praktijk: wat merken we ervan?
Uiteindelijk zijn we als marketeers natuurlijk geïnteresseerd in wat we er in de praktijk van merken en hoe we ermee om moeten gaan.
Opvallend genoeg heeft eigenlijk niemand opgemerkt dat het volledig nieuwe algoritme in gebruik werd genomen in augustus vorig jaar. Er waren wel wat speculaties, maar niemand heeft grote verschuivingen in de zoekresultaten waargenomen. Dat is op zich al een knappe prestatie van Google.
Als de belofte klopt…
Google doet met Hummingbird de belofte dat het nu ook begrijpt welke intentie achter zoektermen schuilt. In de praktijk betekent dit dat er minder verschillende pagina’s en sites in de zoekresultaten zullen voorkomen. Dat zal ik even uitleggen.
Als Google dus de intentie achter zoektermen begrijpt, dan snapt Google dus ook dat er veel verschillende zoekopdrachten zijn die eigenlijk dezelfde intentie hebben. En dat houdt in dat dezelfde webpagina’s dus het antwoord kunnen vormen op veel verschillende zoektermen.
Het ‘oude’ SEO, voordat Hummingbird geïntroduceerd werd, ging eigenlijk over het zo goed mogelijk laten matchen van webpagina’s en zoektermen.
Kijk maar eens naar dit voorbeeld:
Afbeelding 7: voorbeeld van het ‘oude’ SEO
Hierboven is duidelijk te zien dat verschillende webpagina’s zijn geoptimaliseerd voor verschillende zoektermen (laminaat leggen, laminaatvloer (zelf) leggen, laminaat zelf leggen, etc.). Maar is de intentie achter deze zoekopdrachten niet eigenlijk hetzelfde? Ja, natuurlijk. En bovenstaande zoekresultaten zul je dus tegenwoordig steeds minder tegenkomen.
Domein diversiteit neemt af
Als het het aantal webpagina’s, of eigenlijk aantal verschillende sites, minder wordt, dan neemt de zogeheten ‘domein diversiteit’ af. Oftewel, het aantal verschillende domeinen dat in de zoekresultaten verschijnt, zou na de introductie van Hummingbird dus moeten afnemen.
En diverse onderzoeken laten precies deze beweging zien. Kijk bijvoorbeeld maar eens naar onderstaande voorbeelden.
Dit zijn de zoekresultaten voordat Hummingbird geïntroduceerd werd:
Afbeelding 8: pre-Hummingbird – zoekresultaten verschillen sterk voor vergelijkbare zoekopdrachten
En dit zijn dezelfde zoekresultaten nadat Google Hummingbird live is:
Afbeelding 9: post-Hummingbird – zoekresultaten vaak hetzelfde voor vergelijkbare zoekopdrachten
Zoals je kunt zien, geven deze twee verschillende zoekopdrachten – ‘rice dish’ en ‘rice recipe’ – duidelijk andere zoekresultaten voor en na Hummingbird.
Nadat Hummingbird geïntroduceerd is, kun je duidelijk zien dat er meer dezelfde zoekresultaten zijn. Het aantal verschillende domeinen in de zoekresultaten neemt dus af.
Voorbeelden uit Nederland
Ook als ik kijk naar diverse opdrachtgevers bij OrangeValley, dan zie ik dat het aantal verschillende pagina’s dat bezoekers krijgt uit organische zoekresultaten is afgenomen post-Hummingbird.
Voorbeeld 1: financieel dienstverlener
In de maanden voorafgaand aan de introductie van Hummingbird, het voorjaar van 2013, kregen 3.986 verschillende pagina’s bezoeken vanuit de organische zoekresultaten van Google.
Dit betrof een selectie van sterk voor SEO geoptimaliseerde pagina’s, waarbij er vrij veel pagina’s op vrij veel verschillende zoektermen ingericht zijn.
In dezelfde periode in 2014 voor dezelfde pagina’s krijgen echter nog maar 2.187 verschillende pagina’s bezoeken uit SEO. Dat is 45% minder pagina’s (overigens is het totaal aantal bezoekers uit SEO op deze pagina’s gestegen).
Aanvullend kan ik je vertellen dat in dit geval het aantal pagina’s en de content erop nagenoeg gelijk is gebleven.
Voorbeeld 2: reisorganisatie
Ook hier is gekeken naar de periode van een aantal maanden voorafgaand aan Hummingbird. Hier betreft het echter geen selectie, maar alle pagina’s die vanuit organische zoekresultaten bezoeken krijgen.
Voor Hummingbird kregen 7.230 verschillende pagina’s bezoekers uit SEO, terwijl dit na Hummingbird in dezelfde periode 5.975 verschillende webpagina’s waren.
Belangrijk om te weten is dat deze organisatie juist vrij veel pagina’s en content heeft toegevoegd in 2014, wat er in 2013 nog niet was. Dat betekent dat het verschil in feite nog groter is.
Onderzoek levert bewijs
Uitgebreid internationaal onderzoek door Searchmetrics, op basis van vele honderdduizenden keywords, laat duidelijk zien dat deze trend na Hummingbird ingezet is:
Afbeelding 10: afname domein-diversiteit na Hummingbird
Google heeft Hummingbird waarschijnlijk in week 33 van 2013, media augustus, geïntroduceerd. Vanaf dat moment neemt de domein diversiteit duidelijk af.
‘Keyword pairs’
In hetzelfde onderzoek van Searchmetrics werd ook gekeken naar ‘keyword pairs’. Oftewel, paren van zoektermen die een sterk vergelijkbare intentie hebben. Het voorbeeld dat ze geven is ‘bang hairstyles’ en ‘hairstyles with bangs’.
Van deze keyword pairs is duidelijk te zien dat het aantal ‘matches’, of overeenkomstige webpagina’s en websites, sterk is toegenomen na Hummingbird:
Afbeelding 11: toename zelfde domeinen voor vergelijkbare zoekopdrachten na Hummingbird
Conclusie: belofte waargemaakt
De belofte die Google met Hummingbird heeft gedaan, wordt dus waargemaakt.
Diverse analyses en onderzoeken tonen aan dat Google steeds beter begrijpt wat de intentie van zoekopdrachten is.
Zeker bij zoekopdrachten die sterk op elkaar lijken, is duidelijk te zien dat Google na de introductie van Hummingbird steeds vaker dezelfde webpagina’s en websites als antwoord teruggeeft.
Kortom, er is wel degelijk wat te zien van het compleet vernieuwde (Hummingbird) algoritme. Google begrijpt steeds beter wat de intentie is achter zoekopdrachten, waardoor de zoekmachine steeds betere antwoorden kan geven.
Google ontwikkelt zich aantoonbaar van zoekmachine naar antwoord-machine. En dat wordt alleen maar meer zichtbaar.