XML-sitemap ja robots.txt: opas oikeaan käyttöön

Xml sitemap – seopalvelu.fi

XML-sitemap ja robots.txt ovat kaksi teknistä tiedostoa, joiden olemassaolon monet sivustonpitäjät sivuuttavat – kunnes huomaavat, etteivät sivut näy Googlessa. Nämä yksinkertaiselta kuulostavat tiedostot ohjaavat hakurobotteja tehokkaasti: sitemap kertoo, mitä sivuja sivustollasi on, ja robots.txt kertoo, minne robotin ei kannata mennä. Kun ne ovat kunnossa, luot pohjan toimivalle tekniselle SEO:lle.

Mikä on XML-sitemap?

XML-sitemap on sivustosi kartta hakukoneille. Se on rakenteinen XML-tiedosto, joka listaa kaikki sivut, joiden haluat näkyvän hakutuloksissa. Tiedosto kertoo hakuroboteille muun muassa, milloin sivu on viimeksi päivitetty ja kuinka tärkeä se on suhteessa muihin sivuihin. Hakukone ei kuitenkaan ole velvollinen noudattamaan sitemappia orjallisesti – se on pikemminkin kutsu: “nämä sivut kannattaa käydä katsomassa.”

Tyypillinen sitemap-tiedosto löytyy osoitteesta yourdomain.fi/sitemap.xml tai yourdomain.fi/sitemap_index.xml. Suurilla sivustoilla sitemap voidaan jakaa useampaan osaan – yksi blogiartikkeleille, toinen tuotesivuille ja niin edelleen. Yksittäinen sitemap-tiedosto voi sisältää enintään 50 000 URL-osoitetta.

Miksi sitemap on tärkeä SEO:lle?

  • Nopea indeksointi – uudet ja päivitetyt sivut löytyvät nopeammin, kun Google tietää niiden olemassaolosta
  • Syvien sivujen löydettävyys – sivut, joihin ei johda sisäisiä linkkejä, jäisivät muuten helposti löytämättä
  • Kansainvälinen SEO – hreflang-attribuutit sitemapissa ohjaavat oikean kieliversioinnin
  • Videoiden ja kuvien indeksointi – erityiset media-sitemaps auttavat multimediasisällön löydettävyyttä

XML-sitemap ei suoraan nosta sivujasi hakutulosten kärkeen, mutta se varmistaa, että hakukoneilla on ylipäätään mahdollisuus indeksoida kaikki tärkeät sivusi. Ilman sitemappia iso osa sivustostasi saattaa jäädä täysin Googlen ulkopuolelle.

Mikä on robots.txt ja miten se eroaa sitemapista?

Robots.txt on sivustosi juuressa sijaitseva tekstitiedosto (yourdomain.fi/robots.txt), joka kertoo hakuroboteille, mitkä osat sivustosta ne saavat ryömimään ja mitkä eivät. Siinä missä XML-sitemap on kutsu – “käy nämä sivut läpi” – robots.txt on portinvartija: “sinne et pääse.”

Tärkeä huomio: robots.txt estää ryömimisen, ei indeksointia. Jos sivulle osoittaa ulkoisia linkkejä, Google saattaa silti indeksoida sen vaikka robots.txt estäisi ryömimisen. Sivun täydelliseen piilottamiseen hakutuloksista tarvitaan noindex-metatagi tai X-Robots-Tag-otsake.

Robots.txt:n perusrakenne

Yksinkertaisimmillaan robots.txt näyttää tältä:

  • User-agent: * – koskee kaikkia hakurobotteja
  • Disallow: /wp-admin/ – estä pääsy admin-hakemistoon
  • Disallow: /checkout/ – estä verkkokaupan kassasivut
  • Allow: /wp-admin/admin-ajax.php – salli tietty poikkeus
  • Sitemap: https://yourdomain.fi/sitemap.xml – viittaa sitemapiin

XML-sitemapping luominen WordPressillä ja Yoastilla

Hyvä uutinen WordPress-käyttäjille: jos sivustollasi on Yoast SEO -laajennus, sitemap generoidaan automaattisesti. Sinun ei tarvitse kirjoittaa XML:ää käsin.

Sitemapp aktivointi Yoastissa

  • Mene WordPress-ylläpidossa SEO → Asetukset → XML-sivustokartat
  • Varmista, että XML-sivustokartat on kytketty päälle
  • Klikkaa ?-kuvaketta ja sen jälkeen Katso XML-sivustokartta tarkistaaksesi, että sitemap toimii
  • Voit sulkea tietyt sisältötyypit sitemapista saman näkymän kautta

Yoast luo automaattisesti erillisiä sitemapeja eri sisältötyypeille: sivuille, artikkeleille, kategorioille ja tageille. Suosittelen sulkemaan kategorioiden ja tagien sitemapat, ellei niillä ole itsenäistä SEO-arvoa – ne voivat tuoda indeksiin heikkolaatuisia sivuja.

Robots.txt muokkaaminen Yoastilla

Yoast mahdollistaa robots.txt:n muokkaamisen suoraan WordPressin sisältä: SEO → Työkalut → Tiedostoeditori. Muista aina pitää User-agent: * ensimmäisenä rivinä ja lisätä viittaus sitemapiin tiedoston loppuun.

Sitemapp lähettäminen Google Search Consoleen

Sitemapping luominen ei riitä – se täytyy myös ilmoittaa Googlelle. Tähän käytetään Google Search Consolea, joka on Googlen ilmainen työkalu sivuston hakukonenäkyvyyden seurantaan.

  • Kirjaudu Google Search Consoleen osoitteessa search.google.com/search-console
  • Valitse oikea sivusto vasemmasta valikosta
  • Mene Indeksointi → Sivustokartat
  • Kirjoita sitemappisi URL-osoite (esim. sitemap.xml) ja klikkaa Lähetä
  • Google ilmoittaa, onko sitemap löydetty ja kuinka monta URL-osoitetta on indeksoitu

Sitemapping lähettäminen on kertaluonteinen toimenpide – Yoast ja muut lisäosat päivittävät tiedostoa automaattisesti aina kun lisäät uuden sivun tai artikkelin. Googlen robotit hakevat päivitetyn version säännöllisesti.

Yleiset virheet XML-sitemapissa ja robots.txt:ssä

Tässä tyypillisimmät sudenkuopat, jotka kannattaa tarkistaa. Ne ovat osa laajempaa teknistä SEO-tarkistuslistaa.

Sitemappiin liittyvät virheet

  • Ei-indeksoitavat sivut sitemapissa – noindex-sivuja ei saa listata sitemapissa, sillä se luo ristiriidan
  • Uudelleenohjatut URL:t – sitemap ei saa sisältää sivuja, joista on 301-uudelleenohjaus; listaa aina lopullinen URL
  • Vanhat URL:t – poistettujen sivujen URL:t on poistettava sitemapista
  • Väärin ajoitettu lastmod – älä päivitä lastmod-aikaleimaa, ellei sivu oikeasti ole muuttunut; väärennetyt aikaleimat heikentävät Googlen luottamusta
  • Puuttuva sitemap robots.txt:ssä – lisää aina Sitemap:-rivi

Robots.txt:n virheet

  • Koko sivuston estäminenDisallow: / estää kaiken indeksoinnin; tarkista erityisesti staging-ympäristöt ennen tuotantoon siirtoa
  • Tärkeän sisällön estäminen – CSS- ja JS-tiedostojen estäminen voi haitata Googlen kykyä renderöidä sivusto
  • Kirjoitusvirheet – robots.txt on case-sensitive; Disallow: /Admin/ ei estä /admin/
  • Luottamus pelkkään robots.txt:hen – muista, että se ei piilota sivua hakutuloksista, vain estää ryömimisen

Kuinka tarkistaa, onko sitemap indeksoitu oikein?

Kun olet lähettänyt sitemapping Search Consoleen, seuraa tilannetta muutaman päivän kuluttua. Mene Indeksointi → Sivustokartat ja tarkista:

  • Lähetetyt URL:t vs. indeksoidut URL:t – jos indeksoitujen määrä on huomattavasti pienempi kuin lähetettyjen, osalla sivuistasi on ongelma
  • Tilastot – Search Console kertoo, onko sivu löydetty, indeksoitu vai jätetty indeksoimatta, ja miksi
  • Sivustokarttavirheet – XML-muotovirheet tai saavuttamattomat URL:t näkyvät punaisina virheinä

Yksittäisen URL:n indeksointitilan voi tarkistaa myös Search Consolen URL-tarkistustyökalulla. Syötä osoite hakukenttään ja näet, onko Google indeksoinut sivun, milloin se on viimeksi ryömitty ja onko sivulla ongelmia. Tätä kannattaa käyttää erityisesti uusien tärkeiden laskeutumissivujen tarkistukseen heti julkaisun jälkeen.

Jos huomaat, että jotain tärkeää sivua ei ole indeksoitu, syy löytyy yleensä yhdestä kolmesta asiasta: sivu on estetty robots.txt:ssä, sivulla on noindex-metatagi tai sivun sisällöllinen laatu on niin heikko, ettei Google katso sen ansaitsevan paikkaa hakemistossaan. Viimeisin on se, johon on vaikein vaikuttaa pelkillä teknisillä toimenpiteillä – silloin sisältöä pitää parantaa.

Tarkistuslista: ovatko tiedostosi kunnossa?

Käy nämä kohdat läpi omalla sivustollasi:

  • Sitemap löytyy osoitteesta /sitemap.xml tai /sitemap_index.xml
  • Sitemap sisältää vain indeksoitavat, live-sivut
  • Sitemap on lähetetty Google Search Consoleen
  • Robots.txt löytyy osoitteesta /robots.txt
  • Robots.txt ei estä tärkeitä sivuja tai resursseja
  • Robots.txt:ssä on viittaus sitemapiin
  • Search Consolessa ei ole indeksointivirheitä sitemappiin liittyen

Kun nämä perusasiat ovat kunnossa, hakuroboteilla on selkeä kartta sivustostasi ja tekniset esteet on minimoitu. Tämä ei takaa kärkisijoituksia, mutta varmistaa, että kaikki muu SEO-työ voi ylipäätään tuottaa tuloksia.

Lue myös

Analysoi oman sivustosi SEO ilmaiseksi

Haluatko tietää, miten oma verkkosivustosi pärjää hakukoneissa? Tee maksuton analyysi WebSEO Auditor -työkalulla ja saat heti konkreettiset kehityskohteet näkyvyytesi parantamiseksi. Voit myös pyytää ilmaisen SEO-auditoinnin asiantuntijaltamme.

Usein kysytyt kysymykset

Mikä on XML-sitemap ja miksi tarvitsen sen?

XML-sitemap on tiedosto, joka listaa sivustosi kaikki tärkeät sivut hakukoneille. Se nopeuttaa uusien sivujen indeksointia ja auttaa erityisesti syvälle linkkihierarkiaan hautautuneiden sivujen löydettävyyttä.

Missä robots.txt-tiedosto sijaitsee?

Robots.txt sijaitsee aina sivuston juuressa, osoitteessa yourdomain.fi/robots.txt. Sen täytyy olla juuri siellä, muussa paikassa sijaitsevaa tiedostoa ei tunnisteta.

Estääkö robots.txt sivun näkymisen Googlessa?

Ei välttämättä. Robots.txt estää sivun ryömimisen, mutta jos sivulle osoittaa ulkoisia linkkejä, Google saattaa silti indeksoida sen. Täydelliseen piilottamiseen tarvitaan noindex-metatagi.

Miten sitemap lähetetään Google Search Consoleen?

Kirjaudu Search Consoleen, valitse sivustosi, mene Indeksointi → Sivustokartat ja syötä sitemappisi osoite (esim. sitemap.xml). Google tarkistaa sen välittömästi ja seuraa päivityksiä automaattisesti.

Luoko WordPress sitemapping automaattisesti?

WordPress itsessään ei luo sitemappia, mutta Yoast SEO -laajennus generoi sen automaattisesti. Myös muut SEO-laajennukset kuten Rank Math ja All in One SEO tarjoavat saman toiminnon.