Suurimman osan ajasta, kun sinun täytyy estää pääsy SeekportBot tai muita crawl bots verkkosivustolla syyt ovat yksinkertaiset. Verkkohämähäkki tekee liian monta pääsyä lyhyessä ajassa ja pyytää verkkopalvelimen resursseja tai se tulee hakukoneesta, jossa et halua verkkosivustosi indeksoitavan.
Se on erittäin hyödyllinen verkkosivustolle, jolla indeksointirobotit vierailevat. Nämä verkkohämähäkit on suunniteltu tutkimaan, käsittelemään ja indeksoimaan verkkosivujen sisältöä hakukoneissa. Google ja Bing käyttävät tällaisia indeksointirobotteja. On kuitenkin myös hakukoneita, jotka keräävät tietoja verkkosivuilta robottien avulla. Seekport on yksi näistä hakukoneista, joka käyttää SeekportBot-indeksointirobottia verkkosivujen indeksointiin. Valitettavasti se käyttää sitä joskus liikaa ja luo tarpeetonta liikennettä.
Sisältö
Mikä SeekportBot on?
SeekportBot on web crawler yrityksen kehittämä Seekport, joka sijaitsee Saksassa (mutta käyttää IP-osoitteita useista maista, mukaan lukien Suomesta). Tätä bottia käytetään verkkosivustojen indeksointiin, jotta ne voidaan näyttää hakukoneiden tuloksissa. Seekport. Ei toimiva hakukone, sikäli kuin voin kertoa. Minulle se ei ainakaan antanut tuloksia millään avainsaavalla.
SeekportBot käyttötarkoituksiin user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Kuinka estää SeekportBotin tai muiden indeksointirobottien pääsy verkkosivustolle
Jos olet tullut siihen tulokseen, että tämä verkkohämähäkki tai jokin muu, sinun ei tarvitse skannata koko verkkosivustoasi ja tehdä tarpeetonta liikennettä verkkopalvelimelle, sinulla on useita tapoja estää niiden pääsy.
Palomuuri verkkopalvelintasolla
Ne ovat palomuurisovelluksia open-source jotka voidaan asentaa käyttöjärjestelmiin Linux ja se voidaan määrittää estämään liikenne useiden kriteerien perusteella. IP-osoite, sijainti, portit, protokollat tai käyttäjäagentti.
APF (Advanced Policy Firewall) on sellainen ohjelmisto, jonka avulla voit estää ei-toivotut robotit palvelintasolla.
Koska SeekportBot ja muut verkkohämähäkit käyttävät useita IP-osoitteita, tehokkain estosääntö perustuu "user agent". Joten jos haluat estää pääsyn SeekportBot keinoin APF, sinun tarvitsee vain muodostaa yhteys verkkopalvelimeen kautta SSHja lisää suodatinsääntö määritystiedostoon.
1. Avaa asetustiedosto painikkeella nano (tai toiselta kustantajalta).
sudo nano /etc/apf/conf.apf
2. Etsi rivi, joka alkaa "IG_TCP_CPORTS" ja lisää tämän rivin loppuun käyttäjäagentti, jonka haluat estää, ja sen jälkeen pilkku. Jos esimerkiksi haluat estää user agent "SeekportBot", rivin pitäisi näyttää tältä:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Tallenna tiedosto ja käynnistä APF-palvelu uudelleen.
sudo systemctl restart apf.service
"SeekportBot" -käyttö estetään.
Suodattaa web crawls Cloudflaren avulla – Estä SeekportBotin pääsy
Cloudflaren avulla se näyttää minusta turvallisimmalta ja kätevimmäksi menetelmäksi, jolla voit rajoittaa joidenkin robottien pääsyä verkkosivustolle eri tavoin. Menetelmä, jota käytin myös tapauksessa SeekportBot suodattaa liikennettä verkkokauppaan.
Olettaen, että verkkosivusto on jo lisätty Cloudflareen ja DNS-palvelut on aktivoitu (eli liikenne verkkosivustolle kulkee Cloudflaren kautta), noudata alla olevia ohjeita:
1. Avaa Clouflare-tilisi ja siirry verkkosivustolle, jonka käyttöä haluat rajoittaa.
2. Siirry osoitteeseen: Security → WAF ja lisää uusi sääntö. Create rule.
3. Valitse uudelle säännölle nimi, Field: User Agent - Operator: Contains - Value: SeekportBot (tai muu botin nimi) - Choose action: Block - Deploy.
Muutamassa sekunnissa uusi sääntö WAF (Web Application Firewall) se alkaa vaikuttaa.
Teoriassa voidaan määrittää, kuinka usein verkkohämähäkki käyttää sivustoa robots.txt, mutta... se on vain teoriassa.
User-agent: SeekportBot
Crawl-delay: 4
Monet web crawlerii (paitsi Bing ja Google) eivät noudata näitä sääntöjä.
Yhteenvetona voidaan todeta, että jos tunnistat Web-indeksoinnin, joka käyttää sivustoasi liikaa, on parasta estää sen täydellinen käyttö. Tietenkin, jos tämä botti ei ole peräisin hakukoneesta, jossa olet kiinnostunut olemasta läsnä.