Kuinka estää pääsy SeekportBotiin tai muuhun crawKlikkasin verkkosivustoa

Suurimman osan ajasta, kun sinun täytyy estää pääsy SeekportBot tai muita crawl bots verkkosivustolla syyt ovat yksinkertaiset. Verkkohämähäkki tekee liian monta pääsyä lyhyessä ajassa ja pyytää verkkopalvelimen resursseja tai se tulee hakukoneesta, jossa et halua verkkosivustosi indeksoitavan.

Se on erittäin hyödyllistä verkkosivustolle, jolla crawTörmäsin häneen. Nämä verkkohämähäkit on suunniteltu tutkimaan, käsittelemään ja indeksoimaan verkkosivujen sisältöä hakukoneissa. Google ja Bing käyttävät tällaisia ​​crawTörmäsin häneen. On kuitenkin myös hakukoneita, jotka keräävät tietoja verkkosivuilta robottien avulla. Seekport on yksi näistä hakukoneista, joka käyttää crawSeekportBot ler web-sivujen indeksointiin. Valitettavasti se käyttää sitä joskus liikaa ja luo tarpeetonta liikennettä.

Mikä SeekportBot on?

SeekportBot on web crawler yrityksen kehittämä Seekport, joka sijaitsee Saksassa (mutta käyttää IP-osoitteita useista maista, mukaan lukien Suomesta). Tätä bottia käytetään verkkosivustojen indeksointiin, jotta ne voidaan näyttää hakukoneiden tuloksissa. Seekport. Ei toimiva hakukone, sikäli kuin voin kertoa. Minulle se ei ainakaan antanut tuloksia millään avainsaavalla.

SeekportBot käyttötarkoituksiin user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Kuinka estää pääsy SeekportBotiin tai muuhun crawKlikkasin verkkosivustoa

Jos olet tullut siihen tulokseen, että tämä verkkohämähäkki tai jokin muu, sinun ei tarvitse skannata koko verkkosivustoasi ja tehdä tarpeetonta liikennettä verkkopalvelimelle, sinulla on useita tapoja estää niiden pääsy.

Palomuuri verkkopalvelintasolla

Ne ovat palomuurisovelluksia open-source jotka voidaan asentaa käyttöjärjestelmiin Linux ja se voidaan määrittää estämään liikenne useiden kriteerien perusteella. IP-osoite, sijainti, portit, protokollat ​​tai käyttäjäagentti.

APF (Advanced Policy Firewall) on sellainen ohjelmisto, jonka avulla voit estää ei-toivotut robotit palvelintasolla.

Koska SeekportBot ja muut verkkohämähäkit käyttävät useita IP-osoitteita, tehokkain estosääntö perustuu "user agent". Joten jos haluat estää pääsyn SeekportBot keinoin APF, sinun tarvitsee vain muodostaa yhteys verkkopalvelimeen kautta SSHja lisää suodatinsääntö määritystiedostoon.

1. Avaa asetustiedosto painikkeella nano (tai toiselta kustantajalta).

sudo nano /etc/apf/conf.apf

2. Etsi rivi, joka alkaa "IG_TCP_CPORTS" ja lisää tämän rivin loppuun käyttäjäagentti, jonka haluat estää, ja sen jälkeen pilkku. Jos esimerkiksi haluat estää user agent "SeekportBot", rivin pitäisi näyttää tältä:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Tallenna tiedosto ja käynnistä APF-palvelu uudelleen.

sudo systemctl restart apf.service

"SeekportBot" -käyttö estetään.

Suodattaa web crawls Cloudflaren avulla – Estä SeekportBotin pääsy

Cloudflaren avulla se näyttää minusta turvallisimmalta ja kätevimmäksi menetelmäksi, jolla voit rajoittaa joidenkin robottien pääsyä verkkosivustolle eri tavoin. Menetelmä, jota käytin myös tapauksessa SeekportBot suodattaa liikennettä verkkokauppaan.

Olettaen, että verkkosivusto on jo lisätty Cloudflareen ja DNS-palvelut on aktivoitu (eli liikenne verkkosivustolle kulkee Cloudflaren kautta), noudata alla olevia ohjeita:

1. Avaa Clouflare-tilisi ja siirry verkkosivustolle, jonka käyttöä haluat rajoittaa.

2. Siirry osoitteeseen: Security → WAF ja lisää uusi sääntö. Create rule.

3. Valitse uudelle säännölle nimi, Field: User Agent - Operator: Contains - Value: SeekportBot (tai muu botin nimi) - Choose action: Block - Deploy.

Kuinka estää SeekportBotin pääsy
Estä pääsy SeekportBotiin Cloudflaresta

Muutamassa sekunnissa uusi sääntö WAF (Web Application Firewall) se alkaa vaikuttaa.

Palomuuritapahtumat Cloudflaressa
Palomuuritapahtumat Cloudflaressa

Teoriassa voidaan määrittää, kuinka usein verkkohämähäkki käyttää sivustoa robots.txt, mutta... se on vain teoriassa.

User-agent: SeekportBot
Crawl-delay: 4

Monet web crawlerii (paitsi Bing ja Google) eivät noudata näitä sääntöjä.

Lopuksi, jos tunnistat verkon crawJos käytät sivustoasi liikaa, on parasta estää hänen pääsynsä kokonaan. Tietenkin, jos tämä botti ei ole peräisin hakukoneesta, jossa olet kiinnostunut olemasta läsnä.

Teknologiasta kiinnostunut, kirjoitan mielelläni StealthSettings.com-sivustolla vuodesta 2006. Minulla on laaja kokemus käyttöjärjestelmistä: macOS, Windows ja Linux, sekä ohjelmointikielistä ja blogialustoista (WordPress) ja verkkokaupoista (WooCommerce, Magento, PrestaShop).

Miten » net Surfing » Kuinka estää pääsy SeekportBotiin tai muuhun crawKlikkasin verkkosivustoa
Jätä kommentti