Spideri ja veebi indeksointide määratlus

Spiders and Web Crawlers: Mida peate teadma, et kaitsta veebisaidi andmeid

Ämblikud on programmid (või automaatsed skriptid), mis indekseerivad veebi otsivad andmeid. Ämblikud reisivad veebisaidi URL-ide kaudu ja saavad tõmmata andmeid veebisaitidelt, nagu näiteks e-posti aadressid. Ämblikke kasutatakse ka veebisaitidele otsingumootorites leiduva teabe edastamiseks.

Spiders, mida nimetatakse ka veebiotsijatele, otsivad veebist, mitte kõik on sõbralikud.

Rämpsposti saatjad Spider veebisaidid teabe kogumiseks

Google, Yahoo!

ja teised otsingumootorid ei ole ainsad, kes on huvitatud veebisaitide indekseerimisest - nii on ka petturid ja rämpspostitajad.

Rämpspostitel kasutavad ämblikud ja muud automaatsed tööriistad, et leida e-posti aadresse (Internetis seda tava nimetatakse sageli "koristuseks") veebisaitidel ja seejärel neid rämpsposti loendite loomiseks.

Spiders on ka veebisaidi kohta lisateabe leidmiseks kasutatav otsingumootorite tööriist, kuid jäetud ilma märgistamata veebisaidi ilma juhisteta (või "õiguste") selle kohta, kuidas saidi indekseerida, võib tekitada olulisi infoturbe riske. Ämblikud reisivad järgnevatel linkidel ja nad on väga otstarbekad leida linke andmebaasidele, programmifailidele ja muule teabele, millele te ei soovi, et neil oleks juurdepääs.

Webmasterid saavad vaadata logisid, et näha, millised ämblikud ja teised robotid külastasid oma saite. See teave aitab veebimeistreid teada, kes oma saidi indekseerib ja kui tihti.

See teave on kasulik, kuna see võimaldab veebimeistritel oma SEO-i täpse häälestamise ja robot.txt-failide värskendamise keelata teatud roboteid nende saidi indekseerimise eest tulevikus.

Näpunäiteid oma veebisaidi kaitsest soovimatud robot indekseerijale

Soovimatute indeksoijat ei ole veebisaidilt piisavalt lihtne hoida. Isegi kui te ei ole mures veebisaidi indekseerimise pärast pahatahtlike ämblikena (e-posti aadressi hävitamine ei kaitse teid enamikelt indekseerijatest), peaksite siiski andma otsingumootoritele olulisi juhiseid.

Kõikidel veebisaitidel peaks olema fail, mis asub juurkataloogis robots.txt failina. See fail võimaldab teil juhendada veebihäireid, kui soovite, et need näeksid indeksilehekülgi (kui konkreetse lehe metaandmeid ei ole indekseeritud), kui need on otsingumootorid.

Kui soovid sirvida ka soovitud indeksoijat, võite ka neile öelda, kus nad ei pruugi minna ja isegi blokeerida konkreetseid indekseerib kogu veebisaidilt.

Tähtis on meeles pidada, et robots.txt-faili hästi kokku pandud fail on otsingumootorite jaoks tohutu väärtusega ja võib isegi olla teie veebisaidi jõudluse parandamise võtmeelement, kuid mõned robot-indekseerijad ignoreerivad teie juhiseid ikkagi. Sel põhjusel on oluline, et kogu teie tarkvara, pistikprogrammid ja rakendused oleksid kogu aeg ajakohased.

Seotud artiklid ja teave

Tulenevalt ebameeldivatest (rämpspostitaotlustest) kasutatavast teabe kogumisest võeti 2003. aastal vastu õigusaktid, mille eesmärk oli muuta teatavad toimingud ebaseaduslikuks. Need tarbijakaitseseadused kuuluvad 2003. aasta CAN-SPAMi seaduse alla.

On oluline, et võtaksite aega CAN-SPAMi seaduse lugemiseks, kui teie ettevõte tegeleb massposti või teabe kogumisega.

Lisateavet rämpspostivastaste seaduste kohta ja rämpspostiga tegelevate isikutega saate teada ja mida te ettevõtte omanikena ei pruugi lugeda järgmist artikleid: