ComputereProgrammering

Hvad er en crawler? crawler værktøj "Yandex" og Google

Hver dag på internettet er der en enorm mængde af nye materialer til at lave en hjemmeside opdateret de gamle websider, uploade billeder og videoer. Uden skjult fra søgemaskiner ikke kunne findes i World Wide Web, ingen af disse dokumenter. Alternativer som robot programmer på ethvert givet tidspunkt findes ikke. Hvad er en søgerobot, hvorfor du har brug for det, og hvordan man betjener?

Hvad er en søgning robot

Crawler websted (søgemaskine) - det er en automatisk program, der er i stand til at besøge de millioner af websider, hurtigt navigere gennem internettet uden nogen handling fra brugeren. Bots er konstant scanning plads af World Wide Web, finde nye websider og regelmæssigt besøg allerede indekseret. Andre navne for web crawlers edderkopper, crawlere, bots.

Hvorfor er søgemaskinespiders

De vigtigste funktioner, der udfører søgemaskinespiders - websider indekseret, samt tekst, billeder, lyd og video filer, der er på dem. Bots tjekke referencer, spejl-steder (kopier) og opdateringer. Robotterne også udføre HTML-kode kontrol for Overensstemmelsesbeslutninger standarder fra Verdensorganisationen, der udvikler og implementerer teknologiske standarder for World Wide Web.

Hvad er indeksering, og hvorfor det er nødvendigt

Indeksering - er i virkeligheden, er processen med at besøge en bestemt webside af søgemaskiner. Programmet scanner teksten på denne hjemmeside, billeder, videoer, udgående links, så vises siden i søgeresultaterne. I nogle tilfælde kan sitet ikke scannes automatisk, så det kan føjes til søgemaskinen manuelt webmaster. Typisk, det forekommer i fravær af eksterne links til en bestemt (ofte først for nylig oprettet) side.

Hvordan søgemaskinespiders

Hver søgemaskine har sin egen bot med Googles søgerobot kan variere betydeligt alt efter den mekanisme fungerer på en lignende program, "Yandex" eller andre systemer.

Generelt er en robot arbejder princip er som følger: programmet "kommer" på stedet og eksterne links fra hovedsiden, "læser" Web ressource (herunder dem, der søger over hovedet, der ikke ser brugeren). Båd er, hvordan man navigere mellem sider på et websted og gå videre til andre.

Programmet vil vælge, hvilken hjemmeside til indeks? Oftere end ikke "rejse" edderkoppen begynder med nyhedssider eller større ressource mapper og nyhedslæsere med stor henvisning vægt. Crawler scanner løbende siderne én efter én, på hastigheden og sammenhæng i at indeksere følgende faktorer:

  • Interne: perelinovka (interne forbindelser mellem sider af den samme ressource), webstedet størrelse, den rigtige kode, brugervenlig og så videre;
  • Ekstern: den samlede henvisning vægt, hvilket fører til webstedet.

Det første, de søge robot søgninger på ethvert websted af robots.txt. Yderligere ressource indeksering udføres på grundlag af de modtagne oplysninger det er fra dette dokument. Denne fil indeholder specifikke anvisninger for "spiders", der kan øge chancerne for sidebesøg af søgemaskiner, og dermed at opnå en tidlig hit site i "Yandex" eller Google.

Program analoger crawlere

Ofte udtrykket "søgerobot" er forvirret med intelligent, bruger eller autonome agenter, "myrer" eller "orme". Nedsænket signifikante forskelle kun i sammenligning med midler, andre definitioner refererer til lignende typer robotter.

For eksempel kan midler være:

  • intellektuelle: Programmet, som bevæges fra sted til sted, uafhængigt at den har handlet; de er ikke meget almindeligt på internettet;
  • Autonome: Disse agenter hjælpe brugeren med at vælge et produkt, søgning, eller udfylde formularer, de såkaldte filtre, som er lidt relateret til netværksprogrammer;.
  • bruger: Programmet bidrager til brugerinteraktion med World Wide Web, en browser (f.eks Opera, IE, Google Chrome, Firefox), budbringere (Viber, telegram) eller e-mail-programmer (MS Outlook og Qualcomm).

"Ants" og "orme" er mere lig søgemaskinen "spiders". Den første form mellem et netværk og konsekvent interagere som denne myre koloni, "orme" er i stand til at replikere i andre henseender den samme som den standard crawler.

Forskellige søgemaskine robotter

Skelne mellem mange typer af crawlere. Afhængigt af formålet med programmet, de er:

  • "Mirror" - Dubletter browser hjemmesider.
  • Mobil - fokus på mobile versioner af websider.
  • Quick - fix nye oplysninger hurtigt ved at se de seneste opdateringer.
  • Henvisning - referenceindeks, tælle deres numre.
  • Indexere forskellige typer af indhold - specifikke programmer til tekst, lyd, video, billeder.
  • "Spyware" - på udkig efter sider, der endnu ikke er vist i søgemaskinen.
  • "Woodpecker" - med jævne mellemrum besøger websteder til at kontrollere deres relevans og effektivitet.
  • National - surfe på internettet ressourcer placeret på en af landets domæner (fx mobi, eller .kz .ua).
  • Global - indeksere alle de nationale websteder.

Robotter store søgemaskiner

Der er også nogle søgemaskinespiders. I teorien kan deres funktionalitet variere meget, men i praksis programmerne er næsten identiske. De væsentligste forskelle indeksering websider robotter to store søgemaskiner er som følger:

  • Stringensen af testning. Det menes, at den mekanisme af crawler "Yandex" noget strengere estimater webstedet for overholdelse af standarderne i World Wide Web.
  • Bevarelse af lokalitetens integritet. Google crawler indekserer hele webstedet (herunder medieindhold), "Yandex" kan også se indhold selektivt.
  • Speed test nye sider. Google tilføjer ny ressource i søgeresultaterne inden for et par dage, i tilfælde af "ved Yandex" proces kan tage to uger eller mere.
  • Hyppigheden af re-indeksering. Crawler "Yandex" check for opdateringer to gange om ugen, og Google - én hver 14. dag.

Internet, naturligvis ikke begrænset til de to søgemaskiner. Andre søgemaskiner har deres robotter, der følger deres egne indeksering parametre. Derudover er der flere "spiders", der er designet ikke store søgning ressourcer, og de enkelte teams eller webmastere.

almindelige misforståelser

I modsætning til hvad mange tror, "edderkopper" ikke behandler oplysningerne. Programmet kun scanner og gemmer websider og yderligere behandling tager en helt anden robotter.

Også mange brugere mener, at søgemaskinespiders have en negativ indvirkning og "skadelig" Internet. Faktisk kan nogle versioner af "spiders" betydeligt overbelaste serveren. Der er også en menneskelig faktor - webmaster, der har oprettet programmet, kan begå fejl i robotten konfiguration. Men de fleste af de eksisterende programmer er godt designet og professionelt forvaltet, og eventuelle nye problemer straks fjernes.

Hvordan til at administrere indekseringen

Søgemaskine robotter er automatiserede programmer, men indekseringen kan delvis kontrolleret af webmaster. Dette i høj grad er med til ekstern og intern optimering af ressourcen. Derudover kan du manuelt tilføje et nyt websted til en søgemaskine: store ressourcer har en særlig form for websider registrering.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 da.delachieve.com. Theme powered by WordPress.