Een zoekmachine bouwen #4 - Server upgrade

10 juli 2018

Helaas heb ik doordeweeks (en vaak ook 's avonds) meer dingen te doen dan dit hobbyproject, daarom is het er even niet van gekomen. De vorige server was doordat ik er niet meer op gelet heb, volledig volgelopen met data. Tot op het punt dat vrijwel niets meer werkte. Gecrashte tabellen, amper schijfruimte om mee te werken en meer van zulk soort drama.

Inmiddels heb ik een nieuwe server neergezet. Een vrije nette VPS met 4 2.4GHz cores en 8GB RAM. Een schijf (volgens de specs een SSD) van 300GB, maar daarnaast 2TB opslag.

De server draait bij TransIP, waar ik eigenlijk al mijn servers host. Deze staat in het nieuwe datacenter in (volgens mij Delft), en ik moet zeggen dat het net zo vlot werkt als ik van mijn andere servers gewend ben. Eén voordeel: de eerste 3 maanden krijg ik 50% korting op de serverkosten.

Wat me overigens opvalt en positief verrast: ik heb geen last van (merkbare) latency met de externe storage. Het werkt werkelijk razendsnel en ik heb niet het idee dat het ook maar enige invloed heeft op de schrijf- en leessnelheid.

Enfin, voordat ik zover ben dat ik 2TB heb volgepompt met gecrawlde data, heb ik vast wel weer tijd gehad om er even naar te kijken. Als ik die bigstorage ooit al vol krijg.

De hogere performance van deze server is vooral te merken bij het daadwerkelijke indexeren. Zoals ik al eerder heb verteld in deze serie, werkt de crawler in twee stappen. Eerst maakt hij een extract, ofwel een verkorte versie, van de pagina. Deze wordt opgeslagen en vervolgens in stap twee gebruikt om daadwerkelijk te indexeren.

Dit concept is bedacht om ruimte te besparen. Voorlopig denk ik niet dat ik de ruimtebesparende maatregelen nog nodig heb, maar dat maakt niet uit. Ik vind het conceptueel wel goed om het op deze manier op te lossen. Later kan ik altijd nog een 'echt' cache inbouwen. Dat moet in een kwartiertje gepiept zijn.

In feite is er dus weinig aan de software zelf veranderd, maar ik laat hem lekker draaien en ga er binnenkort weer even mee aan de gang. Tegen die tijd heb ik een gevulde database en kan ik tests gaan draaien.

Overigens ben ik ook bezig geweest met een eventueel verdienmodel. Ik zal in mijn eentje niet op kunnen boksen tegen de gevestigde orde in zoekmachineland, maar de manier waarop de zoekresultaten worden gecreëerd, biedt natuurlijk wel andere kansen. Ik heb straks enorm veel data over "het web" en kan altijd kijken of bedrijven geïnteresseerd zijn in bijvoorbeeld een vergelijken van hun website met die van hun concurrenten. Ach, het is maar een los ideetje.

Al met al... de to do lijst blijft intact.

To do voor volgende update:

Als er een HTTPS variant beschikbaar is, deze prefereren boven de HTTP variant
Als er een non-www variant is, deze prefereren boven de www variant
Niet alleen de redirects op een pagina volgen, maar ook behandelen als nieuwe link
Geen rel="nofollow" links volgen
Robots.txt volgen
Penalty voor keyword stuffing d.m.v. bovenmatig kommagebruik
Extreem lange meta descriptions, titles, etc. afkorten en getrimd gedeelte niet meenemen in score
Response header opslaan bij URL (200, 404, 301, etc.)
Taalherkenning op basis van N-grams (zie
"N-gram models for language detection" door Carlos Ramisch)

Tweet deze blog:

Of Like hem op Facebook!

Twitter

Follow @edwindijk_nl

Internet Marketing

Een zoekmachine bouwen #8 - PageRank, Zoeken, etc.
Geplaatst op 5 december 2019

Een zoekmachine bouwen #7 - Backlinks & Tabellen
Geplaatst op 22 juli 2018

Een zoekmachine bouwen #6 - Full page cache
Geplaatst op 13 juli 2018

Een zoekmachine bouwen #5 - Een stap verder
Geplaatst op 11 juli 2018

Auteur: Edwin Dijk

TimeTick producten
Urenregistratie software
Gratis urenregistratie software