Een zoekmachine bouwen #7 - Backlinks & Tabellen

22 juli 2018

Waar ik tot nog toe geen aandacht aan heb geschonken: backlinks. Er is ook een goede reden voor, namelijk de tijd van het berekenen hiervan. Wat ik nu heb gedaan, is een eerste stap naar een PageRank-achtig systeem.

In eerste instantie ben ik nu aan het bepalen hoeveel absolute backlinks er zijn, waarbij ik dus één backlink per domein reken. Als op voorbeeldA.nl bijvoorbeeld 12 backlinks naar voorbeeldB.nl staan, reken ik er maar 1. Het is namelijk maar 1 unieke bron, ongeacht de hoeveelheid.

Op dit moment staat de teller op 3,1% van de totale data die ik heb. En nu al heeft Facebook welgeteld 46673 backlinks te pakken van unieke domeinnamen, Twitter 35841 en Instagram 12165. Mocht er dus nog een dorpsgek rondlopen die wil beweren dat social media geen echte rol in het leven speelt... in - your - face.

3,1% is ca. 101.000 domeinnamen. Heftig, want dat betekent dat 46% van de domeinnamen die nu voorbij gekomen zijn een backlink hebben naar Facebook.com. Ik ben benieuwd in hoeverre dat cijfer nog verandert wanneer er meer data binnen is. Mijn hypothese op dit moment is dat dit getal wel gaat zakken, omdat de populatie op dit moment nog niet representatief is.

Waarom denk ik dat? De eerste 100.000 websites zijn zonder meer de websites die het snelst gevonden zijn, dus waarschijnlijk het meest actief, wat er toe leidt dat ze beter onderhouden zijn en op alle fronten moderner. En een moderne website... daar hoort Facebook natuurlijk bij. Binnen enkele uren weet ik het.

Langzamerhand begin ik wel steeds meer toepassingen te zien voor de data die ik verzamel:

  • ik weet precies welke domeinnamen over SSL lopen
  • ik weet welke domeinnamen het meest interessant zijn om een backlink van te krijgen
  • ik weet de connectiesnelheden van de servers waar de websites op draaien
  • ik heb de data om text mining toe te passen en websites te clusteren op onderwerp
  • en nog veel meer

Dit zijn natuurlijk zaken die met name interessant zijn voor commerciële partijen. Neem bijvoorbeeld de SSL verbindingen... er zijn vast wel webdesignbureaus die hierin geïnteresseerd zijn. Een website zonder SSL is commercieel gezien not done tegenwoordig en wordt meer en meer afgestraft, met Google voorop.

De enige interessante data voor die doelgroep die ik op dit moment niet verzamel, is of de websites responsive zijn. Wanneer je een website hebt die niet responsive is en ook geen gebruik maakt van SSL, kan het wel eens interessant zijn om ze te bellen. Zeker wanneer het backlinkprofiel aangeeft dat de websites wel bezocht worden, of er in ieder geval naar verwezen wordt. Een snelle, simpele hack om dat te doen, lijkt mij door te controleren of ze gebruik maken van Bootstrap. Niet 100% accuraat, maar waarschijnlijk wel >95%.

Ik had gedacht ondertussen al dieper in websites te gaan crawlen, maar daar ben ik nog niet eens aan toe gekomen. Tot nu toe is het veel leuker om bezig te zijn met de huidige dataset en te kijken welke data ik er nog niet uitgehaald heb. Dat vormt vervolgens de basis voor andere zaken. Ook moet de manier waarop de scores en de keywords worden opgeslagen nog aangepast worden. Al met al: genoeg te doen.

Tabellen

Zoals eerder gezegd, is het verstandiger om de tabellen verder uit te splitsen. Op dit moment heb ik dat gedaan door keywords onder hun alfanumerieke beginletter op te slaan. Dat wil zeggen, het woord "banaan" wordt opgeslagen in de tabel phrase_b_1w. Dat laatste deel wil zeggen dat het een enkel keyword is. Er zijn ook 2w en 3w varianten.

Op basis van de 3w varianten kan ik teksten met relatief hoge waarschijnlijkheid aan elkaar koppelen. Als er gezocht wordt op "bananen zijn heel lekker", dan ga ik er vanuit dat als ik op "bananen zijn heel" en "zijn heel lekker" zoek, dat die overlap ervoor zorgt dat mijn resultaat klopt. 100% accuraat is het niet, maar op dit moment wel een haalbare, efficiënte oplossing. :-)

Het nadeel is natuurlijk wel, dat de index wéér opnieuw opgebouwd moet worden. Maar hopelijk blijft de snelheid er lekker in op deze manier.

More to come...

Database & Data

Via een aantal sites heb ik lijsten met domeinnamen geïmporteerd. De meeste had ik al gevonden, maar niet allemaal. Er zijn er ongeveer 100.000 bijgekomen, waardoor ik weer een nieuw startpunt heb om verder te gaan crawlen.

De database ziet er als volgt uit:

Tabel Oplopend Rijen  Type Collatie Grootte Overhead
blocked 13  MyISAM  utf8mb4_general_ci 2,3 KiB
cache 3,493,015  MyISAM  latin1_swedish_ci 18,3 GiB
domain 3,629,684  MyISAM  utf8mb4_general_ci 264,3 MiB
full_cache 3,229,915  MyISAM  utf8mb4_general_ci 228,1 GiB
link 5,099,146  MyISAM  latin1_swedish_ci 0,9 GiB
link_backup 807,976  MyISAM  latin1_swedish_ci 152,5 MiB
phrase_0_1w 6,687  MyISAM  utf8mb4_general_ci 1,9 MiB
phrase_0_2w 47,290  MyISAM  utf8mb4_general_ci 13 MiB
phrase_0_3w 80,299  MyISAM  utf8mb4_general_ci 22,4 MiB
phrase_1_1w 15,438  MyISAM  utf8mb4_general_ci 4,3 MiB
phrase_1_2w 78,955  MyISAM  utf8mb4_general_ci 21,7 MiB
phrase_1_3w 139,992  MyISAM  utf8mb4_general_ci 39,1 MiB
phrase_2_1w 17,336  MyISAM  utf8mb4_general_ci 4,9 MiB
phrase_2_2w 87,996  MyISAM  utf8mb4_general_ci 24,4 MiB
phrase_2_3w 158,810  MyISAM  utf8mb4_general_ci 44,4 MiB
phrase_3_1w 9,453  MyISAM  utf8mb4_general_ci 2,6 MiB
phrase_3_2w 37,718  MyISAM  utf8mb4_general_ci 10,3 MiB
phrase_3_3w 60,014  MyISAM  utf8mb4_general_ci 16,8 MiB
phrase_4_1w 8,179  MyISAM  utf8mb4_general_ci 2,2 MiB
phrase_4_2w 28,817  MyISAM  utf8mb4_general_ci 7,9 MiB
phrase_4_3w 41,571  MyISAM  utf8mb4_general_ci 11,6 MiB
phrase_5_1w 8,955  MyISAM  utf8mb4_general_ci 2,5 MiB
phrase_5_2w 29,574  MyISAM  utf8mb4_general_ci 8,1 MiB
phrase_5_3w 43,956  MyISAM  utf8mb4_general_ci 12,3 MiB
phrase_6_1w 6,654  MyISAM  utf8mb4_general_ci 1,8 MiB
phrase_6_2w 21,237  MyISAM  utf8mb4_general_ci 5,8 MiB
phrase_6_3w 29,218  MyISAM  utf8mb4_general_ci 8,2 MiB
phrase_7_1w 4,636  MyISAM  utf8mb4_general_ci 1,3 MiB
phrase_7_2w 17,629  MyISAM  utf8mb4_general_ci 4,9 MiB
phrase_7_3w 25,490  MyISAM  utf8mb4_general_ci 7,2 MiB
phrase_8_1w 4,030  MyISAM  utf8mb4_general_ci 1,1 MiB
phrase_8_2w 16,020  MyISAM  utf8mb4_general_ci 4,4 MiB
phrase_8_3w 22,038  MyISAM  utf8mb4_general_ci 6,2 MiB
phrase_9_1w 3,372  MyISAM  utf8mb4_general_ci 945,8 KiB
phrase_9_2w 14,220  MyISAM  utf8mb4_general_ci 3,9 MiB
phrase_9_3w 20,633  MyISAM  utf8mb4_general_ci 5,8 MiB
phrase_a_1w 61,778  MyISAM  utf8mb4_general_ci 16,8 MiB
phrase_a_2w 421,149  MyISAM  utf8mb4_general_ci 115,1 MiB
phrase_a_3w 776,293  MyISAM  utf8mb4_general_ci 215,2 MiB
phrase_b_1w 78,974  MyISAM  utf8mb4_general_ci 21,5 MiB
phrase_b_2w 475,213  MyISAM  utf8mb4_general_ci 129,8 MiB
phrase_b_3w 768,699  MyISAM  utf8mb4_general_ci 213,7 MiB
phrase_c_1w 54,301  MyISAM  utf8mb4_general_ci 14,8 MiB
phrase_c_2w 320,107  MyISAM  utf8mb4_general_ci 87,6 MiB
phrase_c_3w 470,345  MyISAM  utf8mb4_general_ci 131 MiB
phrase_d_1w 53,925  MyISAM  utf8mb4_general_ci 14,7 MiB
phrase_d_2w 400,925  MyISAM  utf8mb4_general_ci 109,5 MiB
phrase_d_3w 853,725  MyISAM  utf8mb4_general_ci 236,2 MiB
phrase_e_1w 36,809  MyISAM  utf8mb4_general_ci 10 MiB
phrase_e_2w 322,502  MyISAM  utf8mb4_general_ci 88,1 MiB
phrase_e_3w 761,399  MyISAM  utf8mb4_general_ci 210,4 MiB
phrase_f_1w 34,573  MyISAM  utf8mb4_general_ci 9,4 MiB
phrase_f_2w 199,886  MyISAM  utf8mb4_general_ci 54,6 MiB
phrase_f_3w 315,435  MyISAM  utf8mb4_general_ci 87,6 MiB
phrase_g_1w 43,775  MyISAM  utf8mb4_general_ci 11,9 MiB
phrase_g_2w 267,582  MyISAM  utf8mb4_general_ci 73,3 MiB
phrase_g_3w 460,074  MyISAM  utf8mb4_general_ci 127,8 MiB
phrase_h_1w 45,051  MyISAM  utf8mb4_general_ci 12,2 MiB
phrase_h_2w 301,929  MyISAM  utf8mb4_general_ci 82,6 MiB
phrase_h_3w 558,871  MyISAM  utf8mb4_general_ci 155 MiB
phrase_i_1w 42,038  MyISAM  utf8mb4_general_ci 11,5 MiB
phrase_i_2w 240,166  MyISAM  utf8mb4_general_ci 65,8 MiB
phrase_i_3w 524,410  MyISAM  utf8mb4_general_ci 145,1 MiB
phrase_j_1w 15,397  MyISAM  utf8mb4_general_ci 4,2 MiB
phrase_j_2w 105,028  MyISAM  utf8mb4_general_ci 28,7 MiB
phrase_j_3w 215,272  MyISAM  utf8mb4_general_ci 59,5 MiB
phrase_k_1w 49,746  MyISAM  utf8mb4_general_ci 13,5 MiB
phrase_k_2w 220,181  MyISAM  utf8mb4_general_ci 60,3 MiB
phrase_k_3w 355,153  MyISAM  utf8mb4_general_ci 98,8 MiB
phrase_l_1w 39,161  MyISAM  utf8mb4_general_ci 10,6 MiB
phrase_l_2w 229,614  MyISAM  utf8mb4_general_ci 62,7 MiB
phrase_l_3w 370,857  MyISAM  utf8mb4_general_ci 102,9 MiB
phrase_m_1w 61,620  MyISAM  utf8mb4_general_ci 16,8 MiB
phrase_m_2w 376,630  MyISAM  utf8mb4_general_ci 103 MiB
phrase_m_3w 654,166  MyISAM  utf8mb4_general_ci 181,5 MiB
phrase_n_1w 33,993  MyISAM  utf8mb4_general_ci 9,3 MiB
phrase_n_2w 205,220  MyISAM  utf8mb4_general_ci 56,2 MiB
phrase_n_3w 378,210  MyISAM  utf8mb4_general_ci 105 MiB
phrase_o_1w 35,284  MyISAM  utf8mb4_general_ci 9,6 MiB
phrase_o_2w 324,687  MyISAM  utf8mb4_general_ci 88,6 MiB
phrase_o_3w 718,534  MyISAM  utf8mb4_general_ci 198,6 MiB
phrase_p_1w 59,767  MyISAM  utf8mb4_general_ci 16,3 MiB
phrase_p_2w 333,505  MyISAM  utf8mb4_general_ci 91,2 MiB
phrase_p_3w 504,901  MyISAM  utf8mb4_general_ci 140,5 MiB
phrase_q_1w 3,211  MyISAM  utf8mb4_general_ci 888,3 KiB
phrase_q_2w 13,951  MyISAM  utf8mb4_general_ci 3,8 MiB
phrase_q_3w 18,896  MyISAM  utf8mb4_general_ci 5,3 MiB
phrase_r_1w 41,859  MyISAM  utf8mb4_general_ci 11,4 MiB
phrase_r_2w 227,102  MyISAM  utf8mb4_general_ci 62,1 MiB
phrase_r_3w 327,952  MyISAM  utf8mb4_general_ci 91,4 MiB
phrase_s_1w 98,400  MyISAM  utf8mb4_general_ci 26,7 MiB
phrase_s_2w 518,029  MyISAM  utf8mb4_general_ci 141,7 MiB
phrase_s_3w 798,848  MyISAM  utf8mb4_general_ci 222,1 MiB
phrase_t_1w 52,919  MyISAM  utf8mb4_general_ci 14,4 MiB
phrase_t_2w 333,976  MyISAM  utf8mb4_general_ci 91,2 MiB
phrase_t_3w 635,489  MyISAM  utf8mb4_general_ci 175,8 MiB
phrase_u_1w 12,389  MyISAM  utf8mb4_general_ci 3,4 MiB
phrase_u_2w 102,755  MyISAM  utf8mb4_general_ci 28,1 MiB
phrase_u_3w 235,099  MyISAM  utf8mb4_general_ci 65 MiB
phrase_v_1w 51,784  MyISAM  utf8mb4_general_ci 14,1 MiB
phrase_v_2w 387,495  MyISAM  utf8mb4_general_ci 105,9 MiB
phrase_v_3w 802,726  MyISAM  utf8mb4_general_ci 222,4 MiB
phrase_w_1w 39,988  MyISAM  utf8mb4_general_ci 10,9 MiB
phrase_w_2w 279,552  MyISAM  utf8mb4_general_ci 76,4 MiB
phrase_w_3w 593,282  MyISAM  utf8mb4_general_ci 164 MiB
phrase_x_1w 2,766  MyISAM  utf8mb4_general_ci 770,8 KiB
phrase_x_2w 9,963  MyISAM  utf8mb4_general_ci 2,7 MiB
phrase_x_3w 11,943  MyISAM  utf8mb4_general_ci 3,3 MiB
phrase_y_1w 4,768  MyISAM  utf8mb4_general_ci 1,3 MiB
phrase_y_2w 26,151  MyISAM  utf8mb4_general_ci 7,1 MiB
phrase_y_3w 57,801  MyISAM  utf8mb4_general_ci 15,9 MiB
phrase_z_1w 19,036  MyISAM  utf8mb4_general_ci 5,2 MiB
phrase_z_2w 115,500  MyISAM  utf8mb4_general_ci 31,6 MiB
phrase_z_3w 228,395  MyISAM  utf8mb4_general_ci 63,3 MiB
score_0_1w 155,105  MyISAM  utf8mb4_general_ci 7,6 MiB
score_0_2w 173,817  MyISAM  utf8mb4_general_ci 8,6 MiB
score_0_3w 161,734  MyISAM  utf8mb4_general_ci 7,9 MiB
score_1_1w 316,314  MyISAM  utf8mb4_general_ci 15,6 MiB
score_1_2w 298,397  MyISAM  utf8mb4_general_ci 14,7 MiB
score_1_3w 284,881  MyISAM  utf8mb4_general_ci 14 MiB
score_2_1w 362,902  MyISAM  utf8mb4_general_ci 17,9 MiB
score_2_2w 308,263  MyISAM  utf8mb4_general_ci 15,2 MiB
score_2_3w 303,044  MyISAM  utf8mb4_general_ci 14,9 MiB
score_3_1w 128,702  MyISAM  utf8mb4_general_ci 6,3 MiB
score_3_2w 119,765  MyISAM  utf8mb4_general_ci 5,9 MiB
score_3_3w 116,109  MyISAM  utf8mb4_general_ci 5,7 MiB
score_4_1w 91,965  MyISAM  utf8mb4_general_ci 4,5 MiB
score_4_2w 81,737  MyISAM  utf8mb4_general_ci 4 MiB
score_4_3w 74,550  MyISAM  utf8mb4_general_ci 3,7 MiB
score_5_1w 92,502  MyISAM  utf8mb4_general_ci 4,5 MiB
score_5_2w 82,695  MyISAM  utf8mb4_general_ci 4,1 MiB
score_5_3w 77,936  MyISAM  utf8mb4_general_ci 3,8 MiB
score_6_1w 57,121  MyISAM  utf8mb4_general_ci 2,8 MiB
score_6_2w 51,262  MyISAM  utf8mb4_general_ci 2,5 MiB
score_6_3w 47,405  MyISAM  utf8mb4_general_ci 2,3 MiB
score_7_1w 53,429  MyISAM  utf8mb4_general_ci 2,6 MiB
score_7_2w 48,625  MyISAM  utf8mb4_general_ci 2,4 MiB
score_7_3w 44,260  MyISAM  utf8mb4_general_ci 2,2 MiB
score_8_1w 45,751  MyISAM  utf8mb4_general_ci 2,3 MiB
score_8_2w 40,487  MyISAM  utf8mb4_general_ci 2 MiB
score_8_3w 37,674  MyISAM  utf8mb4_general_ci 1,9 MiB
score_9_1w 48,332  MyISAM  utf8mb4_general_ci 2,4 MiB
score_9_2w 39,245  MyISAM  utf8mb4_general_ci 1,9 MiB
score_9_3w 38,303  MyISAM  utf8mb4_general_ci 1,9 MiB
score_a_1w 1,699,851  MyISAM  utf8mb4_general_ci 83,9 MiB
score_a_2w 1,588,956  MyISAM  utf8mb4_general_ci 78,2 MiB
score_a_3w 1,546,117  MyISAM  utf8mb4_general_ci 76,1 MiB
score_b_1w 1,701,224  MyISAM  utf8mb4_general_ci 83,9 MiB
score_b_2w 1,532,466  MyISAM  utf8mb4_general_ci 75,4 MiB
score_b_3w 1,500,419  MyISAM  utf8mb4_general_ci 73,8 MiB
score_c_1w 1,054,995  MyISAM  utf8mb4_general_ci 51,9 MiB
score_c_2w 870,744  MyISAM  utf8mb4_general_ci 42,8 MiB
score_c_3w 813,417  MyISAM  utf8mb4_general_ci 40,1 MiB
score_d_1w 1,631,386  MyISAM  utf8mb4_general_ci 80,3 MiB
score_d_2w 1,946,573  MyISAM  utf8mb4_general_ci 95,8 MiB
score_d_3w 1,938,161  MyISAM  utf8mb4_general_ci 95,3 MiB
score_e_1w 1,363,670  MyISAM  utf8mb4_general_ci 67,1 MiB
score_e_2w 1,775,309  MyISAM  utf8mb4_general_ci 87,5 MiB
score_e_3w 1,712,756  MyISAM  utf8mb4_general_ci 84,3 MiB
score_f_1w 655,423  MyISAM  utf8mb4_general_ci 32,3 MiB
score_f_2w 598,648  MyISAM  utf8mb4_general_ci 29,4 MiB
score_f_3w 565,793  MyISAM  utf8mb4_general_ci 27,9 MiB
score_g_1w 1,054,324  MyISAM  utf8mb4_general_ci 52 MiB
score_g_2w 952,821  MyISAM  utf8mb4_general_ci 46,9 MiB
score_g_3w 928,919  MyISAM  utf8mb4_general_ci 45,7 MiB
score_h_1w 1,286,945  MyISAM  utf8mb4_general_ci 63,5 MiB
score_h_2w 1,253,072  MyISAM  utf8mb4_general_ci 61,7 MiB
score_h_3w 1,257,498  MyISAM  utf8mb4_general_ci 61,9 MiB
score_i_1w 1,253,053  MyISAM  utf8mb4_general_ci 62 MiB
score_i_2w 1,387,561  MyISAM  utf8mb4_general_ci 68,3 MiB
score_i_3w 1,392,197  MyISAM  utf8mb4_general_ci 68,5 MiB
score_j_1w 442,307  MyISAM  utf8mb4_general_ci 21,8 MiB
score_j_2w 519,241  MyISAM  utf8mb4_general_ci 25,6 MiB
score_j_3w 509,088  MyISAM  utf8mb4_general_ci 25 MiB
score_k_1w 841,480  MyISAM  utf8mb4_general_ci 41,5 MiB
score_k_2w 740,351  MyISAM  utf8mb4_general_ci 36,4 MiB
score_k_3w 741,555  MyISAM  utf8mb4_general_ci 36,5 MiB
score_l_1w 832,626  MyISAM  utf8mb4_general_ci 41 MiB
score_l_2w 742,215  MyISAM  utf8mb4_general_ci 36,5 MiB
score_l_3w 688,412  MyISAM  utf8mb4_general_ci 33,9 MiB
score_m_1w 1,482,343  MyISAM  utf8mb4_general_ci 73,1 MiB
score_m_2w 1,403,119  MyISAM  utf8mb4_general_ci 69,1 MiB
score_m_3w 1,351,159  MyISAM  utf8mb4_general_ci 66,5 MiB
score_n_1w 1,066,112  MyISAM  utf8mb4_general_ci 52,5 MiB
score_n_2w 867,778  MyISAM  utf8mb4_general_ci 42,8 MiB
score_n_3w 833,473  MyISAM  utf8mb4_general_ci 41 MiB
score_o_1w 1,768,733  MyISAM  utf8mb4_general_ci 87,2 MiB
score_o_2w 1,824,216  MyISAM  utf8mb4_general_ci 89,8 MiB
score_o_3w 1,739,689  MyISAM  utf8mb4_general_ci 85,5 MiB
score_p_1w 1,125,917  MyISAM  utf8mb4_general_ci 55,5 MiB
score_p_2w 956,872  MyISAM  utf8mb4_general_ci 47 MiB
score_p_3w 897,901  MyISAM  utf8mb4_general_ci 44,2 MiB
score_q_1w 38,332  MyISAM  utf8mb4_general_ci 1,9 MiB
score_q_2w 31,351  MyISAM  utf8mb4_general_ci 1,5 MiB
score_q_3w 28,451  MyISAM  utf8mb4_general_ci 1,4 MiB
score_r_1w 724,098  MyISAM  utf8mb4_general_ci 35,7 MiB
score_r_2w 632,729  MyISAM  utf8mb4_general_ci 31,1 MiB
score_r_3w 579,779  MyISAM  utf8mb4_general_ci 28,6 MiB
score_s_1w 1,698,824  MyISAM  utf8mb4_general_ci 83,7 MiB
score_s_2w 1,525,367  MyISAM  utf8mb4_general_ci 75 MiB
score_s_3w 1,444,131  MyISAM  utf8mb4_general_ci 71,1 MiB
score_t_1w 1,292,526  MyISAM  utf8mb4_general_ci 63,7 MiB
score_t_2w 1,338,501  MyISAM  utf8mb4_general_ci 65,9 MiB
score_t_3w 1,317,810  MyISAM  utf8mb4_general_ci 64,9 MiB
score_u_1w 561,493  MyISAM  utf8mb4_general_ci 27,7 MiB
score_u_2w 617,300  MyISAM  utf8mb4_general_ci 30,4 MiB
score_u_3w 616,078  MyISAM  utf8mb4_general_ci 30,3 MiB
score_v_1w 1,744,988  MyISAM  utf8mb4_general_ci 86 MiB
score_v_2w 1,905,037  MyISAM  utf8mb4_general_ci 93,8 MiB
score_v_3w 1,910,002  MyISAM  utf8mb4_general_ci 93,9 MiB
score_w_1w 1,481,873  MyISAM  utf8mb4_general_ci 73,1 MiB
score_w_2w 1,429,223  MyISAM  utf8mb4_general_ci 70,3 MiB
score_w_3w 1,464,012  MyISAM  utf8mb4_general_ci 72 MiB
score_x_1w 24,249  MyISAM  utf8mb4_general_ci 1,2 MiB
score_x_2w 20,672  MyISAM  utf8mb4_general_ci 1 MiB
score_x_3w 19,383  MyISAM  utf8mb4_general_ci 1 MiB
score_y_1w 127,790  MyISAM  utf8mb4_general_ci 6,3 MiB
score_y_2w 145,256  MyISAM  utf8mb4_general_ci 7,2 MiB
score_y_3w 138,711  MyISAM  utf8mb4_general_ci 6,8 MiB
score_z_1w 582,236  MyISAM  utf8mb4_general_ci 28,7 MiB
score_z_2w 530,844  MyISAM  utf8mb4_general_ci 26,1 MiB
score_z_3w 540,018  MyISAM  utf8mb4_general_ci 26,6 MiB
settings MyISAM  latin1_swedish_ci 2 KiB
wikipedia_featured 500  MyISAM  utf8mb4_general_ci 325,4 KiB
224 tabellen 122,505,613 InnoDB utf8mb4_general_ci  257,6 GiB 0 B

Het is dus een flinke database, maar dat komt met name door de full_cache tabel, waarin de hele pagina als HTML wordt opgeslagen.

Wel zit ik na te denken over het feit dat 228,1GiB van de 257,6GiB bestaat uit deze cache tabel. Effectief is de database dus maar 29,5GiB. Ik heb de database nu direct op de bigstorage draaien, maar dit is mogelijk niet nodig. Ik heb nog 268,7GiB vrij op de SSD van de server, dus ik kan (met terugwerkende kracht) de cache beter op de bigstorage plaatsen en de database zelf op de lokale opslag.

Tegelijkertijd wordt m'n totale capaciteit hiermee wel ongeveer 7x kleiner. Het is dus een trade off. Daar denk ik nog even over na...

 

Tweet deze blog:


Of Like hem op Facebook!

Twitter


 

Internet Marketing

Een zoekmachine bouwen #8 - PageRank, Zoeken, etc.
Geplaatst op 5 december 2019

Een zoekmachine bouwen #7 - Backlinks & Tabellen
Geplaatst op 22 juli 2018

Een zoekmachine bouwen #6 - Full page cache
Geplaatst op 13 juli 2018

Een zoekmachine bouwen #5 - Een stap verder
Geplaatst op 11 juli 2018

Auteur:

 

TimeTick producten
Urenregistratie software
Gratis urenregistratie software