Dar 21 nesąmoningas būdas kaip ieškojau slaptų web svetainių + ką išmokau ir radau :)

Šiuo metu registruoti 249 tūkstančiai .lt domenų (svetainių, pvz. „lrv.lt“), bet iš šių daugiau nei 40 % niekur nesiskelbia, jų nerodo ir Google. Kaip sužinoti adresus, kad galėčiau patikrinti kas skelbiama lietuviškam internete?

Nuo lapkričio mėnesio išbandžiau 63 būdus, {{apie kuriuos jau dalinausi}}. O šiandien papasakosiu dar apie 21 eksperimentą ir ką pavyko surinkti.

Man pavyko rasti 239582 aktyvius, naudojamus domenus. Tai 96 % iš visų registruotų. Ir ne, nereikėjo įsilaužinėti.

Nemėgstu švaistyti laiko, taigi pradėsiu nuo veiksmingiausių būdų, o gale pasidalinsiu ezoteriniais spėliojimais bei viskuo, ką bandžiau tyrinėti. Sąrašas ilgas 🙂

{{mini iliustracija, rodyklė?}}

I dalis. Efektyviausių šešetukas:

1) Duombazės (zonefiles)

Nenustebinsiu, nes lengviausias būdas gauti duomenų šmotą – tiesiog nusipirkti. Tai ir apsipirkau, išbandžiau įvairius duomenų šaltinius. Štai riebiausi:

  • networksdb.io su 147 tūkst. domenų – geriausias kainos ir gausos santykis. Tik apie 5% neaktyvių, 1% šiukšlės (subdomenai).
  • allzonefiles.io su 192 tūkst domenų – irgi nebrangu, vos 2% neaktyvių. Dedu antroje vietoje, nes 7 kartus brangiau, bet geras šaltinis. Ypač jei ieškai ir kitų TLD.
  • zone-file.com su 40 tūkst. antikvarinių 2014 m. domenų – daug, nebrangu, bet 39 % nebegaliojančių.
  • domainzones.io su 123 tūkst. 2021 metų domenų – daug, nebrangu, bet 16 % nebegaliojantys.
  • registras.lt su 160 tūkst. domenų – skelbia, kad tiek registruotų, tačiau kaip įsigyti neaišku. Į mano laiškus neatsakė. Nežinau ar dar aktyvus projektas. Jei kam jūsų pavyks susisiekti, tai duokit žinot, nusipirkčiau duombazę sutikrinimui.

Yra ir alternatyvų, bet dauguma šių turi panašius kiekius, neviršija 200 tūkst. domenų (iš 249 tūkst. galimų), tai neturiu vilties, kad išsiskirs. Arba, dar juokingiau, dalis alternatyvų dešimtis, net šimtus kartų brangesnės.

2) crt.sh (ką išduoda SSL sertifikatai)

Šiuolaikinės svetainės turi saugumo sertifikatus (juos gali matyti naršyklės lange, prieš svetainės adresą, dažniausiai tai spynos ikona) → sertifikatų leidėjai privalo registruoti išdavimus „Certificate Transparency“ žurnaluose → crt.sh agreguoja šiuos žurnalus ir pateikia vienoje vietoje.

Ką reiškia? Jei kažkas išsiėmė sertifikatą svetainei – adresas matosi crt.sh loge!

Tada yra keli būdai surinkti informacijai:

  1. Bandyt pattern-matchint queries → ir filtruoti atsakymus. Pvz. https://crt.sh/?q=%.lt&output=json
  2. Prieiga prie PostgreSQL → ir filtruoti duombazę. Login: psql -h crt.sh -p 5432 -U guest certwatch
  3. Įrankiai kaip crtdumper ir sunlight, kuriuos jau jungi prie crt.sh ar tiesiogiai LetsEncrypt, Cloudflare, kitų CT žurnalų.

Kadangi logai eina iš viso pasaulio, šių bus daug. Rinkimas ir filtravimas užtruks. Šį domenų rinkinį gavau su i@declin.eu ir viespirkiai.org pagalba:

  • Raw data: 449835
  • Pravalius nuo dublikatų ir subdomenų: 186165
  • Registruoti: 131037
  • Karantine: 1721
  • Kitur nematyti: +180 (bet tik todėl, kad jau prieš tai turėjau daug kitų testų)

3) Common Crawl

Agentūra CommonCrawl kaupia ir apdoroja interneto duomenis, kad jais galėtų naudotis tyrėjais. Čia ateina ir Danielius su savo domenais.

Ačiū @KasTasMykolas ir Viešpirkiams už pagalbą ištraukiant duomenis. Ištraukta ~65 tūkst. domenų (2025 gruodžio gale).

Kad nereikėtų siųstis pilnų 80 TB svorio failų, lietuviški domenai gyvena šiuose chunkuose: „cdx-00216.gz“ ir „cdx-00217.gz“. Parsisiuntus tada jau atsifiltruoti domenus nesudėtinga.

4) Majestic Million

Surinkti duomenys iš šių šaltinių: Majestic Million, Tranco, Cisco Umbrella, Cloudflare Radar, DomCop, DNSFilter, DomainRank, Alexa (iki 2022 m.), BuiltWith, Statvoo, Farsight, Chrome User Experience Report (CrUX), Netcraft, Quantcast.

Tai – populiariausių svetainių internete sąrašai. Irgi naudojami tyrimams.

Dauguma šių šaltinių iš 1 milijono eilučių, keli po 0,5 milijono. Parsisiunčiau → sumečiau į bendrą katilą → išmečiau dublikatus:

  • Domenų: 8 356 970
  • Registruoti + lietuviški: 68 345
  • Karantine: 761
  • Kitur nematytų: +5541

5) WikiData

Wikipedia foundation kaupia daug duomenų – įskaitant informacijos šaltinius, kitus domenus. Galima ištraukti. Čia irgi padėjo KasTasMykolas ir Viešpirkiai.

Traukiama taip: https://query.wikidata.org/ → ir užklausa SPARQL formatu. Pvz:

# Lithuanian websites mayhaps?
SELECT ?item ?itemLabel ?website WHERE {
  ?item wdt:P17 wd:Q37.
  ?item p:P856 ?prop.
  MINUS { ?item wdt:P576 [] }
  MINUS { ?item wdt:P1366 [] }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],mul,en,li". }
  OPTIONAL { ?prop ps:P856 ?website }
}

Gauname 1922 rezultatus, daugiausiai savivaldybių webus. Dalį šių domenų jau turėjau ankstesniuose tyrimuose (pvz. pagal gyvenviečių pavadinimus).

6) Internet Archive

ArchiveTeam skelbia kokius URL jie patikrino ir išsaugojo į Wayback Machine. Jie šiuos sąrašus skaido į šimtus tūkstančių mažų sąrašiukų, taigi protingiausia automatizuoti: atsisiųsti → atidaryti → išfiltruoti .lt domenus → išsaugoti nematytus.

Per 48 valandas surinkti 9768 unikalūs domenai, konkrečiai tik iš 2021 m. lapkričio tikrinimų.

  • Registruoti: 6264
  • Karantine: 42
  • Kitur nematytų: +8

Kitų mėnesių, iki 2026 m., nerinkau, nes užtrunka per ilgai. Bet paoptimizavus kodą ar tiesiog davus daugiau laiko – matau potencialo.

{{iliustracija}}

II dalis. Gramdymas nuo duombazių dugno

7) Spekuliantų forumai

Specializuotų lietuviškų forumų: nėra. Specializuotų angliškų: nedaug, vos keli aktyvesni, tačiau juose apie lietuviškus domenus nekalbama, vos keli paminėjimai. Užtat gyvas Uždarbis.lt! Tai nuscrapinau Domenų aptarimų + Domenų pardavimų forumus.

Surinkau 32657 domenus → iš kurių 21554 buvo lietuviški → 9823 aktyvūs ir → +2436 nematyti kituose sąrašuose.

Patikrinau ir soc tinklus. Radau dvi Facebook grupes: Geeks7 domenų grupė + Domenų turgus. Antra praktiškai tuščia, o pirmoj yr kažkas įdomesnio. Kartais domenų pardavėjai pasireiškia ir kitose IT ekspertų grupėse, bet retai. Kiti soc. tinklai nieko neturi.

Ištraukiau 917 unikalių .lt domenų (iki 2020 m. vasario, toliau FB neleido scrolint) → iš kurių 658 buvo aktyvūs ir → +212 dar nematyti.

8) Aukcionai

Štai kokių turime:

  1. domains7.eu — aktyvūs aukcionai, pateikia ir apie 900 domenų, esančių karantine.
  2. domenai123.lt — atrodo apie 500 domenų, dalis parduodamų, dalis karantine, dalis laisvų ir registruotų. Mokama prieiga (3 eur/mėn).
  3. registras.lt — skelbia, kad domenų turi virš 160 tūkst., bet šio sąrašo neparduoda. Viešai skelbia tik apie 400 domenų su galimybe įsigyti apie 1,5 tūkst esančius karantine už ~1,7 eur. Papildomai skelbia dar apie 700 domenų pardavimo sąrašuose.
  4. dom.lt — apie 300 parduodamų domenų + visi laisvi 2-3 simbolių domenai (brute-generated).
  5. domains.edata.lt, parduodami-domenai.lt, domenai.eu, raktazodziai.lt, parduodamidomenai.lt — vos po kelis domenus.
  6. domenuprekyba.lt — miręs portalas.
  7. domenai.vip ir domenai.net — atrodo, kad tai lygiai tas pats portalas. Panašiau į SEO spam.

Kadangi domenų nebuvo daug + dauguma jų karantino būsenoje, atskirai netikrinau. Tiesiog susirinkau su Knysliu, šio rezultatai kitame skyriuje.

9) Nuorodų, SEO katalogai

Tai ne skelbimų ir ne įmonių katalogai, nes įmonių katalogus jau tikrinau:

  1. nerandu.lt — 13 tūkst. domenų! Ir didelė dalis, atrodo, ne įmonių, taigi nesidubliuoja
  2. on.lt — išsamus katalogas, apie 4000 lietuviškų domenų.
  3. ecatalog.lt — apie 3500 domenų, nepatogus UX.
  4. search.lt — apie 3000 domenų, šaunus katalogas, nepaisant amžiaus ir kategorizacijos problemų.
  5. poko.lt — 1934 lietuviški blogai, bet dauguma ne .lt.
  6. elektronika.lt — apie 700 domenų, daugiausiai elektronikos ir technologijų srities, senoki, kitur jau matyti.
  7. ltv.lt ir weboaze.lt — apie 300 domenų kiekvienam, nieko ypatingo.
  8. toplaisvalaikis.lt — apie 200 domenų.
  9. geriblogai.lt — apie 200 domenų iš, tikėtinų, 600. Likę neišsisaugojo Web Archive.
  10. adsweb.lt ir infolink.lt — SEO katalogai, atrodo tų pačių kūrėjų, atrodo keli šimtai domenų, bet užsiknisimas išsitraukt kiekvieną, nesivarginau.
  11. infoadmin.lt — seo trash.

Visi šie katalogai, išskyrus nerandu.lt, nurinkti naudojant Knyslį. Nerandu patikrinau atskirai: 13195 nuorodos → iš jų 10439 potencialiai tinkami domenai (lietuviški, be dublikatų):

  • Registruoti: 8487
  • Karantine: 53
  • Kitur nematytų: +237

10) Lankytojų statistikos + Similar web įrankiai

Skaitliukai:

  • hey.lt – Apie 200 domenų, jau matyti kitur.
  • webhits.lt – Apie 150 domenų, jau matyti kitur.
  • top.hostin.lt – 31 domenas, jau matyti kitur.
  • hypestat.com — rezultatai pateikti sudėtingai, nėra daug domenų.

Similar web:

  • similarweb.com — rezultatų mažai, net kai tikrinti atrodo žinomas rinkoje svetaines. Mažesniems webams panašių net nesiūlo.
  • ahrefs.com ir semrush.com — panašūs rezultatai priklauso nuo svetainės turinio, ne domeno. O kai turinys nesimato (užrakintas, paslėptas, nėra), nėra ir rekomendacijos. Kai ieškome retųjų domenų – nenaudinga.

Rezultatų mažai, patikrinau su Knysliu.

11) Skelbiu.lt ir konkurentai

  • Skelbiu.lt – apie 30 skelbimų, nieko ypatingo. Net pasirinkimas nėr kuo netikėtas. Neverta dėmesio.
  • Alio.lt – apie 12 skelbimų, nieko ypatingo.
  • Ir visokia aibė kitų skelbimų portalų, kuriuos įdomumo dėlei irgi patikrinau – domenų nieks juose nepardavinėja.

Žodžiu – nieko gero. Patikrinti Knyslio kolekcijos metu.

12) Spam/black listai, blogiukų webų sąrašai

Yra sąrašų, kur skelbiamos nepatikimos svetainės:

  • NKSC „Vasaris“ su apie 200 .lt domenų ir 1800 kitų tipų. Pasiekti duomenis paprasta (duoda net .txt formatu), tai vienintelis toks lietuviškas projektas.
  • oisd su 16 .lt domenų ir 228 tūkst. kitų. Pasiekiama lengvai.
  • Phishing.Database su 57 .lt domenais ir 857 tūkst. kitų. Pasiekiama lengvai.
  • OpenSanctions su 20 .lt domenų. Čia konkrečiai finansiniai scamai, atrodo jau įtraukti į Vasarį.
  • URLhaus .lt domenų neturi, bet yra 87 tūkst. kitų + įvairių IP adresų. Tai SpamHaus dukterinis projektas, kur tėvinis duomenis duoda tik su corporate licenzija. Kadangi brangu, tai ir nepirkau, daug vilties neturiu.
  • PhishTank .lt domenų neturi, bet yra ir 53 tūkst. kitų. Daug dublikatų. Mažai naudos.

Kadangi domenų mažai, juos patikrinau kartu su kitu „šlamštu“. Nieko ypatingo neradau.

13) Knyslys

Susikūriau Chrome/Firefox naršyklės extention, {{Knyslį}}. Veikia paprastai: naršai internetus, o šis, puslapyje aptikęs nuorodą į .lt svetainę – šį domeną užsirašo. Duomenys niekur nekeliauja, išsisaugo local .txt dokumente, o soc. tinklų ir el. pašto dėžučių turinio neskaito.

Taip per 3 mėnesius naršymo netyčia surinkau 28 tūkst. .lt domenų sąrašą → iš kurių 15337 unikalūs. Tada patikrinau:

  • Registruoti: 12288
  • Karantine: 92
  • Kitur nematytų: +33

{{iliustracija}}

III dalis. Žodynai ir, aaaaa, generuoti spėliojimai

14) Lietuviškos raidės

Man trūksta dar 2206 iš 2224 domenų su lietuviškomis raidėmis (pvz. „ąįmin.lt“). Kadangi ankstesniuos eksperimentuose lietuviškas raides pakeisdavau lotyniškomis, nerasdavau jų anksčiau. Nusprendžiau pakeist tai.

a) Žodynai

Paėmiau Lietuvių kalbos žodynus ({{iš žodynų tyrimo}}) + 5 milijonus dažniausių žodžių iš {{V. Dadurkevičiaus 2020 m. tyrimo}}.

Žodžių su lietuviškomis raidėmis: 2098862, kur didelė dalis nėra dažnai naudojami (ar išvis daugiau nei kartą…), pavyzdžiui „žžžolė“. Aha, daug duomenų nurinkta nuo komentarų, forumų. Bet man atrodo, kad jei tai kažkas rašė – gal kažkas kažkur ir registravo?

Tai pavirto į 2097042 potencialius domenus ir tokius rezultatus:

  • Registruoti: 1160
  • Karantine: 13
  • Kitur nematytų: +1134

b) Vardai ir pavardės

Surinkau visus vardus ir pavardes, kiek šių radau iš dažniausių žodžių sąrašo (dadurkevičius), VLKK vardų sąrašus, privačių interesų deklaracijose minimus vardus. Išfiltravau tik tuos, kur turi lietuviškas raides.

Liko 215684 potencialūs domenai (vardai, pavardės, vardaipavardės, pavardėsvardai):

  • Registruoti: 239
  • Karantine: 1
  • Kitur nematytų: +15

c) Miestai, gyvenvietės ir vietovardžiai

Sujungiau duomenis iš: VLKK, ekalba.lt, Dadurkevičiaus 5M dažniausių ir Lietuvos gyvenviečių pavadinimų (Registrų centro).

Su lietuviškom raidėm buvo variantų 72290:

  • Registruoti: 159
  • Karantine: 0
  • Kitur nematytų: +4

Pabandžiau vėl ir be lietuviškų, ką jei kažką praleidau, pamiršau. Tokių variantų gavosi 332656:

  • Registruoti: 9269
  • Karantine: 85
  • Kitur nematytų: +53

d) Skaičiai į raides

Ką jei skaičius pakeisim raidėmis? Pvz. kaip 15min.lt → ąįmin.lt? Iš turimų 224101 sukauptų domenų → 7950 potencialūs domenai. Atkreipti dėmesį, kad 9 ir 0 į raides nesikeitė, nes klaviatūrose, berods, nėra artimo atitikmens? Berods?

  • Registruoti: 17
  • Karantine: 0
  • Kitur nematytų: +4

e) „Kaip šaunu, kad yra“ sąrašai

Surinkta iš įvairių naujienų portalų, straipsnių, pristatančių kas yra IDN domenai su lietuviškomis raidėmis. Kiek surinkta? Vos ~30 domenų. Patikrinta Knyslio kolekcijos metu.

15) Kitų kalbų žodynai

Naudojau dažniausių žodžių žodynus, sudarytus iš web + žiniasklaidos turinio, kuriuos sudarė Wortschatz Leipzig projektas.

Latvių, lenkų, anglų kalboms naudojau 1 mln. žodžių, vokiečių ir ispanų kalboms 300 tūkst. žodžių komplektus. Rusų kalbos irgi sudaryta iš 1 mln. rinkinių, bet kirilica buvo transliteruota į lotyniškas raides pagal BGN. Po to dublikatai atmesti → ir iš jų sugeneruoti potencialūs domenai.

Anglų:

  • Domenų: 1 468 846
  • Registruoti: 36 336
  • Karantine: 379
  • Kitur nematytų: +1284

Lenkų:

  • Domenų: 1 148 966
  • Registruoti: 22 259
  • Karantine: 244
  • Kitur nematytų: +421

Rusų:

  • Domenų: 1 460 556
  • Registruoti: 21 262
  • Karantine: 243
  • Kitur nematytų: +384

Latvių:

  • Domenų: 885 064
  • Registruoti: 25 170
  • Karantine: 235
  • Kitur nematytų: +257

Vokiečių:

  • Domenų: 399 233
  • Registruoti: 11932
  • Karantine: 132
  • Kitur nematytų: +96

Ispanų:

  • Domenų: 218 943
  • Registruoti: 11 576
  • Karantine: 111
  • Kitur nematytų: +50

16) 4,9 milijonus žodžių dadurkevičiaus duombazė

O ką jei patikrinsim visus įmanomus lietuviškus žodžius, net su rašybos klaidom? Įskaitant ir pavadinimus, ir forumuose, žiniasklaidoje paminėtus domenus?

Viso 4,97 milijono žodžių iš {{V. Dadurkevičiaus 2020 m. tyrimo}} → 4,27 mln. potencialių domenų atmetus dublikatus („zebras“ ir „žėbras“ (šonkaulis) pavirsta į tą patį „zebras.lt“).

Išskaidžiau į dvi dalis. Dažniausių 500 tūkst. žodžių:

  • Registruoti: 49827
  • Karantine: 439

Ir likę 3,8 mln. žodžių:

  • Registruoti: 23110
  • Karantine: 225

Galim matyt, kad tikrint žodžių su klaidom, kurių dauguma gyvena antroj pusėj (pvz. „mokytojasas“ ar „arbotinuks“) – praktiškai neverta. Ypač kai visa tai jau matosi kituose šaltiniuose… 😄

17) Privačių interesų deklaracijų vardai

Surinkti asmenų vardai iš Privačių interesų deklaracijų, su Viešpirkių pagalba. Vardų buvo 110 tūkst, tada jie automatiškai paversti į domenus ir patikrinti: „vardas.lt“, „pavarde.lt“, „vardaspavarde.lt“ ir „pavardevardas.lt“:

  • Domenų: 263 295
  • Registruoti: 6509
  • Karantine: 36
  • Kitur nematytų: +183

Arba išskaidžius, kiek aktyvių kiekvienam variante:

  • „vardas.lt“: 1481
  • „pavarde.lt“: 4645
  • „vardaspavarde.lt“: 370
  • „pavardevardas.lt“: 13

18) Latvijos ir Lenkijos domenai

Hipotezė: kadangi kaimynai, o rinka ta pati, net yra kasdien kas važiuoja į kitą šalį apsipirkt… Gal yra ir sutampančių domenų?

Paėmiau 144 tūkst. registruotų .lv domenų → paverčiau į .lt ir patikrinau:

  • Registruoti: 25467
  • Karantine: 204
  • Kitur nematytų: +114

Taip pat patikrinau ir 2,2 mln. lenkiškų .pl:

  • Registruoti: 46908
  • Karantine: 598
  • Kitur nematytų: +406

Ale… Netikėtai daug sutampančių domenų. Dauguma, tiesa, visokie bendriniai angliški žodžiai ir prekių ženklai.

19) Italijos domenai

Hipotezė: kadangi .it panašu į .lt → tai šiuos mėgsta apgavikai. Gal rasiu šių apgavikų? Arba gynybinių išsipirkimų?

Italai turi 3,5 milijono registruotų domenų → iš įvairių šaltinių surinkau 75682 „populiariausius“. Tada pakeičiau galūnes į .lt ir patikrinau:

  • Registruoti: 3446
  • Karantine: 29
  • Kitur nematytų: +5

Dauguma – {{prekių ženklai}}. Pvz. Gucci ir Prada išsipirkę domenus praktiškai visose šalyse, įskaitant lietuvą. 🙂

Po kokio mėnesio susivokiau, kad šiaip turiu ir pilną itališkų domenų sąrašą… Tai patikrinau ir likusius 2,6 mln. itališkų .it → .lt domenų:

  • Registruoti: 43938
  • Karantine: 550
  • Kitur nematytų: +224

20) Telefono numeriai

Iki eksperimento pradžios radau vieną tokį domeną: 863343000.lt. Gal yra daugiau? Paėmiau 2,1 mln. viešuosiuose pirkimuose minėtų numerių, kuriuos ištraukė Viešpirkiai. Pakaitaliojau ir patrigubinau – vietoj 370 naudojant 8 arba 0.

  • Registruoti: 4, konkrečiai šie → 837040.lt, 865210.lt, 867482.lt ir 867440.lt
  • Karantine: 0
  • Kitur nematytų: 0

Žodžiu, tai kol kas labiausiai beprasmis eksperimentas. Bent galėjau patvirtinti, kad tikrai tokių nieks neregistruoja. Juokingiausia, kad neradau net to vieno anksčiau rasto domeno. 🙂

21) Esami domenai → redirects

Na, ir galui. Turiu registruotų domenų sąrašą. Galiu automatiniu (HTTPX) būdu patikrinti duris – kur domenas veda, nukreiptas?

  • Domenų: 227 931
  • Naujų, nematytų .lt nukreipimų: 141
  • Registruoti: 17
  • Karantine: 7
  • Įvairus šlamštas, kurių dalis neregistruoti arba brokuoti: 116
  • Kitur nematytų: +16

Nukreipimų į .com, esamas .lt, nenukreipimų iš vis (kai domenas net neprijungtas prie jokio hostingo) neskaičiavau. Tai patikrinsiu kitame tyrime, ateityje.

Ko dar nebandžiau (ir turbūt nebandysiu, nebent labai neturėsiu ką veikt)

Turiu ir daugiau idėjų.

Šias panagrinėjau, pasigilinau, pabandžiau, bet pilnai nevysčiau, nes rezultatai būtų skystoki, prieš tai reikia surinkti kitą informaciją, arba tai tiesiog būtų sudėtinga.

Tai greitu metu šito nebandysiu:

  1. Patikrinti kitus lietuviškus forumus (Uždarbis, Supermamos, Linkomanija…), pereiti visas įmanomas temas. Kadangi forumai praktiškai negyvi, tai naujų diskusijų mažai, o senos nuorodos jau įtrauktos kitur.
  2. Asmenų sąrašai: įvairūs CV, teikiamų paslaugų šaltiniai. Dėl GDRP tokių duomenų mažai, o esami jau įtraukti kitur.
  3. Passive DNS (VirusTotal ir kt.) + Reverse lookup DNS. Pirmiau reikia IP arba nameserver sąrašo, kad galėčiau → tikrinti → filtruoti rezultatus.
  4. Reverse WHOIS. Tiekėjai kaip WhoisXML, DomainTools, Whoisology, SecurityTrails yra mokami. Taip pat, pirma reikia surinkti tikėtinų savininkų (pavadinimų, emeilų) sąrašą. Fiziniai asmenys netrackinami.
  5. Dažniausi lietuviški žodžiai → visų linksnių palyginimas. Kartosis su dažniausiais žodžiais.
  6. Ką LLM sugeneruos: pridėt pradžias bei galūnes („apie“, „24“) ir kurti žodžių kombinacijas. Pradžiai reikia pasidaryti analizę kokios kombinacijos labiausiai tikėtinos, kokie prefiksai ir sufiksai dažniausi.
  7. Assetnote, SecLists, XploitPoy-777, All-In-One-DNS wordlistai. Labiau naudingi subdomenų analizei, root tokių bus mažai.
  8. Weakpass. Naudingiau slaptažodžių analizei, domenų tokių bus mažai.
  9. 2012 internet census. Antikvariniai duomenys, o visi kurie išgyveno, jau įtraukti į kitus sąrašus.
  10. Knygos ir žinynai. Teoriškai unikalūs duomenys, nes buvo bandymų lietuviškas svetaines surašyti ant popieriaus, o šios knygos nebuvo indeksuotos. Bet tai antikvariniai duomenys.
  11. Lietuvos teismų istorija. Viešpirkiai turi tekstyną, bet domenai kurių mums trūksta yra niekam neįdomūs, taigi dėl jų į teismus nieks neis.
  12. Internet Archive CPX service. Nerodys domenų, kurie niekad neindeksuoti, nenaudoti, į IA nepaduoti ir kurių robots.txt atsisako.
  13. Search engine scraping. Nerodys domenų, kurie niekad neindeksuoti arba, kurių robots.txt atsisako.
  14. Viso pasaulio domenai → .lt tikrinimas. Teoriškai galima tikrinti visus kitus domenus, kurių unikalių turėtų būti apie 400 milijonų, bet kol neturiu asinchroninio ir per IP išskaidyto sprendimo, tikrinimas truktų ~200 parų. Nerealistiška.

Ir dar +63 ankstesni eksperimentai

Bandžiau ir šitai:

Jei patiko, kviečiu prenumeruoti naujienlaiškį. Nekainuoja. Prenumeratos mygtuką rasi netolies. Su kuoka nelaikysiu, galėsi atsisakyti, jei reiks. Nieko nepardavinėju, tiesiog gal tau patogiau.

Dabar jau dirbu prie pačių svetainių tikrinimu. Pažiūrėsim ar tikrai pusė lietuviško interneto yra SEO spam, kaip sukurtos el. parduotuvės ir kitus reikaliukus. Pilną „noriu patikrinti“ sąrašą rasi paspaudus čia. Jei turi dar pasiūlymų – drąsiai sakyk.

This article was updated on 2026-05-06