Kaj je kontekst.io?
Kontekst.io je iskalnik besed in fraz, uporabljenih v podobnem kontekstu kot iskani izraz. Med njimi niso samo sinonimi, temveč tudi nasprotja, nadpomenke in pomensko sorodni izrazi, ki morda ne sodijo v nobeno od naštetih kategorij, vseeno pa skupaj ustvarijo precej jasno sliko o iskanem izrazu.
Iskalnik je zasnovan na jezikovnem modelu, ki grupira besede, uporabljene v podobnih kontekstih. Besedi travnik in pašnik sta skoraj sinonima, saj je statistično gledano porazdelitev sosednjih besed podobna. To seveda velja tudi za npr. toplo in hladno (npr. “Bilo mi je toplo” in “Bilo mi je hladno”), in za mnogo drugih primerov rabe besed in fraz. Zato so rezultati iskanja pogosto raznoliki in ne vsebujejo samo sinonimov.
Kako uporabljati iskalnik, in za kaj je uporaben
Skupaj je v iskalniku nekaj manj kot 600.000 izrazov, med katere sodijo tudi dvo- ali trobesedne fraze.
Iskalnik je mogoče uporabljati v različne namene.
Z njim si je mogoče prek podobnih izrazov pojasniti, kaj pomenijo redke , a v medijih obujene besede, na primer zavržno.
Poiskati je mogoče sorodne osebe, npr. Živadinov, Trump, Miha Mazzini, Luka Dončić, … ali pa najti vzdevke zanje, če so le dovolj znani, npr za Karla Erjavca ali za “Serpentinška“.
Najti je mogoče sorodne izdelke, kot npr. Lekadolu podobna zdravila. To velja tudi za blagovne znamke na področju kozmetike, avtomobilizma, …
Glede na to, da je bilo med obdelanimi besedili precej slengovskih, lahko najdemo sorodne slengovske izraze, npr. sleng za “zakva”. Precej slengovskih besedil izvira iz spletnih forumov, kjer lahko moderatorji cenzurirajo neprimerne besede.
Poiskati je moče celo sorodne medije ali podjetja. Znani slovenski rumeni medij tako nastopa v precej drugačni družbi kot velike medijske hiše.
Možno je iskati tudi geografske pojme, in tako npr. preveriti, katera mesta so podobna Londonu, ali morda Ljubljani.
Najti je mogoče celo številne slabe razvade, kot tudi kemikalije, ki so zanje odgovorne.
Kakšen besednjak obsega kontekst.io?
Jezikovni model, ki je osnova za iskalnik, smo naučili na približno dvajset gigabajtih slovenskih besedil, pridobljenih iz različnih virov. Mednje sodijo:
- knjige (tu gre zahvala založbama Beletrina in Eno),
- novice, objavljene v spletnih medijih,
- komentarji na te novice,
- objave na številnih slovenskih spletnih forumih,
- referenčnih korpusih, ki so jih posredovale slovenske znanstvene ustanove, predvsem Inštitut Jožefa Štefana,
- prevajalskih korpusih, prosto dostopnih na spletnem mestu OPUS,
- slovenskih podnapisih,
- kuharskih receptih,
- …
Med viri je veliko takih, ki vsebujejo slengovske in pogovorne izraze, veliko pa je tudi znanstvenega izrazoslovja ter imen blagovnih znamk.
Matematični model jezika, ki ga uporablja iskalnik
Več na Wikipediini strani o algoritmu word2vec (v angleščini). Jezikovni model je mogoče uporabiti v številne namene, med katerimi je tak iskalnik prevzaprav najbolj banalen.
V naslednjem prispevku sledi ekspoze o teh namenih, in kaj je iz tega mogoče sklepati o slovenskem jeziku, mentaliteti Slovencev in kulturi izražanja na spletnih medijih.