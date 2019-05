Sosiaalisessa mediassa vaikuttavia valetilejä voidaan paljastaa uudella suomalais-ruotsalaisella menetelmällä.

Kyseessä on kielentutkimukseen pohjautuva tietokonesovellus, jolla voidaan jäljittää automatisoituja valetilejä eli botteja Twitterissä.

— Se pystyy tunnistamaan Twitter-viestejä lähettävät botit yli 90-prosenttisella tarkkuudella, kertoo toinen sovelluksen kehittäjä, Itä-Suomen yliopiston englannin kielen professori Mikko Laitinen.

Laitinen kehitti Nordic Tweet Stream -tietokantaan sopivan sovelluksen viime syksynä ruotsalaisen Linnaeus-yliopiston ohjelmointitieteiden apulaisprofessorin Jonas Lundbergin kanssa.

Päivi Tuovinen Koodattu laskentajärjestelmä erottaa Twitter-viestin muuttujien ja säännönmukaisuuksien perusteella, mikä tviitti on mahdollisesti robotin ja mikä ihmisen lähettämä.

Parhaillaan kaksikko tutkii, voisiko samantapaisella menetelmällä tunnistaa myös trollit. Nämä ovat somessa häiriköiviä tai siellä tahallaan valheita levittäviä ihmisiä, jotka pyrkivät vaikuttamaan yleiseen mielipiteeseen tai esimerkiksi poliitikkojen kantoihin. Trollit käyttävät usein apunaan botteja.

Trollitutkimuksen aineistona on suuri joukko eri maista peräisin olevia tviittejä, joiden tiedetään olevan trollitileiltä, jotka pyrkivät vaikuttamaan yleiseen mielipiteeseen. Laitisen mukaan tavoitteena on luoda tieteelle ja yhteiskunnalle helppokäyttöinen järjestelmä, joka pystyy nopeasti päättelemään, onko kyseessä trolli, trollin käyttämä botti tai muu botti.

— Tarkoitus olisi, että sovelluksesta julkistetaan loppuvuonna ainakin pilottiversio, Laitinen sanoo.

Tavoitteena tallentaa tietoa kielentutkimuksen tarpeisiin

Laitinen ja Lundberg ovat työskennelleet viime vuosina Ruotsissa poikkitieteellisessä tutkimusyksikössä. Yksikkö on tuonut yhteen tietojenkäsittelijät, kielentutkijat ja tilastotieteilijät, ja se tutkii yhteiskunnallisia tutkimuskysymyksiä ja luo uusia menetelmiä.

Nordic Tweet Stream on yksi luomistyön hedelmistä. Sen tavoitteena on tallentaa suuria määriä ajantasaista sisältöä etenkin kielentutkimuksen tarpeisiin mutta myös muille tieteenaloille. Samalla se pyrkii parantamaan tutkimusaineistojen tietojen tarkkuutta ja tutkimusanalyysien oikeellisuutta.

— On jo pitkään tiedetty, että sosiaalisen median dataa riivaa monenlainen häly, esimerkiksi bottien ja trollien olemassaolo. Ne vääristävät tutkimustuloksia, ja tähän halutaan nyt puuttua, Laitinen kertoo.

Bottien ylläpitäjät haluavat, että botit saavat mahdollisimman paljon näkyvyyttä. — Mikko Laitinen

Samalla kun sovellus auttaa tieteentekoa, siitä voi olla suurta hyötyä koko yhteiskunnalle, kun botit ja trollit paljastuvat.

— Tietokannan dataan voidaan saada nykyistä tarkempi kuva yhteiskunnallisesta todellisuudesta.

Sovellus perustuu koneoppimiseen

Uuden sovelluksen toiminta perustuu ohjattuun koneoppimiseen. Koodattu laskentajärjestelmä tunnistaa lukuisten Twitter-viestin muuttujien ja säännönmukaisuuksien perusteella, mikä tviitti on mahdollisesti robotin ja mikä ihmisen lähettämä.

Parhaillaan laskentajärjestelmän muuttujia hienosäädetään, jotta se tunnistaisi erikseen myös trollit ja trollibotit.

Viimesyksyisessä bottitutkimuksessa sovellus käytti harjoitusdatana 5 000:ta englanninkielistä, 5 000:ta ruotsinkielistä ja 5 000:ta suomenkielistä tviittiä. Eniten botteja löytyi englanniksi kirjoitetuista tviiteistä — reilu viidesosa.

— Bottien ylläpitäjät haluavat, että botit saavat mahdollisimman paljon näkyvyyttä, Laitinen perustelee tulosta.

Noin 11 prosenttia suomenkielisistä tviiteistä ja 6—7 prosenttia ruotsinkielisistä tviiteistä oli bottien tekemiä.

Päivi Tuovinen Mikko Laitinen (kuvassa) ja apulaisprofessori Jonas Lundberg kehittivät Twitter-viestejä seulovan sovelluksen alun perin kielitieteilijöiden tarpeisiin.

Professori Laitinen ei vielä tiedä, käytetäänkö uutta menetelmää muualla kuin kielentutkimuksessa. Hänestä tämä olisi kannattavaa.

Sovellusta kehitellessä on kertynyt tutkimusaineistoa kymmenien miljoonien tviittien edestä, ja tätä voisi hyödyntää monilla aloilla.

— Noin 20 prosenttia siitä on suomeksi, eli sitä voi käyttää murretutkimuksessa ja yhteiskuntatieteellisessä tutkimuksessa. Sitä voisi hyödyntää myös esimerkiksi epidemioiden mallintamisessa.

Trollibottien valeuutiset ovat iso ongelma

Sosiaaliseen mediaan on kertynyt viime vuosina yhä enemmän valetilejä ja muuta kuonaa.

— Viitenä viime vuotena tilanne on räjähtänyt käsiin, sanoo koulutusteknologian ja sosiaalisen median asiantuntija Harto Pönkä.

Kuvaavaa on, että viime marraskuussa Facebook kertoi poistaneensa edellisen puolen vuoden aikana 1,5 miljardia valetiliä palvelusta. Viime heinäkuussa Twitter taas ilmoitti spämmi- ja bottitilien siivouksista, joissa se oli poistanut kahtena edelliskuukautena 70 miljoonaa käyttäjätiliä.

— On vaikea sanoa, ketkä botteja kehittävät. Kuka tahansa ohjelmointia hallitseva pystyy tekemään sellaisen, Pönkä toteaa.

Yleisessä tiedossa on kuitenkin, että merkittävä osa trollien käyttämien bottien valeuutisoinnista on myötämielisiä Venäjän ja USA:n hallinnoille.

Kaikki epäilyttävät seuraajat eivät ole botteja

Pöngän mukaan suurin trollien ja bottien muodostama uhka liittyy siihen, että valtaapitävät tai valtamedia alkavat toistella niiden valheita tai tekevät niihin liittyviä vääriä tulkintoja.

Pönkä painottaa, ettei mitään Twitter-tunnusta ole perustetta kutsua botiksi, jos sillä ei ole ollut boteille ominaista toimintaa.

— Pelkkien epäilyttävien seuraajien väittäminen boteiksi on hyvin kevyttä puhetta ja vailla perusteita, Pönkä sanoo.

On vaikea sanoa, ketkä botteja kehittävät. Kuka tahansa ohjelmointia hallitseva pystyy tekemään sellaisen. — Harto Pönkä

Englannin kielen professori Mikko Laitinen pitää botteja harmittomina, mutta niitä käyttävät trollit ovat hänestä uhka. Laitisen mukaan yhteiskunta tarvitsee nykyistä parempia sovelluksia trollibottien jäljittämiseksi.

— Tärkeää olisi myös se, että kaikki sosiaalisen median data olisi tutkijoiden käytettävissä.

Nyt tämä tieto on Laitisen mukaan amerikkalaisten teknologiajättien omaisuutta ja rahanteon lähteitä.

— Ne pitäisi saattaa tutkijayhteisön käyttöön paremmin. Tässä vaaditaan kansallista ja kansainvälistä yhteistyötä ja EU:n panosta. Olisi tärkeää, että vastavalitut kansanedustajatkin näkisivät tämän tarpeelliseksi.

Botti, trolli ja trollibotti

Botti voidaan määritellä yleisesti automatisoiduksi tiliksi, joka viestii esimerkiksi sosiaalisessa mediassa.

Professori Mikko Laitisen tutkimuksessa botti oli sellainen, joka tuotti automaattisesti osan tai kaiken Twitter-viestin kielellisestä sisällöstä.

Trollit ovat ihmisiä, jotka pyrkivät vaikuttamaan yleiseen mielipiteeseen somessa levittämänsä spämmin, roskapostin tai valeuutisten avulla.

Botteja ja trolleja on ollut niin kauan kuin on ollut Twitterin kaltaisia ohjelmistoja.

Osa boteista on harmittomia: ne keräävät vaikkapa tietoja päivän suosituimmista tviiteistä tai kokoavat uutiskatsauksia.

Osa boteista on kuitenkin valeuutisia levittäviä trollibotteja.

Bottien yleisyyttä on vaikea arvioida. Vuonna 2017 Etelä-Kalifornian ja Indianan yliopistojen tutkimukset kertoivat, että 15 prosenttia Twitter-tileistä on botteja. Sittemmin tilanne on muuttunut, sillä Twitter on siivonnut valetilejä palvelustaan.

Laitisen viimesyksyisessä tutkimuksessa yli viidesosa englanninkielisistä tviiteistä oli bottien tekemiä.

Laitisen sovelluksen lisäksi maailmalla on kehitelty muitakin bottien tunnistusvälineitä. Täältä löytyy Twitterin käyttäjien, seuraajien ja seurattavien bottitarkistustyökalu. Toinen koneoppimista bottien tunnistamiseen käyttävä väline on täällä.