{"product_id":"on-text-document-classification-and-retrieval-using-self-organising-maps","title":"On Text Document Classification and Retrieval Using Self-Organising Maps","description":"Tekstidokumenttien automaattista luokittelua ja tiedonhakua itseorganisoituvilla kartoilla \n\nTutkimus käsittelee sähköisessä muodossa olevien tekstidokumenttien automaattista luokittelua ja tiedonhakua. Tekstidokumenttien automaattisessa luokittelussa tavoitteena on kehittää tietokoneohjelma, joka pystyy oppimaan saatavilla olevan valmiiksi luokitellun dokumenttiaineiston pohjalta sen eri luokkien ominaisuudet, ja tämän jälkeen ennustamaan mahdollisimman tarkasti entuudestaan tuntemattomien dokumenttien luokitukset. Tiedonhaussa puolestaan pyritään kehittämään hakukone, joka, esimerkiksi sanahaun perusteella, löytää mahdollisimman hyvin hakua vastaavia tekstidokumentteja. \n\nVäitöskirjatutkimuksessa on keskitytty itseorganisoituvien karttojen käyttämiseen tekstidokumenttien automaattisessa luokittelussa ja tiedonhaussa. Itseorganisoituvat kartat on ohjaamaton koneoppimismenetelmä, mikä tarkoittaa, että menetelmä ei käytä oppimisvaiheessa lainkaan hyväkseen tietoa opetusaineiston näytteiden luokituksesta, vaan perustaa oppimisensa ainoastaan näytteiden ominaisuuksiin. Ohjatut menetelmät puolestaan käyttävät hyväkseen näytteiden ominaisuuksia sekä tietoa niiden luokituksesta. Itseorganisoituvia karttoja on käytetty aiemmin runsaasti erilaisten aineistojen ryhmittelyyn ja visualisointiin, mutta melko harvoin tekstidokumenttien luokittelussa ja erittäin vähän tiedonhaussa. Erityisesti vertailutuloksia muihin koneoppimismenetelmiin verrattuna on aiemmin ollut saatavilla rajoitetusti. Tutkimuksen päätavoitteena olikin verrata itseorganisoituvien karttojen suorituskykyä muihin tunnettuihin koneoppimismenetelmiin, sekä ohjattuihin että ohjaamattomiin, erilaisissa dokumenttiaineistoissa. Pääosa tutkimuksessa käytetyistä tekstidokumenttiaineistoista koostui elektronisista sanomalehtiartikkeleista, jotka jakautuivat luokkiin niihin liittyvien aihepiirien mukaisesti. Tyypillisiä luokkia olivat esimerkiksi politiikka, urheilu ja talous, sekä näiden erilaiset alakategoriat. Sanomalehtiaineistojen lisäksi käytettiin myös yhtä internetin uutisryhmän viesteistä koostuvaa aineistoa, jossa luokkina toimivat uutisryhmän aihepiirit.","brand":"Tampere University Press","offers":[{"title":"Default Title","offer_id":32450262827108,"sku":"9789514496264","price":55.95,"currency_code":"EUR","in_stock":true}],"url":"https:\/\/suomalainen-test.myshopify.com\/products\/on-text-document-classification-and-retrieval-using-self-organising-maps","provider":"Suomalainen Test","version":"1.0","type":"link"}