Tapahtuman ääniaineisto uusiin kanaviin tekoälyllä – Case SEAMK Foorumi ja Copilot

Tässä artikkelissa kuvataan tekoälyn hyödyntämistä SEAMK Foorumi Urheiluteknologia ja digitalisaatio -tapahtuman sisältöjen tallentamisesta tekstimuotoon ja muokkaamisesta edelleen artikkeleiksi ja podcast-muotoon. Artikkeli kuvaa SEAMKin vAI:lla tuottavuutta hankkeen teknologiademoa äänitallenteen muokkaamisesta eri formaatteihin ja jakelukanaviin. Tämä prosessi on keventynyt merkittävästi tekoälytyökalujen avustuksella, mikä parantaa aineistojen tavoittavuutta, saavutettavuutta kuin myös tuotantoprosessin tuottavuutta. Toteutetuissa artikkeleissa tarkasteltiin urheiluseuran, valmentajan ja palveluntarjoajan näkökulmia urheiluteknologiaan ja digitalisaatioon. Tässä artikkelissa käydään läpi sisältöjen muokkaamisen prosesseja, kohdattuja haasteita sekä asiantuntijan roolia tekoälyn hyödyntämisessä.
Prosessi
Tapahtumien tallentaminen edellyttää speech-to-text-sovelluksen hyödyntämistä tapahtuman tallentamisen yhteydessä. Microsoftin Teams- ja Copilot-mahdollistavat sekä yhteenvetojen tekemisen että laajemman transkription kokoamisen tapahtuman aikana. SEAMK Foorumi tallennettiin tätä käyttötarkoitusta varten ja luodun transkription pohjalta koostettiin kolme esityksiin perustuvaa asiantuntija-artikkelia. Copilot valikoitui työkaluksi tietoturvan vuoksi, koska käytettäessä Copilotia tietoja ei lähetetä yritysympäristön ulkopuolelle.
Tapahtuman järjestäjä ja koollekutsuja saa tallennetut transkriptiot suoraan Copilotin käytettäväksi niin Wordissä, Powerpointissa, Teamsissa kuin myös erillisessä Copilot-chatissä. Kuvassa 1 näkyy valikko, jonka kautta eri aineistoja pystyy hakemaan kirjoituksen taustatiedoiksi suoraan Wordissa. Koska artikkelin kirjoittaja ei ollut kutsuja, transkriptio jouduttiin hakemaan erillisenä doc-tiedostona koostamista varten. Transkriptio näkyy kaikille osallistujille Teamsissa, mutta suuresta merkkimäärästä johtuen sitä ei pysty kopioimaan suoraan erilliseen tiedostoon.
Kuva 1. Copilotin valikko Wordissä.
Kuvasta 1 huomataan myös, että Copilot ehdottaa artikkelin kirjoittamisen lisäksi myös muita toimintoja, kuten sähköpostin kirjoittamisen, mutta näitä ei käsitellä tässä artikkelissa. Tekoälyn kanssa toimittaessa on kuitenkin hyvä pitää avoin mieli ja kokeilla sitä muihinkin käyttötarkoituksiin. Käytännön kirjoitusprosessissa yhdessä artikkelissa hyödynnettiin erillistä Copilot-chatia, josta kirjoitus siirrettiin Wordiin. Tämä kokeilu suoritettiin sen vuoksi, että eri tasoisilla Copilot-paketeilla chat voi olla käytössä, vaikka suora Word-integraatio puuttuisikin. Kaksi seuraavaa artikkelia muokattiin suoraan Wordin kautta, syöttäen lähdetiedoksi se osuus tapahtumasta, jota artikkeli koski. Tekstilaadullisesti merkittäviä eroja ei ollut havaittavissa, vaan sekä chatissä että Wordissä tehdyt artikkelit edellyttivät laajaakin editointia.
Kuvassa 2 on tarkasteltu tekstin uudelleen kirjoittamista. Kun Copilot on tehnyt pohjan artikkelille, sitä voi pyytää kirjoittamaan osan tekstistä uudelleen joko automaattisesti tai tekstiin liittyen voi myös kirjoittaa oman tarkemman promptin paremman tuloksen saavuttamiseksi. Tekstin värjäämisellä on oma roolinsa, sillä uudelleenkirjoitus tai -muotoilu koskee nimenomaan tekstistä valittua aluetta.
Kuva 2. Uudelleenkirjoittaminen.
Kun tekstin on saanut toteutettua automaattisesti niin pitkälle haluttuun muotoon kuin mahdollista, voi lähteä tarkastelemaan tekstin puutteita ja yleisemmin kirjoitusprosessin haasteita. Näitä on tarkasteltu tarkemmin seuraavassa luvussa.
Haasteet
Prosessiin liittyvät haasteet voidaan eriyttää transkription luomiseen, tiedon poimintaan ja itse tekstin kirjoittamiseen. Oikeastaan yleisenä huomioina kaikkiin alla mainittuihin haasteisiin liittyen on todettava, että teknologia kehittyy niin nopeasti, että suuri osa näistä ongelmista voi hyvin pian olla ratkaistu. Kuvaan 3 on koottu artikkelien koostamisen haasteita, jotka liittyvät transkription luomiseen, tiedon poimintaan transkriptiolta ja lopulta artikkelitekstien kirjoittamiseen.
Kuva 3. Artikkelin luomiseen liittyviä haasteita.
Transkription luomiseen liittyviä haasteita olivat:
- ”Finglish”: Ammattitermit sekä yritysten ja ohjelmistojen nimet eivät useinkaan ole pelkästään suomea, joten ne tarttuivat tallenteelle virheellisissä muodoissa. Tämä edellyttäisi joko transkription siivoamista näiltä osin tai vaihtoehtoisesti kirjoitusvaiheessa tekstin läpikäyntiä ja korjausta. Rajanveto kannattanee tehdä sen mukaan, minkä verran transkriptiota on tarkoitus käyttää uudelleen. Tekstitystarkoituksissa ja laajemmissa kokonaisuuksissa se kannattaa siivota, mutta parin artikkelin koostamisessa kannattanee keskittyä artikkelien korjaamiseen.
- Puhujan tunnistaminen: Jos kaikki puhujat osallistuvat omalta koneeltaan, niin puhuja on helppo tunnistaa. SEAMK Foorumin tapauksessa kaikki puhujat ja osa kysymyksiä esittäneestä yleisöstä olivat yhden mikrofonin takana ja täten yhden nimen takana. Koska artikkelit laadittiin puhujittain ja katsojakysymyksiä ei ollut tarkoitus käyttää aineistona, jouduttiin tekemään hieman manuaalista työtä ja pilkkomaan transkriptio erillisiin tiedostoihin puhujittain.
- Tiedoston omistajuus: Tallenteen tekijä on ainoa, joka pystyy lataamaan transkription doc-tiedostomuodossa tai käyttämään Teamsin transkriptiota suoraan lähteenä Wordissä. Toki tiedon toimittaminen ei ole iso ongelma, mutta tämä kannattaa kuitenkin huomioida esimerkiksi siinä, että tallenteen tekee se, joka myös koostaa tietoa eteenpäin.
- Transkription kielen rakenne: Puhekieli ei ole rakenteeltaan yhtä ”hyvää” tekoälylle kuin kirjoitettu teksti. Transkription luomiseen käytettävä teknologia ei myöskään välttämättä tuota parhaita mahdollisia lauserakenteita, vaan pilkut ja pisteet voivat olla vähän sinne päin mukaillen puhujan puherytmiä. Yhdessä nämä tekijät voivat vaikuttaa siihen, miten transkriptiota käytetään lähteenä tuotettavalle tekstille.
- Tekniset ongelmat ja äänenlaatu: Verkko- ja mikrofoniongelmat sekä puhujan sijoittuminen voivat synnyttää puutteellisen transkription.
Tiedon poiminta:
- Puhuja: Kuten todettua, jos on tarkoitus poimia tietoa puhujittain, niin optimitilanteessa kaikki osallistuvat keskusteluun omalta koneeltaan. Hybriditoteutukset aiheuttavat lisätyötä, vaikkakin Teamsiin on ilmeisesti tulossa ominaisuus, joka erottelee myös samaan mikrofoniin puhuvat henkilöt, joten tämä ongelma on mahdollisesti poistumassa.
- Satunnaisuus: Tiedon valinnan satunnaisuus on yksi merkittävimmistä tekijöistä, miksi artikkelien tuotantoa ei voi täysin automatisoida. Copilot ei vielä osaa aina poimia tekstistä olennaista parhaalla mahdollisella tavalla. Tämä saattaa johtua siitä, että tekoäly ei ymmärrä tekstin kontekstiä tai puheen vivahteita. Ei ainakaan niin hyvin kuin jotkin toiset kielimallit. Toki paremmalla ja tarkemmalla promptauksella artikkelissa voidaan keskittyä tiettyihin näkökulmiin, mutta tämä edellyttää, että kirjoitusta laativa asiantuntija tuntee tapahtuman sisällön joko muistista tai muistiinpanoista. Samoin keskustelu lähdedatan kanssa auttaa rajaamaan tuotosta oikeisiin teemoihin.
- Toisto: Copilot sortuu vielä toistamaan samoja asioita tekstissä, vaikka teksti tarjoaisi vaihtoehtoisia näkökulmia. Näin siitäkin huolimatta, että teemoitus ja otsikointi saattaa onnistua hyvin, mutta tekstit tuntuvat liittyvän enemmän toisiin kappaleisiin kuin luotuihin otsikoihin.
Tekstin kirjoittaminen:
- Suomen kielen tuki: Copilotista on jo vuoden verran löytynyt tuki suomen kielelle. Osaan teksteistä ilmestyi tästä huolimatta anglismeja, kuten teksti olisi kirjoitettu ensin englanniksi ja käännetty sitten suoraan suomeksi. Tämä kuitenkin korjaantui ennen tämän artikkelin julkaisua ja kieli parani merkittävästi seuraavissa kirjoituksissa. Ongelma saattaa olla Wordin ja Copilotin kieliasetuksissa.
- Lause- ja kappalerakenne: Lauseet ja kappaleet jäivät melko lyhyiksi. Yhdistettynä satunnaiseen ja toisteiseen tietojen poimintaan tekstistä tulee hieman kömpelöä. Kuten todettua, promptaus on tässä isossa roolissa ja tekstiä voi kirjoituttaa uudelleen. Tässä on toki riskinä, että teksti lipuu kauemmas alkuperäisestä lähteestä.
- Vaikeaselkoisuus: Tekoäly voi synnyttää vaikeaselkoista tekstiä etenkin sellaisissa tapauksissa, joissa lähdedata on monimutkainen. Tarkasteltavassa tapauksessa puheen transkriptio on hankala lähde verrattuna kirjoitettuun tekstiin.
Asiantuntijan ja tekoälyn roolit
Havaituista haasteista johtuen asiantuntijalle jää merkittävä rooli tekstin sisältöjen ja rakenteen muokkaamisessa sekä luettavuuden parantamisessa. Copilot pystyy poimimaan näkökulmia ja luomaan pohjan asiantuntija-artikkelille sisältöineen, mutta laadullisesti asiantuntija on vastuussa kokonaisuudesta. Sen vuoksi kirjoittajan tulee huomioida monia asioita tekstin laadussa.
Transkription käsittelyssä asiantuntijan tehtäväksi jää sen siistiminen. Erityisesti, jos aineistosta syntyy tutkimusdataa tai sitä hyödynnetään laajasti muissa yhteyksissä, niin asiantuntijan tulee tarkastaa, että transkription sanat ja lauserakenteet ovat oikein. Automaattista transkriptiota voikin hyödyntää edellä mainituin varauksin myös esimerkiksi videoiden tekstittämisessä, joka tekee niistä näin saavutettavampia. Ihmissilmän tulee varmistaa, että oikeaa osaa transkriptiosta hyödynnetään artikkelien tai muun tuotettavan aineiston lähteenä. Transkriptio tuleekin pilkkoa osiin sen mukaisesti, että lähdeaineistosta ei synny ristiriitoja ja viitataan aina oikeaan esitykseen tiedon lähteenä.
Kirjoittajan vastuulle jää myös olennaisuuden varmistaminen eli poimittujen teemojen ja tekstin tulee olla nimenomaisesti se kiinnostava osa esityksestä. Paras tapa toimia tässä yhteydessä voisikin olla, että kirjoittaja keskustelee ensin tekoälyn kanssa transkriptiosta nousevista teemoista, valikoi sopivat ja vasta sen jälkeen lähtee kirjoittamaan itse artikkelia. Tekstiä tulee myös siistiä kieliopillisesti ja luettavuuden kannalta. Kuten virheissä todettiin, ihmisen rooli on poistaa mahdollisia anglismeja sekä elävöittää kappale- ja lauserakennetta. Erityisesti suomenkielisessä tekstissä ja varmasti myös jo transkription tuottamisessa ja tietojen poimimisen vaiheissa englantiin tehdyt käännökset näyttivät vaikuttavan lopputulokseen. Toki, jos aineiston voi viedä yritysympäristön ulkopuolelle, niin esimerkiksi ChatGPT:stä löytyy paremmat työkalut suomenkielisen tekstin tuottamiseen. Lisäksi on todettava, että mallit kehittyvät jatkuvasti ja suomen kielen tuki parani kirjoitusprosessin aikana. Tähän saattaa vaikuttaa myös Wordissä ja Copilotissa tehdyt kielivalinnat.
Välihuomiona todettakoon, että perinteiset muistiinpanot voivat toki toimia prosessissa ja erityisesti omassa oppimisessa hyvänä apuna. Artikkelien ja teemojen hahmottelu helpottuu kummasti, mikä helpottaa myös parempien promptien kirjoittamista.
Teksti on toki vain yksi formaatti levittää tietoa. Miten tekoäly voisi auttaa tästä eteenpäin?
Text-to-speech & text-to-video
Tekoäly mahdollistaa tapahtumien artikkelimuotoon koostamisen lisäksi myös simppelin podcastin tuottamisen tai esimerkiksi yhteenvetojen palauttamisen videomuotoon. Lähdedatana voidaan käyttää joko alkuperäistä transkriptiota tai kuratoidumpia artikkeleja sekä text-to-speech-tekoälymalleja. Googlen Notebooklm:ään on tulossa ellei jo tullut tuki suomen kielelle, jolloin artikkelit voidaan esimerkiksi muokata kahden henkilön podcastiksi muutamissa minuuteissa. Ainakin englanniksi AI-äänet ovat olleet vakuuttavia, joten toivottavasti sama toistuu suomeksi. Yhteenvetoja voidaan muuttaa tarvittaessa myös lyhyiksi videoiksi text-to-video-tekoälyillä.
vAI:lla tuottavuutta? -hanke on Euroopan unionin osarahoittama. Lisää tietoa hankkeesta löydät hankkeen verkkosivuilta https://projektit.seamk.fi/alykkaat-teknologiat/vailla-tuottavuutta/
Mikko Kulmala
lehtori
Seinäjoen ammattikorkeakoulu
Kirjoittaja toimii asiantuntijana vAI:lla tuottavuutta–hankkeessa. Hankkeen yhtenä tavoitteena on herättää alueen toimijoissa tietoisuus ja kyvykkyys hyödyntää tekoälyteknologiaa tuottavuuden parantamiseksi.