CZ. II • KOMUNIKACJA MARKETINGOWA ONLINE
Audio online
-
Witryny i aplikacje udostępniające audio średniomiesięcznie w 2022 odwiedzało 15,2 mln realnych użytkowników.
-
Reklamodawcy mają możliwość zakupu reklamy audio zarówno w modelu bezpośrednim, jak i programatycznym.
-
Dzięki technologii text-to-speech wydawcy, którzy nie posiadają contentu audio, mają możliwość zarabiania na reklamie audio.
-
Podcasty odbierane są przez użytkowników jako wiarygodny nośnik reklamowy. Reklamę natywną w tym medium akceptuje aż 70% użytkowników.

Adam Pachla
Grupa RMF, Szef Grupy Roboczej Audio IAB Polska

Współpraca merytoryczna:
Michał Dobrzański, Grupa Eurozet (Tandem Audio Broker)
Konrad Drzewiński, Onnetwork
Rynek audio online i modele współpracy
Na przestrzeni ostatnich lat w polskim internecie zmieniło się podejście do tematyki audio. Zmiana zauważalna jest w większym stopniu po stronie reklamodawców, którzy coraz chętniej sięgają po reklamę audio jako kolejne narzędzie dotarcia do potencjalnych konsumentów. Póki co, wydatki na reklamę audio nie są jeszcze prezentowane w badaniu IAB/PwC AdEx, jednak jej obecność w różnej formie jest coraz bardziej widoczna.
Rynek audio online składa się z wielu podmiotów. Z jednej strony znajdują się na nim dostawcy treści audio, którzy drogą internetową dystrybuują treści audio. W zbiorze tym znajdują się serwisy streamingowe (Spotify, Tidal, Deezer itp.), radia internetowe (RMF ON, Tuba, Open FM), niezależne projekty radiowe (Radio Nowy Świat, Radio 357), audiobooki i wreszcie podcasty. Według badania Mediapanel te serwisy i aplikacje w 2022 roku odwiedzało średnio 15,2 mln realnych użytkowników miesięcznie. Dla porównania – rok wcześniej było to 13,8 mln użytkowników.
Poza powyższymi podmiotami, które w naturalny sposób kojarzone są z audio, rynek ten w coraz większym stopniu tworzą również wydawcy, którzy nie posiadają własnych treści dźwiękowych. Obecność w tym segmencie umożliwia im jednak rozwój technologii text-to-speech pozwalającej na odsłuchiwanie opublikowanych artykułów.
Po drugiej stronie znajdują się reklamodawcy, którzy inwestują swoje budżety reklamowe w sektor audio. Mają do wyboru cały szereg możliwości angażowania użytkowników poprzez dźwięk. Najpopularniejszymi formatami dostępnymi na rynku są:
● pre-rolle – spoty audio emitowane przed rozpoczęciem streamu rozumianego jako uruchomienie stacji radiowej online, podcastu, serwisu streamingowego czy wreszcie przed odczytaniem artykułu w technologii text-to-speach,
● mid-rolle – spoty emitowane w trakcie trwania streamu audio, czyli np. w blokach reklamowych w radiach online lub pomiędzy utworami podczas korzystania ze streamingu online.
Najpopularniejszymi długościami spotów są kreacje 15- i 30-sekundowe. Są to naleciałości z tradycyjnego rynku radiowego, gdzie spoty o tych długościach są również najczęściej spotykane, przez co doskonale znane marketerom i słuchaczom.
W przypadku spotów audio, podobnie jak w przypadku innych formatów internetowych, ważne jest realizowanie KPI, na których zależy reklamodawcom. Musimy pamiętać, że audio to dźwięk i w dużej mierze spoty emitowane są bez warstwy klikalnej. Słuchając, często angażujemy jedynie słuch i nie skupiamy uwagi na obrazie. Wyzwaniem jest zatem skonstruowanie spotu w taki sposób, żeby był interesujący dla użytkownika, pomimo zaangażowania tylko jednego zmysłu. Poza zasięgiem i emisjami kluczową więc miarą jest LTR (Listen Through Rate), będący stosunkiem spotów wysłuchanych w całości wobec wszystkich wyemitowanych. Miara ta pokazuje, czy spot przykuł uwagę użytkowników i czy był dla nich interesujący. Należy jednak pamiętać, że na LTR wpływ ma wiele czynników, w tym również np. fakt, że użytkownik może nie mieć możliwości pominięcia reklamy.
Podcasty
Według badania Grupy Eurozet (Tandem Audio Broker) „Słuchacz podcastów w Polsce” z 2022 roku formy komunikacji w podcastach, takie jak sponsoring odcinka czy polecanie marki lub produktu przez autora/podcastera, spotykają się z akceptacją ponad 70% respondentów. Niewiele niższy wskaźnik akceptacji charakteryzuje podcasty własne marek, czyli tzw. branded podcasts. Tu też widzimy wzrost odsetka słuchaczy, dla których taka forma promocji nie jest żadną barierą. Najniższa akceptacja dotyczy spotów reklamowych – jednak nadal prawie 50% respondentów wskazało je jako akceptowalne w swoich ulubionych audycjach.
Rozwój technologii text-to-speech
Text-to-speech to zaawansowana technologia, która potrafi zamienić tekst na dźwięki, czyli pozwala odtworzyć dowolny cyfrowy tekst na wielu różnych urządzeniach.
Pierwsze syntezatory mowy pojawiły się w latach 70. i – jak możemy się domyślać – ich jakość była słaba, a dźwięki monotonne. Lata 90. przyniosły większy postęp w tej dziedzinie, co pozwoliło na komercyjne wykorzystanie wielojęzycznych i wielogłosowych systemów text-to-speech. Jednak największy przełom w jej rozwoju nastąpił w 2016 roku, kiedy to brytyjska firma Deep Mind1 (od 2014 należąca do Google), specjalizująca się w rozwoju sztucznej inteligencji, stworzyła pierwszy syntezator mowy oparty na wykorzystaniu sieci neuronowych do generowania ludzkiego głosu.
Zwróć uwagę
Reklama audio to w tej chwili nie tylko spoty emitowane na odsłony lub jako sponsoringi, ale także możliwość lokowania produktu w danej audycji czy podcaście. Poza standardowymi modelami targetowania, takimi jak miejsca zamieszkania czy demografia, reklamy audio możemy targetowąć także na konkretne stacje radiowe, gatunki muzyczne czy tematykę audycji i podcastów. Zakup mediów audio możliwy jest zarówno w sposób tradycyjny, jak i programatyczny.
W dużym uproszczeniu: synteza mowy oparta na sieciach neuronowych wykorzystuje sztuczną inteligencję do generowania fal dźwiękowych naśladujących ludzką mowę na podstawie treści.
Text-to-speech może być pomocne dla osób z zaburzeniami widzenia, dysleksją lub innymi trudnościami w czytaniu. Osobom niesłyszącym lub głuchoniemym może pozwolić komunikować się z osobami słyszącymi – wtedy text-to-speech będzie odczytywał komunikaty napisane w czasie rzeczywistym czy artykuły w portalach internetowych.
Text-to-speech nie tylko zwiększa dostępność cyfrową dla osób z niepełnosprawnościami, ale również przyczynia się do zwiększenia zaangażowania i lojalności użytkowników. Ma na to wpływ zapewnienie spersonalizowanych i naturalnie brzmiących głosów budujących zaufanie i sympatię. Pozwala odsłuchać artykuły w momencie, gdy internauci nie mogą skorzystać z ekranu do przeczytania tekstu lub gdy są w trakcie wykonywania innych czynności, np. w czasie gotowania, sprzątania, prowadzenia pojazdu, opieki nad dzieckiem.
Po użyciu przycisku „Posłuchaj artykułu” pojawia się Player Audio, który pozwala zatrzymać/wznowić oraz podgłośnić/ściszyć czytanie.
Ponadto text-to-speech zmniejsza koszty i poprawia efektywność zarówno właścicielom witryn, jak i twórcom poprzez produkowanie treści audio bez konieczności angażowania lektora i profesjonalnego studia z kosztownym sprzętem, dzięki czemu mogą oni zyskać dodatkową powierzchnię reklamową do emisji spotów audio czy wideo.
Player, który pojawia się po włączeniu funkcji czytania artykułu, może być spersonalizowany i dostosowany do dowolnej kolorystyki. Ten element technologii text-to-speech może być wykorzystany do obrandowania przez właściciela witryny zarówno do autopromocji, jak i do monetyzacji poprzez oferowanie reklamodawcom brandingu reklamowego oraz sponsoringu.
Text-to-speech ma olbrzymi potencjał. W 2020 roku wyceniany był na 1,94 miliarda dolarów, w 2022 r. – ponad 2 miliardy, a do 2027 ma wzrosnąć do 5,6 miliarda dolarów2. Przewidywany wzrost związany jest z rosnącym zapotrzebowaniem na urządzenia mobilne z funkcją text-to-speech oraz ze zwiększonymi wydatkami rządowymi na osoby z trudnościami w nauce, z niepełnosprawnościami i starszymi. Dodatkowo zauważyć można wzrost znaczenia nowych technologii w różnych sektorach i branżach, m.in. w branży mediowej, bankowości, administracji, telekomunikacji, szkolnictwie, turystyce, biznesie, produkcji treści, rozrywce i wielu innych.
Prawdopodobnie, również rozwój odmiennej technologii speech-to-text przyczyni się do rozwoju text-to-speech i wykorzystania obu w różnego rodzaju inteligentnych urządzeniach, asystentach głosowych, platformach multimedialnych i nowych mediach.
Już teraz text-to-speech pozwala twórcom i redaktorom publikować materiały multimedialne bez konieczności nagrywania oddzielnie głosu, wykorzystując jedynie tekst. Pozwoli to, w połączeniu z zaawansowanymi tłumaczami, dotrzeć do osób posługujących się innym językiem i zbudować międzynarodowy zasięg. Jednym z przykładów w Polsce od 2022 roku jest wykorzystanie text-to-speech z lektorem odtwarzającym treści w języku ukraińskim.
1 Deep Mind rok wcześniej zasłynęła stworzeniem AlphaGo – programu, który po raz pierwszy w historii pokonał człowieka w prawdopodobnie najstarszej strategicznej grze planszowej Go znanej od ponad 2500 lat
2 MarketDigits