Od 8 godzin do 40 minut. AI w produkcji „99 Twarzy AI”.

Tworzę podcast „99 Twarzy AI”. To moje marzenie i jednocześnie potężne wyzwanie organizacyjne. Od początku zastanawiałem się, czy narzędzia genAI mogą przyspieszyć moją pracę nad odcinkami. Każdy odcinek to było kilka godzin pracy, nawet 6 do 8 godzin. Najwięcej zabierało spisywanie transkrypcji.

Po około roku pojawiła się możliwość tworzenia transkrypcji cyfrowo. Wrzucam dźwięk, wychodzi spisany tekst. Ale dalej miałem problem z językiem mówionym. Inaczej mówimy, inaczej piszemy. Tekst nieopracowany męczy w trakcie czytania. Wtedy wpadłem na pomysł, żeby do opracowania tekstu używać modelu Gemini od Google. Napisałem prompt, który opisywał, jakiej redakcji potrzebuję. Potem udoskonalałem ten prompt, aż zaczął dobrze działać. Na zajęciach i szkoleniach zawsze dzielę się tym promptem – w firmach ludzie potrzebują opracowania tekstu po spotkaniu, po wideokonferencji.

I teraz najważniejsze. Z moich doświadczeń oraz z doświadczeń Marcina wynika, że prompt to nie wszystko. Dalej potrzebny jest człowiek, jego skupienie, jego notatki, jego pomysł. Dlaczego? Bo prompt i redakcja według chatbota działają na 80%. Powstaje niezły tekst, da się czytać, można publikować. Ale z reguły z tekstu wylatuje przy okazji coś, co chciałbym jednak zachować. Czasem kilka akapitów. Czasem cały wątek, coś ważnego. I wtedy wchodzi cały na biało autor, ręcznie poprawia.

Jaka oszczędność czasowa? Zjechałem z 6 do 8 godzin do około 40 minut. Szczerze, nie znam przypadku, w którym używanie modeli językowych daje większą oszczędność czasu. Ale wymaga to nowego stylu pracy. Robię notatki w trakcie nagrania albo zaraz po, żeby potem wspomagać chatbota w redakcji.

Mam też swój system pracy do transkrypcji spotkań i wideokonferencji. Jest nieco inny. Też poznacie go na naszych szkoleniach.

– Karol Stryja

fot. Mariusz Fijka