Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Witam,
Pracuje w IVO Software, tworcy syntezatora mowy IVONA (http://ivo.pl ). Chcialbym Was prosic o małą burzę mózgów. Jak myślicie, gdzie można wykorzystać syntezę?

Są takie pomysły:
- rozwiązania telekomunikacyjne (czytanie salda konta przez telefon itp),
- rozwiązania e-learningowe (czytane prezentacje, wirtualny nauczyciel),
- strony internetowe (generowanie czytanych artykułów, tworzenie podcastów),
- generowanie audiobooków,
- systemy nagłośnienia (np. w autobusach/tramwajach, na peronach).

Uważam, że każdy ma różne doświadczenia, wiedzę przez co może wpaść na inny pomysł. Zatem czekam na Wasze propozycje!

Pozdrawiam serdecznie,
Jakub PawełczakJakub Pawełczak edytował(a) ten post dnia 21.03.07 o godzinie 21:43

konto usunięte

Testowałem Expressivo jest całkiem ciekawy, mogło by być tylko więcej osób czytających do wyboru i opcja wielu języków, ale widzę że się ładnie rozwija i to kwestia czasu.

Ładnie kosztuje wersja Enterprise :)

Powodzenia.Sebastian Matusiak edytował(a) ten post dnia 22.03.07 o godzinie 15:07
aż nadto ładnie:((((.

Mnie by interesowało..... jak to się przekłada:).
W jakim czasie się zwraca,
jakie wzrosty powoduje.

AgnieszkaAgnieszka A. edytował(a) ten post dnia 30.03.07 o godzinie 18:14
Ernest Wagner

Ernest Wagner CEO, Hemnes Group

Na pewno generalnie w IVR. Współpracuję z firmą 3way, która działa w tej branży. Polecam kontakt z Maciejem Felskim (w moich kontaktach). Pewnie coś doradzi.
Łukasz Skłodowski

Łukasz Skłodowski SharePoint
Architect, PM,
Właściciel -
Mavsystem

zintegrujcie rozpoznawanie mowy z translatorem i syntezatorem mowy i zróbcie tłumaczenie mowy "w locie" - np jako moduł do skype :D

napewno kiedyś uda się to osiągnąć (tłumaczyć w locie się nie da chodźby z powodu, że tłumacz może zacząć pracę dopiero po wysłuchaniu całego zdania), ale nawet z niewielki opóźnieniem to by było super :D Rozpoznawanie mowy jest chyba w windows vista (przynajmiej angielskiej), translatory ang-pl i pl-ang robi kilka firm a Panstwo macie najlepszy syntezator więc może warto zacząć już prace badawcze ?
Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Witam,
Wielki dzięki za odpowiedz :)

Expressivo - pracujemy nad tym, aby było więcej głosów, ciekawe wtyczki itp itd. Ale niestety nie da się zrobić wszystkiego naraz :)

IVR - rzeczywiście tutaj jest chyba największe pole do popisu dla TTS (text-to-speech). Mamy sporo wdrożeń naszej IVONY i ciągle pojawiają się nowi zainteresowani, aby wykorzystać TTS do czytania przez telefon różnych informacji.

Rozpoznawania mowy - to jest naturalna ewolucja naszego biznesu, przynajmniej taka jest moja opinia. Jednak wpierw musimy mieć więcej języków w swojej ofercie (przynajmniej te najważniejsze na świecie), a następnie można zająć się rozpoznawaniem mowy. Ale czy tak będzie to zależy od Zarządu :)

Słowniki - staram się namówić firmy na dodanie do swoich słowników syntezy mowy, aby ich użytkownicy mieli możliwość sprawdzenia wymowy słowa, którego nie ma w bazie nagrań. Może niebawem coś z tego wyjdzie :)

Gadające słowniki - wiem, że jest projekt stworzenia wirtualnego tłumacza łącząc słownik z rozpoznawaniem mowy oraz syntezą. Niestety nie moge zdradzić szczegółów :P

Mam pomysł na stworzenie komunikatora z wbudowaną IVONĄ. Ma to głównie pomóc osobom niewidomym i niedowidzącym, ale również dla pełnosprawnych osób. Co o tym sądzicie?

Pozdrawiam,
Kuba
Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Agnieszka A.:
aż nadto ładnie:((((.

Mnie by interesowało..... jak to się przekłada:).
W jakim czasie się zwraca,
jakie wzrosty powoduje.

To zależy od wykorzystania syntezatora mowy :)

Jeśli chodzi o umieszczenie Ivony w centrali telefonicznej do np. czytania salda konta to obniżamy koszty departamentu CallCenter (synteza nam czyta saldo konta, a nie pracownik). Dokładnych danych niestety nie posiadam. Jednak zważywszy na wielkie zainteresowanie właśnie tym rozwiązaniem wydaje się, że oszczędności muszą być znaczne.

To samo tyczy się wirtualnego doradcy - zamiast męczyć pracownika CallCenter rozmawiam z botem, który mi podsuwa adresy stron gdzie moge znaleźć interesujące mnie informacje. Zapraszam do przetestowania - http://hubert.hestia.pl .

Co do rozwiązań e-learningowych, to najważniejszym elementem jest proces zapamiętywania, a badania naukowe dowodzą, że jednoczesne czytanie i słuchanie danej treści poprawia efektywność zapamiętywania/uczenia się. Np. Combidata używa do tego celu żywego lektora, ale poco komuś płacić za każde słowo jak można kupić produkt z opłatą jednorazową?

Mam nadzieje, że powyższe informacje są wystarczające :) Jeśli ma Pani dodatkowe pytania to proszę śmiało pisać.

Pozdrawiam,
KubaJakub Pawełczak edytował(a) ten post dnia 31.03.07 o godzinie 17:51
Łukasz Skłodowski

Łukasz Skłodowski SharePoint
Architect, PM,
Właściciel -
Mavsystem

hmmm - syntezator mozna bylo podpiac do gadu-gadu za pomocą wtyczki i byl z tgeo niezly ubaw. duzo mowi sie o integracji uslug: mail, komunikator, voip, -> odczyt poczty, komunikatow itd przez telefon

http://www.microsoft.com/uc/default.mspx
Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Łukasz S.:
hmmm - syntezator mozna bylo podpiac do gadu-gadu za pomocą wtyczki i byl z tgeo niezly ubaw. duzo mowi sie o integracji uslug: mail, komunikator, voip, -> odczyt poczty, komunikatow itd przez telefon

http://www.microsoft.com/uc/default.mspx

Co do wtyczki dla GG to rzeczywiście jest takie cuś, ale w tym przypadku rzeczywiście jest to tylko gadżet. Natomiast pomysł związany z wbudowaniem ivony w GG jest praktyczny - proszę sobie wyobrazić jaką to wolność daje osobom niewidomym, które idą do znajomego i nie mogą korzystać z komputera, bo ta osoba nie ma screenreadera (program zczytujący co się dzieje na komputerze). I tutaj wkracza GG+ivona - osoba niewidoma może mieć ten program na pendrive'ie lub wypalone na CD. Po włożeniu nośnika do stacji uruchamia się aplikacja i osoba niewidoma ma okienko na świat...

A proszę sobie wyobrazić tą samą sytuację w przypadku, gdy osoba niewidoma nie ma w ogóle sceenreadera...

ps. Wielkie dzięki za link! Super sprawa. Zawsze uważałem i będę uważał, że Microsoft produkuje oprogramowanie spełniające potrzeby Klientów. Może ich programy nie są wybitnie stabilne i super bezpieczne, ale wg mnie najważniejsza jest funkcjonalność danego rozwiązania, a to pokazane w prezentacji jest super funkcjonalne!

Pozdrawiam
Kuba
Łukasz Skłodowski

Łukasz Skłodowski SharePoint
Architect, PM,
Właściciel -
Mavsystem

to może naprawde popracujecie nad tym rozpoznawaniem polskiej mowy - bo syntezator macie naprawde świetny. może zapomnijmy na chwilę o tłumaczeniu mowy bo to rzecz bardzo trudna w realizacji ... ale mają do dyspozycji synteze i rozpoznawanie mowy macie do dyspozycji hmmm ogromne możliwości (chodźby wspomiana rozmowa przez komunikator - ale w czasie jazdy samochodem).

Hmmm przypomniało mi się coś takiego ...
Kilka lat temu (w 1997) została wydana książka pt. "Nowa era komunikacji" - John O. Green. Autor opowiada o wynalazkach: www, AI, rozpoznawanie i synteza mowy, etc. w ostatnim (chyba) rozdziale stara się przepowiedzieć co nowego może się pojawić i jak na moje oko robi to bardzo skutecznie - internetowe banki, szerokopasmowa telewizja, etc, Wspomina też o czymś co nazywa wirtualnym agentem - programem który komunikuje się z użytkownikiem za pomoca mowy i służy jako organizer (umawia spotkania, etc)

Podejrzewam, że rozpoznawanie mowy jest o wiele trudniejsze w realizacji.

Hmmm - a czy możliwe ejst zbudowanie programu który nauczyłby syntezator mowy mówić moim własnym głosem? Wiem, że to polega na przeczytaniu odpowiednich słów i wycięciu z nich fragmentów - może dałoby sie zrobić program któremu się czyta sowa wyświetlone na ekranie a on sam stworzy nasz wirtualny głos.
Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Witam!
Łukasz S.:
to może naprawde popracujecie nad tym rozpoznawaniem polskiej mowy - bo syntezator macie naprawde świetny. może zapomnijmy na chwilę o tłumaczeniu mowy bo to rzecz bardzo trudna w realizacji ... ale mają do dyspozycji synteze i rozpoznawanie mowy macie do dyspozycji hmmm ogromne możliwości (chodźby wspomiana rozmowa przez komunikator - ale w czasie jazdy samochodem).

Rzeczywiście połączenie tych dwóch technologii daje niesamowite możliwości. Pomysły można mnożyć... Ja widze ogromne pieniądze w wojsku - tak to by się strasznie przydało (w sumie już poczęści wykorzystują rozpoznawanie mowy...).
Hmmm przypomniało mi się coś takiego ...
Kilka lat temu (w 1997) została wydana książka pt. "Nowa era komunikacji" - John O. Green. Autor opowiada o wynalazkach: www, AI, rozpoznawanie i synteza mowy, etc. w ostatnim (chyba) rozdziale stara się przepowiedzieć co nowego może się pojawić i jak na moje oko robi to bardzo skutecznie - internetowe banki, szerokopasmowa telewizja, etc, Wspomina też o czymś co nazywa wirtualnym agentem - programem który komunikuje się z użytkownikiem za pomoca mowy i służy jako organizer (umawia spotkania, etc)

Szkoda, że nie ma jakiegoś nowego wydania - w sensie perspektywy na najbliższą przyszłość w dniu dzisiejszym ;)
Podejrzewam, że rozpoznawanie mowy jest o wiele trudniejsze w realizacji.

Oj tak. Jest to bardzo skomplikowany proces. Ta technologia będzie lepsza, gdy będą odpowiednio mocne komputery. Tak samo było z syntezą mowy - dzisiejsza technologia nie istniałaby gdyby nie mocne komputery desktopowe, które są wstanie uciągnąć proces syntezy mowy. Pożyjemy, zobaczymy :)
Hmmm - a czy możliwe ejst zbudowanie programu który nauczyłby syntezator mowy mówić moim własnym głosem? Wiem, że to polega na przeczytaniu odpowiednich słów i wycięciu z nich fragmentów - może dałoby sie zrobić program któremu się czyta sowa wyświetlone na ekranie a on sam stworzy nasz wirtualny głos.

Myślę, że w dalszej przyszłości tak będzie. Jednak to również wiąże się z siłą obliczeniową komputerów. Obliczenie engine'u syntezatora mowy zajmuje potężnym serwerom sporo czasu...

Generalnie cała dzisiejsza gospodarka polega na sile obliczeniowej komputerów. Im ona będzie większa tym bardziej skomplikowane technologie będą mogły być stosowane na komputerach desktopowych.
Jakub P.:
Uważam, że każdy ma różne doświadczenia, wiedzę przez co może wpaść na inny pomysł. Zatem czekam na Wasze propozycje!

Interesowalem sie kiedys tym, raczej dawno temu. Byla taka firma, chyba w Belgii, ktora miala duze osiagniecia w tej dziedzinie, nazwy zapomnialem.
Jakub P.:
Agnieszka A.:
aż nadto ładnie:((((.

Mnie by interesowało..... jak to się przekłada:).
W jakim czasie się zwraca,
jakie wzrosty powoduje.

To zależy od wykorzystania syntezatora mowy :)

Jeśli chodzi o umieszczenie Ivony w centrali telefonicznej do np. czytania salda konta to obniżamy koszty departamentu CallCenter (synteza nam czyta saldo konta, a nie pracownik). Dokładnych danych niestety nie posiadam. Jednak zważywszy na wielkie zainteresowanie właśnie tym rozwiązaniem wydaje się, że oszczędności muszą być znaczne.

To samo tyczy się wirtualnego doradcy - zamiast męczyć pracownika CallCenter rozmawiam z botem, który mi podsuwa adresy stron gdzie moge znaleźć interesujące mnie informacje. Zapraszam do przetestowania - http://hubert.hestia.pl .

Co do rozwiązań e-learningowych, to najważniejszym elementem jest proces zapamiętywania, a badania naukowe dowodzą, że jednoczesne czytanie i słuchanie danej treści poprawia efektywność zapamiętywania/uczenia się. Np. Combidata używa do tego celu żywego lektora, ale poco komuś płacić za każde słowo jak można kupić produkt z opłatą jednorazową?

Mam nadzieje, że powyższe informacje są wystarczające :) Jeśli ma Pani dodatkowe pytania to proszę śmiało pisać.

Pozdrawiam,
KubaJakub Pawełczak edytował(a) ten post dnia 31.03.07 o godzinie 17:51

Witam

Zastanawia mnie kwestia użytkowania syntezatora mowy w zakresie katalogu produktów. SPrawdzałam trochę działanie Ivo na Państwa stronce. Od strony klienta świetna sprawa, mogę odejść od komputera robić sobie kawę i słuchać. Przy czym zauważyłam trochę błędów - kwestia liter Ł, ą, Ę ( znaki polskie) , no i przytaczanie linków, momentami można się pogubić.
DOmyślam się że w kwestii callcentre koszty faktycznie sa obniżone, ja bardziej zastanawiam się nad wykorzystaniem syntezatora mowy w zakresie internetu. Czy ma Pan może namiary na firmy które z tego skorzystały. Jeśli tak byłabym wdzięczna o podanie linków, jesli nie tu to na priv. Z gory dziekuje
POzdrawiam

AGnieszka
Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Witam,
Agnieszka A.:
Zastanawia mnie kwestia użytkowania syntezatora mowy w zakresie katalogu produktów. SPrawdzałam trochę działanie Ivo na Państwa stronce. Od strony klienta świetna sprawa, mogę odejść od komputera robić sobie kawę i słuchać. Przy czym zauważyłam trochę błędów - kwestia liter Ł, ą, Ę ( znaki polskie) , no i przytaczanie linków, momentami można się pogubić.
Wynika to z integracji z naszym CMSem. W tej chwili wygląda to tak, że jak redaktor wpisuje nową wiadomość w panelu administracyjnym CMSa to tekst ten (wraz z linkami itp itd) wysyłany jest do Ivony i generowany jest plik audio. Wystarczy, że odpowiednio ustawi się tzw parser HTML, a będzie on 'wycinał' niepotrzebne teksty (np. info o linkach). Rzeczywiście trzeba to usunąć z naszej strony, czyli poprawić parser HTML. Co do ł, ą, ę to jest tutaj kwestia zmiany kodowania. Ostatnio zmieniliśmy serwer i mase innych rzeczy, które są poprawiane.
DOmyślam się że w kwestii callcentre koszty faktycznie sa obniżone, ja bardziej zastanawiam się nad wykorzystaniem syntezatora mowy w zakresie internetu. Czy ma Pan może namiary na
firmy które z tego skorzystały. Jeśli tak byłabym wdzięczna o podanie linków, jesli nie tu to na priv. Z gory dziekuje
Z wielką chęcią podam te informacje publicznie :) Poniżej przesyłam linki do stron, które korzystają z naszej syntezy na stronach www i innych rozwiązaniach webowych:
http://idg.pl/audiobot/
http://iThink.pl
http://hubert.hestia.pl
http://umig.olkusz.pl

Pozdrawiam serdecznie,
Jakub Pawełczak
Wojciech Łącki

Wojciech Łącki Data Center Manager

Jakub P.:
Witam,
Pracuje w IVO Software, tworcy syntezatora mowy IVONA (http://ivo.pl ). Chcialbym Was prosic o małą burzę mózgów. Jak myślicie, gdzie można wykorzystać syntezę?

Można spróbować wykorzystać syntezę w przyjmowaniu zgłoszeń do wewnętrznego HelpDesk i zintegrować z systemem obsługującym zgłoszenia.
W większych firmach obsługa wszelkich zdarzeń nietypowych (np. awaria drukarki, cieknący kaloryfer czy też konieczność przeprowadzki pracownika) jest obsługiwana pod jednym numerem kontaktowym a procedura rejestrowania zgłoszenia i wstępnej obsługi jest ściśle określona. W takim systemie wstępna klasyfikacja zgłoszeń może być z powodzeniem obsługiwana przy pomocy syntezatora mowy i klawiatury telefonu.
Michał Ł.

Michał Ł. Menedżer IT

[author]Wojciech
Marcin S.

Marcin S. BI Consultant, ETL
developer

Przydałaby się jakaś wersja "Lite" dla studentów (pracujących), którzy mogliby odsłuchiwać materiały z wykładów ;)

Ale rozpoznawanie mowy np. w j. angielskim byłoby na duży plus.
Wojciech Łącki

Wojciech Łącki Data Center Manager

Oczywiście zgadzam się, że formularz web jest tańszy i łatwiejszy do zaimplementowania, ale aby go stosować to osoba zgłaszająca problem do helpdesku musi:
1. mieć komputer
2. ten komputer musi być sprawny i podłączony do sieci.

Nie wszyscy ludzie pracują przy komputerach ;) , a Helpdesk musi
obsłużyć wszystkich poprawnie. Syntezator mógłby np. podawać bieżące
komunikaty o awariach dotyczące większej liczby użytkowników, np. "Winda w budynku A jest uszkodzona, przewidywany termin naprawy jutro, g. 08:00" - taka prosta informacja podana po dodzwonieniu się do Helpesku może znacząco zmniejszyć liczbę zgłoszeń.
Takie systemy mogą znacznie odciążyć pracowników Helpdesku (mam tu na myśli Helpdesk, który ma do obsłużenia kilkaset lub więcej zgłoszeń dziennie, dla mniejszych systemów tańsze jest zastosowanie telefonisty)
Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Witam!
[author]Wojciech
Jakub Pawełczak

Jakub Pawełczak Product Manager &
Tech Account Manager
at IVONA Software
...

Witam!
Marcin S.:
Przydałaby się jakaś wersja "Lite" dla studentów (pracujących), którzy mogliby odsłuchiwać materiały z wykładów ;)

Do tego celu polecam Expressivo - syntezator mowy IVONA do zastosowań domowych za 79zł brutto!! Może od razu wspomnę, że program ten potrafi generować mowę z plików Doc, PDF itp. Program bardzo funkcjonalny, po więcej informacji i demo zapraszam na stronę internetową http://expressivo.info .
Ale rozpoznawanie mowy np. w j. angielskim byłoby na duży plus.

Komputery są jeszcze za słabe, aby uciągnąć taką technologię. Co prawda jest już ASR w j. ang, ale z tego co słyszałem jest póki co w powijakach - trzeba poczekać, aż dojrzeje :) Wystarczy zobaczyć jak to działa w Windows Vista - raczej średnio...Jakub Pawełczak edytował(a) ten post dnia 10.04.07 o godzinie 11:12

Następna dyskusja:

Nowoczesne (futurystyczne) ...


Wyślij zaproszenie do