Переизобрести звонки и чаты

То, как сейчас работают групповые звонки — меняется. Зум внедряет ИИ-ассистента, который висит в виде отдельной кнопки, нажатие на которую просто показывает что разговор транскрибируется. На данный момент малофункциональная кнопка. Было бы гораздо полезнее если бы при нажатии на неё можно было бы увидеть вкратце о чём шел разговор ранее, и какую-то информацию об участниках звонка.

Сейчас есть групповые чаты, где люди переписываются текстом, иногда голосовухами. Телеграм, вацап, вайбер, дискорд у физиков. Слак, тимс, матермост у компаний. Но часто компании используют те же тг и ва. И отдельно, параллельно, существуют звонкию Zoom, google meet, jitsi. Эти параллельные потоки нужно соединить друг с другом.

Нужно транскрибировать всё, что говорят собеседники. Это и так делается: в зуме, в гугл мит — внутренними инструментами существующих звонилок. А еще внешними: tldv, cluely, briefly, etc. Но транскрибация сейчас отвязана от звонка и от чата.

Результат этой транскрибации надо пропускать через нейронку, которая знает контекст звонка и кто на этом звонке присутствует и исправляет места, где распознавание неверно расслышало.

Результаты исправленной транскрибации нужно сразу писать в чат в виде высказываний тех участников что присутствуют на звонке. Чтобы в дальнейшем люди, не присутствовавшие на звонке могли а) найти эту инфу в чате б) сослаться на это «сообщение» задав доп.вопросы или дополнив его новой информацией. Как они это могут сейчас делать с обычными текстовыми сообщениями из чата.

ИИ-ассистент может присутствовать на звонке в виде отдельного участника звонка и зачитывать сообщения из чата внутрь звонка. Чтобы дать возможность людям без возможности видео и аудио связи поучаствовать в звонке. Если чат очень активный эту возможность можно либо отключить либо попросить ИИ-ассистента модерировать вопросы и задавать 1) только вопросы, имеющие отношение непосредственно к разговору 2) не перебивая текущей дискуссии. Например можно дать возможность ИИ-ассистенту использовать функционал поднятия руки (есть и в зуме и в гугл мит)

Костыльное решение в виде отдельного стартапа. Пока это не сделает openai или google или X. Ассистент вместо или вместе со своей аватаркой показывает транскрипт того, как он слышит звонок. Чтоб можно было судить о том, как слышно меня самого и других участников.

В телеге, вацапе, дискорде есть групповые звонки. У телеги gruppen-call связан с чатом только присыланием статусного сообщения в общий чат. В дискорде никаких сообщений нет, но i) хорошо видно в интерфейсе что идёт групповой звонок ii) есть (или был) функционал передачи текстовых сообщений в голосовой канал. Есть софт — например cluely — который на клиенте распознаёт всё что говорю я и что раздаётся из компа (да, вплоть до реплик из проходимой мною игры) и делает из этого транскрипт. Если подружить два этих решения друг с другом то звонки переизобретутся.

Ближе всего к этому находится как не странно ~~твиттер~~ X. в нём есть грок, который может дать по практически любому аккаунту саммари и когда эти аккаунты приходят на созвон. Так же в твиттере довольно неплохие групповые созвоны, которые они слизали с clubhouse. И там есть зачатки чатов с голосовыми сообщениями и групповыми чатами. Которые почему-то не делают полноценным мессенджером. О, ха-ха, зашёл проверить как там дела — а туда завезли новые чаты с шифрованием. Ну осталось донести до Маска мою идею про переизобретение звонков.

Пойду превращу этот пост в серию твитов.