D
Deep 🍒 Picking | Артём Вишня
@asvishnya_blog107 подп.
203просмотров
21 февраля 2026 г.
🎬 ВидеоScore: 223
🗣 Работа в формате Voice-Driven: как болтать и работать успевать больше Последние N-месяцев практически любую задачку, которую хочу покрутить с моделью (концепция, требования, архитектура, код, да что угодно еще), наговариваю голосом. Мотив у меня здесь простой: это мало того, что просто удобно, так еще и мелких полезных деталей в ходе болтания, откинувшись на спинку кресла, вылезает довольного много. Казалось бы, ну что тебе стОит сесть и напечатать, а нет - ты вот сядь, не отвлекись, подумай и не передумай потом, если мысль была искрометная, мол, эмоции не те, ушла история, вот это вот все. Раньше у меня было так: я либо нажимал "микрофон" в UI IDE / чата (в том же курсоре качество STT ну просто буэ, если не пытаться в британского мусье 💂‍♀), либо заставлял себя детально написать мысли, а потом в план-режиме крутить через вопрос-ответ итоговый концепт, сжигая время и токены. В чатиках с GPT / Gemini, разумеется, Voice Mode на старте и он неплохой. Короче, обленился до чертей да и само явление ИТ (философия time), отчасти - пестовать нашу лень, снимая рутину через автоматизацию (имхо). Вначале из созвона с Родионом, а потом и в чатике Валеры увидел, а сегодня, наконец, попробовал Handy. Что это и зачем: ✅ супер-минималистичный опенсорсный настольный апп (и винда, и мак); ✅ болталка (пуш2толк) с молниеносной транскрибацией (локальной!) без смс, регистраций и интернетов = 0 рублей; ✅ возможность улучшать качество нашего специфического контента через LLM (подрубил к локальной "народной" qwen3-4b от 2507 - вау-мяу), но можно и всякое разное: OAI, OR, Cerebras, Зайки и прочие. Первые ощущения: ➕ Супер балансная моделька, идущая на борту, - Parakeet V3 действительно тащит: описанию fast and accurate соответствует (хотя в бизнес-кейсах чаще опирался на свои бэнчи и реф от создателей Vosk - alphacephei); ➕ Вставка текстового результата в любое поле ввода - ну просто гига-удобно, минимум кликов, попробуйте сами! ➕ На борту (экспериментальная фича) возможность вызова OpenAI Compatible API с минималистичным Improve Transcriptions промптом, чтобы сразу чистить всяких речевых паразитов, цифры, очепятки и все такое, сохраняя язык оригинала. Время покажет, но на сегодня - это однозначно рекомедасьён 👍 А какие примочки-бустеры работы используете вы ❓ -- ЗЫ: забавно, что в моменте я одновременно качал и Wispr Flow, и Handy, но размер и скорость установки последнего взяли своё 😁 ЗЗЫ: если локальной модельки транскрибации будет мало и захочется через API дергать свои висперы - г-н 🖼️ напилил https://github.com/vakovalskii/Handy/releases
203
просмотров
2576
символов
Да
эмодзи
Да
медиа

Другие посты @asvishnya_blog

Все посты канала →
🗣 Работа в формате Voice-Driven: как болтать и работать усп — @asvishnya_blog | PostSniper