ML-инженер в команду Спамообороны

📩 Ключевые цифры:

300 миллионов писем пользователей обрабатываем каждый день;
70 счётчиков по отдельным частям письма обновляются в реальном времени;
Тысячи признаков, извлекаемых из каждого письма за сотни миллисекунд;
Терабайты данных для исследований и обучения моделей;
3 модели семантического анализа применяем к тексту, чтобы оценить вид письма, его окрас и схожесть с известными спамерскими письмами;
600 факторов вычисляем для каждого письма в итоге;
Передаём все эти факторы в модель машинного обучения, взвесив которые, она предполагает, хочет ли пользователь видеть это письмо в своём ящике или нет.

ML модели в Спамообороне ✔️

Результат работы Спамообороны основывается на тесном взаимодействии нескольких моделей. В частности, мы используем CatBoost для итоговых предсказаний, а различные текстовые модели (fastText, DSSM) для получения полезных фичей по письму.

С развитием команды появляются ресурсы не только на улучшение старых, но и на внедрение новых моделей. Так, мы ищем полезные применения моделей компьютерного зрения, а также трансформерных энкодеров.

🔡 Работа с LLM

Мы активно используем возможности генеративных моделей в нашей работе. Наша команда решает задачи, в которых требуется применение сложных алгоритмов и искусственного интеллекта. Мы дообучаем YandexGPT для решения различных продуктовых и технических задач.
Недавно мы запустили нейрофильтр в почте. Это инновационное решение автоматически определяет важные письма в ящике пользователя на основе классификационной модели Спамообороны и саммаризует их содержание, используя YandexGPT. Это значительно упрощает работу с электронной почтой, и помогает пользователям быстрее находить нужную информацию.
У нас большие планы по внедрению LLM в различные продукты Яндекс 360. Мы уверены, что это позволит нам создать ещё более удобные и эффективные решения для наших пользователей.

📝 Ближайшие (и не только) планы

☑️ Применение LLM для решения дискриминативных и генеративных задач;

☑️ Внедрение моделей компьютерного зрения;

☑️ Будем решать задачи классификации, CV, NLP, RAG;