📩 Ключевые цифры:
- 300 миллионов писем пользователей обрабатываем каждый день;
- 70 счётчиков по отдельным частям письма обновляются в реальном времени;
- Тысячи признаков, извлекаемых из каждого письма за сотни миллисекунд;
- Терабайты данных для исследований и обучения моделей;
- 3 модели семантического анализа применяем к тексту, чтобы оценить вид письма, его окрас и схожесть с известными спамерскими письмами;
- 600 факторов вычисляем для каждого письма в итоге;
- Передаём все эти факторы в модель машинного обучения, взвесив которые, она предполагает, хочет ли пользователь видеть это письмо в своём ящике или нет.
ML модели в Спамообороне ✔️
Результат работы Спамообороны основывается на тесном взаимодействии нескольких моделей. В частности, мы используем CatBoost для итоговых предсказаний, а различные текстовые модели (fastText, DSSM) для получения полезных фичей по письму.
С развитием команды появляются ресурсы не только на улучшение старых, но и на внедрение новых моделей. Так, мы ищем полезные применения моделей компьютерного зрения, а также трансформерных энкодеров.
🔡 Работа с LLM
- Мы активно используем возможности генеративных моделей в нашей работе. Наша команда решает задачи, в которых требуется применение сложных алгоритмов и искусственного интеллекта. Мы дообучаем YandexGPT для решения различных продуктовых и технических задач.
- Недавно мы запустили нейрофильтр в почте. Это инновационное решение автоматически определяет важные письма в ящике пользователя на основе классификационной модели Спамообороны и саммаризует их содержание, используя YandexGPT. Это значительно упрощает работу с электронной почтой, и помогает пользователям быстрее находить нужную информацию.
- У нас большие планы по внедрению LLM в различные продукты Яндекс 360. Мы уверены, что это позволит нам создать ещё более удобные и эффективные решения для наших пользователей.
📝 Ближайшие (и не только) планы
☑️ Применение LLM для решения дискриминативных и генеративных задач;
☑️ Внедрение моделей компьютерного зрения;
☑️ Будем решать задачи классификации, CV, NLP, RAG;