Для платформы с 620 миллионами ежемесячных пользователей использование сложных базовых ИИ-моделей для каждой рекомендации изображений является скорее значительной статьей расходов, чем стратегией. Технический директор Pinterest Мэтт Мэдригал решил эту проблему, радикально переработав слой визуализации модели Qwen3-VL. Его команда заменила стандартный подход собственными эмбеддингами (векторными представлениями данных), что позволило сократить расходы на 90% и повысить точность рекомендаций на 30%.
Команда Мэдригала активно инвестирует в фундаментальную внутреннюю адаптацию моделей с открытым исходным кодом. По словам технического директора, если компания располагает уникальными данными, которые позволяют дообучить такую модель, качество данных может значительно превзойти или компенсировать размер самой модели.
Pinterest, обслуживающий около 620 миллионов активных пользователей в месяц, давно использует модели с открытым исходным кодом для визуального поиска и рекомендаций, начиная с Google BERT и OpenAI CLIP. Компания дообучила собственную модель Pin CLIP на основе последней, интегрировав уникальные визуальные эмбеддинги и метаданные изображений. Разговорный ассистент для покупок Navigator 1 также разработан на базе Qwen3-VL и существенно модифицирован. Команда Мэдригала, по сути, удалила слой визуального кодировщика Qwen и дообучила модель на собственных мультимодальных эмбеддингах. Это позволило собирать метаданные вокруг пинов (изображений) и другой графики, которые затем могут быть предварительно обработаны в офлайн-режиме и регулярно обновляться на основе новой информации для предоставления персонализированного пользовательского опыта.
Мэдригал подчеркнул, что модели с открытым исходным кодом, особенно те, что имеют лицензии Apache, дают возможность значительно изменять веса и адаптировать их под уникальные сценарии использования. Это делает их чрезвычайно мощным инструментом для компании. Использование собственных эмбеддингов позволяет команде глубже понимать контекст метаданных, пинов и изображений. Кроме того, это значительно улучшает производительность модели во время выполнения и логического вывода. Без этих эмбеддингов разработчикам приходилось бы вызывать и кодировать каждое возвращаемое изображение по отдельности в режиме реального времени. Это привело бы к увеличению задержки логического вывода примерно в 20 раз.
По словам Мэдригала, если какая-либо функция является критически важной для конечных пользователей, способствует вовлеченности и должна масштабироваться до более чем 600 миллионов активных пользователей в месяц, компания предпочитает либо разрабатывать её с нуля, либо максимально адаптировать решения с открытым исходным кодом.
Для того чтобы направлять пользователей от вдохновения к совершению покупки, команда Мэдригала создала "граф вкусов" — динамическую модель, отражающую реальные предпочтения отдельных пользователей, а не только их клики. Мэдригал отметил, что этот граф представляет собой постоянно меняющиеся вкусы миллиардов людей. В отличие от Google и других поисковых систем, куда люди обращаются, имея чёткое представление о желаемом, Pinterest предназначен для стадии поиска и открытий. Цель платформы — стимулировать "боковое исследование" и превращать процесс открытия в намерение (то есть в клики по рекламе или совершение покупок).
В основе архитектуры лежит комбинация графовой структуры и обучения представлений (representational learning). Пользовательские эмбеддинги фиксируют постоянно меняющиеся вкусы пользователя, которые непрерывно обновляются на основе активности, нового контента и сигналов. Мэдригал подчеркнул, что это не социальный граф, а скорее "граф предпочтений", отвечающий на вопросы: "Что вас вдохновит?" и "Что вы собираетесь делать дальше?". Например, если один пользователь интересуется дизайном середины XX века, а другой предпочитает эстетику Нантакета, эти предпочтения будут зафиксированы в пользовательских эмбеддингах, и граф вкусов предложит конкретные, релевантные продукты. Таким образом, платформа сопровождает пользователя от верхней части воронки продаж (вдохновение, открытие) до нижней (намерение).
В полной версии подкаста можно узнать подробнее о следующем: