Junior DS (NLP) специалист

договорная
Полный день, без опыта, полная занятость

Описание вакансии

Мы внедрили банковские и экосистемные LegaTech-продукты на основе SOTA-NLP моделей. Наши решения анализируют сотни типов входных документов, извлекают сложноструктурированные знания и помогают людям принимать на их основе ответственные решения. Это, например, позволяет оптимизировать работу банка по правовым рискам кредитных сделок, с минимальным участием человека.

Мы идем дальше и нам нужен NLP-специалист, чтобы внедрять разрабатываемые в банке LLM-модели для их применения в правовой сфере.

Текущий статус

Наши AI-решения применяются в флагманском продукте Сбера «Онлайн-кредитование» для корпоративных клиентов, обеспечивая принятие решений в автоматическом режиме по 60% от всех кредитных сделок банка.

Мы уделяем особое внимание сбору и подготовке датасета: мы собрали обширный набор юридических данных, на которых обучили собственный трансформер-энкодер LegalBERT, также у нас есть собственный инструмент разметки, который позволяет задействовать несколько десятков in-house разметчиков для создания различных NLP-датасетов.

Команда

У нас работают NLP-исследователи, разработчики, юристы и лингвисты — выпускники лучших российских вузов, участники конкурсов и хакатонов. Так, наша команда победила в хакатоне «Лидеры цифровой трансформации», организованном Правительством Москвы в 2022 году.

Чем предстоит заниматься

Необходимо переводить наши разработки на новый уровень (End-to-End) принятия решений, что связано с внедрением больших лингвистических моделей (LLM типа ChatGPT/LaMDA) в наши процессы. Спектр работ – от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в Production:

● Анализ задач, RnD и подбор адекватных SOTA-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов, проверка гипотез, выработка плана разработки.

● Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (SFT — supervised fine-tuning) LLM на специализированном юридическом домене, взаимодействие с функциями DA/DE.

● Организация процесса превращения GPT/T5 моделей в Instruct LLM по методологии RLHF (обучение с подкреплением по обратной связи от человека — как вариант).

● Автогенерация обучающих примеров для Instruc LLM и другие способы (Zero shot learning) уменьшения издержек в процессе адаптации LLM под требования пользователей (Human Tasks Alignment)

● Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень H-H-H: честности, полезности и безопасности

● Улучшение уже применяющихся компонентов, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи NER, работа над ошибками моделей, доработка архитектуры.

Наши ожидания от кандидатов:

● Реальный опыт разработки NLP-моделей, знание SOTA-подходов, умение их объяснить команде

● Отлично знание основ Data Science — от линейной алгебры и теории вероятностей до DNN

● Понимание архитектуры и принципов устройства и обучения больших лингвистических моделей (LLM) и генеративных трансформеров типа GPT/Bert: Tokenizing, Position Encoding, (Masked) Multihead Attention, Batch/Layer Normalization и т.д.

● Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning)

● Понимание основных методов Machine Learning (regressions, clustering, decision trees, и т.д.)

● Умение выстраивать Pipe Line машинного обучения и быстрое развертывание их в применении к GPT-подобным моделям — Domain Data Mining / Augmentation / Unsupervised Learning/ SFT / RLHF / Validation / Self Confidence / Active Learning

● Оценка вычислительной сложности всего Pipe Line, применение классических алгоритмов для ее снижения

● Знание Computer Science на уровне, позволяющем управлять командой разработчиков — от понимание классических алгоритмов до Unit Tests, Refactoring и основ Devops

● Готовность браться за нестандартные, сложные задачи (поддержка актуальных знаний в весах моделей (Active Learning) или на внешней дифференцируемой памяти по принципу Query-Key-Value, доверие к Confidence решений, способы преодолеть Token Window Size и другие.)

Условия

Что мы предлагаем

● Страшно интересные NLP задачи в самой сложной области предметных знаний (GPT + Legal domain).

● Возможность обучения и развития, участия в конференциях от Сбера.

● Уютный офис с печеньками, столовой и спортзалом.

● Социальный пакет (ДМС, фитнес, льготное страхование).

Адрес места работы

Вакансия №206995, обновлена 3 июля, 02:53