Описание издания | Свежий номер | Архив | Приобрести/Подписаться |
Содержание номера 3/2023 АНАЛИЗ ДАННЫХ Ранее мы рассказывали о решении, которое позволило повысить эффективность проверки гипотез для моделей. В этом номере разберем одну из важнейших задач в разработке моделей, — WoE-энкодинг и ранжирование факторов. Для решения этой задачи в банке «Открытие» используется, в частности, библиотека OptBinning. Поскольку градиентный бустинг склонен к переобучению, качество моделей сильно зависит от подбора гиперпараметров. Автор представляет разработанный им алгоритм подбора гиперпараметров и сравнивает его с наиболее популярными алгоритмами: RandomSearch, HyperOpt и Optuna. В приложении к статье приведен код алгоритма. Для Data Science 2023 год, безусловно, стал годом ChatGPT. Он вызвал огромный ажиотаж, предложив новые возможности. При этом новых технологий ChatGPT не принес, зато показал, как эффективно можно использовать существующие. И это дало второе дыхание для их развития. В том числе новый импульс получила технология обработки естественного языка — Natural Language Processing (NLP). В Альфа-Банке эта технология используется для решения широкого спектра задач. Посмотрим, каких результатов удалось достичь, и разберем способы применения NLP для извлечения информации из текстов и конкретнее — из чеков операторов фискальных данных. КРЕДИТНЫЙ РИСК В июне 2023 г. Банк России возобновил публикацию финансовой отчетности кредитных организаций на своем сайте. С целью снижения санкционных рисков форма отчетности 0409101 сокращена до значений счетов первого порядка, причем несколько групп счетов представлены лишь в агрегированном виде. Санкционные риски уменьшены, но можно ли продолжать оценивать уровень кредитного риска контрагентов с приемлемым качеством? Продолжаем наблюдать за еженедельными данными отраслевых финансовых потоков в разрезе ОКВЭД плательщиков, раскрываемыми Банком России на регулярной основе. Ценность таких данных в том, что это довольно чувствительные показатели состояния отраслей, в которых активно кредитуют банки. Из всего спектра макроэкономических данных они наиболее актуальны (приведены к текущему моменту) и приближены к микроданным (по сути это некие агрегаты данных конкретной компании, что представляет максимальную ценность в плане объективности анализа). Однако есть вопросы к методологии. Описанная в статье методика позволяет оценить связь бизнес-циклов и изменения кредитных рейтингов. От традиционных моделей стресс-тестирования она отличается тем, что основана не на корреляции активов, а на корреляции рейтинговых миграций. Полученные матрицы ориентированы на понижение рейтинга и отражают стрессовые условия. Продолжаем традиционную рубрику об успехах и провалах участников рейтинга информационно-аналитических систем (ИАС). В этот раз проверим сервис, находящийся на 15-м месте, — «СберКорус» от широко известной компании, связанной с крупнейшим банком России, но на основании Закона № 129-ФЗ не раскрывающей своих учредителей. ОПЕРАЦИОННЫЙ РИСК Продолжаем эксперимент по учету событий операционных рисков в популярном табличном процессоре. Напомним, что методология разнесения событий описана в статье «Реально ли исполнить требования Положения № 716-П в “облачных” таблицах?», а отчетность в разрезе инцидентов и количественных показателей в статье «Контрольные показатели управления операционным риском и иные нормативы 716-П: “понять и простить” в Excel 365». Первый раздел отчета 0409106 мы заполняли в первом номере за 2023 год, а в этом номере разбираем второй раздел. Для понимания логики данной статьи желательно ознакомиться с описанной ранее методологией. ОТКРЫТОЕ ПО В прошлой статье мы тестировали аналоги MS Excel в программных продуктах — лидерах рынка: «Р7-Офис», «Мой Офис», «свободном» Libre Office и «дружественном» WPS Office — на «боевых» многомегабайтных файлах аналитика, используя рабочую станцию Windows с 4-ядерным процессором и 24 Гб RAM. В этот раз мы начнем перевод макросов, которые имеются в арсенале любого опытного аналитика, на каждую из этих платформ и оценим эффективность данного процесса. Команда Агентства Республики Казахстан по регулированию и развитию финансового рынка подготовила и разместила в открытом доступе наборы данных и код, используемые при анализе банковского сектора, в рамках проекта AFR. Это один из первых примеров открытого кода и открытых финансовым регулятором наборов данных на постсоветском пространстве. В нашем кратком обзоре покажем, что сделано коллегами, почему это важно, как может быть использовано и какие перспективы открывают подобные проекты открытого кода в сфере финансового регулирования. ПЕРСОНАЛЬНАЯ ЭФФЕКТИВНОСТЬ Есть мнение, что для работы риск-менеджера достаточно онлайн-курсов. Однако практика показывает, что имеет смысл возврат к классическому математическому образованию. Как риск-менеджеру могут пригодиться полученные в вузе знания и как крупные банки обеспечивают себя квалифицированными кадрами? ЧИТАЙТЕ В ЭЛЕКТРОННОЙ ВЕРСИИ В условиях ограниченных ресурсов и большого количества задач построение качественных моделей в срок требует выверенного подхода. На помощь приходит пайплайн моделирования: набор практик и решений для построения моделей машинного обучения, подкрепленных проверенными скриптами, с возможностью экспертной кастомизации. Пайплайн для разработки классических банковских моделей классификации, который мы используем в своей работе, описан в статье.
|
|