NLP-задачи в банке «с нуля»: от основ до продвинутых подходов на примере анализа отзывов
Размещено на сайте 27.09.2022
В риск-моделях нередко используются текстовые данные: отзы- вы и комментарии, свободные ответы на вопросы анкет, новостная лента, данные чат-ботов с пользователем и самая большая часть — текстовая информация транзакций. В статье на примере реализованного проекта по анализу данных соцмедиа — текстов комментариев и отзывов пользователей о банке — показано, что даже простые задачи NLP, решаемые на реальных данных, могут потребовать глубоких исследований. Также в статье рассказывается, какие подходы можно применить после внедрения базового минимума.
Ксения МАКСИМОВА, Банк ВТБ (ПАО), управление моделирования розничного бизнеса, ведущий специалист
Приводятся извлечения из статьи.
Полную версию материала читайте в журнале.
Подписаться
Результатом масштабированной задачи является витрина, в которую на регулярной основе записываются ключевые словосочетания, иллюстрирующие мнения пользователей относительно продуктов и сервисов той или иной финансовой организации.
|
Для поиска ключевых словосочетаний был выбран такой подход, как извлечение коллокаций (устойчивых последовательностей двух слов, не обязательно идущих подряд) на основе мер ассоциаций. В качестве меры ассоциации использовался метод правдоподобия LLR (Log-Likelihood ratio).
|
Для удаления спама был создан словарь Spam, на пересечение с которым проверялись все комментарии. Если пересечение ненулевое, комментарий полностью исключался из рассмотрения.
|
В качестве улучшений можно рассмотреть методы проверки орфографии и альтернативные методы токенизации текста.
|