Разметка логов

Разметка логов (data labeling) — инструмент JAICP, позволяющий выявлять тематику сообщений из загруженных данных, на которые будет реагировать бот.

Для разметки логов перейдите в проект > на панели управления нажмите CAILA > Разметка логов.

Алгоритм разметки логов:

Подготовка данных.
Загрузка данных.
Очистка данных.
Группировка выбранных фраз.
Сохранение результатов.

Подготовка данных

Перед началом работы над разметкой логов необходимо подготовить файл с данными.

Например, это может быть файл с фразами, которые классификатор не смог отнести ни к одному из интентов с заданной степенью уверенности.

Формат входного файла:

Tекстовый файл UTF-8.
Каждая фраза находится на отдельной строке.

Обратите внимание, что количество строк в файле не должно превышать 10000.

Загрузка данных

Для загрузки подготовленного файла нажмите на верхней панели окна Загрузить логи > перетащите или выберите файл. Количество загруженных фраз отображается под верхней панелью.

Разметка логов

Очистка данных

На этом этапе мы очистим данные от "мусора": спецсимволов, стоп-слов, дубликатов и пр.

Нажмите на верхней панели окна Очистить данные. Выберите параметры, по которым будет происходить очистка данных:

Удалить спецсимволы — будут удалены все символы кроме букв и цифр. Изменения происходят во фразах без возможности отмены операции.
Удалить короткие строки до — будут удалены все строки, короче указанного числа символов.
Удалить длинные строки от — будут удалены все строки, длиннее указанного числа символов.
Исправить опечатки — исправление опечаток во фразах. Настройки опечаточника задаются в настройках проекта в разделе Расширенные настройки NLU. Изменения происходят во фразах без возможности отмены операции.
Удалить стоп-слова — удаление стоп-слов. Словарь стоп-слов встроен в платформу. Изменения происходят во фразах без возможности отмены операции.
Заменить сущности — замена всех значений сущностей их названием. Заменяются значения для активных системных и пользовательских сущностей. Изменения происходят во фразах без возможности отмены операции.
Удалить дубликаты — удаление всех дубликатов фразы. После выполнения операции остается одно уникальное значение каждой сущности.

Нажмите Очистить.

Для просмотра удаленных фраз нажмите Показать разобранное на верхней панели окна. Удаленные фразы находятся внизу списка и помечаются иконкой Перейдите в корзину для просмотра удаленных фраз .

Группировка фраз

Вы можете назначить фразу интенту без группировки. Для этого выделите фразу или несколько фраз > Назначить интент > выберите интент или создайте новый > Добавить.

Обратите внимание, что сохранение добавленных фраз в интенты происходит на этапе Стейджинг.

В поле История операций вы найдете все операции по группировке фраз. Нажмите на название группы для перехода к ней. В поле Список групп находятся все группы, сформированные по выбранному признаку.

Возможные группировки фраз:

дубликаты;
ключевые слова;
интенты;
кластеры.

Дубликаты

После выполнения операции дубликаты будут объединены в одну группу.

Для группировки нажмите на верхней панели окна Сгруппировать > Дубликаты. В истории операций выберите Дубликаты.

Сгруппируйте дубликаты проекта

Здесь вы можете назначить интент группе. Для этого выделите фразу > Назначить интент > выберите интент или создайте новый > Добавить.

Обратите внимание, что сохранение добавленных фраз в интенты происходит на этапе Стейджинг.

Ключевые слова

Выберите метод выделения ключевых слов и заполните поля.

Частотный метод

Частотный метод (TF/IDF) позволяет группировать фразы на основе ключевых слов или словосочетаний.

Заполните поля для метода:

Привести к нижнему регистру — все слова будут приведены к нижнему регистру.

Слово может иметь разные значения в зависимости от регистра. В этом случае, важно такие слова различать и не уфицировать, что позволяет отключеннный флаг Привести к нижнему регистру.

Максимальная длина N-граммы — количество слов, которые будут объединены в словосочетания.
Максимум пропущенных слов — параметр, согласно которому создаются skip-n-gramms (словосочетания с пропуском слов). Означает, что между словами N-граммы могут быть частицы, предлоги и другие слова.

Например, для фразы один два три четыре мы можем получить 5 1-skip-2-grams:

один два
один три
два три
два четыре
три четыре

Минимальная частота униграм — порог частоты встречаемости униграммы в корпусе, после преодоления которого униграмма берется в анализ. Рекомендуется 6-7 для небольших датасетов и от 7 для остальных.
Минимальная частота N-граммы — порог частоты встречаемости N-граммы в корпусе, после преодоления которого N-грамма берется в анализ. Рекомендуется 2-4 для небольших датасетов и от 5 для остальных.
Максимальное число N-грамм из фразы — так как из фразы можно выделить большего одного словосочетания, данным параметром можно ограничить их количество. Рекомендуемое значение 2-5, для длинных фраз до 6-7.

Синтаксический метод

Синтаксический метод (UDPipe) ищет ключевые слова на основе морфологической и синтаксической информации.

Заполните поля для метода:

Привести к нижнему регистру — все слова будут приведены к нижнему регистру.
Язык документа — выберите язык, на котором приведены фразы для разметки.
Сказуемое во фразе — из фразы будут выделены только словосочетания, которые содержат сказуемое.
Привести к нормальной форме слов — каждое слово будет заменено на свою нормальную форму.

Для перехода к результатам группировки по ключевым словам выберите в истории операций название метода. Здесь вы можете назначить интент группе. Для этого выделите фразу или несколько фраз > Назначить интент > выберите интент или создайте новый > Добавить.

Обратите внимание, что сохранение добавленных фраз в интенты происходит на этапе Стейджинг.

Интенты

Метод группировки Интенты позволяет выявить соответствие между добавленными фразами и активными интентами для проекта.

При группировке для каждой фразы присваивается численное значение confidence. Параметр confidence — степень уверенности платформы JAICP, что введенная фраза относится к определенному интенту.

Для группировки нажмите на верхней панели окна Сгруппировать > Интенты. В истории операций выберите Интенты.

Сгруппируйте интенты проекта

Вы можете регулировать отображение фраз по показателю confidence передвигая ползунок Уверенность на верхней панели окна.

Нажмите Скрыть конфликтные для скрытия фраз, которые были соотнесены к нескольким активным интентам.

Здесь вы можете назначить интент группе. Для этого выделите фразу или несколько фраз > Назначить интент > выберите интент или создайте новый > Добавить.

Нажите Добавить всё в интенты для добавления всех фраз в соответствующие интенты.

Обратите внимание, что сохранение добавленных фраз в интенты происходит на этапе Стейджинг.

Кластеры

Кластеризация — это классификация, но без заранее известных классов. Она сама ищет похожие объекты и объединяет их в кластеры. Количество кластеров можно задать заранее или доверить это машине.

Выберите метод кластеризации и заполните поля.

K-Means

Метод K-Means позволяет задать количество кластеров, по которым будут распределены примеры.

Заполните поля для метода:

Язык — выберите язык, на котором приведены фразы для разметки.
Количество кластеров — укажите количество кластеров, на которое следует объединить фразы.

Linkage

Метод Linkage позволяет установить пороговое значение, при котором фразы будут считаться достаточно близкими, чтобы быть объединенными в один кластер.

Язык — выберите язык, на котором приведены фразы для разметки.
Пороговое значение — параметр иерархической кластеризации, отвечающий за максимально допустимое расстояние между кластерами.
Количество фраз для кластеризации — количество строк из текущего файла будет взято в работу. Применяется, когда оригинальный массив логов большой и обработка займет много времени.

Для перехода к результатам группировки по кластерам выберите в истории операций название метода. Здесь вы можете назначить интент группе. Для этого выделите фразу или несколько фраз > Назначить интент > выберите интент или создайте новый > Добавить.

Обратите внимание, что сохранение добавленных фраз в интенты происходит на этапе Стейджинг.

Стейджинг

Нажмите на верхней панели окна Стейджинг. Здесь находятся все фразы, которые были добавлены в интенты на предыдущих этапах.

Стейджинг проекта

Нажмите Сохранить в интенты для сохранения добавленных фраз в интенты.