{
    "componentChunkName": "component---src-templates-doc-page-js",
    "path": "/docs/ru/NLU_core/advanced_classifer_settings/",
    "result": {"data":{"site":{"siteMetadata":{"title":"Gatsby-doc-engine"}},"markdownRemark":{"id":"2886a339-4985-5d7b-8b02-3dd6113d1091","excerpt":"Расширенные настройки NLU?> При создании и редактировании проекта вы можете задать новые параметры для настройки NLU. Параметры передаются в виде JSON-объекта в…","html":"<h1>Расширенные настройки NLU</h1>\n<hr>\n<p class='warn'><a href=/1.10.3/docs/ru/platform_ux/nlu_core_caila/project_setting  >При создании и редактировании проекта вы можете задать новые параметры для настройки NLU</a>. Параметры передаются в виде JSON-объекта в текстовом представлении.</p>\n<p class='tip'>Важно указывать параметры, которые соответствуют <a href=/1.10.3/docs/ru/platform_ux/nlu_core_caila/project_setting  >алгоритму классификатора в проекте</a>.</p>\n</br>\n<h3>Общие настройки</h3>\n<p>К общим настройкам относятся параметры, не зависящие от алгоритма классификатора в проекте:</p>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\"><span class=\"token punctuation\">{</span>\r\n    <span class=\"token property\">\"patternsEnabled\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"tokenizerEngine\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"udpipe\"</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"dictionaryAutogeneration\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span>\r\n<span class=\"token punctuation\">}</span></code></pre></div>\n<p>Параметры:</p>\n<ul>\n<li><code class=\"language-text\">patternsEnabled</code> — при активном параметре в тренировочных фразах доступно использование паттернов.</li>\n<li><code class=\"language-text\">tokenizerEngine</code> — токенизатор, который будет выполнять токенизацию и лемматизацию текста.</li>\n<li><code class=\"language-text\">dictionaryAutogeneration</code> — при активном параметре осуществляется <a href=\"/1.10.3/docs/ru/platform_ux/nlu_core_caila/spellcheck\">заполнение пользовательского словаря согласно содержимому сущностей</a>.</li>\n</ul>\n</br>\n<h4><code class=\"language-text\">tokenizerEngine</code></h4>\n<p>В зависимости от языка NLU необходимо использовать разные типы токенизаторов.</p>\n<table>\n<thead>\n<tr>\n<th align=\"center\">Язык NLU</th>\n<th align=\"left\">tokenizerEngine</th>\n<th align=\"left\">Дополнительная информация</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td align=\"center\">Русский</td>\n<td align=\"left\"><code class=\"language-text\">udpipe</code> </br> </br> <code class=\"language-text\">mystem</code> </br> </br> <code class=\"language-text\">morphsrus</code></td>\n<td align=\"left\">По умолчанию используется <code class=\"language-text\">udpipe</code>. </br> </br> Токенизаторы <code class=\"language-text\">mystem</code> и <code class=\"language-text\">morphsrus</code> используются для миграции проектов с паттернов на CAILA.</td>\n</tr>\n<tr>\n<td align=\"center\">Английский</td>\n<td align=\"left\"><code class=\"language-text\">spacy</code> </br> </br> <code class=\"language-text\">udpipe</code></td>\n<td align=\"left\"></td>\n</tr>\n<tr>\n<td align=\"center\">Китайский</td>\n<td align=\"left\"><code class=\"language-text\">pinyin</code></td>\n<td align=\"left\"></td>\n</tr>\n<tr>\n<td align=\"center\">Португальский</td>\n<td align=\"left\"><code class=\"language-text\">udpipe</code></td>\n<td align=\"left\"></td>\n</tr>\n</tbody>\n</table>\n</br>\n<h3>STS</h3>\n<p>Параметры для STS классификатора:</p>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\"><span class=\"token punctuation\">{</span>\r\n    <span class=\"token property\">\"patternsEnabled\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"namedEntitiesRequired\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"tokenizerEngine\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"udpipe\"</span><span class=\"token punctuation\">,</span>\r\n\r\n    <span class=\"token property\">\"stsSettings\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n        <span class=\"token property\">\"exactMatch\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1.0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lemmaMatch\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.95</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"jaccardMatch\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"jaccardMatchThreshold\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.82</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"acronymMatch\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1.0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"synonymMatch\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"synonymContextWeight\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"patternMatch\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"throughPatternMatch\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"wordSequence1\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.8</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"wordSequence2\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.9</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"wordSequence3\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1.0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"intermediateAlternativesLimit\"</span><span class=\"token operator\">:</span> <span class=\"token number\">5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"finalAlternativesLimit\"</span><span class=\"token operator\">:</span> <span class=\"token number\">5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"idfShift\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"idfMultiplier\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1.0</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"namedEntitiesRequired\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token punctuation\">}</span>\r\n<span class=\"token punctuation\">}</span></code></pre></div>\n</br>\n<h4>Параметры</h4>\n<ul>\n<li><code class=\"language-text\">exactMatch</code> — вес точного совпадения слов в предложениях.</li>\n<li><code class=\"language-text\">lemmaMatch</code> — вес совпадения слов по леммам.</li>\n<li><code class=\"language-text\">jaccardMatchThreshold</code> — вес посимвольного сравнения слов мерой Жаккара.</li>\n<li><code class=\"language-text\">acronymMatch</code> — вес сравнения слов как акронимов.</li>\n<li><code class=\"language-text\">synonymMatch</code> — вес для синонимов.</li>\n<li><code class=\"language-text\">synonymContextWeight</code> — вес, с которым применяется при ранжировании значение <code class=\"language-text\">weight</code> из справочника синонимов.</li>\n<li><code class=\"language-text\">patternMatch</code> — вес соответствия по паттернам.</li>\n<li><code class=\"language-text\">throughPatternMatch</code> — вес соответствия по найденным сущностям в примере и входном тексте.</li>\n<li><code class=\"language-text\">wordSequence1</code> — вес схожих последовательностей длины 1.</li>\n<li><code class=\"language-text\">wordSequence2</code> — вес схожих последовательностей длины 2.</li>\n<li><code class=\"language-text\">wordSequence3</code> — вес схожих последовательностей длины больше 2.</li>\n<li><code class=\"language-text\">intermediateAlternativesLimit</code> — порог отсечения промежуточных альтернатив, которые обрабатывает алгоритм.</li>\n<li><code class=\"language-text\">finalAlternativesLimit</code> — порог количества финальных результатов, по достижению которого алгоритм завершается.</li>\n<li><code class=\"language-text\">namedEntitiesRequired</code> — при активном параметре для попадания в интент во фразе должна быть найдена системная сущность.</li>\n</ul>\n</br>\n<h4><code class=\"language-text\">namedEntitiesRequired</code></h4>\n<p>Подробнее рассмотрим параметр <code class=\"language-text\">\"namedEntitiesRequired\": true</code>. Если в интент была добавлена фраза с системной сущностью, например:</p>\n<div class=\"gatsby-highlight\" data-language=\"text\"><pre class=\"language-text\"><code class=\"language-text\">Мне нужно @duckling.number яблок</code></pre></div>\n<p>То при запросе клиента <code class=\"language-text\">Мне нужно яблок</code> — фраза не попадет в интент, так как системная сущность не была найдена.</p>\n<p class='warn'>Переопределите параметр <code class=\"language-text\">namedEntitiesRequired</code> в расширенных настройках NLU, чтобы фразы без системных сущностей активировали интент.</p>\n</br>\n<h3>Deep Learning</h3>\n<p>Параметры для Deep Learning классификатора:</p>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\"><span class=\"token punctuation\">{</span>\r\n    <span class=\"token property\">\"patternsEnabled\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"tokenizerEngine\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"udpipe\"</span><span class=\"token punctuation\">,</span>\r\n\r\n    <span class=\"token property\">\"cnnSettings\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n        <span class=\"token property\">\"lang\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"ru\"</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"kernel_sizes\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">1</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">2</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_filters\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1024</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"emb_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.25</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"cnn_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.25</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"bs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">64</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_epochs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">15</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lr\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.001</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"pooling_name\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"max\"</span>\r\n    <span class=\"token punctuation\">}</span><span class=\"token punctuation\">,</span>\r\n<span class=\"token punctuation\">}</span></code></pre></div>\n</br>\n<h4>Параметры</h4>\n<ul>\n<li>\n<p><code class=\"language-text\">kernel_sizes</code> — список размеров свёрточных ядер. Свёрточное ядро — размер контекстного окна, на которое классификатор будет обращать внимание. Например, <code class=\"language-text\">\"kernel_sizes\": [3]</code> означает, что модель будет находить признаки в тексте, основываясь на всех тройках соседних слов. Для одной модели может быть задано несколько свёрточных ядер.</p>\n</li>\n<li>\n<p><code class=\"language-text\">n_filters</code> — количество фильтров. Один фильтр — это определенный паттерн, выученный моделью. Для каждого ядра модель имеет свой набор паттернов. Например, если мы указали <code class=\"language-text\">\"kernel_sizes\": [2,3]</code> и <code class=\"language-text\">\"n_filters\": 512</code>, то всего фильтров будет <code class=\"language-text\">1024</code> (на каждое ядро по <code class=\"language-text\">512</code>).</p>\n</li>\n<li>\n<p><code class=\"language-text\">emb_drp</code> — вероятность дроп-аута на эмбеддинг слое. Дроп-аут — механизм, который искусственно отключает в сети часть весов в процессе тренировки. Дроп-аут помогает сети не переобучиться, то есть не просто запомнить весь набор данных, а обобщить информацию. <code class=\"language-text\">emb_drp</code> принимает значение от 0 до 1.</p>\n</li>\n<li>\n<p><code class=\"language-text\">сnn_drp</code> — вероятность дроп-аута на свёрточных слоях сети.</p>\n</li>\n<li>\n<p><code class=\"language-text\">bs</code> — размер входного батча для тренировок. Это значение определяет какое количество тренировочных примеров будет подаваться на вход сети за один шаг в процессе тренировок. Если датасет составляет менее 3000 примеров, рекомендуемое значение 16-32. Для датасетов больших размеров это значение может составить 32-128.</p>\n</li>\n<li>\n<p><code class=\"language-text\">n_epochs</code> — количество эпох обучения, сколько раз модель увидит все тренировочные данные.</p>\n</li>\n<li>\n<p><code class=\"language-text\">lr</code> — <a href=\"https://en.wikipedia.org/wiki/Learning_rate\" target=\"_blank\" rel=\"noopener noreferrer\">learning rate</a>. Множитель, с которым модель будет обновлять свои веса в процессе тренировки.</p>\n</li>\n<li>\n<p><code class=\"language-text\">pooling_name</code> — стратегия агрегации. После нахождения паттернов во входной строке модель должна их агрегировать (перед финальным классификационным слоем). Стратегии агрегации: <code class=\"language-text\">max</code>, <code class=\"language-text\">mean</code>, <code class=\"language-text\">concat</code>.</p>\n</li>\n</ul>\n</br>\n<h4>Общие рекомендации</h4>\n<p>Параметры для Deep Learning классификатора при размере датасета:</p>\n<ul>\n<li>более 100 тысяч примеров</li>\n</ul>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\">        <span class=\"token property\">\"kernel_sizes\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">2</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">3</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">4</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_filters\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1024</span><span class=\"token number\">-2048</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"emb_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.3</span><span class=\"token number\">-0.4</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"cnn_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.3</span><span class=\"token number\">-0.4</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"bs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">64</span><span class=\"token number\">-128</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_epochs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">3</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lr\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.001</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"pooling_name\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"max, concat\"</span></code></pre></div>\n<ul>\n<li>30-100 тысяч примеров</li>\n</ul>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\">        <span class=\"token property\">\"kernel_sizes\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">2</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">3</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">4</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_filters\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1024</span><span class=\"token number\">-2048</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"emb_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.3</span><span class=\"token number\">-0.4</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"cnn_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.3</span><span class=\"token number\">-0.4</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"bs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">32</span><span class=\"token number\">-128</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_epochs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">3</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lr\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.001</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"pooling_name\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"max, concat\"</span></code></pre></div>\n<ul>\n<li>10-30 тысяч примеров</li>\n</ul>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\">        <span class=\"token property\">\"kernel_sizes\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">2</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">3</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">4</span>                      <span class=\"token comment\">// или [2,3]</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_filters\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1024</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"emb_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.3</span><span class=\"token number\">-0.5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"cnn_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.3</span><span class=\"token number\">-0.5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"bs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">32</span><span class=\"token number\">-64</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_epochs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">3</span><span class=\"token number\">-5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lr\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.001</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"pooling_name\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"max\"</span></code></pre></div>\n<ul>\n<li>3-10 тысяч примеров</li>\n</ul>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\">        <span class=\"token property\">\"kernel_sizes\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">2</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">3</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">4</span>                      <span class=\"token comment\">// или [2,3]</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_filters\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1024</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"emb_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.4</span><span class=\"token number\">-0.5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"cnn_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.4</span><span class=\"token number\">-0.5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"bs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">32</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_epochs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">4</span><span class=\"token number\">-7</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lr\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.001</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"pooling_name\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"max\"</span></code></pre></div>\n<ul>\n<li>1-3 тысячи примеров</li>\n</ul>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\">        <span class=\"token property\">\"kernel_sizes\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">2</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">3</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_filters\"</span><span class=\"token operator\">:</span> <span class=\"token number\">512</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"emb_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"cnn_drp\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.5</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"bs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">16</span><span class=\"token number\">-32</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"n_epochs\"</span><span class=\"token operator\">:</span> <span class=\"token number\">7</span><span class=\"token number\">-15</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lr\"</span><span class=\"token operator\">:</span> <span class=\"token number\">0.001</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"pooling_name\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"max\"</span></code></pre></div>\n</br>\n<h3>Classic ML</h3>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\"><span class=\"token punctuation\">{</span>\r\n    <span class=\"token property\">\"patternsEnabled\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"tokenizerEngine\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"udpipe\"</span><span class=\"token punctuation\">,</span>\r\n\r\n    <span class=\"token property\">\"classicMLSettings\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n        <span class=\"token property\">\"C\"</span><span class=\"token operator\">:</span> <span class=\"token number\">1</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lang\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"ru\"</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"word_ngrams\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">1</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">2</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lemma_ngrams\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">0</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"stemma_ngrams\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">1</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">2</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"char_ngrams\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">[</span>\r\n            <span class=\"token number\">3</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token number\">4</span>\r\n        <span class=\"token punctuation\">]</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"lower\"</span><span class=\"token operator\">:</span> <span class=\"token boolean\">true</span>\r\n    <span class=\"token punctuation\">}</span>\r\n<span class=\"token punctuation\">}</span></code></pre></div>\n</br>\n<h4>Параметры</h4>\n<ul>\n<li>\n<p><code class=\"language-text\">С</code> — коэффициент регуляризации, с помощью которого можно контролировать переобучение модели. Используется для контроля за большими значениями коэффициентов целевой функции, штрафует их на величину параметра. Принимает значения в диапазоне: <code class=\"language-text\">[0.01, 0.1, 1, 10]</code>.</p>\n</li>\n<li>\n<p><code class=\"language-text\">word_ngrams</code> — количество слов, которые будут объединены в словосочетания. Например, при значении <code class=\"language-text\">\"word_ngrams\": [2, 3]</code> будут использованы словосочетания из двух и трех слов.</p>\n</li>\n</ul>\n<p>Например для фразы <code class=\"language-text\">я люблю зеленые яблоки</code> будут составлены словосочетания:</p>\n<div class=\"gatsby-highlight\" data-language=\"text\"><pre class=\"language-text\"><code class=\"language-text\"> [\r\n  \"я люблю\",\r\n  \"люблю зеленые\",\r\n  \"зеленые яблоки\",\r\n  \"я люблю зеленые\",\r\n  \"люблю зеленые яблоки\"\r\n]</code></pre></div>\n<p class='tip'>Не рекомендуется использовать значение параметра больше 3.</p>\n<ul>\n<li><code class=\"language-text\">lemma_n_grams</code> — количество слов, которые будут приведены в нормальную форму и объединены в словосочетания. Например, при значении <code class=\"language-text\">\"lemma_n_grams\": [2]</code> будут использованы словосочетания из двух слов.</li>\n</ul>\n<p>Например для фразы <code class=\"language-text\">я люблю зеленые яблоки</code> будут составлены словосочетания:</p>\n<div class=\"gatsby-highlight\" data-language=\"text\"><pre class=\"language-text\"><code class=\"language-text\"> [\r\n  \"я любить\",\r\n  \"любить зеленый\",\r\n  \"зеленый яблоко\"\r\n]</code></pre></div>\n<p class='tip'>Не рекомендуется использовать значение параметра больше 3.</p>\n<ul>\n<li><code class=\"language-text\">stemma_ngrams</code> — количество стемм, которые будут объединены в словосочетания. Стемма — <a href=\"https://ru.wikipedia.org/wiki/%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%B0_(%D0%BC%D0%BE%D1%80%D1%84%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F)\" target=\"_blank\" rel=\"noopener noreferrer\">основа слова</a> для заданного исходного слова, не обязательно совпадает с морфологическим корнем слова. Например, при значении <code class=\"language-text\">\"stemma_ngrams\": [2]</code> будут использованы словосочетания из двух стемм.</li>\n</ul>\n<p>Например для фразы <code class=\"language-text\">я люблю зеленые яблоки</code> будут составлены словосочетания:</p>\n<div class=\"gatsby-highlight\" data-language=\"text\"><pre class=\"language-text\"><code class=\"language-text\"> [\r\n  \"я любл\",\r\n  \"любл зелен\",\r\n  \"зелен яблок\"\r\n]</code></pre></div>\n<p class='tip'>Не рекомендуется использовать вместе параметры <code class=\"language-text\">lemma_n_grams</code> и <code class=\"language-text\">stemma_ngrams</code> из-за возможности переобучения модели. Также рекомендуется использовать значение для <code class=\"language-text\">stemma_ngrams</code> больше 3</p>\n<ul>\n<li><code class=\"language-text\">char_n_grams</code> — количество символов, которые будут объединены и рассматриваться в качестве отдельной единицы фразы.</li>\n</ul>\n<p>Например, при значении <code class=\"language-text\">\"char_n_grams\": [5]</code> фраза <code class=\"language-text\">зеленые яблоки</code> преобразуется в набор:</p>\n<div class=\"gatsby-highlight\" data-language=\"text\"><pre class=\"language-text\"><code class=\"language-text\"> [\r\n  \"зелен\",\r\n  \"елены\",\r\n  \"леные\",\r\n   ...\r\n]</code></pre></div>\n<ul>\n<li><code class=\"language-text\">lower</code> — при значении <code class=\"language-text\">true</code> все фразы приводятся к нижнему регистру.</li>\n</ul>\n</br>\n<h3>Внешний NLU-сервис</h3>\n<p>Платформа JAICP поддерживает возможность подключения внешнего NLU-сервиса, который соответствует спецификации Model API. Вам также будут доступны создание и настройка интентов, сущностей, паттернов.</p>\n<p class='warn'><a href=/1.10.3/docs/ru/NLU_core/model_api/model_api  >Model API</a> позволяет использовать сторонние токенизаторы, а также NLU-сервисы распознавания именованных сущностей и интентов в проектах JAICP.</p>\n<p>Для того чтобы использовать внешний NLU-сервис в проекте, в расширенных настройках используйте <code class=\"language-text\">externalNluSettings</code>:</p>\n<div class=\"gatsby-highlight\" data-language=\"json\"><pre class=\"language-json\"><code class=\"language-json\">...\r\n<span class=\"token property\">\"externalNluSettings\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n    <span class=\"token property\">\"nluProviderSettings\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n        <span class=\"token property\">\"markup\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n            <span class=\"token property\">\"nluType\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"external\"</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token property\">\"url\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"http://example.com\"</span>\r\n        <span class=\"token punctuation\">}</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"ner\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n            <span class=\"token property\">\"nluType\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"external\"</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token property\">\"url\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"http://example.com\"</span>\r\n        <span class=\"token punctuation\">}</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"classification\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n            <span class=\"token property\">\"nluType\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"external\"</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token property\">\"url\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"http://example.com\"</span>\r\n        <span class=\"token punctuation\">}</span>\r\n    <span class=\"token punctuation\">}</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"language\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"ja\"</span><span class=\"token punctuation\">,</span>\r\n    <span class=\"token property\">\"nluActionAdditionalProperties\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n        <span class=\"token property\">\"markup\"</span><span class=\"token operator\">:</span> <span class=\"token null keyword\">null</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"ner\"</span><span class=\"token operator\">:</span> <span class=\"token null keyword\">null</span><span class=\"token punctuation\">,</span>\r\n        <span class=\"token property\">\"classification\"</span><span class=\"token operator\">:</span> <span class=\"token punctuation\">{</span>\r\n            <span class=\"token property\">\"modelId\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"123\"</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token property\">\"classifierName\"</span><span class=\"token operator\">:</span> <span class=\"token string\">\"example\"</span><span class=\"token punctuation\">,</span>\r\n            <span class=\"token property\">\"properties\"</span><span class=\"token operator\">:</span> <span class=\"token null keyword\">null</span>\r\n        <span class=\"token punctuation\">}</span>\r\n    <span class=\"token punctuation\">}</span>\r\n<span class=\"token punctuation\">}</span>\r\n...</code></pre></div>\n</br>\n<h4>Параметры</h4>\n<table>\n<thead>\n<tr>\n<th>Параметр</th>\n<th>Описание</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td><code class=\"language-text\">classifierName</code></td>\n<td>Имя классификатора.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">classification</code></td>\n<td>Параметры для запросов классификации интентов.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">language</code></td>\n<td>Язык внешнего NLU. Если не установлен, будет использован язык из настроек проекта.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">markup</code></td>\n<td>Параметры для запросов разметки.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">modelID</code></td>\n<td>ID модели классификатора.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">ner</code></td>\n<td><a href=\"https://en.wikipedia.org/wiki/Named-entity_recognition\" target=\"_blank\" rel=\"noopener noreferrer\">Named entity recognition</a>. </br></br> Параметры для запросов распознавания именованных сущностей.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">nluActionAdditionalProperties</code></td>\n<td>Дополнительные настройки для внешнего NLU-сервиса.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">nluProviderSettings</code></td>\n<td>Объект, определяющий, где будет выполняться действие NLU.</td>\n</tr>\n<tr>\n<td><code class=\"language-text\">nluType</code></td>\n<td>Тип NLU. </br></br> Может быть установлен внешний <code class=\"language-text\">external</code> или внутренний <code class=\"language-text\">caila</code> NLU.</td>\n</tr>\n</tbody>\n</table>\n</br>\n<h4>Использование</h4>\n<p class='tip'>Обратите внимание, что в проекте нельзя одновременно использовать интенты или сущности от внешнего NLU-сервиса и от CAILA .</p>\n<p>В проекте JAICP вы можете:</p>\n<ol>\n<li>\n<p>Использовать сущности и интенты внешнего NLU-сервиса.</p>\n<ul>\n<li>Установите <code class=\"language-text\">\"nluType\": \"external\"</code> для параметров <code class=\"language-text\">markup</code>, <code class=\"language-text\">ner</code> и <code class=\"language-text\">classification</code>.</li>\n<li>В сценарии интенты и сущности доступны по тегам <a href=\"/1.10.3/docs/ru/NLU_core/intent\"><code class=\"language-text\">intent</code></a> и <a href=\"/1.10.3/docs/ru/JAICP_DSL/tags/declarative_tags/q\"><code class=\"language-text\">q</code></a>.</li>\n<li>Визуальная настройка в разделе <em>CAILA</em> для интентов и сущностей внешнего NLU-сервиса не поддерживается.</li>\n</ul>\n</li>\n<li>\n<p>Использовать сущности внешнего NLU-сервиса и интенты CAILA.</p>\n<ul>\n<li>Установите <code class=\"language-text\">\"nluType\": \"external\"</code> для параметра <code class=\"language-text\">ner</code> и <code class=\"language-text\">\"nluType\": \"caila\"</code> для <code class=\"language-text\">markup</code> и <code class=\"language-text\">classification</code>.</li>\n<li>Использование сущностей внешнего NLU-сервиса при настройке интентов и слотов не будет доступно.</li>\n<li>В сценарии сущности доступны по тегу <code class=\"language-text\">q</code>.</li>\n</ul>\n</li>\n<li>\n<p>Использовать интенты внешнего NLU-сервиса и сущности CAILA.</p>\n<ul>\n<li>Установите <code class=\"language-text\">\"nluType\": \"external\"</code> для параметра <code class=\"language-text\">classification</code> и <code class=\"language-text\">\"nluType\": \"caila\"</code> для <code class=\"language-text\">markup</code> и <code class=\"language-text\">ner</code>.</li>\n<li>В сценарии интенты доступны по тегу <code class=\"language-text\">intent</code>.</li>\n</ul>\n</li>\n<li>\n<p>Использовать разметку внешнего NLU-сервиса с сущностями и интентами CAILA.</p>\n<ul>\n<li>Установите <code class=\"language-text\">\"nluType\": \"external\"</code> для параметра <code class=\"language-text\">markup</code> и <code class=\"language-text\">\"nluType\": \"caila\"</code> для <code class=\"language-text\">classification</code> и <code class=\"language-text\">ner</code>.</li>\n<li>В разделе <em>CAILA > Интенты</em> вы можете использовать <em>Тренировочные фразы</em> на языках, которые не поддерживаются платформой, но они будут распознаны в сценарии.</li>\n</ul>\n</li>\n</ol>\n</br>\n<p class='warn'>Вы можете ознакомиться <a href=https://github.com/just-ai/model-api-example target=\"_blank\" rel=\"noopener noreferrer\">с примером внешнего NLU-сервиса в репозитории на GitHub</a>.</p>","frontmatter":{"title":"","description":null},"headings":[{"value":"Расширенные настройки NLU"}]}},"pageContext":{"slug":"/docs/ru/NLU_core/advanced_classifer_settings/","previous":{"fields":{"slug":"/docs/ru/NLU_core/data/"},"frontmatter":{"title":"","description":null}},"next":{"fields":{"slug":"/docs/ru/JS_API/session_lifetime_control/"},"frontmatter":{"title":"","description":null}}}},
    "staticQueryHashes": ["1209419333"]}