Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Name: Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу
Author: Нума Дхамани

На нашем литературном портале можно бесплатно читать книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани, Нума Дхамани . Жанр: Прочая околокомпьтерная литература / Науки: разное. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале litmir.org.

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Жанр: Прочая околокомпьтерная литература / Науки: разное

Название: Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу

Автор: Нума Дхамани

Дата добавления: 23 март 2026

Количество просмотров: 0

Читать онлайн

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту readbookfedya@gmail.com для удаления материала

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу читать книгу онлайн

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - читать бесплатно онлайн , автор Нума Дхамани

НЕЗАКОННОЕ ПОТРЕБЛЕНИЕ НАРКОТИЧЕСКИХ СРЕДСТВ, ПСИХОТРОПНЫХ ВЕЩЕСТВ, ИХ АНАЛОГОВ ПРИЧИНЯЕТ ВРЕД ЗДОРОВЬЮ, ИХ НЕЗАКОННЫЙ ОБОРОТ ЗАПРЕЩЕН И ВЛЕЧЕТ УСТАНОВЛЕННУЮ ЗАКОНОДАТЕЛЬСТВОМ ОТВЕТСТВЕННОСТЬ.
Технология, меняющая мир:
• Принципы работы больших языковых моделей (LLM).
• Интеграция ИИ в личные и профессиональные процессы.
• Влияние ИИ на общество, право и политику.
• Перспективы развития технологии.
Узнайте, как использовать возможности искусственного интеллекта с максимальной пользой и минимальными рисками.
Что еще в книге:
• Возможности и ограничения моделей ИИ.
• Рекомендации по их использованию.
• Способы защиты себя и своих данных.
• Принципы работы LLM.
• Лучшие практики генерации текста и графики.
В формате PDF A4 сохранен издательский макет книги.

ВПЕРЕД

Перейти на страницу:

эта положительная обратная связь создает цикл подкрепления, при котором модель с большей вероятностью будет снова повторять это действие, тогда как наказуемое поведение становится менее вероятным. Как мы увидим дальше, большие языковые модели обычно используют комбинацию этих стратегий.

Обучение с подкреплением – это метод обучения на основе проб и ошибок, при котором модель постоянно обучается находить наилучший результат, получая за свои ответы либо вознаграждение, либо штрафы от алгоритма.

Рис. 1.1. Цикл обучения с подкреплением

Кроме особенностей обучения, есть еще несколько ключевых компонентов, которые характерны для модели NLP (обработка естественного языка). Первый – это данные, которые для задач на естественном языке представлены в виде текста. Второй – это целевая функция, которая, по сути, является математической формулировкой цели модели. Цель может заключаться в том, чтобы свести к минимуму количество ошибок, допущенных в конкретной задаче, или минимизировать различие между прогнозом модели для какой-то величины и ее истинным значением. Третий – существуют различные типы моделей и архитектуры, но фактически все продвинутые модели NLP за последние несколько десятилетий относились к единственной категории – нейронным сетям.

Нейронные сети были представлены в 1944 году как алгоритмическое представление человеческого мозга8. В каждой нейронной сети есть входной и выходной слой, а между ними – какое-либо количество «скрытых» слоев; каждый слой, в свою очередь, имеет несколько нейронов, или узлов, которые могут соединяться разными способами. Каждый нейрон присваивает передаваемым ему входным данным весовые коэффициенты (веса) [4], суммирует их и «активируется», то есть передает сигнал на следующий слой, если сумма входных данных превышает некоторое пороговое значение. Сутью обучения таких нейронных сетей является подбор оптимальных значений для весовых коэффициентов и пороговых значений. Обрабатывая обучающие данные, алгоритм будет итеративно обновлять весовые коэффициенты и пороговые значения до тех пор, пока не найдет те, которые лучше всего соответствуют целевой функции модели. Мы не будем сейчас обсуждать точную математику, лежащую в основе этого процесса, но важно отметить, что большие нейронные сети могут аппроксимировать любую функцию, какой бы сложной она ни была, что делает их полезными при обработке огромных объемов данных, например во многих задачах по обработке естественного языка. Количество параметров относится к количеству весовых коэффициентов, встроенных в модель, и является условным обозначением уровня сложности, с которым она способна справиться, что, в свою очередь, определяет ее возможности. Самые эффективные на сегодняшний день LLM учитывают сотни миллиардов параметров.

За последние несколько десятилетий доступность больших объемов данных и вычислительных мощностей способствовала укреплению доминирования нейронных сетей и привела к бесчисленным экспериментам с различными сетевыми архитектурами. Глубокое обучение возникло как подраздел, где «глубокое» означает просто глубину задействованных нейронных сетей, то есть количество скрытых слоев между входом и выходом. Было обнаружено, что по мере увеличения масштаба и глубины нейронных сетей – при наличии достаточного количества данных – производительность моделей улучшалась.

1.2. Рождение LLM: все, что вам нужно, – это внимание

Когда люди начали обучать модели генерации текста, классификации и другим задачам по обработке естественного языка, они стремились понять, чему именно обучаются модели. Это не чисто научное любопытство: изучение того, как модели делают прогнозы, является важным шагом к тому, чтобы доверять полученным результатам в достаточной степени для использования. Давайте возьмем в качестве примера машинный перевод с английского на испанский.

Когда мы подаем на вход модели текстовую последовательность, например The cat wore red socks («Кот носил красные носки»), то вначале ее необходимо закодировать в математическое представление. Последовательность разбивается на токены – обычно это либо слова, либо их части. Нейронная сеть преобразует эти токены в свое математическое представление и применяет к ним обученный алгоритм. В конце для получения удобочитаемого результата выходные данные преобразуются обратно в токены, то есть декодируются. В данном случае выходная последовательность – это перевод предложения (El gato usó calcetines rojos). Модели, которые получают на вход последовательность и возвращают также последовательность, мы называем sequence-to-sequence. Когда модель выдает правильный перевод, мы приходим к выводу, что модель удовлетворительно «выучила» функцию перевода, по крайней мере, для слов и грамматических структур, представленных в этих входных данных.

Традиционно для таких задач использовали последовательные алгоритмы: токены обрабатывались по очереди, в том порядке, в котором они представлены в последовательности [5]. В 2014 году исследователи машинного обучения, вновь вдохновленные некоторыми особенностями человеческого мышления9, предложили альтернативу традиционному подходу передачи последовательностей по частям через модель энкодер-декодер [6]. В новом подходе декодер «видел» всю входную последовательность целиком и, более того, пытался найти в ней кусочки, наиболее релевантные для очередного генерируемого токена. Такой подход называется механизмом внимания. Давайте вернемся к примеру с машинным переводом. Если вас попросят выделить ключевые слова из предложения That cat chased a mouse, but it didn’t catch it («Эта кошка гонялась за мышкой, но не поймала ее»), вы, вероятно, выберете cat (кошка) и mouse (мышка), поскольку местоимения that и артикль a не так важны в переводе. Как показано на рис. 1.2, вы сосредоточили свое «внимание» на важных словах. Механизм внимания имитирует это, добавляя весовые коэффициенты внимания, чтобы усилить важные части последовательности.

МЕХАНИЗМ ВНИМАНИЯ вычисляет индивидуальный контекст для каждого слова в последовательности.

Рис. 1.2. Распределение внимания к слову it в различных контекстах

Несколько лет спустя в статье Google Brain с удачным заголовком «Все, что вам нужно, – это внимание» авторы показали, что механизм внимания позволяет отказаться от последовательной обработки входных последовательностей, и предложили архитектуру, позволяющую распараллелить больший объем вычислений и таким образом существенно ускорить работу модели. Они назвали эти модели трансформерами. Трансформеры обрабатывают каждое слово в предложении, многократно применяя механизм внимания. Результатом обработки является новое численное представление слова [7], которое отражает его связь с другими словами в предложении, что позволяет модели более точно «понять» его смысл. И все эти вычисления могут проводиться параллельно для разных слов в предложении. В статье «Все, что вам нужно, – это внимание» авторы показали, что эти модели достигли высочайшей производительности при выполнении задач по переводу с английского на немецкий и на французский10. Это был крупнейший прорыв в NLP за это десятилетие, заложивший основу для последующих работ.

Рис. 1.3. Хронология наиболее значимых событий в области обработки естественного языка

Благодаря экономии времени и ресурсов с трансформерами стало возможным обучать модели на гораздо больших объемах данных. Это привело к рождению большой языковой модели. Компания OpenAI