Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Name: Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу
Author: Нума Дхамани

На нашем литературном портале можно бесплатно читать книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани, Нума Дхамани . Жанр: Прочая околокомпьтерная литература / Науки: разное. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале litmir.org.

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Жанр: Прочая околокомпьтерная литература / Науки: разное

Название: Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу

Автор: Нума Дхамани

Дата добавления: 23 март 2026

Количество просмотров: 7

Читать онлайн

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту readbookfedya@gmail.com для удаления материала

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу читать книгу онлайн

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - читать бесплатно онлайн , автор Нума Дхамани

НЕЗАКОННОЕ ПОТРЕБЛЕНИЕ НАРКОТИЧЕСКИХ СРЕДСТВ, ПСИХОТРОПНЫХ ВЕЩЕСТВ, ИХ АНАЛОГОВ ПРИЧИНЯЕТ ВРЕД ЗДОРОВЬЮ, ИХ НЕЗАКОННЫЙ ОБОРОТ ЗАПРЕЩЕН И ВЛЕЧЕТ УСТАНОВЛЕННУЮ ЗАКОНОДАТЕЛЬСТВОМ ОТВЕТСТВЕННОСТЬ.
Технология, меняющая мир:
• Принципы работы больших языковых моделей (LLM).
• Интеграция ИИ в личные и профессиональные процессы.
• Влияние ИИ на общество, право и политику.
• Перспективы развития технологии.
Узнайте, как использовать возможности искусственного интеллекта с максимальной пользой и минимальными рисками.
Что еще в книге:
• Возможности и ограничения моделей ИИ.
• Рекомендации по их использованию.
• Способы защиты себя и своих данных.
• Принципы работы LLM.
• Лучшие практики генерации текста и графики.
В формате PDF A4 сохранен издательский макет книги.

ВПЕРЕД

Перейти на страницу:

Books – представляет собой коллекцию цифровых копий тысяч опубликованных книг, которые стали общественным достоянием. Хотя некоторые из таких книг могут содержать фактические ошибки или устаревшую информацию, они, как правило, считаются высококачественными текстовыми материалами, хотя и более формальными, чем большинство разговорных текстов на естественном языке.

А теперь давайте рассмотрим датасет всего сайта социальной сети Reddit или большей его части. Преимущества существенны: он включает в себя миллионы бесед между людьми, в которых отражена динамика диалога. Контент Reddit, как и других источников, уточняет внутреннее представление различных токенов в модели. Чем чаще модель будет встречать слово или фразу в обучающем наборе, тем лучше она сможет определить, когда это слово или фразу нужно сгенерировать. Однако некоторые разделы Reddit содержат огромное количество неприемлемых высказываний, в том числе расовые оскорбления или пренебрежительные шутки, опасные теории заговоров или дезинформацию, экстремистские идеологии и ненормативную лексику. При сборе большого количества данных из интернета практически неизбежно будет попадаться подобный тип контента, из-за чего сама модель может быть склонна к порождению речи такого типа. Кроме того, серьезные последствия имеет использование данных, которые могут являться личной информацией или материалами, защищенными авторским правом.

Кроме того, существуют также трудно уловимые предвзятости, которые могут проявляться в LLM через обучающие данные. Термин «предвзятость» чрезвычайно широко используется в машинном обучении, причем в разнообразных контекстах: иногда люди обозначают им статистическую предвзятость, которая подразумевает, что средний прогноз их модели отличается от истинного значения; обучающий набор данных может называться предвзятым, если в нем наблюдаются иные статистические закономерности, нежели в тестовом датасете, который часто берется совершенно случайно. Чтобы избежать путаницы, мы будем использовать «предвзятость» исключительно для обозначения несопоставимых результатов, которые модель может выдавать в зависимости от таких признаков личной идентичности, как раса, пол, класс, возраст или религия. Предвзятость – это давняя проблема алгоритмов машинного обучения, и она может по-разному в них проявляться, но важно помнить, что, по сути, эти модели отражают закономерности в тексте, на котором они обучались. Если в наших книгах, средствах массовой информации и социальных сетях существует предвзятость, то она отразится в наших языковых моделях.

ПРЕДВЗЯТОСТЬ – это склонность модели генерировать несопоставимые результаты в зависимости от таких признаков личной идентичности, как раса, пол, класс, возраст или религия.

Некоторые самые ранние языковые модели общего назначения, обученные на больших объемах неразмеченных наборов данных, создавались для того, чтобы получить числовые или векторные представления слов [17]. Сегодня каждая LLM фактически создает свои собственные векторные представления слов, которые мы называем ее внутренними представлениями. Еще до появления LLM всем, кто занимался компьютерной обработкой естественного языка, необходимо было как-то реализовать этап обработки текста для его численного представления, чтобы компьютерный алгоритм мог с ним работать. Векторное представление позволяет преобразовывать текст в осмысленные представления слов в виде числовых точек в трехмерном пространстве. У слов, которые используются в похожем контексте, например «огурец» и «корнишон», векторные представления будут располагаться близко друг к другу, а у слов «огурец» и «философия» они будут находиться далеко друг от друга (см. рис. 1.4). Придумано множество более простых способов представить слова в виде чисел: простейший, по сути, заключается в том, чтобы каждому уникальному слову в обучающих данных просто назначить случайную точку в числовом пространстве. Однако векторные представления позволяют зафиксировать гораздо больше информации о семантическом значении слова и создать более совершенные модели.

Рис. 1.4. Представление слов в векторной форме

В хорошо известной статье «Мужчина соотносится с программистом так же, как женщина с домохозяйкой? Избавляемся от предвзятости в векторных представлениях» (Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings) о векторном представлении слов, полученном на основе обучающих данных из Google News, ученые из Бостонского университета в сотрудничестве с Microsoft Research продемонстрировали, что векторы слов внутри самой модели показывали сильные гендерные стереотипы [18]как в отношении профессий, так и в отношении описаний24. Авторы разработали оценочное задание, в котором модель должна была генерировать аналогии «она – он» на основе своих векторных представлений. Некоторые результаты были безобидными, например: сестра – брат, королева – король. Однако модель создала и другие аналогии «она – он» с явно неравноценными ролями: медсестра – врач (или хирург), косметолог – фармацевт, дизайнер интерьеров – архитектор. Основная причина такой предвзятости объясняется просто тем, что в новостных статьях, которые входят в набор данных, в качестве архитекторов чаще всего упоминаются мужчины, а в качестве медсестер – женщины и так далее. Таким образом, модель отражает и фактически усиливает неравенство, существующее в обществе.

LLM, как и векторные представления слов, подвержены этой предвзятости. В статье 2021 года под заголовком «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими?» (On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?) авторы показали, как большие языковые модели отражают и усиливают предвзятость, существующую в обучающих данных25. Несмотря на то, что есть методы устранения предвзятости в моделях и способы более аккуратного обучения, чрезвычайно сложно устранить ассоциации с полом, расой, сексуальной ориентацией и другими характеристиками, которые глубоко укоренились в повседневной жизни, или несопоставимость в данных, существовавшую веками. В итоге, если в контексте или промпте [19] присутствуют подобные характеристики, например пол или раса, LLM могут генерировать совершенно разные результаты.

1.5.2. Весьма правдоподобные, но неверные ответы

После того, как были выпущены ChatGPT от OpenAI и поисковая система Bing на базе ChatGPT в сотрудничестве с Microsoft, компания Google тоже выпустила своего собственного чат-бота Bard. Во время презентации в прямом эфире транслировалось видео, в котором чат-боту Bard задавали вопросы, а он отвечал на них. Один из вопросов звучал так: «О каких новых открытиях, сделанных космическим телескопом „Джеймс Уэбб“ (JWST), я могу рассказать своему девятилетнему ребенку?» В видео Bard рассказывает о JWST и в числе прочего упоминает, что этот телескоп впервые сделал фотографии экзопланет, то есть планет за пределами Солнечной системы. Одна (большая) ошибка: первые экзопланеты были сфотографированы более десяти лет назад несколькими старыми телескопами. Астрономы и астрофизики сразу же начали говорить об этом в X (Twitter) и сообщать по другим каналам; компания Google удалила ролик и запись видео на YouTube сразу после окончания трансляции. Но удар был нанесен, и в первые дни после запуска акции Google упали примерно на 9 %, при этом общая потеря рыночной капитализации составила около 100 миллиардов долларов26.

LLM очень трудно избежать такого типа ошибок, поскольку они не изучают текст и не могут понимать его суть так, как это делают люди. Они просто