Является ли мозговой штурм с ИИ ДЕЙСТВИТЕЛЬНО хорошей идеей?

Что, если ваша самая смелая идея ИИ совпадает с идеями всех остальных?

С тех пор как в 2022 году многие из нас начали полагаться на ИИ в части своего творческого процесса, особенно для генерации идей или мозгового штурма, возник вопрос: что такое креативность?

Я рассматриваю творчество как процесс, который начинается с генерации идеи, затем ее выполнения, уточнения и, наконец, доставки.

Медиа, академики и люди, с которыми я общался, включая меня, все считали, что одно из лучших применений ИИ — это мозговой штурм идей. Вот некоторые быстрые статистические данные:

90% создателей также заявили, что считают генеративные инструменты ИИ полезными для создания новых идей. — по данным Adobe
В нашем исследовании 100% участников сочли ИИ полезным для мозгового штурма. Только 16% студентов предпочли проводить мозговой штурм без ИИ. — sc.edu/
GPT-4 вошел в верхний процентиль по оригинальности и беглости в тестах Торранса (наиболее широко используемые и проверенные тесты дивергентного мышления) творческого мышления. — Университет Монтаны

Что, если я скажу вам, что правда может быть прямо противоположной?

Я хочу сегодня представить вам три последних исследования, которые ответят на следующие вопросы:

Могут ли LLM действительно помочь нам мыслить нестандартно? Или они молчаливо загоняют наше воображение в рамки?
Если ИИ — это лишь усилитель зоны комфорта, что это значит для тех из нас, кто годами полагался на ИИ для мозгового штурма?
Есть ли что-нибудь, что мы можем сделать… чтобы избежать этой ловушки воображения?

Начнем?

Оригинальность и разнообразие — это не одно и то же

Прежде чем мы начнем, давайте проясним некоторые термины.

Это важно для понимания (и для меня, чтобы правильно объяснить вам исследования), что именно эти исследователи действительно имеют в виду и пытаются сообщить.

Оригинальность похожа на то одно необычное блюдо, которое открывает шеф-повар, скажем, слияние неожиданных ингредиентов, которое не предлагает ни один другой ресторан. Это может быть корейско-мексиканско-турецкое фьюжн-тако с шашлыком из баранины, покрытое домашним кимчи, которое никто другой не догадался бы скомбинировать.

Это блюдо может выделяться, потому что оно статистически редкое по сравнению с бургерами или пастой.

НО, имейте в виду, оригинальность ≠ высокое качество.

Разнообразие больше похоже на ресторан, которому не нужно какое-то одно революционное блюдо, а скорее широкий выбор вариантов в меню, которое подойдет каждому. Вы можете увидеть шведские фрикадельки, жареную курицу по-южному и китайский жареный рис в качестве основного блюда…

Вы можете быть индивидуально оригинальными (каждый ответ «необычен») и коллективно повторяющимися (все ваши ответы вращаются вокруг одной и той же «новой» концепции), или неоригинальными, но коллективно разнообразными.

Доказано: генеративный ИИ для письма не хватает разнообразия?

Вы можете пропустить этот раздел, если читали мой анализ двухнедельной давности.

Но сегодня моя статья сосредоточена на другом. Вместо того чтобы обсуждать, влияет ли ИИ на наше мышление, я хочу сказать, что контент, сгенерированный ИИ, был гораздо менее разнообразным, чем контент, созданный исключительно человеческим мозгом.

Если вы не читали исследование Your Brain on ChatGPT и не думаете, что у вас будет время (или терпение) на 204-страничное исследование, прочитайте или послушайте мое 20-минутное резюме. PDF этого исследования с моими выделениями и рукописными заметками доступен. Просто свяжитесь со мной, ответьте или напишите мне, и я вышлю вам копию: Seduced by AI’s Convenience.

Исследователи использовали несколько методов НЛП для сравнения эссе:

перекрытие n-грамм (насколько часто повторяется формулировка),
распознавание именованных сущностей (например, количество уникальных имен, мест и т. д.), и
«онтология тем» (по сути, насколько различались темы эссе, структурно).

Исследователи обнаружили, что эссе, сгенерированные LLM, на первый взгляд были более похожи друг на друга, содержали больше одинаковых сущностей, шаблонов слов и структур.

Так было ли разнообразие ниже с LLM?

В некотором смысле, да.

Это исследование Массачусетского технологического института показало, что люди, использующие ChatGPT, склонны генерировать эссе, которые были более похожи друг на друга. По крайней мере, в анализе n-грамм и именованных сущностей, который рассматривали исследователи. В сводной таблице даже говорится, что «расстояние» между эссе LLM иногда было «незначительным», особенно когда участники просто копировали-вставляли и почти не редактировали.

НО!

Эффект не всегда был драматичным, и есть много нюансов.

Их измерения были сосредоточены на форме, а не на сути.

Это означает, что вы можете написать 10 эссе о счастье, используя совершенно разные формулировки, но все они будут утверждать, что «помогать другим — это хорошо», и их анализ n-грамм/NER может сказать, что вы «разнообразны», но на самом деле вы повторяете ту же концепцию.

Или наоборот: эссе могут использовать одни и те же несколько слов, но приходить к совершенно разным выводам.

Проще говоря, это можно сравнить с оценкой меню ресторана по количеству используемых специй, а не по вкусам, которые на самом деле ощущаются.

Измеряли ли они «оригинальность»?

Они действительно говорят о «гомогенности» и схожести содержания, но оригинальность… в смысле «является ли эта идея редкой или новой?» — это не было метрикой. Речь идет о том, насколько эссе отличаются друг от друга, а не от более широкой популяции.

Только одно предложение упоминало это… и с некоторой неопределенностью:

Это может поведенчески выражаться в письме, которое является адекватным (поскольку большинство из них действительно помнили свои эссе, согласно интервью), но потенциально лишенным оригинальности или критической глубины.

В целом, этого недостаточно, чтобы доказать, что эссе, сгенерированные LLM, были менее разнообразны по идеям или креативному мышлению.

Посмотрим, что скажут другие исследования?

ChatGPT более креативен, чем один человек?

Знаковое исследование: «Эмпирическое исследование влияния ChatGPT на креативность» в Nature Human Behaviour (Ли и Чон, 2024).

Не волнуйтесь; этот эксперимент был на удивление более простым, чем тот, что проводился в Массачусетском технологическом институте.

Они хотели выяснить, более ли креативен ChatGPT, чем люди. Поэтому они разработали шесть различных заданий, три из которых являются примерами:

Перепрофилирование теннисной ракетки и садового шланга (Исследование 2a)
Создание игрушки из кирпича и вентилятора (Исследование 2b)
Перепрофилирование фонарика и лака для волос (Исследование 5)

В шести различных творческих заданиях участвовали участники (от 100 до 200 человек).

Аналогично исследованию Your Brain on ChatGPT, исследователи также разделили участников на три группы:

Работали в одиночку без помощи,
Использовали веб-поиск (Google) для вдохновения,
И третья группа могла консультироваться с ChatGPT (GPT-3.5) во время мозгового штурма.

В каждой ситуации человек представлял одну идею в качестве своего окончательного ответа. После этого независимые оценщики оценивали каждую идею, обычно по тому, насколько она была креативной, основываясь на ее оригинальности и полезности.

Пришли ли они к аналогичному выводу?

Они обнаружили, что показатели оригинальности были значительно выше в условиях с ИИ-помощью по сравнению с теми, кто использовал только поисковую систему или свой мозг в одиночку.

Другие ключевые выводы:

ChatGPT усиливает индивидуальную креативность по сравнению с веб-поиском и мозговым штурмом без помощи.
Идеи, сгенерированные с помощью ChatGPT, набрали более высокие баллы по шкалам оригинальности и уместности, чем идеи, созданные людьми или с помощью поисковой системы.
ChatGPT особенно преуспел в постепенно креативных идеях, а не в радикально новых.
Вопреки распространенному мнению, постгенерированные человеческие правки не увеличили креативность сверх исходного вывода ChatGPT.

НО!

Исходная конструкция исследования имела фундаментальный недостаток: она рассматривала каждого участника как независимую единицу, не учитывая это.

Что происходит, когда несколько человек одновременно используют инструмент ИИ? Придут ли участники к схожему или разнообразному набору идей?

Итак, вместо того чтобы спрашивать: «Делает ли ChatGPT индивидуальные идеи более креативными?» следующая группа исследователей, Meincke et al., решила использовать тот же самый эксперимент, но задала вопрос: «Делает ли ChatGPT группы идей более разнообразными?»

Почему бы и нет?

Мы все любим великие противостояния, когда исследователи рвут друг другу волосы.

Дополнительные доказательства: ИИ помогает или препятствует креативному разнообразию?

Вышеуказанные выводы не возникали изолированно. На самом деле, они перекликаются с другими недавними исследованиями, изучающими, как генеративный ИИ влияет на креативность.

ИИ в написании рассказов (Доши и Хаузер, 2024). Исследователи попросили ~300 человек написать ультракороткие рассказы (всего 8 предложений) для молодежной аудитории.

Участники были разделены на три группы:

Одна группа не получала помощи ИИ,
Одна могла попросить ChatGPT дать одну 3-предложенную идею рассказа для развития,
И одна могла попросить ChatGPT сгенерировать до пяти идей и выбрать свою любимую в качестве отправной точки.

Ниже представлен скриншот с настройками эксперимента.

Они обнаружили, что чем больше идей генеративного ИИ было у писателей, тем выше их рассказы оценивались с точки зрения креативности. Комментарий авторов:

наши результаты показывают, что генеративный ИИ может оказать наибольшее влияние на менее креативных людей.

Предложения ИИ помогли выровнять игровое поле, улучшив их результаты до уровня естественно креативных людей.

Пока все хорошо.

Однако!

Вы угадали, был и недостаток.

Исследователи также проанализировали схожесть историй, используя метрики на основе вложений. Они обнаружили, что истории из групп, которым помогал ИИ, в итоге оказались более похожими друг на друга, чем истории из группы без ИИ.

Если писателям разрешалась только одна идея, сгенерированная ИИ, это приводило к увеличению схожести их историй на 10,7% среди их историй по сравнению с историями, написанными без ИИ вообще. Как вы можете видеть, на скриншоте ниже наблюдается сдвиг в сторону менее разнообразных идей.

Один из авторов исследования заявил:

если издательская индустрия широко примет генеративный ИИ, общий пул историй, вероятно, станет более однородным, менее уникальным в совокупности.

Таким образом, то, что отлично подходит для индивидуальной креативности автора, может стать проблемой, когда все используют один и тот же инструмент, особенно когда возникает эффект «привязки»:

привязывая писателя к определенной идее или отправной точке для истории, генеративный ИИ может ограничивать изменчивость собственных идей писателя с самого начала, препятствуя степени творческого письма.

Есть даже опасения по поводу «нисходящей спирали».

Если истории, созданные с помощью ИИ, оцениваются как более креативные и, таким образом, становятся более популярными, у писателей появляется стимул чаще использовать ИИ, что еще больше снижает коллективную новизну, и так далее.

Оспаривание ваших предположений

Вы, возможно, думаете: «Хорошо, ИИ может сделать меня более креативным индивидуально, но сделает нас менее креативными коллективно. Дело закрыто?»

Ну… не совсем.

Позвольте мне задать вам несколько вопросов второго порядка.

Правильно ли мы измеряем?
Сотрудничество человека и ИИ — это больше, чем одноразовые запросы.
Креативность с течением времени, но отсутствие долгосрочной перспективы?

Правильно ли мы измеряем?

Имейте в виду, статистическая значимость ≠ практическая значимость.

Предположим, генеративный ИИ вызывает снижение количества уникальных идей на 10% в типичной сессии. Это критическая потеря или просто незначительный спад, который команда могла бы легко компенсировать?

Представьте, что вы все равно получаете, скажем, 18 различных идей вместо 20; были бы результаты мозгового штурма значительно хуже?

Некоторые авторы, очевидно, считают разнообразие критически важным (и действительно, это так во многих случаях). Однако они не измеряли, пострадают ли окончательные решения или выводы в группе от этого снижения разнообразия.

Например, если ИИ помогает всем сойтись на действительно эффективной идее (например, на решении с дождевателем, которое, возможно, является довольно умным перепрофилированием ракетки и шланга), возможно, это схождение не так уж и плохо.

Новизна ради новизны не всегда является целью.

Что вы должны спросить, так это, когда 20% сокращение уникальных концепций приводит к худшему результату (неудачные инновации, упущенные возможности)? Это открытый вопрос.

Сотрудничество человека и ИИ — это больше, чем одноразовые запросы.

Эксперименты, которые у нас есть на данный момент, в значительной степени рассматривают помощь ИИ как единичное взаимодействие: человек просит идеи, ИИ отвечает, и на этом все.

В реальности, создание с помощью ИИ — это, как правило, итеративный процесс.

Вы можете получить идею от ChatGPT, затем критиковать ее, уточнять или использовать ее как трамплин для чего-то совершенно другого.

Или вы можете специально просить ИИ о чем-то: («Дайте мне что-то более радикальное. Теперь что-то более практичное. Хорошо, объедините это.»). По сути, вы играете роль режиссера для актера ИИ. Ни одно из исследований не зафиксировало богатого взаимодействия, которое большинство пользователей осуществляют в реальном мире.

Возможно, что при использовании в итеративном цикле инструменты ИИ могут фактически увеличить разнообразие: например, вы можете намеренно запрашивать у ИИ идеи в разных стилях или областях на каждом раунде для получения широкого спектра концепций.

Например, в сценарии с одним запросом ChatGPT дал бы вам самую простую, умную идею (отсюда и то, что несколько человек получают дождеватели).

Но если вы явно скажете: «Дайте мне 5 совершенно несвязанных подходов к этой проблеме», GPT-4 может вас удивить.

Все хорошо в теории… многие из одних и тех же идей по сути все равно являются одной идеей.

Креативность с течением времени, недостающий долгосрочный взгляд.

Один аспект, почти не затронутый этими исследованиями, — это то, что происходит после первоначальной идеи. Креативность — это процесс.

Идея, которая на первый взгляд кажется производной, может со временем превратиться в нечто уникальное. Или, оригинально звучащая идея может иссякнуть или сойтись к аналогичной реализации, когда вы ее фактически построите.

Мы видели много человеческих идей, которые заходили в тупик и ни к чему не приводили.

Дело в том, что первоначальное разнообразие — это лишь снимок во времени. Нас действительно интересует разнообразие конечных результатов или решений, которые воплощаются в жизнь.

Было бы интересно увидеть долгосрочное исследование, где команды берут первоначальные идеи (с помощью ИИ или без него) и развивают их в течение нескольких месяцев, чтобы увидеть, проявляют ли идеи, созданные ИИ, меньшее разнообразие в конечных продуктах.

От «Вредит ли ИИ креативности?» до «Как ИИ может усилить креативность?»

Была ли наша формулировка этой дискуссии справедливой?

Большая часть дискуссий имеет неявный враждебный тон, как будто ИИ и человеческая креативность находятся в противостоянии. Такая формулировка имеет смысл во время исследования, да, но в реальности нам нужно:

Можем ли мы созидать вместе с ИИ, а не просто копировать?

Возможно, речь идет об оптимальном сочетании сильных сторон человека и сильных сторон ИИ.

В зависимости от творческой цели: исследование против использования, широта против глубины, инновации против оптимизации.

Для исследования…

Учитывая то, что мы узнали, мы теперь знаем, что люди преуспевают в нестандартном мышлении (действительно странные, новые, меняющие контекст идеи) с нюансами, такими как эмоциональный резонанс или культурный контекст.

ИИ преуспевает в объединении обширных знаний и обеспечении соответствия результатов определенным критериям (оставаться в теме, быть связным и т. д.). ChatGPT (или любой генеративный ИИ), в конце концов, является статистическим зеркалом человеческого знания и языка.

Итак, в идеальном рабочем процессе ИИ генерирует кучу идей, человек может выбрать необычную идею и сказать: «ИИ, теперь развивай эту необычную идею», и продолжать чередовать, используя ИИ как для широкого, так и для глубокого исследования.

Что касается использования, конвергентное мышление (сосредоточение на одном решении) может фактически превзойти дивергентное мышление. Миллионы человеческих умов в его обучающих данных могли сойтись на схожих идеях по уважительной причине.

Особенно в практических, чувствительных ко времени сценариях, стиль «творческой конвергенции» ИИ иногда может быть более ценным, чем творческая дивергенция.

Например:

Устранение неполадок. Если машина выходит из строя на заводе, быстрое нахождение наиболее вероятного решения (вместо мозгового штурма экзотических решений) экономит время и деньги.
Или этап выполнения проектов. Как только был исследован ряд идей, командам часто необходимо сойтись на едином плане для реализации.

Тем не менее, когда наше внимание сосредоточено на креативности, а не на выполнении, когда все используют одного и того же мощного помощника, результатом могут быть стаи мыслителей, кружащихся вокруг одной и той же идеи, какой бы новой она ни казалась на первый взгляд.

Как показали эти исследования, разнообразие и оригинальность могут пострадать, если мы не будем осторожны.

Это не кажется катастрофическим, поскольку мы еще не пишем совершенно одинаковые романы, созданные роботами, но это заметно и измеримо.

Вы, вероятно, не раз замечали текст, сгенерированный ИИ.

Так как же нам создавать вместе с ИИ, а не просто копировать?

Ну… все должно быть адаптировано к вашему собственному процессу, поэтому я воздерживаюсь от простого ответа. Но вот три основных шага для размышления:

Всегда очень четко формулируйте свою цель. Большинство людей терпят неудачу на этом шаге.
Запишите ее, сформулируйте свою идею вокруг нее и отложите использование ИИ.
Меньше значит больше, всегда. Безжалостно удаляйте идеи и результаты ИИ.

Как сказал Леннарт Майнке:

ИИ отлично подходит для быстрой генерации множества идей… но он может направить вас на определенный путь слишком рано в процессе мозгового штурма.

Часто лучше сначала придумать несколько первоначальных идей самостоятельно (выбрав проблему), а затем использовать ИИ для быстрого уточнения и дальнейшего изучения этих идей.

Сохраняйте баланс и намеренность.