Обычно, если вы хотите, чтобы компьютер сделал что-то новое, вам нужно его запрограммировать. Для тех, кто не знает: программирование требует мучительного определения мельчайших деталей, которые должен выполнять компьютер для достижения вашей цели. А сделать то, чего вы никогда не делали, будет очень сложно. Именно с такой сложной задачей столкнулся этот человек, Артур Самуэль. В 1956 году он захотел, чтобы компьютер смог обыграть его в шашки.
Как написать программу, продумать её до мельчайших деталей, чтобы она обыграла тебя в шашки? Ему в голову пришла мысль: компьютер должен сыграть тысячу партий с самим собой, и так он научится играть в шашки. Это действительно сработало — в 1962 году этот компьютер обыграл чемпиона штата Коннектикут.
Так Артур Самуэль стал основоположником машинного обучения. Я в большом долгу перед ним, потому что работаю в области машинного обучения. Я был президентом Kaggle, сообщества, объединяющего 200 000 людей, применяющих машинное обучение. Kaggle проводит соревнования по решению ещё не решённых проблем, и участники успешно справились с сотнями из них. У меня была отличная возможность побольше узнать о машинном обучении в прошлом, настоящем и будущем. Возможно, первым большим коммерческим успехом машинного обучения стал Google. В Google доказали, что можно находить информацию с помощью компьютерного алгоритма, а этот алгоритм был основан на машинном обучении. С тех пор машинное обучение неоднократно использовалось в коммерческих целях. Компании вроде Amazon и Netflix иcпользуют машинное обучение, определяя, какие товары вы захотите купить, какие фильмы посмотреть. Иногда это даже пугает. Сети, такие как LinkedIn и Facebook, иногда предлагают людей, которых вы можете знать, а вы не понимаете, как они их нашли. Это стало возможным благодаря машинному обучению. Алгоритмы собирают информацию и обучаются, а не программируются человеком.
Это также объясняет успехи IBM: программа Watson обыграла двух чемпионов мира в «Своей игре», ответив на невероятно хитрые и каверзные вопросы вроде этого: [В 2003 году «лев Нимруда» исчез из музея этого города] Именно этот метод лёг в основу технологии беспилотных автомобилей. Важно, чтобы такой автомобиль смог отличить дерево от пешехода. Мы не знаем, как задать такой алгоритм вручную, зато это стало возможным с помощью машинного обучения. Этот автомобиль проехал более 1,5 миллионов километров и ни разу не попал в аварию на трассе.
Итак, мы знаем, что компьютеры могут учиться. Причём они могут учиться делать то, чего не умеем делать мы сами, или могут делать это лучше нас. С одним из самых невероятных примеров машинного обучения я столкнулся, пока работал в Kaggle: команда под руководством Джеффри Хинтона из Торонтского университета выиграла конкурс по автоматизации поиска новых лекарств. Невероятно не только то, что их алгоритм оказался лучше всех алгоритмов, разработанных Merck или международным научным сообществом. Никто в команде не имел никакого отношения к химии, биологии или медицине, и на всё у них ушло две недели. Как? Благодаря уникальному алгоритму глубинного обучения. Результаты их работы были настолько ошеломительны, что об этом спустя несколько недель сообщила на первой полосе New York Times. Джеффри Хинтон слева. В основе глубинного обучения — принципы работы человеческого мозга, и поэтому теоретически у этого алгоритма нет ограничений применимости. Чем больше данных на входе и времени на их обработку, тем лучше результат.
В этой же статье New York Times был упомянут другой удивительный продукт глубинного обучения, который я вам сейчас продемонстрирую. Он доказывает, что компьютеры могут слышать и понимать.
Ричард Рашид: Наконец, последнее, что я хочу сделать, — это поговорить с вами по-китайски. Суть в том, что мы сформировали массив записей носителей китайского языка и разработали систему для преобразования текста в речь, которая получает текст на китайском и преобразует его в речь. Потом мы записали примерно час звучания моего голоса и использовали эту запись для модуляции обычной системы преобразования текста в речь. Если что, результат не идеален. Там есть несколько ошибок. (Говорит по-китайски) (Аплодисменты) Нам предстоит ещё много работы. (Говорит по-китайски)
Джереми Говард: Это было на конференции по машинному обучению в Китае. На самом деле, на научных конференциях внезапно аплодируют очень редко, в отличие от TEDx, так что не стесняйтесь. Всё это видео было записано с помощью глубинного обучения. (Аплодисменты) Спасибо. Английские субтитры — это глубинное обучение, перевод на китайский и текст справа вверху — оно же, и конструирование голоса — снова оно.
Глубинное обучение — невероятная вещь.
Один-единственный алгоритм, который, похоже, может почти всё. Ещё годом раньше я обнаружил, что этот алгоритм может видеть. На малоизвестном конкурсе в Германии — «Сравнительный анализ распознавания дорожных знаков» — глубинное обучение использовалось для распознавания вот таких знаков. Мало того, что результаты распознавания были лучше, чем у других алгоритмов; в таблице видно, что они превосходят человеческие примерно в два раза. Итак, к 2011 году появился первый компьютер, который видел лучше людей. С тех пор произошло многое. В 2012 году в Google объявили, что их алгоритм глубинного обучения использовал видео на YouTube. Данные обрабатывались на 16 000 компьютеров в течение месяца, и компьютер самостоятельно определил, что такое люди и кошки, на основе только видеоматериалов. Это очень похоже на то, как учатся люди. Им не говорят, что они видят. Люди сами разбираются, что они видят. В том же 2012 году Джеффри Хинтон, которого вы уже знаете, победил в очень известном конкурсе ImageNet, в котором необходимо распознать, что изображено на 1,5 миллионах картинок. К 2014 году количество ошибок в распознавании образов сократилось до 6%. И опять же, это лучше, чем у людей.
Эффективность компьютеров действительно невероятно высока,
и сейчас это применяется в коммерческих целях. Так, в прошлом году в Google объявили, что их карты могут локализовать любую точку во Франции за два часа: они обрабатывают фотографии улиц с помощью алгоритма глубинного обучения, чтобы распознать и прочитать адреса. Подумайте, сколько времени это заняло бы: понадобились бы десятки людей и несколько лет. То же самое происходит в Китае. Baidu — это что-то вроде китайского Google, и сверху слева вы видите картинку, которую я загрузил на вход алгоритмов глубинного обучения Baidu, а под ней — то, как система распознала, что изображено на картинке, и нашла похожие. Похожие изображения имеют похожий фон, морды смотрят в ту же сторону, иногда даже так же высунут язык. Это не просто поиск текста на веб-странице. Я загрузил только картинку. Итак, теперь наши компьютеры действительно понимают увиденное и могут искать информацию в базах среди сотен миллионов картинок в режиме реального времени.
Значит ли это, что компьютеры могут видеть? Это не просто умение видеть. Глубинное обучение — это намного больше. Сложные предложения со множеством смысловых оттенков теперь понятны благодаря алгоритмам глубинного обучения. Как видно на экране, эта стэнфордская система распознаёт отрицательные эмоции в предложении и отмечает их красными точками сверху. Глубинное обучение похоже на человеческое поведение в процессе распознавания того, что и о чём сказано. Глубинное обучение использовалось для чтения на китайском. Результат был на уровне результата человека — носителя китайского. Этот алгоритм был разработан в Швейцарии людьми, ни один из которых не говорит по-китайски. Как я и сказал, глубинное обучение — это оптимальный способ решения таких задач, даже по сравнению с человеческим восприятием.
На экране система, разработаная в моей компании, в ней задействовано всё, о чём я рассказал. Это картинки без описаний. Здесь я набираю предложения. В режиме реального времени картинки распознаются, определяется их смысл, и находятся изображения, соответствующие введённому мной тексту. Итак, вы видите, что предложения и картинки действительно распознаются. Я знаю, что вы видели нечто похожее в Google, при вводе запроса, по которому вам выдаются картинки, но в действительности там идёт поиск нужного текста на веб-странице. Распознавание образов — это принципиально новый процесс. Распознавание стало доступно компьютерным алгоритмам впервые несколько месяцев назад.
Итак, компьютеры теперь могут не только видеть, но и читать, и, как мы уже показали, понимать услышанное. Вы вряд ли удивитесь, если я вам скажу, что они умеют писать. Вот текст, который я вчера получил с помощью алгоритма глубинного обучения. А вот текст, полученный с помощью стэнфордского алгоритма. Каждое из этих предложений составлено алгоритмом глубинного обучения для описания этих картинок. Алгоритм ещё не встречал понятия мужчины в чёрной рубашке, играющего на гитаре. Но ему известны понятия человека, чёрного, гитары, и алгоритм независимо формулирует связное описание этого изображения. Мы всё ещё не дотягиваем до уровня человека, но мы уже близки. При испытаниях люди выбирают описания, данные компьютером, в одном случае из четырёх. Эта система была создана две недели назад, и, скорее всего, в течение года алгоритм покажет результаты намного лучше человеческих, если будет развиваться в том же темпе. Итак, компьютеры могут ещё и писать.
Невероятные возможности
Складываем всё вместе, и нам открываются невероятные возможности. Например, в медицине. Группа учёных из Бостона открыла десятки новых клинически значимых особенностей опухолей; это поможет врачам давать прогнозы онкобольным. Точно так же в Стэнфорде группа учёных, проанализиров опухоли под увеличением, создала систему на основе машинного обучения, которая работает лучше, чем патологоанатомы, прогнозируя исход заболевания у онкобольных. В обоих случаях алгоритмы давали не только более точный результат, но и новые ценные открытия. В случае с радиологией это были новые клинические показатели, понятные для людей. В случае с патологиями алгоритм установил, что для постановки диагноза клетки вокруг опухоли так же важны, как и сами раковые клетки. Это противоречит всему, чему патологоанатомов учили десятилетиями. В разработке обеих систем участвовали как эксперты-врачи, так и специалисты по машинному обучению, но в прошлом году мы смогли преодолеть и это ограничение. На экране пример распознавания поражённых раком человеческих тканей под микроскопом. Система, изображённая на экране, может определить их точнее, или так же точно, как и патологоанатом. В её основе — только метод глубинного обучения. Она разработана людьми, не имеющими никакого отношения к медицине. Или сегментация нейронов. Теперь мы можем сегментировать нейроны так же точно, как и вручную, и эта система так же была основана на глубинном обучении и разработана людьми, не имеющими медицинских знаний или опыта.
Поэтому я, как человек, никогда не занимавшийся медициной, оказался отличным кандидатом на роль основателя новой медицинской компании. Им я и стал. Я порядком трусил, но в теории можно было разрабатывать очень полезные препараты, используя только анализ данных. И — слава богу — отзывы превзошли все мои ожидания, не только в СМИ, но и от медицинского сообщества, где горячо поддержали мою идею. Идея заключается в том, что мы можем взять промежуточный этап лечения и максимально применить к нему наши способы анализа данных, позволив врачам заниматься тем, что у них получается лучше всего. Приведу пример. На составление нового диагностического теста у нас уходит 15 минут. Я покажу это в режиме реального времени, но сокращу процесс до трёх минут, вырезав отдельные фрагменты. Вместо медицинских терминов будут изображения машин, потому что так будет понятнее всем.
Итак, начнём с 1,5 миллионов изображений машин. Я хочу придумать, как их разбить на группы в зависимости от угла, с которого они сфотографированы. Ни одна из картинок не имеет описания, поэтому мне придётся начинать с нуля. Наш алгоритм глубинного обучения автоматически распознаёт отдельные компоненты на этих изображениях. Хорошо то, что человек и компьютер могут решать задачу вместе. Человек, как вы видите, задаёт компьютеру исследуемую область, на основе которой компьютер должен усовершенствовать свои алгоритмы. Такая система глубинного обучения работает в 16 000-мерном пространстве. Компьютер вращает в нём данные, чтобы обнаружить новые структуры. А когда он их находит, человек, управляющий процессом, указывает на те, что его интересуют. Итак, компьютер успешно обнаруживает признаки, например, ракурс. В ходе исследования мы постепенно уточняем, что именно мы ищем. Представьте диагностический тест, благодаря которому врач определяет границы патологии или радиолог — потенциально опасные образования. Иногда алгоритм не может справиться с задачей. Он не находит решения. Здесь капоты и багажники машин идут вперемешку. Поэтому нам надо быть немного аккуратнее и разделить их вручную, а затем задать компьютеру тип изображений, которые нам нужны.
Процесс идёт какое-то время, пропустим немного, а потом мы обучаем наш алгоритм на основе двух объектов из сотен и надеемся, что он это усвоил. Видите, некоторые из этих картинок поблёкли. Это означает, что теперь компьютер распознаёт их самостоятельно. Теперь мы можем использовать этот принцип похожих изображений. Как видите, используя эти изображения, компьютер может самостоятельно находить только фотографии машин спереди. Теперь человек может сказать компьютеру: «Отлично, ты молодец».
Иногда, конечно, даже на этом этапе всё ещё сложно выделить группы. В этом случае даже после дополнительного вращения данных компьютером снимки машин, сделанные справа и слева, всё ещё идут вперемешку. Мы снова даём компьютеру подсказки, чтобы он нашёл плоскость, которая разделит изображения автомобилей справа и слева предельно точно на основе алгоритма глубинного обучения. И с этими подсказками — о, отлично, решение найдено. Компьютер ищет, чем эти объекты отличаются от остальных.
Компьютер не заменяет человека,
Это суть метода. Компьютер не заменяет человека, здесь они работают вместе. То, на что команда из 5—6 человек потратила бы около 7 лет, мы заменяем 15-минутной процедурой, которую выполняет всего один человек.
Этот процесс выполняется за 4—5 рабочих циклов. Как видите, теперь из наших 1,5 миллионов изображений верно классифицированы 62%. Теперь мы сможем быстро выделять отдельные большие блоки и просматривать их, чтобы убедиться, что в них нет ошибок. Если возникают ошибки, мы указываем на них компьютеру. Применяя эту процедуру к разным группам по отдельности, мы получаем около 80% верных результатов при распределении 1,5 миллионов изображений. Сейчас задача состоит только в том, чтобы найти те немногочисленные неверно распознаные изображения, и понять, почему это произошло. Используя этот метод, за 15 минут мы получаем результат, верный на 97%.
Эта техника поможет нам справиться с одной из важнейших проблем — нехваткой медицинских работников в мире. По данным, озвученным на Всемирном экономическом форуме, развивающимся странам нужно в 10—20 раз больше терапевтов и понадобится около 300 лет, чтобы обучить нужное количество людей. А теперь представьте, что мы повысим их эффективность, используя глубинное обучение.
Эти возможности приводят меня в полный восторг, но в то же время я отдаю отчёт в последствиях. Проблема в том, что во всех странах, отмеченных на карте синим, 80% рабочих мест приходится на сферу услуг. Каких услуг? Вот этих услуг. А это именно то, что компьютеры только что научились делать. Если 80% людей в развитых странах заняты тем, что теперь умеет компьютер, то что это значит? Всё в порядке. Они сменят работу. Например, будет больше работы для аналитиков данных. Ну или не совсем. Решение этих задач не займёт у них много времени. Например, эти четыре алгоритма создал один и тот же человек. Вы скажете, что человечество с этим уже сталкивалось. В прошлом мы видели, что когда приходят новые технологии, новые профессии приходят на смену старым, но что это будут за новые профессии? Нам очень сложно сейчас это оценить, ведь производительность человеческого труда растёт постепенно. Однако теперь есть система глубинного обучения, и мы знаем, что её возможности растут по экспоненте. Итак, мы оглядываемся по сторонам: «Ведь компьютеры всё ещё достаточно примитивны». Верно? Но через пять лет их возможности выйдут за границы этого графика. Поэтому нам необходимо начать обдумывать этот аспект прямо сейчас.
Такое уже случалось в истории человечества.
Промышленная революция, благодаря двигателям, дала качественный скачок производства. Однако спустя какое-то время мощности перестали расти. Случился социальный взрыв, но когда двигатели стали применяться в промышленности повсеместно, был найден баланс. Революция машинного обучения будет сильно отличаться от промышленной революции, потому что революция машинного обучения непрерывна. Чем более интеллектуально развиты компьютеры, тем более интеллектуально развитые компьютеры они создают. А это приведёт к тому, с чем наш мир никогда раньше не сталкивался, и ваши прошлые представления о возможном изменятся.
Мы это уже почувствовали на себе. В течение последней четверти века производительность оборудования росла, в то время как производительность рабочих оставалась прежней или немного снижалась.
Я хочу, чтобы мы уже сейчас задумались над этим. Когда я рассказываю об этом людям, они зачастую мне не верят: мол, компьютеры не могут думать, переживать, воспринимать стихи. Мы не понимаем по-настоящему, как они работают. И что? Уже сейчас компьютеры делают то, на что люди тратят бóльшую часть оплачиваемого времени, так что теперь пора думать над тем, как мы будем адаптировать наши социальные и экономические структуры, чтобы быть готовыми к новой реальности.
Translated by Tatiana Efremova
Reviewed by Katya Roberts