?

Log in

No account? Create an account
Quizzing the Anonymous
Ignoramus et ignorabimus
Предсказания. 2 
16th-Jun-2018 12:18 am
thinking
Зимой, по случаю всеамериканского умопомешательства на машинном обучении, начальство спустило циркуляр: всем немедленно применять сей передовой метод, отстающих выгоним (буквально, не шучу). Случился переполох. Через два месяца - стоп-машина, отбой, метод применять только по необходимости (начальство начальства внушило последнему, что самому главному начальству важен результат, а не метод его достижения).

***

Для батареек мы придумываем молекулы с труднореализуемыми свойствами. Я занимаюсь их физхимией; Лю их варит и испытывает, вместе мы разбираемся в результатах испытаний. Нарисовать формулу можно быстро, а синтез занимает недели, а то и месяцы. Ни интуиция Лю, ни моя физхимия не гарантируют успеха. Соединения должны пройти два теста, легкий и тяжелый. Даже легкий тест получается предсказать хуже, чем в половине случаев; с тяжелым тестом полная хана. Много сил уходит на синтез веществ, которые заваливают тесты.

Мы прикинули: раз такое дело, пусть решает машина. И для нас польза, и начальство довольно.

***

Почитав немного про машинное обучение (жена как раз брала стэндфорский курс), я понял, что из начальственных затей ничего не выйдет: данных слишком мало. Тогда я по ее совету решил попробовать логистическую регрессию, чтоб программа предсказывала вероятность прохождения первого теста. Переменными служат молекулярные дескрипторы: есть программы, которые их генерируют тысячами. Это, в основном, автокорелляторы атомных свойств через столько-то химических связей, но есть более заковыристые. Я соединил генетический алгоритм отбора дескрипторов с логистической регрессией, чтобы выбрать небольшое число самых важных дескрипторов. Поскольку "хороших" молекул немного, я добавил к ним "плохих": взял забракованные молекулы и сделал их еще хуже. Я натворил тысячи таких "плохих" молекул, чтобы хорошенько натаскать на них программу. Все сработало. Я нашел классификатор о пяти дескрипторах, который отлично классифицировал все, что я ему подсовывал, и посчитал свою задачу выполненной. Лю просиял, кода я ему об этом сказал.

Затем произошло непредвиденное.

***

Я показал Лю, как классификатор классифицирует молекулы. Он покивал головой, потом спрашивает: а как он это делает?

- Берет линейную комбинацию дескрипторов.
- Что они означают?
- Это и то.
- Мне неясно, что это за свойства, и почему они коррелируют с прохождением теста. Мы такими свойствами обычно не пользуемся.
- Мне это тоже неясно.
- Тогда ты должен создать теорию, почему и как работают эти дескрипторы. Разве ты не для этого написал программу?
- К сожалению, я не знаю, как такую теорию создать. Эти дескрипторы не говорят, какие барьеры каких реакций мне нужно рассматривать.
- Я не могу тратить недели на синтез, если не знаю, как работает твой классификатор.
- Но ты же сам нередко ошибаешься, подбирая новые молекулы, и это тебя не останавливает.
- Потому что это мои ошибки и мое время.
- Ты мне иногда жаловался, что плохо понимаешь мои доводы. Я твою структурную интуицию тоже не всегда понимаю, а объяснить ты мне ее не можешь. Тем не менее ты доверяешь мне, а я тебе. Мы верим, что за нашими доводами стоит некий образ мысли. И за классификатором тоже что-то стоит. В чем разница?
- "Хорошие" молекулы отобраны моим согласием синтезировать эти молекулы, - т.е. твоя программа отражает мою интуицию, и не более. Но есть разница. Моя интуиция хорошая, а твоя программа - плохая. Свою интуицию я понимаю, а твою программу не понимаю.
- Если у тебя такая замечательная интуиция, почему она часто отказывает? Наших интуиций нам явно не хватает, потому мы и решили попробовать программу. Ты не можешь всерьез ожидать, что такая программа будет 1) интуитивна и 2) при этом классифицировать лучше, чем твоя интуиция.
- Да, моя интуция иногда сбоит. А твой классификатор как часто будет отказывать?
- Откуда я знаю, если ты не хочешь даже попробовать?
- Будет ли он достоверно предсказывать "хорошее" соединение?
- Вряд ли.
- Можешь ли ты доказать, что он будет отказывать реже, чем моя интуиция?
- Не могу.
- Тогда зачем он нужен? У меня уже есть несовершенная интуиция, и мне не нужен несовершенный черный ящик. Я ожидал от тебя другого. Я хотел, чтобы компьютер чертил самые лучшие молекулы, а не судил, какая из начерченных мною может оказаться хорошей.
- Пойми, это тупая машина, у нее нет воображения. Но я могу комбинаторно наделать молекул, а она их потом оценит.
- Как ты будешь делать эти молекулы?
- На основе того, что работает.
- Это поиск ключа под фонарем. Так мы будем вертеться вокруг того, что уже знаем и не найдем ничего нового.
- Тогда зачем ты согласился на всю эту затею?
- Я ожидал программу, которая вообразит и оценит тысячи соединений и найдет среди них лучшие. А ты написал неизвестно что неизвестно зачем.
- Давай попробуем на бумаге.
- Попробуем что?
- Нарисовать новые молекулы, дать их машине, а мы их потом оценим и сравним. Если мы сойдемся на 70% - попробуем в жизни?
- Хорошо, давай.


Мы напридумали молекул, машина выбрала "хорошие", и после этого мы резко разошлись во мнениях, правильно ли машина их отклассифицировала.

Последствия на этом не закончились. После многодневных жарких споров, Лю заявил, что если для меня внутренне приемлимы подобные методы, он более не может доверять моей интуиции. Он не может наверно знать, что мои предложения имеют под собою рациональную основу. Слово за слово, кончилось тем, что мне пришлось дать ему честное пионерское, что я никогда, никогда не буду пользоваться программой - или мы более не работаем вместе.

Вот тебе и машинное обучение... Мой ближайший коллега на 20 лет меня моложе стал сомневаться в моей профессиональной пригодности и представил меня перед ультиматумом.

На хер мне сдалось такое обучение.

***

Для Лю это не просто решение о молекулах, это решение о днях его жизни, которые небесконечны. Черный ящик не может решать, как и на что ему тратить эти дни.

Я-то наивно полагал, что трудность с машинным обучением будет обучить машину...

В назидание дан пример оный.
Comments 
16th-Jun-2018 05:07 am (UTC)
shit in shit out ;((((
16th-Jun-2018 05:24 am (UTC)

Мощно

16th-Jun-2018 05:37 am (UTC)
Я, в бытность начальником пр-ва, новый сложный процесс осваивал и разрабатывал сам, и доводил до совершенства, пока не увидел, что есть люди для которых эта творческая часть процесса очень важна, и тупо делать от сих до сих они всё равно не будут, придумают своё, а так-как процесс уже доведён до совершенства - со снижением либо качества, либо производительности.
Видимо для Ли сам выбор молекул, это то, что позволяет ему чувствовать себя не просто лаборантом-исполнителем. Да ещё и исполнителем указаний машины.
16th-Jun-2018 09:04 pm (UTC)
Именно. А я об этом не подумал. Но своим плохим примером могу предупредить других.
16th-Jun-2018 06:00 am (UTC)
Проблема известна и уже документирована. Чуть в сторону, ваши местные власти долго и последовательно финансировали создание автономных машин с сомнительными целями (оружие всякое) -- долго не получалось, а они терпеливо финансировали. Но вот, внезапно, взгляд изменился: получаться стало чуть менее плохо, но приоритет результатов был понижен, а приоритет "доверия машинам" повышен до максимального. Теперь машине недостаточно выдавать результат; от неё начали требовать чтобы процесс его получения был понятен простой сельской молодёжи принимающим такие решения. Это запредельно усложнило задачу для всех, и непонятно что со всем этим делать. Машинное обучение и вообще магия по самому замыслу непонятна для всех кроме авторов, а для большинства нейросетей -- и для самих авторов. Поэтому ваш коллега в тренде, но этот тренд ведёт в тупик. Более того, поскольку в тренде он не по приказу начальства, по своей интуиции, очень может получиться что ваш коллега "морально устарел". Его интуиция -- такой же чёрный ящик, как нейросети, и вместо придумывания как использовать мощь ещё одного чёрного ящика, он придумывает ультиматумы. Это человеческий фактор -- проблема, наиболее быстро и легко решающаяся удалением его субстрата. Это тоже тренд, но из тупика, а не в тупик.
16th-Jun-2018 07:59 am (UTC)
Слепое доверие алгоритмам обучения — другая крайность.
16th-Jun-2018 06:27 am (UTC)
пост ок, спасибо

и да, Лю не прав
21st-Jun-2018 07:56 am (UTC)
Лю прав
16th-Jun-2018 06:55 am (UTC)
Сурово. Напишите потом, как все разрешится.
16th-Jun-2018 06:59 am (UTC)
Интересно, как НФ читаю...
16th-Jun-2018 07:09 am (UTC)
Первое.
А это не решается роботом который собственно берет и синтезирует эти молекулы и проверяет их свойства ? Тогда такой робот ( в зависимости от времени на его создание) может сэкономить как раз эти дни жизни.

Второе
Мне хотелось бы (если не затруднит) увидеть ваш пост про квантовые компьютеры и их приложение к квантовой химии. Насколько я понимаю недавно начался достаточно серъезный прогресс, и насколько я понимаю кв. компьютеры могу решать кв. химические задачи "точно". Т.е. не будет собственно говоря машинное обучение будет полагатся гораздо меньше на "интуиции" и гораздо больше на ab initio.
16th-Jun-2018 08:58 am (UTC)
Если бы существовали роботы, которые вот просто так "берут и синтезируют", зачем тогда нужен Лю?
16th-Jun-2018 07:56 am (UTC)
Я так и не понял — этот чёрный ящик выдал хоть что-то за пределами обучающей выборки, чтобы оказалось дельное и прошло проверку?
16th-Jun-2018 02:50 pm (UTC)
А никто не проверял, потому что Лю отказался. Слишком долгий и дорогой цикл проверки.
16th-Jun-2018 08:03 am (UTC)
Надо понимать, что когда Вы набрали массив для обучения, Вы - даже не совсем косвенно, а вполне прямо - применили свою интуицию. Вы набирали те соединения, которые Вы понимаете, Вы ухудшали то, что имели - в соответствии с ними. Метод логистической регрессии, как и положено очень простому и грубому методу, только зафиксировал Ваши преференции. Вы получили некий калькукятор, который именно что считает в соответствии с Вашей интуицией. Он - не вообще, а именно слепок с Вас, это Ваш помощник, а не вообще.
Если я правильно понимаю, универсальный гигантский массив для работы - это ведь на несколько порядков большие объёмы, в которых не приходится усиливать контрастность, "ухудшая" примеры - ... ну вот...
Так что Вы имеете полное право его применять. По крайней мере, попробовать. Да: у Вас по-видмому нет шанса провести прямой эксперимент - партнёр заартачился - и Вы не можете даже примерно прикинуть качество свинченной машинки. Но вероятно, и Вас есть шанс делать это втихую...

PS. Что делают все эти обучающие методы? Они вынимают закономерности из данных, их именно для этого придумали, и логистическая регрессия тут - один из первых и самых проверенных. Методам надо что? Зацепиться за features. Понять, какие фичи хорошие, какие плохие. И ещё очень важно, чтобы были хорошие features: ведь можно такие просто забыть измерить, и компьютер ими не кормить, а кормить всяким дерьмом.... Если массив всеобъемлющ и объективен - машинка вынет ровно то же, что вынет человек, но а)побыстрее, б)не проводя анализ, а "просто". Если же массив вовсе невсеобъемлющ, а работает - значит важно, Кто его обучал: кто его кормил данными - в первую очередь.
Ваши "ухудшения", которые я поминаю уже третий раз: да Вы ж свою машинку учили фичами, излюбленными именно у Вашей интуиции!!! Разумеется, это совершенно необъективно! Но - ... должно работать.

Edited at 2018-06-16 08:28 am (UTC)
16th-Jun-2018 08:41 am (UTC)
В конце концов, получается следующее: в результате всего этого построения, Вы сделали измерение своей интуиции. Результат измерения - некая формула, которая оценивает шансы на то, что Ваша интуиция сработала правильно. Необычный вид измерения? информации? - да. Новый, раньше так не носили. Привыкаем, теперь будут долго так носить...

Edited at 2018-06-16 08:41 am (UTC)
16th-Jun-2018 10:05 am (UTC)
- ...А твой классификатор как часто будет отказывать?
- Откуда я знаю, если ты не хочешь даже попробовать?
- Будет ли он достоверно предсказывать "хорошее" соединение?
- Вряд ли.
- Можешь ли ты доказать, что он будет отказывать реже, чем моя интуиция?
- Не могу.


а вот это странный диалог. Что мешало проверить классификатор out of sample, на стратифицированно рандомизированной выборке? А если он был проверен, то какие основания полагать, что в применении ошибки обоих родов будут сильно отличаться от полученных в проверке? Если таких оснований особых нет, то все три ответа странные.

Мы напридумали молекул, машина выбрала "хорошие", и после этого мы резко разошлись во мнениях, правильно ли машина их отклассифицировала.

И это тоже непонятно. Алгоритм должен предсказывать прохождение "первого теста". Этот тест у вас, что ли, совершенно субъективный? Если об объективный, то как вы могли разойтись во мнениях?
16th-Jun-2018 02:18 pm (UTC)
У меня почему-то дурацкое ощущение, что Лю просто не хочет чтобы его крутую "интуицию" заменил алгоритм.

Edited at 2018-06-16 02:18 pm (UTC)
16th-Jun-2018 12:58 pm (UTC)
В фарме та же история, только там это безумие началось лет на тридцать раньше.
16th-Jun-2018 01:30 pm (UTC)
Бывает же, что зная ответ, проще получить решение. С громоздкими и непрозрачными моделями машинного обучения отчасти то же - их громоздкость существенна в процессе обучения, не в сошедшейся модели. Тысячи весов в нейросетях отличны от нуля пока сеть обучается. Потом ненулевых весов может остаться немного (может не остаться, да). На них можно смотреть и что-то про них думать. Другой вариант - натренированная непрозрачная может может делать именно те ошибки, которые легко воспроизводятся гораздо более простой моделью - что-то вроде простой модели сложной модели. Сперва на реальных данных тренируем одну модель, а потом на ее выходе - какое-нибудь decision tree , на которое уже можно смотреть и пытаться интерпретировать.
Но проблема немного в другом месте - при обучении может не быть одного хорошего и глубокого минимума. Можно построить две примерно одного качества модели, которые будут приводить к разным интерпретациям. Будут они соответствовать недалеким минимумам и исходя из имеющихся данных не будет возможности предпочесть одну другой.
16th-Jun-2018 09:54 pm (UTC)
Бывает, но у меня не получается догадаться.
16th-Jun-2018 02:16 pm (UTC) - Каспаров против "мошыны"
Когда Гарри предложили игру против ИИ,
он потребовал дать себе доступ в ту же память, что и у робота.
Чтоб соревновались интеллекты, а не хранилища партий.

Похоже, нельзя из гуманных соображений, демонстрировать на людях ВСЮ кухню мышления,
что показывает ваш чудесный диалог.
17th-Jun-2018 06:20 am (UTC) - Re: Каспаров против "мошыны"
Каспаров, кстати, по отношению к ИИ вполне оптимистично настроен. Около месяца назад его лекцию на эту тему в СФ слушал.
16th-Jun-2018 03:52 pm (UTC)
На самом деле Лю предлагал вам следующий уровень машинного обучения в стиле того, что делает Гугл в своих программах для шахмат и Го. То есть сделать модуль конструирования молекул, которые потом оценивать, и учиться делать полезные шаги в конструировании. В принципе, так можно было бы получить какие-то неожиданные решения. Там задействован класс методов типа reinforcement learning, а не просто аппроксимации нейросетями.
16th-Jun-2018 09:56 pm (UTC)
Лю мне предлагает сделать его электронную версию, а я не знаю, как это сделать. Да и нужна ли она, если есть Лю?
Page 1 of 2
<<[1] [2] >>
This page was loaded Aug 25th 2019, 2:34 pm GMT.