Создан алгоритм, способный искать новые знания в миллионах научных статей

Исследователи из США уверены, что их детище может самостоятельно совершать новые открытия, основываясь на уже имеющихся в библиотеках данных.

Сегодня одна из проблем науки – огромное количество научных работ, которые человек просто не в состоянии подробно изучить. При этом текст в статьях сложно изучать как статистическим анализом, и современными методами машинного обучения. А ведь во всей совокупности работ содержаться уникальные знания и разработки, между которыми можно установить связь. Разобраться с этим поможет новый алгоритм, который, по словам ученых, может открывать новые научные знания, сканируя текст миллионов статей, пишет «Наука и жизнь» со ссылкой на журнал Nature.

Исследователи загрузили в алгоритм данные из 3,3 млн работ по материаловедению, изданных с 1922 по 2018 года в 1000 журналов. В результате только на анализе связей между словами разработка смогла предсказать открытие новых термоэлектрических материалов на годы вперед. Алгоритм помогает устранить пробелы в исследованиях − указал на малоизученные вещества.

Система основана на превращении слов в набор из 200 чисел (200-мерный вектор), показывающий связь с другими словами. Векторы можно сравнивать и производить с ними разные действия. Алгоритм прошел и тестирование «машиной времени». В него закладывали материалы до 2000 года, и проверяли, сможет ли он предсказать открытия, произошедшие позже.  И он смог.

Интересно, что он также сам открыл периодическую таблицу элементов и кристаллическую структуру металлов, что говорит об огромном научном потенциале разработки. Авторы считают, что подобный анализ научных статей может не только обнаружить ранее не учтенные данные, но создаст систему базовых научных знаний.

Василий Бахолдин. © Фото: ИД «Волгоградская правда» / архив.