Kraken прочтет древние рукописи на иврите
Платформа, которая называется Kraken, делает первые пробные шаги, пытаясь расшифровать древний иврит. Разработчики уповают на то, что в недалеком будущем после завершения исследований Kraken сможет прочитать любой текст на иврите, даже если рукопись искажена, неразборчива или ее трудно расшифровать. Это - часть дисциплины, называемой дигитальной гуманитарной наукой, где используются передовые технологии для совершенствования изучения ТАНАХа, истории и литературы.
Как дети, которые впервые сталкиваются с еврейскими религиозными текстами в начальной школе, Kraken нуждается в практических занятиях, чтобы ознакомиться с имеющимся материалом. «Шоко» (ивр. какао), на самом деле - «шокет»: корыто. «Рот» хотел «иметь дело с Торой», а не требовал «курева», в то время как Иисус, не дай Бог, не имел никакого отношения к третьей фразе - изначально она звучала как «И возрадуется Господь».
Моше Лави – ветеран военной разведки, старший преподаватель Талмуда на кафедре еврейской истории в хайфском университете, а также директор и основатель eLijah-Lab, где и применяется Kraken, и один из двух руководителей дигитальной лаборатории.
Он рассказал о дигитальной революции, призванной спасти несколько исследовательских сфер от забвения. В разговоре мелькали слова, которые, кажется, находятся на расстоянии нескольких световых лет от «устаревших» направлений в проводимых им исследованиях: «глубинное обучение», «дистанционный просмотр», «компьютерное зрение», «интеллектуальный анализ данных» и «искусственные нейронные сети».
На мониторе Лави показал отсканированный фрагмент из Мидраша Танхума периода раннего средневековья, который практически не поддается прочтению, но компьютер не сдается. Kraken, разработанный профессором Даниэлем Штекелем Бен-Эзрой из Практической школы высших исследований в Париже, успешно читает фрагмент, а затем представляет его в виде простого текстового файла.
Это открывает перед исследователями новые горизонты, поражающие воображение, и в первую очередь – поиск и анализ информации в больших объемах и видах текстов, которые до сих пор даже самый опытный исследователь не мог проделать в одиночку. «Наше видение состоит в том, чтобы сделать все древнееврейские рукописи доступными. – подчеркивает Лави. – Мы сумеем трансформировать еврейское и древнееврейское наследие в тексты, доступные для обычного компьютерного поиска и изучения, тем самым сохранив огромный кладезь знаний и еврейских традиций».
Чтобы лучше понять, о чем говорит Лави, нужно понимать, какие технологические изменения претерпел мир рукописей за последнией годы. В прошлом древнееврейские тексты были доступны только в оригинальном – книжном – варианте. Чтобы изучить их, исследователям приходилось сидеть в библиотеках, зарывшись в многочисленные тома. В последние годы рукописи стараются оцифровать, сканировать и загружать в виде файлов с изображениями – это позволяет их открывать в компьютерах, расположенных в любой точке земного шара.
Следующим этапом, на котором сейчас сосредоточена дигитальная гуманитарная лаборатория, должно стать преобразование этих файлов из картинок, - в которых только человеческий глаз способен распознать слова и фразы, - в текстовые файлы, чтобы их смог читать компьютер. Революция в этом вопросе стала возможной, благодаря технологии распознавания рукописного текста, которая позволяет компьютеру читать десятки тысяч страниц - например, романы и стихи XIX века, дневники и письма Второй мировой войны, а также древние философские и религиозные трактаты.
По словам Лави, «компьютер учат распознавать тексты автоматически, основываясь на практике, поэтому он получает контекстные знания о языке и использует их для достижения лучших результатов».
Профессор Цви Куфлик, второй руководитель лаборатории, считает, что «дни, когда исследователь проводил долгие часы, перебирая пыльные стопки книг в библиотеках, сходят на нет». Он добавляет, что «технология поможет избавить специалистов от истинно сизифова труда поиска, позволяя более эффективно распоряжаться собственным временем».
На данном этапе компьютер все еще нуждается в помощи исследователей. Они учат его читать и «понимать» древнееврейские тексты, с которыми он сталкивается впервые. «Мы показываем компьютеру множество фотографических изображений рукописей, а также их правильную транскрипцию, - поясняет Лави. - Сам компьютер находит направляющую математическую формулу на основе визуальных данных для текста и развивает способность расшифровывать даже рукописный текст, который ранее не поддавался расшифровке».
Дрор Алович, технический менеджер лаборатории и аспирант-историк, уверен, что «недалек тот день, когда отпадет надобность в человеческом факторе, а тексты будут оцифровываться сами собой».
Алович привел пример того, как работает дигитальная революция в гуманитарных науках, ссылаясь на свой собственный опыт. Он сравнил количество первоисточников, на которые опирался профессор, занимавшийся той же темой, что и он, и работавший с ними нескольких недель архивных поисков, - с материалом, который он сам нашел за несколько минут поиска в домашнем компьютере. «Он использовал лишь 10 процентов того, что удалось получить мне», - говорит он.
Этот опыт может повторить любой желающий: Алович использовал бесплатный информационный банк в Historical Jewish Press, онлайн-архиве еврейских газет с 2.5 миллионами отсканированных страниц, начиная с XIX века до настоящего времени. Этот ресурс появился, благодаря профессору Ярону Цуру с факультета еврейской истории тель-авивского университета, пионеру дигитальных гуманитарных наук в Израиле.
Архитектор Рут Каплан, защищающая докторскую диссертацию по еврейской истории в хайфском университете, прибегла к помощи eLijah-Lab для изучения истории евреев в Лодзи. Kraken помог ей проанализировать проведенные там переписи населения.
«Из этих переписей можно получить ценную информацию о жизни, которая исчезла после нацистской оккупации, если знать, как использовать возможности компьютера», - отмечает Каплан. В частности, она проанализировала результаты переписей в польских архивах - в документах, содержащихся в устаревшем формате и более низкого качества. «Теперь, когда компьютер научился читать эти тексты, станет возможным получить информацию, которая была скрыта в них до сих пор», - говорит она.
«Мы не хотим хоронить классические гуманитарные науки. Наоборот, хотим их спасти. Нет, мы вовсе не заменяем исследователей прошлого, а позволяем человеческому разуму оперировать эффективными компьютеризированными инструментами», - закончил Моше Лави.
Офер Адерет (Ofer Aderet), Haaretz