freestyle, 13.11.2007 02:31
—
развернуть

Теперь людям не придётся перелопачивать словари, чтобы понять, как найти в Сети нужную картинку, подписанную на неизвестном им и редком языке (фото с сайта smi.ucr.edu).
Вписывая в поисковике картинок Google слово "ключ" мы со вздохом начинаем пролистывать тысячи и тысячи изображений, которые показывают нам всё что угодно, но только не маленький родничок среди зелёной травы. Значение такого слова как "ключ" даже человек может понять только по контексту. Что же с этой проблемой делать машине? Кажется, учёные нашли решение.
Нам-то, русским, конечно, легче. В нашем великом и могучем есть хотя бы слово "родник", а вот в английском есть только один перевод слова "ключ" — "spring" (а это слово также обозначает и время года, и металлическую спираль).
Вот и собрались программисты да лингвисты в центре имени Тьюринга (Turing Center), что в университете Вашингтона (University of Washington), и разработали программное обеспечение для межъязыкового поиска картинок, которое внедрили его во Всемирную паутину.
Новый многоязычный поисковик PanImages, недавно представленный на 11-м саммите машинного перевода (Machine Translation Summit XI) в Дании, позволит людям искать картинки в Интернете с помощью более чем тысячи языков (правда, в базе сейчас порядка двух с половиной миллионов слов из более чем 300 языков, но это – не окончательный вариант системы).

PanImages добавляет новые слова в матрицу, которая позволяет перевести любое слово между двумя любыми языками в базе (иллюстрация University of Washington).
Такие поисковики, как Google, ищут картинки по набранному слову, выявляя его в подписях к рисунку и окружающем тексте, а ещё — в названии файла. Но так как пользователь вписывает слово на своём родном языке, результаты поиска весьма ограничены. А ведь картинки это не текстовые документы, которые пользователь не в состоянии понять из-за незнания языка.
PanImages (греческий префикс "пан" означает общий, всеобщий) автоматически переводит слово в строке поиска и сортирует результаты в группы по языкам, ранжируя по количеству найденных картинок. Затем пользователь выбирает нужный ему язык и просматривает найденные посредством Google картинки и фото из онлайновой базы Flickr (окно браузера делится на две части).
PanImages призван в первую очередь помочь тем людям, которые разговаривают на языках, мало представленных в Интернете, но он также облегчит поиск необходимых картинок и тем людям, которые хотят найти именно то, что они ищут.
Так, в случае обычного поиска англичанин не найдёт картинки, помеченные тегами в китайских иероглифах, а датчанин – с английскими подписями.

Такое вот фото холодильника (всего одно) представит вам Google, если вы в строке поиска впишите "холодильник" по-зулусски ("ifriji") (фото с сайта wikimedia.org).
"Google (один из лучших мировых сервисов поиска на данный момент) предоставит вам не более десятка картинок, если вы введёте слово, скажем, на зулусском языке. В то же время PanImages сгенерирует более 472 тысяч вариантов картинок", — говорит Орен Этциони (Oren Etzioni), профессор информатики и конструирования вычислительной техники Вашингтонского университета, который также руководит центром Тьюринга и возглавляет команду, работающую над PanImages.

Благодаря Орену Этциони нам теперь не грозят трудности перевода (фото University of Washington).
"Интернет становится всё более доступным, и не только в индустриальных странах. В Сети появляются люди, которые говорят не только на английском, французском и китайском языках", — добавляет Этциони.
Но и пользователи, говорящие на "основных" языках, извлекут пользу из нового продукта. Ведь многие слова имеют несколько значений и, как следствие, плодятся результаты поиска.

А PanImages предоставит вам такой вот список, из которого вы выберете, на какой язык вы хотите перевести слово "холодильник" для поиска картинки и, соответственно, список этих самых кадров и рисунков (иллюстрация с сайта panimages.org).
Как мы уже говорили, например, вы ищете картинки, соответствующие английскому слову "spring". Обычный поисковик предоставит вашему вниманию и идиллические картины зеленеющих лугов, и металлические пружины, и бьющий из-под земли ключ.
Если же вам нужны изображения только металлической пружины, то, воспользовавшись PanImages, вы можете выбрать более точное французское значение этого слова "ressort".
В другом случае, вписывая в строку поисковика "rectangular bar", вам нужно будет выбрать русское "брусок", чтобы не терять время на фотографии напивающихся у барной стойки друзей.
Проведённые тесты малораспространённых языков показали, что PanImages выдаёт в среднем в 57 раз больше результатов, чем стандартный поиск по картинкам в Google. К тому же использование точных (на родном языке) формулировок позволяет увеличить количество отвечающих запросу картинок на первых 15 страницах на 75%.
"Мозги" PanImages создавались на основе 350 онлайн-словарей и нескольких онлайновых многоязычных вики-словарей (Wiktionary), которые пишутся добровольцами. Специальное программное обеспечение под названием TransGraph сканирует их для PanImages и с помощью своего алгоритма рассчитывает и проверяет, насколько точно то или иное слово соответствует заданному (по смыслу).
Затем TransGraph собирает полученные результаты в матрицу, которая даёт возможность пользователю ресурса переводить слова в немыслимых, казалось бы, комбинациях, например, с гуджарати на литовский. Подробности работы системы изложены здесь (PDF-документ, 600 килобайт).

Фрагмент TransGraph для двух значений английского слова "spring". Линии с цифрами 1 и 3 объединяют слова со значением "весна", линии 2 и 4 — со значением "пружина" (иллюстрация с сайта washington.edu).
База данных (и матрица, соответственно) постоянно пополняется как авторами, так и пользователями. Они могут добавлять как новые слова, так и их перевод на другие языки (все дополнения проверяются).
"Отличительной особенностью этого небывалого лексического ресурса является перевод слов на самые разные мировые языки. Нашей целью является внесение в базу данных всех языков, которые интересны людям", — говорит Этциони. Да, эту систему можно просто использовать в роли универсального словаря.
В общем, если у вас нет проблем с поиском картинок, и вы можете подобрать подходящую комбинацию слов абсолютно на любом языке, то PanImages вам не понадобится. Но таких полиглотов, как вы — мало (поздравляем!), так что авторы "Всеобщих картинок" надеются, что их ресурс всё же будет востребован, а для кого-то станет одним из самых необходимых.
Ссылка Panimages: http://www.panimages.org/?displang=rus&null