Европейские программисты предложили алгоритм, который позволяет распознавать аббревиатуры и их расшифровку в текстах на 22 языках. Методику поиска аббревиатур группа ученых описала в статье, препринт которой доступен в архиве Корнельского университета. Краткое описание исследования приводится в блоге Technology Review.
Узнайте больше в полной версии ➞Алгоритм показал эффективность около 90 процентов при анализе массива из 400 статей на семи языках: английском, венгерском, испанском, немецком, румынском, французском и чешском. Для определения точности поиска расшифровок аббревиатуры из всех статей были предварительно определены вручную.
Сама методика основана на том принципе, что в стандартных новостных или научных текстах аббревиатура обычно заключена в скобки и расположена сразу после расшифровки термина или названия. Например: Организация объединенных наций (ООН).
Вместе с тем, в работу алгоритма авторам исследования пришлось внести корректировки, связанные с определенными отклонениями от стандартов. Так, в скобках в тексте могли указывать сокращение титула или должности после имени человека, либо использовать англоязычную аббревиатуру в статье на другом языке.
Потенциальной областью применения своей разработки ученые назвали программы для автоматического анализа новостных и научных статей на основе статистики использования тех или иных аббревиатур. Для этого они планируют создать каталог аббревиатур с расшифровками на разных языках.
В отличие от предложенного авторами работы алгоритма, для систематического анализа сложных текстов как правило применяются обучаемые нейронные сети. В частности, подобный механизм решили использовать разработчики Facebook для анализа поведения пользователей и подбора наиболее подходящей информации в новостные ленты.