Квантовая математика поможет в поиске ключевых слов

Комментариев: 0
Рейтинг: - | -

  Нормальное случайное распределение, часто используемое в различных статистических моделях (в том числе и поиска слов). Изображение с сайта isutech.orgИспанские ученые создали новый алгоритм поиска в тексте ключевых слов, основанный на использовании теории случайных матриц, сообщает lenta.ru со ссылкой на New Scientist. Работа ученых опубликована в журнале Physical Review E.

Самый простой метод поиска ключевых слов в тексте заключается в следующем. Чтобы определить, является ли слово ключевым, изучается частота его повторения в тексте. Затем частота того же слова определяется для некоторого базового текста, привязанного к изучаемому из некоторых сторонних соображений. Если частота в исходном тексте оказывается выше, чем в базовом, то слово признается ключевым.

В рамках нового исследования ученые предложили считать не только частоту вхождения слов, но их группировку. Ученые полагают, что более важные слова обычно группируются автором вместе, в тех частях текста, где он пытается донести основную мысль. При этом менее значимые слова оказываются более равномерно распределены в тексте.

Для описания данной идеи исследователи использовали так называемую теорию случайных матриц - раздел теории вероятности и статистики, занимающийся изучением случайных величин, которые принимают матричные значения. Оказалось, что многие математические методы данной теории представляется возможным применять к изучению текстов.

В качестве тестирования своего метода ученые предприняли попытку обнаружить ключевые слова в нескольких известных текстах на разных языках: английском, немецком, испанском, итальянском и латыни. Опыт оказался достаточно успешным. Например, в труде Эйнштейна, посвященном общей и специальной теориям относительности, в первую десятку ключевых слов новый метод поместил "поле" (field) и "гравитационный" (gravitational). В "Трех мушкетерах" Александра Дюма первую строчку оккупировала "миледи", а Атос оказался важнее д'Артаньяна.

Кроме этого исследователи провели тестирование нового метода в текстах, предварительно удалив из них пробелы. Результаты, по словам исследователей, указывают на то, что новый метод может применяться для изучения абстрактных массивов данных.

Создатели нового метода позиционируют его в качестве будущего метода для интернет-поиска. Специалисты в данной области, однако, пока настроены скептически. Они полагают, что, прежде чем можно будет говорить о практическом применении нового метода, необходимо провести сравнительное тестирование с существующими методами поиска.



Предыдущая<<
Garmin Forerunner 310XT
Garmin Forerunner 310XT и 405CX: многофункциональные наручные GPS-навигаторы для любителей активного отдыха
>> Следующая
 Аппарат
Россия и Япония будут изучать Солнце вместе


Понравилась новость? Поделись с друзьями!
Добавить в избранное Добавить в Google - Закладки Добавить в Яндекс.Закладки Добавить в Facebook Добавить в Twitter Добавить в Мой Мир Добавить в Мемори Запостить в ЖЖ Запостить в блог на Liveinternet Поделиться на WOW.ya.ru 0
Нравится


Оценить:
Рейтинг: - | - Последнее: -


Nik:
Ваш E-Mail:
Комментарий:
HTML-теги Вырезаются!!!
* Введите указанное на картинке 6 значное число
Это сделано для предотвращения регистрации роботами
 



10 новых новостей

Наши Опросы

Какие разделы новостей Вас больше всего интересуют?
Игровые новости
Новости кино
Светская хроника
Наука, технологии, Интернет
Музыка
Происшествия

Результаты Архив

Вход

Логин:

Пароль:


Запомнить меня
Вам нужно авторизоваться.
Забыли пароль?
Регистрация

Экспорт новостей


rss2.0

Статистика

Рейтинг@Mail.ru