Идея: усовершенствование поисковой машины.

Идея навеяна знакомством с программой – Болтуном. Болтун выдаёт реплики в ответ на реплики человека, притворяясь понимающим собеседником. Однако, легко раскусить, что Болтун – не человек, т.к. он не может придерживаться в разговоре заданной темы, области знаний. Его ответы строятся не на теме, а на ключевых словах во фразе человека.
Однако, пользуясь интернетом Болтуна можно значительно усовершенствовать – составить словарь, в котором каждому слову будет сопоставлен список тем, которым это слово соответствует и указана степень соответствия слова каждой теме.
Это можно сделать следующим образом.

Поисковая машина перебирает все файлы интернет и выбирает из заголовков ключевые слова.
Из этих слов составляется словарь, список тем.
Далее поисковая машина делает вторую итерацию и уже составляет обычный поисковый словарь.
Но для каждого слова указывается:

  • не только ссылка на файл, где оно было найдено, но и
  • ссылка на ключевое слово данного файла, т.е. на полученную нами в предыдущем шаге таблицу тем;
  • каждая ссылка на тему имеет счётчик.
    Если для слова “Фидель”, найденного в 100 файлах в ключевых словах встретилось 25 раз слово (тема) “Куба”, то степень соответствия будет равна 0.25.

    Полученный таким образом словарь с темами можно дополнительно обработать вручную. Ввести вручную, или из ранних исследований (такие наверняка у кого-то есть) список областей знаний – как третий, верхний уровень абстракции и привязать "темы" к областям знаний. Вторая часть ручной обработки – разделить в темах слова, которые имеют по несколько значений.

    Грустное обстоятельство заключается в том, что не все HTML странички имеют ключевые слова, соответствующие содержанию. Есть пять вариантов:
    - ключевых слов нет в HTML документе,
    - на месте ключевых слов находится на самом деле список слов, которые чаще всего используются поисковыми машинами,
    - ключевые слова даны на английском языке,
    - ключевые слова не вполне соответствуют содержанию по небрежности автора, наконец
    - требуемое соответствие наблюдается.
    Впрочем, первые три варианта можно обработать автоматически. Для борьбы с четвёртым требуются рекурсия - делаем первый вариант словаря, далее снова пробегаем по множеству страничек и каждой проставляем степень соответствия ключевых слов содержанию. После этого повторно составляем словарь, пользуясь только "надёжными" страничками. (Ещё не факт, что процесс, как говорят матеметики, сойдётся).

    Использование.

    Полученный трёхуровневый словарь можно использовать в поисковой машине. По совокупности слов поискового запроса составляется список из нескольких наиболее соответствующих запросу тем и областей знаний.

    Далее реакция поисковой машины делится на две ветви:

    1. Сортировка по релевантности документов, найденных обычным образом (т.е. по словам), строится с учётом тем и областей знаний.
    2. В качестве результатов поиска приводятся файлы, ключевые слова в которых не найдены, но темы и области знаний имеют наибольшее соответствие.

    Полученный словарь можно будет также использовать в системах автоматического перевода, в моделировании естественной речи при общении компьютера с человеком.

    09 мая 2003г.

    Продолжение идеи: Как автоматически составить комбинаторно-частотно-тезаурусный словарь

    Проект SWE - текстовый редактор, менеджер документов, оболочка проектов, обучающая система
    Другие идеи

    (с) Можаровский С.Г. // mailto:mozharovskys@mail.ru // swHome page