Cybernetics Wiki
Advertisement

Вопросно-ответная система (англ. Question-answering system) — это особый тип информационных систем, являющиеся гибридом поисковых, справочных и интеллектуальных систем (часто они рассматриваются как интеллектуальные поисковые системы). QA-система должна быть способна принимать вопросы на естественном языке, то есть это система с естественно-языковым интерфейсом. Информация предоставляется на основе документов из сети Интернет или из локального хранилища. Современные разработки QA-систем позволяют обрабатывать множество вариантов запросов фактов, списков, определений, вопросов типа Как, Почему, гипотетических, сложных и межязыковых.

  • Узкоспециализированные QA-системы работают в конкретных областях (например, медицина или обслуживание автомобилей). Построение таких систем — сравнительно легкая задача.
  • Общие QA-системы работают с информацией по всем областям знаний, таким образом появляется возможность вести поиск в смежных областях.

Архитектура[]

Первые QA-системы были разработаны в 1960х годах и являлись естественно-языковыми оболочками для экспертных систем, ориентированных на конкретные области. Современные системы предназначаются для поиска ответов на вопросы в предоставляемых документах с использованием технологий обработки естественных языков (NLP).

Современные QA-системы обычно включают особый модуль — классификатор вопросов, который определяет тип вопроса и, соответственно, ожидаемого ответа. После этого анализа система постепенно применяет к предоставленным документам все более сложные и тонкие методы NLP, отбрасывая ненужную информацию. Самый грубый метод — поиск в документах — предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем фильтр выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто …» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль выделения ответов найдет среди этих фраз правильный ответ.

Схема работы[]

Производительность вопросно-ответной системы зависит от качества текстовой базы — если в ней нет ответов на вопросы, QA-система мало что сможет найти. Чем больше база — тем лучше, но только если она содержит нужную информацию. Большие хранилища (такие как Интернет) содержат много избыточной информации. Это ведёт к двум положительным моментам:

  1. Так как информация представлена в разных формах, QA-системе быстрее найдет подходящий ответ. Не придется прибегать к сложным методам обработки текстов.
  2. Правильная информация чаще повторяется, поэтому ошибки в документах отсеиваются.

Поверхностный поиск[]

Наиболее распространенный метод поиска — по ключевым словам. Найденные таким способом фразы фильтруются в соответствии с типом вопроса, а затем ранжируются по синтаксическим признакам, например, по порядку слов.

Расширенный поиск[]

Проблемы[]

В 2002 году группа исследователей написала план исследований в области вопросно-ответных систем. Предлагалось рассмотреть следующие вопросы.

Типы вопросов
Разные вопросы требуют разных методов поиска ответов. Поэтому нужно составить или улучшить методические списки типов возможных вопросов.
Обработка вопросов
Одну и ту же информацию можно запросить разными способами. Требуется создать эффективные методы понимания и обработки семантики (смысла) предложения. Важно, чтобы программа распознавала эквивалентные по смыслу вопросы, независимо от используемых стиля, слов, синтаксических взаимосвязей и идиом. Хотелось бы, чтобы QA-система разделяла сложные вопросы на несколько простых, и правильно трактовала контекстно-зависимые фразы, возможно, уточняя их у пользователя в процессе диалога.
Контекстные вопросы
Вопросы задаются в определенном контексте. Контекст может уточнить запрос, устранить двусмысленность или следить за ходом мыслей пользователя по серии вопросов.
Источники знаний для QA-системы
Перед тем как отвечать на вопрос, неплохо было бы осведомиться о доступных базах текстов. Какие бы способы обработки текстов не применялись, мы не найдем правильного ответа, если его нет в базах.
Выделение ответов
Правильное выполнение этой процедуры зависит от сложности вопроса, его типа, контекста, качества доступных текстов, метода поиска и др. — огромного числа факторов. Поэтому подходить к изучению методов обработки текста нужно со всей осторожностью, и эта проблема заслуживает особого внимания.
Формулировка ответа
Ответ должен быть как можно более естественным. В некоторых случаях достаточно и простого выделения его из текста. К примеру, если требуется наименование (имя человека, название прибора, болезни), величина (денежный курс, длина, размер) или дата («Когда родился Иван Грозный?») — прямого ответа достаточно. Но иногда приходится иметь дело со сложными запросами, и здесь нужны особые алгоритмы слияния ответов из разных документов.
Ответы на вопросы в реальном времени
Нужно сделать систему, которая бы находила ответы в хранилищах за несколько секунд, независимо от сложности и двусмысленности вопроса, размера и обширности документной базы.
Многоязыковые запросы
Разработка систем для работы и поиска на других языках (в том числе автоматический перевод).
Интерактивность
Зачастую информация, предлагаемая QA-системой в качестве ответа, неполна. Возможно, система неправильно определила тип вопроса или неправильно «поняла» его. В этом случае пользователь может захотеть не только переформулировать свой запрос, но и «объясниться» с программой с помощью диалога.
Механизм рассуждений (вывода)
Некоторые пользователи хотели бы получить ответ, выходящий за рамки доступных текстов. Для этого в QA-систему нужно добавить знания, общие для большинства областей (см. Общие онтологии в информатике), а также средства автоматического вывода новых знаний.
Профили пользователей QA-систем
Сведения о пользователе, такие как область интересов, манера его речи и рассуждения, подразумеваемые по умолчанию факты, могли бы существенно увеличить производительность системы.

Ссылки[]



Advertisement