Лабораторные работы по Теории вычислительных процессов и структур
Министерство образования Российской Федерации
Саратовский государственный технический университет
ЛАБОРАТОРНАЯ РАБОТА №1
Лексический анализ входного языка транслятора
лабораторная работа по курсу «Теория вычислите-
льных процессов и структур» для студентов
специальности 220400 (ПВС)
Составил доцент кафедры ПВС
Сайкин А.И.
Саратов, 2001 г.
Введение
Данная лабораторная работа предназначается для студентов специальности ПВС изучающих «Теорию вычислительных процессов и структур». Лабораторная работа рассчитана на 4 аудиторных часа и 6 часов самостоятельной работы по составлению
программы, изучение литературы и составление отчёта.
Объект исследования - трансляторы с алгоритмических языков программирования. Процесс трансляции с алгоритмического языка можно условно разбить на три этапа: лексический анализ, грамматический разбор и генерацию машинного кода. В данной работе рассматривается задача построения лексического анализатора
входного текста транслятора.
Цель работы состоит в составлении программы (сканера) производящей лексический анализ текста, соответствующего заданному алфавиту и грамматике алгоритмического языка.
Программа составляется на языках Паскаль и С++ по выбору студента в среде WINDOWS.
1. Содержание работы.
Этап лексического анализа текста исходной программы выделяется в самостоятельный этап работы транслятора, как с методической целью, так и с целью сокращения времени компиляции программы. Последнее достигается за счёт того, что
исходная программа в виде последовательности символов, преобразуется на этапе лексической обработки к некоторому стандартному виду, что облегчает дальнейший анализ.
Под лексическим анализом понимают процесс предварительной обработки исходной программы, на котором основные лексические единицы программы - лексемы: ключевые слова, идентификаторы, метки, константы приводятся к единому формату и заменяются условными кодами или ссылками на соответствующие таблицы, а коментарии исключаются из текста программы. Результатом лексического анализа является список лексем-дескрипторов и таблицы. В таблицах хранятся значения выделенных в программе лексем.
Дескриптор- это пара вида: ( <тип лексемы> . < указатель>),
где <тип лексемы>- это, как правило, числовой код класса лексемы, который означает, что лексема принадлежит одному из конечного множества классов слов, выделенных в языке программирования;
<указатель>- это может быть либо начальный адрес области основной памяти, в которой хранится адрес этой лексемы, либо число, адресующее элемент таблицы, в которой хранится значение этой лексемы.
Количество классов лексем в языках программирования может быть различным. Наиболее распространёнными классами являются:
идентификаторы;
служебные (ключевые) слова;
разделители;
константы.
Могут вводиться и другие классы. Это обусловлено в первую очередь той ролью, которую играют различные виды слов при написании исходной программы и переводе её в машинную программу. При этом наиболее предпочтительным является разбиение всего множества слов, допускаемых в языке программирования, на такие классы, которые бы не пересекались между собой. В общем случае все выделяемые классы являются либо конечными (ключевые слова, разделители и др.) - классы фиксированных для данного языка программирования слов, либо
бесконечными или очень большими (идентификаторы, константы, метки)- классы переменных для данного языка программирования слов.
С этих позиций коды лексем (дескрипторы) из конечных классов всегда одни и те же в различных программах для данного компилятора. Коды же лексем из бесконечных классов различны для разных программ и формируются всякий раз на этапе лексического анализа.
В ходе лексического анализа значения лексем из бесконечных классов помещаются в таблицы соответствующих классов. Конечность таблиц объясняет ограничения, существующие в языках программирования на длины и соответственно число используемых в программе идентификаторов и констант.
Числовые константы перед помещением их в таблицу могут переводиться из внешнего символьного во внутреннее машинное представление. Содержимое таблиц, в особенности таблицы идентификаторов, в дальнейшем пополняется на этапе семантического анализа исходной программы и используется на этапе генерации объектной программы.
В работе требуется составить программу лексического анализатора (сканер) входного текста для транслятора, которая бы
составляла таблицы и производила бы кодирование идентификаторов, разделителей и констант. Производила бы проверку правильности написания ключевых слов операторов, стандартных функций и использование служебных символов.
Производила бы отображение теста программы с комментариями и исключала бы их из текста, подлежащего трансляции. Отображала
дескрипторный текст.
2. Задание по работе.
2.1. Получить вариант задания у преподавателя.
2.2. В соответствии с выданным вариантом выполнить следующее:
2.2.1. Составит техническое задание (ТЗ) на разработку программы сканера, производящей лексический анализ произвольных текстов в пределах установленного алфавита.
2.2.2. Согласовать ТЗ с преподавателем.
2.2.3. Разработать программу-сканер на языках
Паскаль, С++ или в интегрированных средах по собственному усмотрению.
2.2.4. Провести тестирование программы, особенно для всех случаев выдачи пользователю сообщений об ошибках.
2.2.5. Составить отчёт по работе и приложить к нему ТЗ.
3. Варианты заданий.
Вариант задания включает номер, состоящий из трёх цифр.
Первая цифра означает выбор алфавита входного языка, вторая цифра означает выбор заданных ключевых слов входного языка и третья цифра означает выбор заданных библиотечных функций.
Таблица 1. Алфавит входного языка.
-
№
Алфавит
1
Латинский, строчные буквы
2
Латинский, заглавные буквы
3
Кириллица, строчные буквы
4
Кириллица, заглавные буквы
5
Латинский, строчные + заглавные
6
Кириллица, строчные + заглавные
Таблица 2. Ключевые слова.
-
№
Дополнительные ключевые слова
1
Описание циклов, массивов
2
Описание операторов перехода, структуры типа switch
3
Описание безусловных переходов,
описание функций
Таблица 3. Библиотечные функции.
-
№
Стандартные функции
1
sin, cos, tan, exp
2
sqrt, log, ln, nearby
3
abs, fact, code, sign
Например, 1-2-3 означает, что из первой таблицы необходимо выбрать первую строку, из второй таблицы - вторую строку, из третьей таблицы - третью строку.
Для всех вариантов задаётся общая часть в которую входит следующее. Ключевые слова обозначающие начало и конец программы, описание типа, ввод и вывод, присваивание.
Разделители : +, -, *, :, _, /, (, ), {, }, =, <, >, [, ], ;, “, ‘ , ‘,’ и про-
бел.
Идентификаторы должны начинаться с буквы, не включать в себя разделители, количество позиций не должно превышать 14.
Текст программы должен допускать использование комментариев.
4. Методические указания.
Рассмотрим основные идеи, которые лежат в основе построения
лексического анализатора, и проблемы, возникающие при его разра-
ботке.
Первоначально в тексте входной программы сканер выделяет последовательность символов, которая по его предположению должна быть словом в программе, т.е. лексемой. Может выделяться не вся последовательность, а только один символ, который считается началом лексемы. Это сделать просто, если слова в программе отделяются друг от друга специальными разделителями,
например, пробелами или запрещено использование служебных слов в качестве переменных, либо классы лексем распознаются по вхождению первых символов лексемы.
Затем, проводится идентификация лексемы. Она заключается
в сборке лексемы из символов, начиная с выделенного на предыдущем этапе, и проверки правильности записи лексемы данного класса.
Идентификация лексемы из конечного класса выполняется путём сравнения её с эталонным значением. Основная проблема здесь - минимизация времени поиска эталона. В общем случае может понадобиться полный перебор слов данного класса, особенно, если выделенное слово содержит ошибку. Уменьшить время поиска можно, используя различные методы ускоренного поиска: упорядоченный список, линейный список, метод расстановки и др.
Для идентификации из очень больших классов используются специальные методы сборки лексем с одновременной проверкой правильности написания. В этих методах применяется формальный математический аппарат- теория регулярных языков и конечных распознавателей.
При успешной идентификации значение лексемы из бесконечного класса помещается в таблицу идентификации лексем данного класса. При этом осуществляют проверку: не хранится ли уже там значение данной лексемы, т.е. необходимо проводить просмотр элементов таблицы. Таблица при этом должна допускать расширение. Опять же для уменьшения времени доступа к элементам таблицы она должна быть специальным образом организована, при этом должны использоваться специальные методы ускоренного поиска элементов.
После проведения успешной идентификации лексемы формируется её образ - дескриптор, он помещается в выходные данные лексического анализатора. В случае неуспешной идентификации формируется сообщение об ошибках в написании слов программы.
В ходе лексического анализа могут выполняться и другие виды лексического контроля, в частности, проверяться парность скобок и других парных символов, наличие метки у оператора, следующего за GOTO и т.д.
Результаты работы сканера передаются в последствии на вход синтаксического анлизатора. Имеется две возможности их связи:
раздельная связь и нераздельная связь.
При раздельной связи выходные данные сканера формируются полностью и затем передаются синтаксическому анализатору. При нераздельной связи, когда синтаксическому анализатору требуется очередной образ лексемы, он вызывает лексический анализатор, кото-
рый генерирует дескриптор и возвращает управление синтаксическому анализатору.
Второй вариант характерен для однопроходных трансляторов.
Таким образом, процесс лексического анализа достаточно прост, но может занимать значительное время трансляции.
Рассмотрим конкретный пример. Пусть нам дана программа на
некотором алгоритмическом азыке:
PROGRAM PRIMER;
VAR X,Y,Z : REAL;
BEGIN
X:=5;
Y:=6;
Z:=X+Y;
END;
Применим следующие коды для типов лексем:
К1- ключевое слово;
К2- разделитель;
К3- идентификатор;
К4- константа.
Лексический анализ можно производить, если нам задан алфавит,
список ключевых слов языка и служебных символов. Пусть всё это
имеется. Тогда внутренние таблицы сканера примут следующий вид.
Таблица 4. Ключевые слова.
-
№
Ключевое слово
1
PROGRAM
2
BEGIN
3
END
4
FOR
5
REAL
6
VAR
Таблица 5. Разделители.
-
№
Разделители
1
;
2
,
3
+
4
-
5
/
6
*
7
:
8
=
9
.
Результат работы сканера таблица идентификаторов и таблица констант
Таблица 6. Идентификаторы.
-
№
Идентификаторы
1
PRIMER
2
X
3
Y
4
Z
Таблица 7. Константы.
-
№
Знач. констант
1
5
2
6
На основании составленных таблиц можно записать входной текст через введённые дескрипторы (дескрипторный текст):
( К1, 1) (К3, 1) (K2, 1)
( K1, 6) (K3, 2) (K2, 2) (k3, 3) ( K2, 2) (K3, 4) ( K2, 7) (K1, 5) (K2, 1)
( K1, 2)
( K3, 2) (K2, 7) (K2, 8) (K4, 1) (K2, 1)
( K3, 3) (K2, 7) (K2, 8) (K4, 2) (K2, 1)
( K3, 4) (K2, 7) (K2, 8) (K3, 2) (K2, 3) (K3, 3) (K2, 1)
( K1, 3) (K2, 9).
6. Содержание отчёта.
1. Титульный лист.
2. Вариант задания.
3. Полный список выбранных ключевых слов и стандартных функций.
4. Внутренние таблицы сканера.
5. Техническое задание на разработку сканера (по ЕСПД).
6. Отладочные примеры работы сканера с выходными таблицами и дескрипторным текстом.
7. Контрольные вопросы.
1. Дайте определение грамматики.
2. Назовите этапы трансляции программы.
3. Что такое лексема?
4. В чём состоят задачи лексического анализа?
5. Дайте определение метаязыка.
6. Исходные данные для сканера.
7. Результаты работы сканера.
8. Литература.
1. Бек Л. Введение в системное программирование. М,: Мир, 1988.
-448 с.
2. Компаниец Р.И. и др. Системное программирование.Основы
построения трансляторов.- СПб.: КОРОНА принт, 2000.-256 с.
Министерство образования Российской Федерации
Саратовский государственный технический университет
Применение конечных автоматов
в лексическом анализе
лабораторная работа для студентов
специальности ПВС по курсу « Теория
вычислительных процессов и структур»
Составил доцент кафедры ПВС
Сайкин А.И.
Саратов, 2001 г.
Введение.
Данная лабораторная работа рассчитана на четыре аудиторных часа и ещё четыре часа для изучения материала и оформление отчёта.
Объект исследования процесс трансляции заданного языка программирования в машинные коды. Цель изучения состоит в применении математического аппарата конечных автоматов при лексическом анализе. Лексический анализ это начальный этап трансляции, за которым следуют грамматический разбор и этап генерации машинного кода. Наиболее трудоёмким по затратам машинного времени является этап лексического анализа. Для сокращения общего времени трансляции и упрощения лексического анализа целесообразно использовать математический аппарат конечных автоматов. Метод исследований как раз и базируется на его применении.
Выполнение работы производится в дисплейном классе. Характер исследований состоит в сочетании результатов, полученных на ПЭВМ с их аналитической обработкой студентом.
1. Содержание работы.
Разработка лексического анализатора выполняется достаточно просто, если воспользоваться хорошо разработанным математическим аппаратом - теорией регулярных языков и конечных автоматов. В рамках этой теории классы однотипных лексем (идентификаторы, константы и т.д.) рассматриваются как формальные языки (язык идентификатороф, язык констант и т.д.), множество предложений которых описывается с помощью соответствующей порождающей грамматики. При этом языки эти настолько просты, что они порождаются простейшей из грамматик - регулярной грамматикой. Построенная регулярная грамматика является источником, по которому в дальнейшем конструируется вычислительное устройство, реализующее функцию распознаваний предложений языка, порождаемого данной грамматикой. Для регулярных языков таким устройством является конечный автомат.
Порождающая грамматика G(N,T,P,S), продукции которой имеют вид АаВ или Св, где А,В,С - нетерминальные символы; а,в- терминальные символы, называется регулярной или автоматной. Язык L(G), порождаемый регулярной грамматикой называется регулярным или автоматным или языком с конечным числом состояний. Основной задачей лексического анализа является распознавание лексических единиц. Математической моделью процесса распознавания регулярного языка является вычислительное устройство, которое называется конечным автоматом. Термин «конечный» подчёркивает то, что вычислительное устройство имеет фиксированный конечный объём памяти и обрабатывает последовательность входных символов, принадлежащих некоторому конечному множеству. Существуют различные типы конечных автоматов, если результатом работы является лишь указание на то, что входная последовательность символов допустима или нет, то такой конечный автомат называется конечным распознавателем.
В данной лабораторной работе необходимо построить конечные автоматы для каждого типа распознаваемых лексем. Проводя лексический анализ, конечные автоматы должны сообщать о допустимости или не допустимости конкретных лексем. Программа лексического анализатора должна распечатывать входной текст и выдавать сообщения обо всех недопустимых лексемах. Hеобходимо также составить техническое задание на разрабатываемую программу лексического анализатора.
2. Варианты заданий.
Вариант задания по второй лабораторной работе совпадает с вариантом задания по первой лабораторной работе, т.е. входным для лексического анализатора будет текст программы, составленный из заданного алфавита и заданных ключевых слов в соответствие с вариантом задания первой лабораторной работы.
3. Методические указания.
Любая регулярная грамматика G=(N,T,P,S) может быть представлена направленным графом, с помеченными узлами и дугами. Каждый узел помечаем символом из N. Кроме одного конечного узла, который помечаем символом #. Согласно принятым соглашениям, узел, соответствующий начальному символу S помечаем стрелкой, а конечный изображаем в виде прямоугольника. Каждая дуга графа соответствует только одной продукции заданной грамматики G.
Например, пусть регулярная грамматика G имеет следующие продукции:
SaA|bB
AaA|a
BbB|b,
тогда граф, отображающий данную грамматику G, будет иметь вид, представленный на рис.1. Путь на графе всегда соединяет начальную вершину с конечной вершиной графа. Метки, ассоциированные с дугами, составляющими этот путь, образуют некоторую строку. Множество таких строк совпадают с языком L(G). Конкретные пути на графе будут соответствовать некоторой схеме вывода. Например, SaAaaAaaaA
aaaa, т.е. от S к А, от А к А, от А к #. Конечный направленный граф, имеющий начальный узел и один или более конечных узлов сети - есть конечный автомат.
a
a
b
a
#
b
b
Рис.1. Граф конечного автомата.
Можно дать и второе определение конечного автомата. Конечным автоматом (КА) называется совокупность пяти множеств:
КА={N, T, t, S, F}
где : N-конечное множество состояний автомата, совпадающее с множеством нетерминальных символов грамматики;
T-множество терминальных символов автомата, совпадающее с множеством терминальных символов грамматики;
t-функция переходов, задаваемая таблицей;
S- начальное состояние автомата;
F-конечные состояния автомата.
Ф
ункция
переходов может быть представлена
различными способами. Основные из них:
списком команд КА, диаграммой состояний
и матрицей переходов. Команда КА
представляет собой следующую запись:
(A >i>, a >j>)A >k >
которая представляет собой переход в автомате из вешины А >i> в вершину А >k> по дуге, отмеченной a >j>. Для КА необходимо составлять список таких команд, причём он должен обязательно содержать переходы в конечную вершину, для нормального завершения работы автомата.
Диаграмма состояний это по сути граф КА. И он содержит полную информацию об КА.
Матрица переходов может быть записана в двух видах. Во-первых, строки матрицы - это вершины КА (нетерминальные символы), столбцы матрицы - терминальные символы, приписываемые соответствующим дугам графа КА. Элементы матрицы - это состояния КА, в которые осуществляется переход. По второму способу матрица переходов записывается в три колонки, соответствующие командам КА. Естественно, что все три способа равнозначны.
КА могут быть детерминированными ДКА и недетерминированными НДКА. В детерминированном автомате из каждой вершины выходят дуги, отмеченные все различными метками. В НДКА имеется хотя бы одна вершина с одинаково отмеченными дугами. Для программирования ДКА гораздо проще. ДКА и НДКА по существу задают эквивалентные языки, но имеет место теорема, что ДКА может принять некоторый язык L, если этот язык принимает НДКА. Переход от НДКА к ДКА осуществляется тривиально, за счёт введения дополнительных фиктивных состояний. Если из одной вершины выходит две дуги, обозначенные одинаково (НДКА), то одну дугу обозначаем по другому, но замыкаем её на фиктивное состояние, из которого проводим ранее переобозначенную дугу к требуемому состоянию (ДКА).
Для практических целей необходимо, чтобы КА сам определял момент окончания входной цепочки символов с выдачей сообщения о правильности или неправильности входной цепочки символов. Для этих целей входная цепочка считается ограниченной справа концевым маркером, в качестве которого могут использоваться обычные разделители. И в диаграмму состояний КА водятся интерпретированные состояния: допустить входную цепочку как лексему, отвергнуть входную цепочку как лексему, запомнить ошибку во входной цепочке.
В общем случае может быть предложен следующий порядок конструирования лексического анализатора (ЛА).
1. Выделить во входном языке L(G) на основании описания его синтаксиса множество классов лексем.
2. Построить для каждого класса автоматную (регулярную) грамматику.
3. Для каждой автоматной грамматики построить КА.
4. Определить условия выхода из ЛА ( переход его в начальное состояние) при достижении конца произвольной лексемы из каждого класса лексем.
5. Разбить символы входного алфавита на непересекающиеся множества.
6. Построить матрицу переходов ЛА.
7. Выбрать формат и код образов лекскм-дескрипторов (см. первую лабораторную работу).
8. Запрограммировать ЛА.
4. Содержание отчёта.
В соответствии с вариантом задания каждый студент сотавляет отчёт по работе, в который входят:
1. Титульный лист.
2. Вариант задания.
3. Техническое задание на разработку программы ЛА.
4. Описание программы ЛА.
5. Работающая программа ЛА (демонстрация работы при отчёте).
6. Выводы по работе.
5. Контрольные вопросы.
1. Как задаётся формальная грамматика?
2. Как определяется регулярная грамматика?
3. Чем отличаются сентенции и сентенциальные формы?
4. Что такое лексема?
5. В чём смысл работы ЛА?
6. Назовите основные этапы проектирования ЛА.
7. Как задаётся КА?
8. Как преобразовать НДКА в ДКА?
Литература.
1. Бек Л. Введение в системное программирование. М.: Мир, 1988.
-448 с.
2. Компаниец Р.И. и др. Системное программирование. Основы
построения трансляторов.- СПб.: КОРОНА принт 2000.-256 с.
> >
Министерство образования Российской Федерации
Саратовский государственный технический университет
Формульный компилятор
методические указания к выполнению лабораторной
работы по курсу «Теория вычислительных процессов
и структур для студентов специальности ПВС
Составил доцент кафедры ПВС
Сайкин А.И.
Саратов - 2001 г.
Введение
Данная лабораторная работа рассчитана на четыре аудиторных часа. Самостоятельная работа по изучению литературы, оформление отчёта ещё шесть часов.
Объект исследования формульный транслятор, Цель исследования состоит в изучении проблематики разработки трансляторов с алгоритмических языков. Метод предполагает использование алгоритма рекурсивного спуска и написание программы транслятора. Работа выполняется в дисплейном классе.
1. Содержание работы.
Формульный транслятор эта программа, которая переводит исходную программу, написанную на входном языке, в объектный псевдокод, который в последствии, после необходимой оптимизации, может быть заменён машинным кодом с абсолютной адресацией.
Для написания программы на входном языке необходимо создать язык, в который бы входили: заголовок программы, оператор описания типа переменной, оператор ввода переменной, оператор присвоения и оператор вывода результата. Для оператора присвоения необходимо предусмотреть знаки арифметических операций, скобки и элементарные функции, которые выдаются вместе с вариантом задания. А также, разделители и служебные символы. В связи с этим разрабатывается контекстно-свободная грамматика, которая в последствии позволит провести грамматический разбор программы на исходном языке. Грамматическому разбору должен предшествовать лексический анализ, который обычно не вызывает затруднений (см. лабораторные работы №1 и №2).
Оператор присвоения имеет общий вид для всех вариантов
Y=Y(x).
Результатом выполнения программы должен быть текст в объектном псевдокоде. Для чего необходимо оговорить его содержание. В работе рекомендуется использовать так называемые четвёрки, имеющие вид
КОП, А1, А2, А3,
где: КОП - код операции,
А1- адрес первого операнда,
А2 - адрес второго операнда,
А3 - адрес результата.
Хотя возможны и другие варианты, например, по двухадресной и одноадресной схемам.
Используемые данные могут быть как целыми, так и с плавающей точкой.
2. Задание по работе.
1. Получить вариант задания у преподавателя.
2. Разработать язык формульного транслятора.
3. На основе разработанной регулярной грамматики разработать
программу лексического анализатора.
4. На основе разработанной контекстно-свободной грамматики
разработать программу грамматического разбора исходного
текста на входном языке.
5. Во всех случаях предусмотреть сообщения пользователю о
лексических и синтаксических ошибках.
6. Разработать и описать объектный псевдокод.
7. Составить и утвердить техническое задание на программу генерации.
8. Разработать программу генерации объектного псевдокода.
9. Составить отчёт по работе с описанием всех пунктов задания,
представить работающую программу.
3. Варианты заданий.
Вариант задания состоит из трёх цифр. Каждая цифра означает соответствующую строку таблицах 1, 2 и 3. В соответствии с этим, оператор присвоения может содержать указанные математические функции из указанных строк таблиц.
Таблица 1.
-
№
Функция
1
acos
2
asin
3
atan
4
sin
5
cos
6
sinh
7
cosh
Таблица 2.
-
№
Функции
1
exp
2
abs
3
mod
4
sqrt
5
log
6
ln
7
log10
Таблица 3.
-
№
Функции
1
tan
2
tanh
3
cotan
4
cotanh
5
trunk
6
round
7
nearbyint
Подробные сведения о перечисленных функциях можно найти в справочнике программиста по С/C++.
4. Методические указания.
В любом языке программирования обязательно существуют ограничения. Поэтому следует сразу оговорить, что переменые обозначаются идентификаторами, начинающимися с латинской буквы и несодержащими разделителей. Следует оговорить максимально допустимую длину для идентификатора. Следует оговорить приоритет в выполнении арифметических операций, который должен совпадать с общепринятым.
Лексический анализ, грамматический разбор и генерация псевдокода могут быть совмещены в одной программе, но методически их лучше реализовать по отдельности: вначале лексический анализ, затем грамматический разбор и после этого, когда все ошибки будут устранены - генерация машинного кода.
Но в любом случае написание программы является творческим процессом и всё, что говорилось ранее, носит только рекомендательный характер.
5. Контрольные вопросы.
1. Каков приоритет в выполнении арифметических операций в
выражении?
2. Что такое лексема?
3. Каково назначение лексического анализа?
4. Каково назначение грамматического разбора?
5. Как определяется контекстно-свободная грамматика?
6. Что такое «чевёрки»?
7. Зачем используют псевдокод?
8. В чём особенность объектного кода?
9. Как из объектного кода получить исполняемый код?
Литература.
1. Бек Л. Введение в системное программирование. -М.: Мир, 1988.-448 с.
2. Компаниец Р.И., Маньков Е.В., Филатов Н.Е. Системное программи-
рование. Основы построения трансляторов.-СПб.: КОРОНА принт,
2000 .-256 с.
3. Шильд Г. Справочник программиста по С/С++.-М.: Издательский дом
«Вильямс», 2000.-448 с.
Министерство образования Российской Федерации
Саратовский государственный технический университет
Построение детерминированного синтаксического
анализатора.
методические указания к выполнению лабораторной
работы по курсу «Теория вычислительных процессов
структур» для студентов специальности ПВС
Составил доцент кафедры ПВС
Сайкин А.И.
Саратов, 2001 г.
1. Введение.
Данная лабораторная работа рассчитана на 4 аудиторных часа и ещё 4 часа самостоятельной работы для изучения литературы и оформление отчёта.
Объект исследования - синтаксический анализатор входных текстов, записанных на языке, порождаемых заданной контекстно-свободной (КС) грамматикой. Цель работы состоит в написании программы синтаксического анализатора, основывающегося на магазинном автомате.
Метод построения синтаксического анализатора основывается на применении грамматик типа LL(1), что позволяет решить задачу, используя детерминированный алгоритм.
Лабораторная работа выполняется в дисплейном классе. Результат представляет собой работающую программу, которая может анализировать любые тексты и сообщать об ошибках программирования.
2. Содержание работы.
Языки программирования описываются КС-грамматиками. Но описание языка с помощью КС-грамматики не является описанием алгоритма порождения предложений этого языка. Правила подстановки грамматики - это не последовательность предписаний, а совокупность разрешений, причём порядок применения правил в грамматике произволен, тогда как в алгоритме должен быть задан жёсткий порядок применения отдельных инструкций.
Получение алгоритмического описания процесса распознавания языка является одной из первоочередных задач при разработке блока синтаксического анализа транслятора.
Одним из способов описания алгоритма распознавания языка является задание его в виде некоторого распознающего устройства. Для КС-языков такими устройствами являются магазинные автоматы - автоматы с магазинной памятью.
Методов синтаксического анализа достаточно много, в данной работе применяется нисходящий синтаксический анализ, который в свою очередь порождает ряд проблем. Во-первых, необходимо из грамматики языка исключить леворекурсивные продукции, во избежание зацикливания в при работе анализатора. Вторая проблема состоит в выборе альтернативных продукций в заданной грамматике, что достигается за счёт заглядывания вперёд на несколько, в общем случае К символов. В-третьих, возникает проблема локализации ошибок. Компилятор должен локализировать место ошибки, помимо указания её наличия. Ошибка обнаруживается, когда все подходящие продукции грамматики использованы. Для локализации ошибки все альтернативы подходят в равной степени, поэтому в грамматику необходимо вставить правила, реагирующие на ошибки (они описывают неправильные конструкции) и при срабатывании такого правила выдавать сигнал об ошибке или пытаться исправить её.
Существует целый класс КС-грамматик, которые допускают детерминированный разбор сверху вниз, т.е. выполняют разбор без возвратов. Помимо высокой скорости разбора, детерминированные методы имеют преимущество в компиляторах, где разбор идёт параллельно с построением объектной программы. Хотя подкласс КС-языков, разбираемых детерминировано, уже всего класса КС-языков, но оказалось, что большинство языков программирования можно разбирать детерминировано.
В качестве КС-грамматик чаще всего используется LL(1) грамматика и соответсвенно метод разбора языков, порождаемых LL(1) грамматикой, называют LL(1) методом нисходящего синтаксического разбора.
Две буквы L означают, что цепочка символов разбирается слева направо, и используются самые левые продукции. Цифра 1 означает, что варианты порождающих продукций выбираются с помощью одного предварительно просмотренного символа. Эта терминология была впервые предложена Кнутом. Если КС-грамматика не является грамматикой типа LL(1), то её нужно привести к этому типу.
LL(1) грамматика допускает детерминированный разбор предложений языка, описываемого этой грамматикой. Если эта грамматика задана, то магазинный автомат строится по известному правилу [1], а построенный автомат позволяет запрограммировать процесс синтаксического анализа, действуя формально, что и предопределяет решение задачи.
3. Задание по работе.
1. Вариант задания к данной лабораторной работе совпадает с вариантом задания к 1 лабораторной работе.
2. Построить КС-грамматику и проверить является ли она грамматикой типа LL(1).
3. Привести грамматику к типу LL(1).
4. По правилу [1] построить магазинный распознаватель, реализующий детерминированный разбор. Составить управляющую таблицу автомата.
5. Составить техническое задание на разработку программы синтаксического анализатора.
6. Запрограммировать работу синтаксического анализатора.
7. Представить два контрольных примера.
8. Составить отчёт по работе.
4. Методические указания.
Язык программирования описывается КС-грамматикой. Детерминированный синтаксический анализ требует, чтобы КС-грамматика отвечала определённым требованиям. Во-первых, необходимо привести её, т.е. грамматика не должна содержать циклы, -продукции, бесполезные и недостижимые символы, левые рекурсии.
Недостижимые нетерминальные символы никогда не появятся ни в одной из выводимых цепочек. Бесполезные символы не играют никакой роли в построении правильных терминальных цепочек. Такие символы могут появиться в КС-грамматике в основном не из-за ошибок разработчика языка- они могут быть введены в грамматику алгоритмами, предназначенными для модификации грамматик.
КС-грамматика называется грамматикой без -продукций (-свободной), если множество продукций Р не содержит -продукций, либо есть только одна продукция S и S не встречается в правых частях остальных продукций.
КС-грамматика называется грамматикой без циклов, если в ней нет продукций вида
АА , для А N.
АЛГОРИТМ УСТРАНЕНИЯ НЕДОСТИЖИМЫХ.
Пусть дана КС-грамматика G={N,T,P,S}. Построим КС-грамматику G’={N’, T’, P’, S} без недостижимых символов. Метод состоит в следующем:
1. Положим множество V={S} и i=1.
2. Положим множество V>i> = V>i-1>{A P и A V>i-1> }.
3. Если V>i > V>i-1>, то i=i=1 и перейти к шагу 2. В противном случае
N’= N V>i> , T’=TV>i>. Искомое множество продукций Р’ состоит
из множества продукций Р, содержащих символы из множества V>i>
АЛГОРИТМ УСТРАНЕНИЯ БЕСПОЛЕЗНЫХ СИМВОЛОВ.
Пусть дана КС-грамматика G={N,T,P,S}. Построим эквивалентную грамматику G’={N’, T’, P’, S} без бесполезных символов. Метод состоит в следующем:
1. Положим N>0>=, i=1.
2. Положим множество N>i>=N>i-1>{A | A, >i-1>)}.
3. Если N>i>N>i-1>, положим i=i+1 и перейти к шагу 2. В противном случае положим N>0>=N>i>.
4. Положим G>1>={N>0> N,T,P’,S}, где P’P состоит из продукций множества Р, содержащих символы из N>0>.
5. Применив к G>1> алгоритм устранения в грамматике недостижимых символов, получим G’={N’, T’, P’, S}.
АЛГОРИТМ ПРЕОБРАЗОВАНИЯ ГРАММАТИКИ В
ГРАММАТИКУ БЕЗ -ПРОДУКЦИЙ.
Пусть дана КС-грамматика G={N,T,P,S}. Построим -свободную грамматику G’, эквивалентную грамматике G. Метод состоит в следующем.
1. Применяем шаги 1-3 алгоритма устранения бесполезных символов, определяем множество N>0>={ A | A, A}.
2. Множество P’ строим следующим образом. Если продукция A>0>B>1>>1>B>2>>2>...B>k>>k >, где k и B>i> >0>, но ни один символ в цепочках >j> (0 j k) не принадлежит N>0>, добавим к Р’ продукции вида A>0>>1>>1>>2>>2>...>k>>k>, где X>i> есть или B>i > или , не включая в P’ продукцию A.
Если S>0>, то включим в P’ продукцию вида S’ | S, где S’ новый нетерминальный символ и положим N’=NS’, в противном случае N’=N, S’=S.
3. Положим G’={N’,T’, P’, S’}.
АЛГОРИТМ УСТРАНЕНИЯ ЦЕПНЫХ ПРОДУКЦИЙ.
Пусть нам дана -свободная КС-грамматика G={N,T,P,S}. Получим эквивалентную КС-грамматику G’={N’, T’, P’, S’} свободную от цепных и -продукций.
Метод состоит в следующем.
1. Для каждого A построим множество N>A>={B | A} нетерминальных символов, выводимых из А следующим образом:
1.1. Положим N>0>={A} и i=1;
1.2. Положим N>i>={C | BC и В>i-1>} >i-1>;
1.3. Если N>i > >i-1>, то положим i=i+1 и повторим шаг 1.2. В противном случае положим N>A>=N.
2. Построим множество P’: если (В) и не является цепной продукцией, то включим в P’ продукцию A, для всех таких А, что В>А.>
3. Положим G={N, T, P’,S}.
Данный алгоритм позволяет устранить из грамматики и циклы, т.е. выводы А*, где А.
УСТРАНЕНИЕ В КС-ГРАММАТИКЕ ЛЕВОЙ РЕКУРСИИ.
Алгоритмы синтаксического анализа легче строить тогда, когда КС-грамматика G не обладает свойствами леворекурсивности, т.е. в ней нет продукций вида X. Это особенно важно при использовании методов разбора сверху вниз и слева направо. Выбор продукции из множества альтернативных в этих методах базируется на сравнении порождённого крайнего левого символа промежуточной цепочки с текущим символом входной терминальной цепочки. При появлении же в выводе левой рекурсии произойдёт зацикливание. Поэтому при использовании алгоритмов нисходящего разбора левую рекурсию необходимо удалить.
В общем случае левая рекурсия в КС-грамматике может быть явной, когда есть продукции вида A или неявной- когда в грамматике есть взаимно рекурсивные продукции вида:
A|...
B|...
Устранение леворекурсивных правил. Пусть G КС-грамматика, в которой есть леворекурсивные правила. Эквивалентная грамматика G’ получается путём замены множества леворекурсивных правил грамматики G на множество правил вида:
A>1>’|>2>’| ... |>n>’
A’>1>’|>2>’| ... |>n>|
Здесь А’- новый вспомогательный нетерминальный символ.
ДЕТЕРМИНИРОВАННЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ
СВЕРХУ ВНИЗ
В данном синтаксическом анализе используются LL(1) грамматики, которые являются обобщением S-грамматик.
КС-грамматика называется S-грамматикой, если выполняются условия:
-правая часть каждой продукции начинается терминальным символом;
-если две или более продукций имеют совпадающие левые части, то правые части этих продукций должны начинаться с различных терминальных символов.
Для заданной S-грамматики магазинный автомат ( МП-распознаватель) с одним состоянием задаётся следующим образом:
1. А=Т{|-}
2. Г=N{t | t и (Аt)}{}.
3. Q={q}.
4. z>0>={#S | S- аксиома}.
5. q>0>=q.
6. Каждой продукции КС-грамматики сопоставляется элемент управляющей таблицы МП-распознавателя. Если продукция имеет вид At, где A и t, а {}, то этому правилу в строке А и в столбце t будут соответствовать операции
ЗАМЕНИТЬ (r), СДВИГ
где r - цепочка , записанная в обратном порядке для того, чтобы удовлетворить соглашения «верхний символ справа».
Если продукция имеет вид Аt, то строке А и столбцу t соответствуют операции
ЧТЕНИЕ, СДВИГ.
Если магазинным символом является терминал b, то элементом таблицы в строке b будет
ЧТЕНИЕ, СДВИГ.
Элементом таблицы, который находится в строке маркера дна магазина # и концевого маркера |-, является
ДОПУСТИТЬ.
Все остальные элементы таблицы заполняются операцией
ОТВЕРГНУТЬ.
где: А- символы, записанные на входной ленте;
Г- символы, записанные в магазинную память;
Q- множество состояний автомата;
z>0>- начальная запись в магазин;
q>0>-начальное состояние автомата.
S-грамматики хотя и допускают детерминированный нисходящий разбор, описывают достаточно узкий класс языков. естественным расширением этого класса было бы - разрешить, чтобы первый символ в правых частях продукций этой грамматики мог быть нетерминалом, но при этом грамматика всё же допускала детерминированный разбор.
Определим ПЕРВ() как множество терминальных символов, которые являются первыми символами цепочек, выводимых из .
Цепочка называется аннулирующей, если .
Продукция грамматики вида А также называется аннулирующим.
ВЫБОР (А)= ПЕРВ(),
если - не аннулирующая, и
ВЫБОР(А)=ПЕРВ()СЛЕД(А),
если - аннулирующая цепочка. При этом СЛЕД(А) - множество следующих за А терминалов в промежуточной цепочке, выводимой из S|-, где S-аксиома грамматики.
Для того, чтобы КС-грамматика была типа LL(1), необходимо, чтобы множества выбора для правил с одинаковыми левыми частями не пересекались, т.е. не имели общих терминальных символов.
Если для вашей грамматики это так, то она будет относится к типу LL(1) и для неё автомат строится по следующему правилу.
ПРАВИЛА ОПРЕДЕЛЕНИЯ ДЕТЕРМИНИРОВАННОГО
МП-РАСПОЗНАВАТЕЛЯ ПО LL(1) ГРАММАТИКЕ.
Для заданной LL(1) грамматики МП-распознаватель задаётся следующим образом:
1. А=Т{|-};
2. Г=N{t | t и (Аt), , {}}{};
3. Q={q};
4. z>0>={#S};
5. q>0>=q;
6. Управление описывается управляющей таблицей с одним состоянием, строки помечены магазинными символами из Г, столбцы - входными символами из А. Элемент таблицы создаётся для каждой продукции. Если продукция имеет вид Аt, то этому правилу в строке А и столбце t будут соответствовать операции
ЗАМЕНИТЬ(r), СДВИГ,
где r - цепочка , записанная в обратном порядке для того, чтобы удовлетворить соглашению «верхний символ справа»
Если продукция имеет вид А, где =Х и Х, {}*, то ему в строке А и во всех столбцах, принадлежащих множеству ВЫБОР (А), будет соответствовать переход
ЗАМЕНИТЬ (r), ДЕРЖАТЬ.
Когда =, вместо ЗАМЕНИТЬ() можно использовать ЧТЕНИЕ.
Если продукция имеет вид Аt, то ей в строке А и в столбце t соответствует операция
ЧТЕНИЕ. СДВИГ.
7. Если магазинным символом является терминал b, то элементом таблицы в строке b будет
ЧТЕНИЕ. СДВИГ.
8. Элементом таблицы, который находится в строке маркера дна # и столбце концевого маркера |-, является
ДОПУСТИТЬ.
9. Все остальные элементы таблицы заполняются операцией
ОТВЕРГНУТЬ.
5. Содержание отчёта.
Отчёт составляется каждым студентом и содержит развёрнутые ответы на все пункты задания. К отчёту прилагается таблица переходов МП-распознавателя и работающая программа МП-распознавателя.
6. Контрольные вопросы.
1. Как определяется КС-грамматика?
2. Как определяется нормальная форма Хомского?
3. Как задаётся нормальная форма Грейбах?
4. Как исключить -продукции?
5. Как устранить недосигаемые символы?
6. Как устранить бесполезные символы?
7. Как устраняются циклические связи в продукциях?
8. Как устранить левые рекурсии в грамматике?
9. Как определяется магазинный автомат?
10. Как определяется LL(1) грамматика?
11. Как определяется S-грамматика?
Литература.
1. Компаниец Р.И., Маньков Е.В., Филатов Н.Е. Основы построения трансляторов. -СПб.: КОРОНА принт, 2000. -256 с.
2. Хантер Р. Проектирование и конструирование компиляторов. М.: Финансы и статистика. 1984 г.
3. Грис Д. Конструирование компиляторов для цифровых вычислительных машин. М.: Мир,1975 г.
> >