Разработка транслятора в среде Java и С+

Введение

Тема, цель, актуальность работы

Анализ проектов, реализованных на языках программирования Java и C# на предмет взаимодействия между классами.

Результат работы программы необходимо вывести в файл *.xml.

Актуальность работы заключается в том, что на сегодняшний день нет известных аналогов программы. Не стоит сравнивать данный проект с такими программными продуктами как Telelogic Rapsody или Rational – он является полной противоположностью названных выше программ, так как анализирует уже «готовый», написанный проект, в то время как Telelogic Rapsody (Rational) генерирует код по диаграммам.

Данный проект может использоваться для углубленного изучения языков программирования Java и C# в рамках программы университета, анализа проектов на предмет взаимодействия классов.

Проект может существовать как автономное приложение, а также может быть дополнен и доработан функционально.

Исследовательская часть

C# и Java– два очень похожих между собой современных языка программирования со сборкой мусора и компиляцией при выполнении. Оба языка – объектно-ориентированные, с синтаксисом, унаследованным от C++, но значительно переработанным.

Java – объектно-ориентированный язык программирования, разрабатываемый компанией Sun Microsystems и официально выпущенный 23 мая 1995 года. Java – так называют не только сам язык, но и платформу для создания приложений уровня предприятий на основе данного языка.

Изначально язык программирования назывался Oak (русск. Дуб) и разрабатывался Джеймсом Гослингом для бытовой электроники, но впоследствии был переименован в Java и стал использоваться для написания клиентских приложений и серверного программного обеспечения. Программы на Java транслируются в байт-код, выполняемый виртуальной java-машиной (JVM) – программой, обрабатывающей байтовый код и передающей инструкции оборудованию как интерпретатор, но с тем отличием, что байтовый код, в отличие от текста, обрабатывается значительно быстрее. Достоинство подобного способа выполнения программ – в полной независимости байт-кода от ОС и оборудования, что позволяет выполнять Java-приложения на любом устройстве, которое поддерживает виртуальную машину. Другой важной особенностью технологии Java является гибкая система безопасности благодаря тому, что исполнение программы полностью контролируется виртуальной машиной.

Длины и диапазоны значений примитивных типов определяются стандартом. Такая жёсткая стандартизация была необходима, чтобы сделать язык платформенно-независимым, что является одним из идеологических требований к Java и одной из причин её успеха. Тем не менее, одна небольшая проблема с платформенной независимостью всё же осталась. Некоторые процессоры используют для промежуточного хранения результатов 10-байтовые регистры или другими способами улучшают точность вычислений.

В языке Java имеются только динамически создаваемые объекты. Причем переменные объектного типа и объекты в Java – совершенно разные сущности. Переменные объектного типа являются ссылками, то есть неявными указателями на динамически создаваемые объекты. Это подчёркивается синтаксисом описания переменных.

C# (произносится си-шарп) – язык программирования, сочетающий объектно-ориентированные и аспектно-ориентированные концепции. Разработан в 1998–2001 годах группой инженеров под руководством Андерса Хейлсберга в компании Microsoft как основной язык разработки приложений для платформы Microsoft.NET. C# относится к семье языков с C-подобным синтаксисом, из них его синтаксис наиболее близок к С++ и Java. Язык имеет строгую статическую типизацию, поддерживает полиморфизм, перегрузку операторов, указатели на функции-члены классов, атрибуты, события, свойства, исключения, комментарии в формате XML. Переняв многое от своих предшественников – языков С++, Java, Delphi, Модула и Smalltalk – С#, опираясь на практику их использования, исключает некоторые модели, зарекомендовавшие себя как проблематичные при разработке программных систем: так, C# не поддерживает множественное наследование классов (в отличие от C++).

В Java модификатор protected в описании, помимо доступа из классов-потомков, разрешает доступ из всех классов, входящих в тот же пакет, что и класс-владелец.

В C# для объектов, которые должны быть видны в пределах сборки (примерный аналог пакета Java) введён отдельный модификатор internal, а protected сохраняет свой изначальный смысл, взятый из C++ – доступ только из классов-потомков. Допускается комбинировать internal и protected – тогда получится область доступа, соответствующая protected в Java.

Внутренние классы в C# имеют доступ только к статическим членам внешнего класса, а для доступа к нестатическим членам нужно явно указывать экземпляр внешнего класса. Локальные внутренние классы в C# не поддерживаются, обработка событий в нём не требует таких классов, поскольку строится на других механизмах. В обоих языках методы, по аналогии с C++ – функции, определённые в классе. Тело метода располагается внутри описания класса. Поддерживаются статические методы, абстрактные методы. В C# также есть явная реализация методов интерфейса, что позволяет классу реализовывать методы интерфейса отдельно от собственных методов или давать разные реализации одноимённых методов, принадлежащих двум разным интерфейсам. C# также поддерживает явное описание передачи параметров по ссылке (ключевые слова ref и out). При использовании out компилятор контролирует наличие в методе присваивания значения. C# позволяет создавать пользовательские типы-значения, используя ключевое слово struct. Это прямое наследие языка С++ от которого создатели Java сознательно отказались.

Java поддерживает импорт статических имён (import static) из классов, позволяющий отдельно импортировать некоторые или все статические методы и переменные класса и использовать их имена без квалификации в импортирующем модуле. В C# импортируется только сборка и при каждом использовании импортируемых статических имён требуется указывать класс.

В Java константы в операторы switch должны относиться либо к целочисленному, либо к перечислимому типу. В C# в switch можно использовать текстовые строки.

Java содержит конструкцию strictfp, гарантирующую одинаковые результаты операций с плавающей точкой на всех платформах.

C# содержит конструкции checked и unchecked, позволяющие локально включать и выключать динамическую проверку арифметического переполнения.

C# поддерживает оператор перехода goto. Обычное использование – передача управления на разные метки case в операторе switch и выход из вложенного цикла. В Java от использования goto сознательно отказались.

Java поддерживает метки в циклах и позволяет использовать их в командах break и continue, благодаря чему исключается такой повод использования goto, как выход из вложенного цикла.

C# поддерживает отдельное понятие именованной типизированной константы и ключевое слово const. В Java констант как таковых нет, вместо них используются статические переменные класса с модификатором final – эффект от их использования точно такой же.

Разработка транслятора

Разработка лексического анализатора

Алфавит языка

Большие и малые буквы английского алфавита: a..z, A..Z

Цифры: 0,1,2,3,4,5,6,7,8,9.

Другие символы: ‘<’, ‘>’, ‘:’, ‘, ’, ‘’’, ‘;’, ‘{», ‘}’, ‘(», ‘)’

Классы лексем

    зарезервированные слова;

    знаки операций и разделители;

    литералы;

    идентификаторы

Лексика языков

    Класс идентификаторы: к этому классу относятся все наборы цепочек, кроме зарезервированных слов

    Класс зарезервированных слов:

      Для C#

using, class, int, float, char, public, protected, private, return, namespace

      Для Java

using, class, int, float, char, public, protected, private, return

    Класс знаков операций и разделителей:

() {} : ; = -> . , ‘ *

    Класс литералов:

Литерал – целочисленная или текстовая константа.

Структура таблицы идентификаторов

имя

номер в классе

тип

Структура таблицы литералов

имя

тип

Разработка синтаксического анализатора

Грамматика языков

В данном проекте исследуется лишь малая часть возможностей и особенностей вышеуказанных языков. В связи с этим спроектированные грамматики для этих языков будут включать лишь те структуры языка, которые нам необходимы

Грамматика С#

1 <программа>:= 2 <предпроцессор> 3 namespace 4 {5 <операторы> 6}

7 <предпроцессор>:= 9 using 10 <предпроцессор>

8 <предпроцессор>:= 11 е

12 <операторы>:= 16 <класс> 17 <операторы>

13 <операторы>:= 18 идентификатор 19 <продолжение1>

20 <операторы>

14 <операторы>:= 21 е

15 <операторы>:= 22 <декларация> 23 <операторы>

24 <класс>:= 25 class 26 идентификатор 27 <наследование> 28 {29 <операторы> 30} 31;

32<наследование>:= 34: 35 идентификатор

33<наследование>:= 36е

37<продолжение1>:= 40. 41 идентификатор 42 <продолжение2> 43;

38<продолжение1>:= 44 <продолжение2> 45;

39<продолжение1>:= 46;

47 <продолжение2>:= 49 (50)

48 <продолжение2>:= 80 е

51 <декларация>:= 52 <тип> 53 идентификатор 55 <продолжение3>

56<продолжение3>:= 58 (59) 60 (61 <операторы> 62 return 63 литерал 64; 81)

57<продолжение3>:= 65<продолжение4>

66 <продолжение4>:= 68, 69 идентификатор 70 <продолжение4>

67 <продолжение4>:= 71;

72 <тип>:= 76 int

73 <тип>:= 77 float

74 <тип>:= 78 char

75 <тип>:= 79 идентификатор

Грамматика java

1 <программа>:= 2 <предпроцессор> 3 <операторы>

7 <предпроцессор>:= 9 using 10 <предпроцессор>

8 <предпроцессор>:= 11 е

12 <операторы>:= 16 <класс> 17 <операторы>

13 <операторы>:= 18 идентификатор 19 <продолжение1>

20 <операторы>

14 <операторы>:= 21 е

15 <операторы>:= 22 <декларация> 23 <операторы>

24 <класс>:= 25 class 26 идентификатор 27 <наследование> 28 {29 <операторы> 30} 31;

32<наследование>:= 34: 35 идентификатор

33<наследование>:= 36е

37<продолжение1>:= 40 -> 41 идентификатор 42 <продолжение2> 43;

38<продолжение1>:= 44 <продолжение2> 45;

39<продолжение1>:= 46;

47 <продолжение2>:= 49 (50)

48 <продолжение2>:= 80 е

51 <декларация>:= 52 <тип> 53 <ссылка> 54 идентификатор 55 <продолжение3>

56<продолжение3>:= 58 (59) 60 (61 <операторы> 62 return 63 литерал 64; 81)

57<продолжение3>:= 65<продолжение4>

66 <продолжение4>:= 68, 69 идентификатор 70 <продолжение4>

67 <продолжение4>:= 71;

72 <тип>:= 76 int

73 <тип>:= 77 float

74 <тип>:= 78 char

75 <тип>:= 79 идентификатор

82<ссылка>:= 84 *

83<ссылка>:= 85 e

Доказательство принадлежности к LL(1) – грамматике

С#

<предпроцессор>={using | namespace}

<операторы>={class | идентификатор |} | int | float | char}

<наследование>={: | {}

<продолжение1>={. | (|;)

<продолжение2>={(|;)

<продолжение3>={(|, |;)

<продолжение4>={, |;}

<тип >={int | float | char | идентификатор}

Грамматика java

<предпроцессор>={using | class | идентификатор | int | float | char}

<операторы>={class | идентификатор | int | float | char}

<наследование>={: | {}

<продолжение1>={-> | (|;)

<продолжение2>={(|;)

<продолжение3>={(|, |;)

<продолжение4>={, |;}

<тип >={int | float | char | идентификатор}

<ссылка>={* | идентификатор}

Таблицы разбора

Таблица разбора С#

Ожидаемый терминал

Переход

Принять

В стек

Из стека

Ошибка

1.

~

2

-

-

-

-

2.

~

7

-

-

-

-

3.

namespace

4

+

-

-

+

4.

{

5

+

-

-

+

5.

~

12

-

+

-

-

6.

}

0

+

-

+

+

7.

using

9

-

-

-

-

8.

~

11

-

-

-

-

9.

using

10

+

-

-

+

10.

~

7

-

-

-

-

11.

~

3

-

-

-

-

12.

class

16

-

-

-

-

13.

идентификатор

18

-

-

-

-

14.

}

21

-

-

-

-

15.

~

22

-

-

-

-

16.

~

24

-

+

-

-

17.

~

12

-

-

-

-

18.

идентификатор

19

+

-

-

+

19.

~

37

-

+

-

-

20.

~

12

-

-

-

-

21.

~

0

-

-

+

-

22.

~

51

-

+

-

-

23

~

12

-

-

-

-

24

~

25

-

-

-

-

25

class

26

+

-

-

+

26

идентификатор

27

+

-

-

+

27

~

32

-

+

-

-

28

{

29

+

-

-

+

29

~

12

-

+

-

-

30

)

31

+

-

-

+

31

;

0

+

-

+

+

32

:

34

-

-

-

-

33

~

36

-

-

-

-

34

:

35

+

-

-

+

35

идентификатор

0

+

-

+

+

36

~

0

-

-

+

-

37

.

40

-

-

-

-

38

(

44

-

-

-

-

39

;

46

-

-

-

+

40

.

41

+

-

-

+

41

идентификатор

42

+

-

-

+

42

~

47

-

+

-

-

43

;

0

+

-

+

+

44

~

47

-

+

-

-

45

;

0

+

-

+

+

46

;

0

+

-

+

+

47

(

49

-

-

-

-

48

~

80

-

-

-

-

49

(

50

+

-

-

+

50

)

0

+

-

+

+

51

~

52

-

-

-

-

52

~

72

-

+

-

-

53

идентификатор

55

+

-

-

+

54

55

~

56

-

-

-

-

56

(

58

-

-

-

-

57

~

65

-

-

-

-

58

(

59

+

-

-

+

59

)

60

+

-

-

+

60

{

61

+

-

-

+

61

~

12

-

+

-

-

62

return

63

+

-

-

+

63

литерал

64

+

-

-

+

64

;

81

+

-

-

+

65

~

66

-

-

-

-

66

,

68

-

-

-

-

67

;

71

-

-

-

+

68

,

69

+

-

-

+

69

идентификатор

70

+

-

-

+

70

~

66

-

-

-

-

71

;

0

+

-

+

+

72

int

76

-

-

-

-

73

float

77

-

-

-

-

74

char

78

-

-

-

-

75

идентификатор

79

-

-

-

+

76

int

0

+

-

+

+

77

float

0

+

-

+

+

78

char

0

+

-

+

+

79

идентификатор

0

+

-

+

+

80

~

0

-

-

+

-

81

}

0

+

-

+

+

Таблица разбора java

Ожидаемый терминал

Переход

Принять

В стек

Из стека

Ошибка

1.

~

2

-

-

-

-

2.

~

7

-

-

-

-

3.

~

12

-

-

-

-

7.

using

9

-

-

-

-

8.

~

11

-

-

-

-

9.

using

10

+

-

-

+

10.

~

7

-

-

-

-

11.

~

3

-

-

-

-

12.

class

16

-

-

-

-

13.

идентификатор

18

-

-

-

-

14.

}

21

-

-

-

-

15.

~

22

-

-

-

-

16.

~

24

-

+

-

-

17.

~

12

-

-

-

-

18.

идентификатор

19

+

-

-

+

19.

~

37

-

+

-

-

20.

~

12

-

-

-

-

21.

~

0

-

-

+

-

22.

~

51

-

+

-

-

23

~

12

-

-

-

-

24

~

25

-

-

-

-

25

class

26

+

-

-

+

26

идентификатор

27

+

-

-

+

27

~

32

-

+

-

-

28

{

29

+

-

-

+

29

~

12

-

+

-

-

30

)

31

+

-

-

+

31

;

0

+

-

+

+

32

:

34

-

-

-

-

33

~

36

-

-

-

-

34

:

35

+

-

-

+

35

идентификатор

0

+

-

+

+

36

~

0

-

-

+

-

37

->

40

-

-

-

-

38

(

44

-

-

-

-

39

;

46

-

-

-

+

40

->

41

+

-

-

+

41

идентификатор

42

+

-

-

+

42

~

47

-

+

-

-

43

;

0

+

-

+

+

44

~

47

-

+

-

-

45

;

0

+

-

+

+

46

;

0

+

-

+

+

47

(

49

-

-

-

-

48

~

80

-

-

-

-

49

(

50

+

-

-

+

50

)

0

+

-

+

+

51

~

52

-

-

-

-

52

~

72

-

+

-

-

53

~

82

-

-

+

-

54

идентификатор

55

+

-

-

+

55

~

56

-

-

-

-

56

(

58

-

-

-

-

57

~

65

-

-

-

-

58

(

59

+

-

-

+

59

)

60

+

-

-

+

60

{

61

+

-

-

+

61

~

12

-

+

-

-

62

return

63

+

-

-

+

63

литерал

64

+

-

-

+

64

;

81

+

-

-

+

65

~

66

-

-

-

-

66

,

68

-

-

-

-

67

;

71

-

-

-

+

68

,

69

+

-

-

+

69

идентификатор

70

+

-

-

+

70

~

66

-

-

-

-

71

;

0

+

-

+

+

72

int

76

-

-

-

-

73

float

77

-

-

-

-

74

char

78

-

-

-

-

75

идентификатор

79

-

-

-

+

76

int

0

+

-

+

+

77

float

0

+

-

+

+

78

char

0

+

-

+

+

79

идентификатор

0

+

-

+

+

80

~

0

-

-

+

-

81

}

0

+

-

+

+

82

*

84

-

-

-

-

83

~

85

-

-

-

-

84

*

0

+

-

+

+

85

~

0

-

-

+

-

Разработка программы

Классовая модель

Диаграмма прецедентов

Диаграмма классов

Анализ результатов работы программы и выводы

Оба анализируемых языка – объектно-ориентированные, с синтаксисом, унаследованным от C++, но значительно переработанным. Следовательно, они имеют много общего, например, при анализе проектов, мы используем один общий класс разделителей и знаков операций.

Классы зарезервированных слов для каждого языка отличаются. В данном проекте исследуется лишь малая часть возможностей и особенностей вышеуказанных языков. В связи с этим, классы зарезервированных слов для этих языков будут включать лишь те ключевые слова и операторы, которые нам необходимы.

Проект позволяет проанализировать взаимодействие между классами и вывести результат в файл *.xml. Достаточно много времени было потрачено именно на вывод результата в *.xml, так как ранее с подобными задачами не сталкивались.

При реализации были выполнены критерии ООП и модульности, расставлены комментарии (по атрибутам, методам, по параметрам методов, классам).

Проект может существовать как автономное приложение, однако, на мой взгляд, его можно дополнить и доработать функционально, расширить классы зарезервированных слов, внести изменения в LL(1) – грамматику и т.д.

На данном этапе разработки программа работает корректно, четко выполняет поставленные требования.

Список используемой литературы

    Р. Хантер Проектирование и конструирование компиляторов

    http://www.linuxcenter.ru/lib/articles/programming

    Джеффри Рихтер CLR via C# // М., Издательство «Русская редакция», 2007

    http://javaportal.ru/

    Конспект лекций по ТОПТ