lex 筆記

什麼是 lex

lex 是幫我們做 lexical analysis 的工具，它負責將 source code 切成一些 token。

1lex rule.l
2gcc lex.yy.c -ll
3./a.out < input

利用 %% 將 code 切成三個區段，第一個和第二個是必須的。

1definition section
2%%
3rule section
4%%
5user subroutine

1%%

1digit [0-9]
2letter [a-zA-Z]
3space [ \t]+
4identifier {letter}({digit}|{letter})*
5integer 0|([1-9]{digit}*)

1%s state1 state2 state3

1/* 以下這份 code 可以將程式的空白和換行移除。 */
2{space}  { ; }
3\n       { ; }
4.        { ECHO; }

1main() {
2    yylex();
3}

regular expression	definition
`.`	一個字元（`\n` 以外的所有字元）
`*`	重複零次以上
`+`	重複一次以上
`?`	零次或一次
`^`	放在 `[]` 中，表示不包含
`^`	放在開頭，表示一行的開頭
`$`	放在結尾，表示一行的結尾
`{a, b}`	重複 a ~ b 次
`	`
`/`	表示前面的表示法需要接在後面的表示法之前，yytext 只匹配到前面

1/*
2comment
3*/

1%s COMMENT
2
3%%
4
5"/*" { BEGIN COMMENT; }
6<COMMENT>. { ; }
7<COMMENT>"*/" { ; }
8{identifier} { printf("id"); }

1%x COMMENT
2
3%%
4
5"/*" { BEGIN COMMENT; }
6<COMMENT>. { ; }
7<COMMENT>"*/" { ; }
8{identifier} { printf("id"); }