Analizzatore lessicale per espressioni regolari

Un analizzatore lessicale è un fase fondamentale della compilazione/interpretazione. Il suo scopo è quello di accettare in ingresso uno stream di caratteri e produrre uno stream di token, dove ogni token è rappresentato dal testo e dal tipo.

Nel nostro esempio mostreremo un semplice Lexer per espressioni regolari.
Gli operatori sono il simbolo * (chiusura di Kleene), il simbolo + (chiusura positiva) e il simbolo | (l’or tra due stringhe).
Una stringa verrà rappresentata da una sequenza di lettere o numeri e gli spazi vuoti verranno scartati.
La stringa vuota (comunemente rappresentata dalla lettera epsilon in letteratura) verrà rappresentata dal carattere $
Il lexer non applicherà nessuna strategia di recovery a seguito di un errore, ma lancerà semplicemente un eccezione UnknownTokenException.

Mostriamo dunque le varie classi che compongono l’esempio. Iniziamo dallo stream di caratteri:

com.at.analysis.CharStream

package com.at.analysis;

public class CharStream {
  private String _stream;
  private int    _currIdx = 0;

  public CharStream(String stream) {
    _stream= stream;
  }

  public char LA(int offset) {
    if (_currIdx + offset >= _stream.length() || offset < 0) {
      return 0;
    }
    return _stream.charAt(offset + _currIdx);
  }

  public char consume() {
    if (_currIdx >= _stream.length()) {
      return 0;
    }
    return _stream.charAt(_currIdx++);
  }
}

Notiamo che, banalmente, lo stream itera su una stringa, può consumare un carattere (legge e avanza il cursore identificato da _currIdx) o guardare avanti nella stringa (look ahead) con il metodo public char LA(int offset). Tale metodo consente di leggere il carattere corrente senza consumarlo se invocato con parametro offset = 0.
Nello specifico, useremo questo metodo per identificare i token di tipo stringa.

Dallo stream di caratteri creeremo uno stream di token. La classe che rappresenta quest’ultimo è questa:

com.at.analysis.TokenStream

package com.at.analysis;

import java.util.List;

public class TokenStream {
  private List<Token> _stream;
  private int         _currIdx;

  public TokenStream(List<Token> stream) {
    _stream= stream;
    _currIdx= 0;
  }

  public Token LA(int offset) {
    if (_currIdx + offset >= _stream.size()) {
      return null;
    }
    return _stream.get(_currIdx + offset);
  }

  public Token consume() {
    if (_currIdx >= _stream.size()) {
      return null;
    }
    return _stream.get(_currIdx++);
  }

  @Override
  public String toString() {
    StringBuilder sb= new StringBuilder().append("[");
    for (int i= 0; i < _stream.size(); i++) {
      sb.append(_stream.get(i));
      if (i < _stream.size() - 1) {
        sb.append(", ");
      }
    }
    sb.append("]");
    return sb.toString();
  }
}

Un istanza di questa classe gestisce, come detto, dei token rappresentati dal testo e dal tipo:

com.at.analysis.TokenType

package com.at.analysis;

public enum TokenType {
  OPERAND, OPERATOR, LParen, RParen
}

com.at.analysis.Token

package com.at.analysis;

public class Token {
  protected String    text;
  protected TokenType type;

  public Token(char c, TokenType type) {
    this.text= String.valueOf(c);
    this.type= type;
  }

  public Token(String text, TokenType type) {
    this.text= text;
    this.type= type;
  }

  public String getText() {
    return text;
  }

  public TokenType getType() {
    return type;
  }

  @Override
  public String toString() {
    return this.getClass().getSimpleName() + " <" + text + ", " + type.toString() + ">";
  }
}

Non ci rimane dunque che da mostrare il lexer vero e proprio:

package com.at.lexer;

import java.util.ArrayList;
import java.util.List;

import com.at.analysis.CharStream;
import com.at.analysis.Token;
import com.at.analysis.TokenStream;
import com.at.analysis.TokenType;
import com.at.analysis.exc.UnknownTokenException;

public class RELexer {
  private CharStream _stream;

  public RELexer(CharStream stream) {
    _stream= stream;
  }

  public TokenStream scan() throws UnknownTokenException {
    List<Token> tokens= new ArrayList<Token>();
    //
    char c= 0;
    while ((c= _stream.consume()) != 0) {
      if (c == ' ') {
        continue;
      } else if (c == ')') {
        tokens.add(new Token(")", TokenType.RParen));
      } else if (c == '(') {
        tokens.add(new Token("(", TokenType.LParen));
      } else if (Character.isDigit(c) || Character.isLetter(c)) {
        String str= String.valueOf(c);
        while (Character.isDigit(_stream.LA(0)) || Character.isLetter(_stream.LA(0))) { // look-ahead
          str+= String.valueOf(_stream.consume());
        }
        tokens.add(new Token(str, TokenType.OPERAND));
      } else if(c == '$') {
        tokens.add(new Token("", TokenType.OPERAND));
      } else if (c == '|' || c == '*' || c == '+') {
        tokens.add(new Token(c, TokenType.OPERATOR));
      } else {
        throw new UnknownTokenException(String.valueOf(c));
      }
    }
    //
    return new TokenStream(tokens);
  }

  public static void main(String[] args) throws Throwable {
    RELexer lex= new RELexer(new CharStream("(010)*11(0|010|$)+(ab | ba)bb"));
    TokenStream tokenStream= lex.scan();
    System.out.println(tokenStream);
  }
}

I controlli dedicati alle parentesi e agli operatori sono banali. Quello dedicato al riconoscimento degli operandi ha una logica semplice: se ho appena consumato una lettera/numero, continuo a consumare dallo stream fin tanto che il look ahead mi dice che ho una lettera/numero.

Avviando il metodo main della classe, vedremo sullo standard output la lista dei token trovati dal lexer.

Tag: anlisi lessicale, espressioni regolari, lessema, lexer, parser, parsing, re, regular expression, Scanner

Articoli correlati
Commenti (0)

Nessun commento presente.

Devi identificarti per pubblicare un commento.

Nessun trackback

Leggere da un Readable con la classe Scanner

circa 12 anni fa - Nessun commento

Java, la classe Scanner e la possibilità di utilizzare come fonte un oggetto Readable

Java: la classe Scanner

circa 14 anni fa - 1 commento

Java: la classe java.util.Scanner

Cerca
- Archivio
- Tag
- Categorie
C (17)

C# (14)

C++ (70)

Boost (6)

C++ Database (4)

Qt (15)

Wt (1)

CSS (1)

Database (9)

MySQL (4)

Oracle (1)

SQLite (4)

Generale (5)

HTML (4)

Java (54)

Java database (3)

Swing (9)

Web e Network (13)

Javascript (10)

Perl (1)

PHP (5)

Python (27)

Ruby (5)

Shell Scripting (2)

Silverlight (1)
Apache binario boost C++ CGI classe classi Database decimale fibonacci file filesystem foreach HTML http Java Javascript jsp linux lista matrici MySQL overloading PHP pila processi Python Qt random Ruby Scanner server servlet shell signal sincronizzazione socket SQLite stack stl swing thread unix Web e Network yield
febbraio 2013 (1)

ottobre 2012 (1)

marzo 2012 (8)

gennaio 2012 (1)

dicembre 2011 (2)

ottobre 2010 (1)

settembre 2010 (3)

luglio 2010 (2)

giugno 2010 (7)

maggio 2010 (25)

aprile 2010 (26)

marzo 2010 (30)

febbraio 2010 (28)

gennaio 2010 (49)

dicembre 2009 (13)
Sondaggi
Quali argomenti vorresti che venissero approfonditi su questo sito?
HTML, CSS, Javascript

Web application, Tomcat, Apache

Regexp, Automi, Grammatiche CF

Db, persistenza, Hibernate

System programming, shell scripting, Linux

View Results
Loading ...
Blogroll
Calendario
marzo: 2012

L M M G V S D

« gen ott »

1 2 3 4

5 6 7 8 9 10 11

12 13 14 15 16 17 18

19 20 21 22 23 24 25

26 27 28 29 30 31
I più visitati
- Java: la classe Scanner - 66.373 visite
- C++ e MySQL - 41.750 visite
- Java: le variabili final - 38.737 visite
- Connettersi ad un database MySQL in Java - 35.765 visite
- I metodi synchronized in Java - 23.895 visite
- Calcolo del massimo comun divisore in C++ - 21.760 visite
- C++: classi astratte e polimorfismo - 17.646 visite
- Connettersi ad un database Oracle con Java - 16.538 visite
- Java: utilizzare un’icona in una JLabel - 13.174 visite
- Comunicazione mediante WebSocket e Tomcat 7 - 13.042 visite
Disclaimer

Questo sito non rappresenta una testata giornalistica in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62 del 7.03.2001

marzo: 2012
L	M	M	G	V	S	D
« gen				ott »
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Analizzatore lessicale per espressioni regolari

Nessun commento presente.

Nessun trackback

Leggere da un Readable con la classe Scanner

Java: la classe Scanner

Cerca

Sondaggi

Blogroll

Calendario

I più visitati

Disclaimer