initial commit

2023-03-19 13:03:20 +01:00 · 2023-03-19 13:03:20 +01:00 · a98c7c875f
commit a98c7c875f
10 changed files with 393 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,2 @@
 **/*_test.go
 **/*.txt
--- a/consts.go
+++ b/consts.go
@ -0,0 +1,8 @@
 package lexer
 var (
 	Keywords         = []string{"pipeline"}
 	Separators       = []rune{'\n', ' ', '<', '>'}
 	StringSeparators = []rune{'\'', '"', '`'}
 	Operators        = []rune{'='}
 )
--- a/esc_seq.go
+++ b/esc_seq.go
@ -0,0 +1,25 @@
 package lexer
 import "strings"
 var EscSeqPrintReplacer = strings.NewReplacer(
 	`\`, `\\`,
 	"\n", `\n`,
 	"\t", `\t`,
 	"\f", `\f`,
 	"\r", `\r`,
 	"\v", `\v`,
 	"\b", `\b`,
 	"\a", `\a`,
 )
 var EscSeqReplacer = strings.NewReplacer(
 	`\\`, `\`,
 	`\n`, "\n",
 	`\t`, "\t",
 	`\f`, "\f",
 	`\r`, "\r",
 	`\v`, "\v",
 	`\b`, "\b",
 	`\a`, "\a",
 )
--- a/examples/example.slang
+++ b/examples/example.slang
@ -0,0 +1,24 @@
 #!/usr/bin/env slash
 anime-watcher						# comment
 exit_on_empty						# line 6: filter = ""
 format -o '$HOME/Anime/{0}.*'		# line 10: format string to file
 filter -f 							# line 10: check if file exists
 branch == "hi"						# branch/split/if/filter multiple stdout fds
 	cat
 	:a="hello"> tee out1.txt
 	-
 	/home> cat
 	tee out2.txt
 merge ordered						# merge multiple stdin fds
 echo
 # list all go files in pwd
 ls *.go								# filepath.Glob
 echo $HOME							# replace env vars TOOD cd not possible in pipeline
 ~:A="hi" B="bye"> ls				# start ls in $HOME folder
 echo -e "123\n321\nasd"
 branch '^\w+?$'
 	echo							# output: asd
--- a/examples/example2.slang
+++ b/examples/example2.slang
@ -0,0 +1,24 @@
 #!/usr/bin/env slash
 pipeline trimSpaces {						# pipeline definition for future use
 	format -i '^\s*?(.*?)\s*?$' -o '{1}'	# equivalent to functions in conventional programming languages
 }
 range 0-10									# range command ignores stdin and produces output according to arguments
 branch async {								# branch built-in command splits input stream based on case operators
 											# merge operator is optional and defines the merge strategy of output streams (can be one of sync,async | default: sync)
 	case >= 5:								# cases represent a pipeline (can also be filtered by regex?)
 		~:A="hi" B="bye"> trimSpaces		# every command call is first checked for available pipeline (pwd and env variables can be provided if needed)
 											# pipeline cannot by called 'command' so a command with same name can still be called with `command trimSpaces`
 	default:								# default pipeline is optional (default: empty pipeline)
 }
 # implementation of fizzbazz
 range 1..100
 if (v % 3 == 0 && v % 5 == 0) {echo "fizzbazz"}
 if (v % 3 == 0) {echo "fizz"} else if (v % 5 == 0) {echo "bazz"}
 if (v % 5 == 0) {
 	echo "bazz"
 }
--- a/examples/fizzbazz.slang
+++ b/examples/fizzbazz.slang
@ -0,0 +1,12 @@
 #!/usr/bin/env slashlang
 pipeline fizzbazz
 	if v % 3 == 0 && v % 5 == 0
 		print "fizzbazz"
 	if v % 3 == 0
 		print "fizz" # else if (v % 5 == 0) {print "bazz"}
 	if v % 5 == 0
 		<PWD="/home" A="asd"> print "bazz"
 range 1..100
 fizzbazz
--- a/go.mod
+++ b/go.mod
@ -0,0 +1,14 @@
 module git.milar.in/slash/lexer
 go 1.20
 require (
 	git.milar.in/milarin/bufr v0.0.12
 	git.milar.in/milarin/slices v0.0.7
 )
 require (
 	git.milar.in/milarin/adverr v1.1.0 // indirect
 	git.milar.in/milarin/ds v0.0.2 // indirect
 	git.milar.in/milarin/gmath v0.0.3 // indirect
 )
--- a/go.sum
+++ b/go.sum
@ -0,0 +1,10 @@
 git.milar.in/milarin/adverr v1.1.0 h1:jD9WnOvs40lfMhvqQ7cllOaRJNBMWr1f07/s9jAadp0=
 git.milar.in/milarin/adverr v1.1.0/go.mod h1:joU9sBb7ySyNv4SpTXB0Z4o1mjXsArBw4N27wjgzj9E=
 git.milar.in/milarin/bufr v0.0.12 h1:BZwLFOdi5hohQuugQceFHwvmz7ZGYwyhdrBcKfZPjGs=
 git.milar.in/milarin/bufr v0.0.12/go.mod h1:yIRL89LWUgRlmfuVAwq12YfFs+Hq2Ji4SKEUyqXVTLo=
 git.milar.in/milarin/ds v0.0.2 h1:vCA3mDxZUNfvHpzrdz7SeBUKiPn74NTopo915IUG7I0=
 git.milar.in/milarin/ds v0.0.2/go.mod h1:HJK7QERcRvV9j7xzEocrKUtW+1q4JB1Ly4Bj54chfwI=
 git.milar.in/milarin/gmath v0.0.3 h1:ii6rKNItS55O/wtIFhD1cTN2BMwDZjTBmiOocKURvxM=
 git.milar.in/milarin/gmath v0.0.3/go.mod h1:HDLftG5RLpiNGKiIWh+O2G1PYkNzyLDADO8Cd/1abiE=
 git.milar.in/milarin/slices v0.0.7 h1:s+e8W+pATa2NrAtniruUoNfjpmlTVQgyKu4ttfkE1cU=
 git.milar.in/milarin/slices v0.0.7/go.mod h1:qMhdtMnfWswc1rHpwgNw33lB84aNEkdBn5BDiYA+G3k=
--- a/lexer.go
+++ b/lexer.go
@ -0,0 +1,223 @@
 package lexer
 import (
 	"fmt"
 	"io"
 	"git.milar.in/milarin/bufr"
 	"git.milar.in/milarin/slices"
 )
 type Lexer struct {
 	src    *bufr.Reader
 	Indent string
 }
 func New(r io.Reader) *Lexer {
 	return &Lexer{
 		src: bufr.New(r),
 	}
 }
 func (t *Lexer) Pos() bufr.Position {
 	index, line, column := t.src.Pos()
 	return bufr.Position{Index: index, Line: line, Column: column}
 }
 func (t *Lexer) Next() (*Token, error) {
 	rn, err := t.src.Rune()
 	if err != nil {
 		return nil, err
 	}
 	rn2, err := t.src.Rune()
 	if err != nil {
 		return nil, err
 	}
 	if err := t.src.UnreadRunes(2); err != nil {
 		return nil, err
 	}
 	if rn == '\t' || (rn == ' ' && rn2 == ' ') {
 		return t.parseIndent()
 	} else if rn == '#' {
 		return t.parseComment()
 	} else if slices.Contains(Separators, rn) {
 		return t.parseSeparator()
 	} else if slices.Contains(StringSeparators, rn) {
 		return t.parseStringLiteral()
 	} else if slices.Contains(Operators, rn) {
 		return t.parseOperator()
 	}
 	str, err := t.src.PeekStringUntil(bufr.OneOf(" \n"))
 	if err != nil {
 		return nil, err
 	}
 	if slices.Contains(Keywords, str) {
 		return t.parseKeyword()
 	}
 	return t.parseWord()
 }
 func (t *Lexer) parseComment() (*Token, error) {
 	start := t.Pos()
 	comment, err := t.src.StringUntil(bufr.IsNewLine)
 	if err != nil {
 		return nil, err
 	}
 	if err := t.src.UnreadRune(); err != nil {
 		return nil, err
 	}
 	return &Token{
 		Type:  TokenTypeComment,
 		Value: comment,
 		Start: start,
 		End:   t.Pos(),
 	}, nil
 }
 func (t *Lexer) parseKeyword() (*Token, error) {
 	start := t.Pos()
 	keyword, err := t.src.StringUntil(bufr.IsWhitespace)
 	if err != nil {
 		return nil, err
 	}
 	if err := t.src.UnreadRune(); err != nil {
 		return nil, err
 	}
 	return &Token{
 		Type:  TokenTypeKeyword,
 		Value: keyword,
 		Start: start,
 		End:   t.Pos(),
 	}, nil
 }
 func (t *Lexer) parseWord() (*Token, error) {
 	start := t.Pos()
 	word, err := t.src.StringUntil(bufr.IsWhitespace, bufr.Is('='))
 	if err != nil {
 		return nil, err
 	}
 	if err := t.src.UnreadRune(); err != nil {
 		return nil, err
 	}
 	return &Token{
 		Type:  TokenTypeWord,
 		Value: word,
 		Start: start,
 		End:   t.Pos(),
 	}, nil
 }
 func (t *Lexer) parseSeparator() (*Token, error) {
 	start := t.Pos()
 	rn, err := t.src.Rune()
 	if err != nil {
 		return nil, err
 	}
 	return &Token{
 		Type:  TokenTypeSeparator,
 		Value: string(rn),
 		Start: start,
 		End:   t.Pos(),
 	}, nil
 }
 func (t *Lexer) parseOperator() (*Token, error) {
 	start := t.Pos()
 	rn, err := t.src.Rune()
 	if err != nil {
 		return nil, err
 	}
 	return &Token{
 		Type:  TokenTypeOperator,
 		Value: string(rn),
 		Start: start,
 		End:   t.Pos(),
 	}, nil
 }
 func (t *Lexer) parseStringLiteral() (*Token, error) {
 	start := t.Pos()
 	startRn, err := t.src.Rune()
 	if err != nil {
 		return nil, err
 	}
 	literal, err := t.src.StringUntil(bufr.Is(startRn))
 	if err != nil {
 		return nil, err
 	}
 	literal = EscSeqReplacer.Replace(literal)
 	return &Token{
 		Type:  TokenTypeWord,
 		Value: literal,
 		Start: start,
 		End:   t.Pos(),
 	}, nil
 }
 func (t *Lexer) parseIndent() (*Token, error) {
 	start := t.Pos()
 	// no indentation set yet
 	if t.Indent == "" {
 		str, err := t.src.StringWhile(bufr.OneOf("\t "))
 		if err != nil {
 			return nil, err
 		}
 		if err := t.src.UnreadRune(); err != nil {
 			return nil, err
 		}
 		//fmt.Printf("indentation set to '%s'\n", EscSeqReplacer.Replace(str))
 		t.Indent = str
 		return &Token{
 			Type:  TokenTypeIndent,
 			Value: str,
 			Start: start,
 			End:   t.Pos(),
 		}, nil
 	}
 	for _, rn := range t.Indent {
 		ok, err := t.src.ExpectRune(bufr.Is(rn))
 		if err != nil {
 			return nil, err
 		}
 		if !ok {
 			return nil, fmt.Errorf("mixed indentation styles at (%d:%d)", start.Line, start.Column)
 		}
 	}
 	return &Token{
 		Type:  TokenTypeIndent,
 		Value: t.Indent,
 		Start: start,
 		End:   t.Pos(),
 	}, nil
 }
--- a/token.go
+++ b/token.go
@ -0,0 +1,51 @@
 package lexer
 import (
 	"fmt"
 	"git.milar.in/milarin/bufr"
 )
 type Token struct {
 	Type  TokenType
 	Value string
 	Start bufr.Position
 	End   bufr.Position
 }
 func (t Token) String() string {
 	return fmt.Sprintf(
 		"type: %s | value: '%s' | start: (%d:%d) | end: (%d:%d)",
 		t.Type, EscSeqPrintReplacer.Replace(t.Value), t.Start.Line, t.Start.Column, t.End.Line, t.End.Column,
 	)
 }
 type TokenType uint8
 const (
 	TokenTypeComment TokenType = iota
 	TokenTypeKeyword
 	TokenTypeIndent
 	TokenTypeSeparator
 	TokenTypeWord
 	TokenTypeOperator
 )
 func (tt TokenType) String() string {
 	switch tt {
 	case TokenTypeComment:
 		return "comment"
 	case TokenTypeKeyword:
 		return "keyword"
 	case TokenTypeIndent:
 		return "indent"
 	case TokenTypeSeparator:
 		return "separator"
 	case TokenTypeWord:
 		return "word"
 	case TokenTypeOperator:
 		return "operator"
 	default:
 		panic(fmt.Sprintf("invalid token type: %d", tt))
 	}
 }