Java Tokenization: трактуйте все, что разделено подчеркиванием, как одно слово

Question

Java Tokenization: трактуйте все, что разделено подчеркиванием, как одно слово

1

У меня очень простой токенизатор, использующий StreamTokenizer, который преобразует математические выражения в свои отдельные компоненты (см. Ниже). Проблема, которая возникает у меня, - это если в выражении T_1 есть переменная, она будет разбита на [T, _, 1], которую я хотел бы вернуть как [T_1].

Я попытался использовать переменную, чтобы проверить, был ли последний символ символом подчеркивания, и если да, добавьте подчеркивание в список. Размер-1, но это похоже на очень неуклюжее и неэффективное решение. Есть ли способ сделать это? Благодарю!

        StreamTokenizer tokenizer = new StreamTokenizer(new StringReader(s));
        tokenizer.ordinaryChar('-'); // Don't parse minus as part of numbers.
        tokenizer.ordinaryChar('/'); // Don't parse slash as part of numbers.
        List<String> tokBuf = new ArrayList<String>();
        while (tokenizer.nextToken() != StreamTokenizer.TT_EOF) //While not the end of file 
        {
            switch (tokenizer.ttype) //Switch based on the type of token
            {
            case StreamTokenizer.TT_NUMBER: //Number
                tokBuf.add(String.valueOf(tokenizer.nval));
                break;
            case StreamTokenizer.TT_WORD: //Word
                tokBuf.add(tokenizer.sval);
                break;
            case '_':
                tokBuf.add(tokBuf.size()-1, tokenizer.sval);
                break;
            default: //Operator
                tokBuf.add(String.valueOf((char) tokenizer.ttype));
            }
        }

        return tokBuf;

Archetype90 26 сен. 2014, в 20:16

Источник

0

Я не вижу того, что вы видите. Если я передам в T_1 , я получу это в качестве вывода: [null, T, 1.0]
Daniel Kaplan 26 сен. 2014, в 18:26
0

Я чувствую, что wordChars каким-то образом связан с ответом, но я не могу понять, как добавить слово char. Похоже, вы можете только установить диапазон. Удивительно плохая документация и API для класса Java, IMO. Есть ли законная причина, по которой вы используете StreamTokenizer StringTokenizer ?
Daniel Kaplan 26 сен. 2014, в 18:31
0

Мне очень жаль, я предоставил код, который я не полностью исправил. Приведенный выше код не должен включать регистр для _. Это было пережитком моих попыток добавить его к последнему элементу в списке. И нет, нет законной причины, по которой я использую StreamTokenizer. Считаете ли вы, что StringTokenizer лучше?
Archetype90 26 сен. 2014, в 18:33
0

Не обязательно. Речь идет об использовании правильного инструмента для работы. Посмотрите, как это работает, это может быть лучше подходит: docs.oracle.com/javase/7/docs/api/java/util/…
Daniel Kaplan 26 сен. 2014, в 18:41
0

Хорошо сказано. Это может быть лучшим вариантом, если я не могу понять, как не разделять символ подчеркивания после Streamtokenizer, но также может потребоваться большой набор разделителей из-за количества операторов.
Archetype90 26 сен. 2014, в 18:45

Показать ещё 3 комментария

Теги:

java

split

stringtokenizer

tokenize

2 ответа

0

StringTokenizer может быть лучше подходит. Если да, то как вы его используете:

import java.util.ArrayList; import java.util.List; import java.util.StringTokenizer;

public class Solution {

    public static void main(String args[]) throws Exception {
        StringTokenizer tokenizer = new StringTokenizer("T_1 1 * bar");
        List<String> tokBuf = new ArrayList<String>();
        while (tokenizer.hasMoreTokens()) //While not the end of file
        {
            tokBuf.add(tokenizer.nextToken());
        }

        System.out.println(tokBuf);
    }
}

Это напечатано:

[T_1, 1, *, bar]

Daniel Kaplan 26 сен. 2014, в 17:50

Ещё вопросы

Я не вижу того, что вы видите. Если я передам в T_1 , я получу это в качестве вывода: [null, T, 1.0]
Я чувствую, что wordChars каким-то образом связан с ответом, но я не могу понять, как добавить слово char. Похоже, вы можете только установить диапазон. Удивительно плохая документация и API для класса Java, IMO. Есть ли законная причина, по которой вы используете StreamTokenizer StringTokenizer ?
Мне очень жаль, я предоставил код, который я не полностью исправил. Приведенный выше код не должен включать регистр для _. Это было пережитком моих попыток добавить его к последнему элементу в списке. И нет, нет законной причины, по которой я использую StreamTokenizer. Считаете ли вы, что StringTokenizer лучше?
Не обязательно. Речь идет об использовании правильного инструмента для работы. Посмотрите, как это работает, это может быть лучше подходит: docs.oracle.com/javase/7/docs/api/java/util/…
Хорошо сказано. Это может быть лучшим вариантом, если я не могу понять, как не разделять символ подчеркивания после Streamtokenizer, но также может потребоваться большой набор разделителей из-за количества операторов.

Will Hartung · Accepted Answer · 2014-09-26T16-48-00.000Z

Это то, что вы хотите.

tokenizer.wordChars('_', '_');

Это делает распознаваемым как часть слова.

Дополнения:

Это построение и запуск:

public static void main(String args[]) throws Exception {
    String s = "abc_xyz abc 123 1 + 1";
    StreamTokenizer tokenizer = new StreamTokenizer(new StringReader(s));
    tokenizer.ordinaryChar('-'); // Don't parse minus as part of numbers.
    tokenizer.ordinaryChar('/'); // Don't parse slash as part of numbers.
    tokenizer.wordChars('_', '_'); // Don't parse slash as part of numbers.


    List<String> tokBuf = new ArrayList<String>();
    while (tokenizer.nextToken() != StreamTokenizer.TT_EOF) //While not the end of file 
    {
        switch (tokenizer.ttype) //Switch based on the type of token
        {
        case StreamTokenizer.TT_NUMBER: //Number
            tokBuf.add(String.valueOf(tokenizer.nval));
            break;
        case StreamTokenizer.TT_WORD: //Word
            tokBuf.add(tokenizer.sval);
            break;
        default: //Operator
            tokBuf.add(String.valueOf((char) tokenizer.ttype));
        }
    }
    System.out.println(tokBuf);
}

run:
[abc_xyz, abc, 123.0, 1.0, +, 1.0]

Отлично! Это на самом деле сделало это для меня. Просто выбросить эту строку прямо под токенизатор
Для других я настроил это, чтобы показать, что вы можете вызывать wordChars несколько раз, и он учитывает каждый вызов, а не только самый последний. Это довольно необычно, как это не задокументировано в Javadoc.