Разбор текстового файла с пользовательским форматом в C #

Question

Разбор текстового файла с пользовательским форматом в C #

1

У меня есть куча текстовых файлов, которые имеют собственный формат, выглядящий так:

App Name    
Export Layout

Produced at 24/07/2011 09:53:21


Field Name                             Length                                                       

NAME                                   100                                                           
FULLNAME1                              150                                                           
ADDR1                                  80                                                           
ADDR2                                  80

Любые пробелы могут быть вкладками или пробелами. Файл может содержать любое количество имен полей и длины.

Я хочу получить все имена полей и их соответствующие длины полей и, возможно, сохранить их в словаре. Эта информация будет использоваться для обработки соответствующего файла данных фиксированной ширины, имеющего упомянутые имена полей и длины полей.

Я знаю, как пропускать строки с помощью ReadLine(). Я не знаю, как сказать: "Когда вы дойдете до строки, начинающейся с" Имя поля ", пропустите еще одну строку, затем, начиная со следующей строки, возьмите все слова в левом столбце и цифры на правой колонке ".

Я попробовал String.Trim(), но не удаляет промежутки между ними.

Заранее спасибо.

InvalidBrainException 24 июль 2014, в 10:34

Источник

1

Гугл "парсинг рекурсивного спуска". У вас нет обычной грамматики, поэтому инструменты синтаксического анализа, основанные на грамматике, вряд ли помогут.
Pieter Geerkens 24 июль 2014, в 08:20
0

Исправлена ли позиция строки с Field Name ?
shree.pat18 24 июль 2014, в 08:21
0

@ shree.pat18 Я бы так предположил.
InvalidBrainException 24 июль 2014, в 10:18

Показать ещё 1 комментарий

Теги:

c#

.net

parsing

3 ответа

1

Исходя из предположения, что позиция строки заголовка фиксирована, мы можем рассмотреть фактические пары ключ-значение, чтобы начать с 9-й строки. Затем, используя метод ReadAllLines для возврата массива String из файла, мы просто начинаем обработку с индекса 8 и далее:

  string[] lines = File.ReadAllLines(filepath);
  Dictionary<string,int> pairs = new Dictionary<string,int>();

    for(int i=8;i<lines.Length;i++)
    {
        string[] pair = Regex.Replace(lines[i],"(\\s)+",";").Split(';');
        pairs.Add(pair[0],int.Parse(pair[1]));
    }

Это скелет, не учитывающий обработку исключений, но я предполагаю, что он должен вас начать.

shree.pat18 24 июль 2014, в 09:28

0

Вы можете использовать String.StartsWith() для обнаружения "FieldName". Затем String.Split() с параметром null для разделения по пробелам. Это даст вам ваши имена полей и длины.

GazTheDestroyer 24 июль 2014, в 05:26

0

Я попробовал это, и он также получает все пробелы между двумя столбцами.
InvalidBrainException 24 июль 2014, в 09:39

Ещё вопросы

Гугл "парсинг рекурсивного спуска". У вас нет обычной грамматики, поэтому инструменты синтаксического анализа, основанные на грамматике, вряд ли помогут.
Исправлена ли позиция строки с Field Name ?
Я попробовал это, и он также получает все пробелы между двумя столбцами.

Tim Schmelter · Accepted Answer · 2014-07-24T07-13-00.000Z

Вы можете использовать SkipWhile(l => !l.TrimStart().StartsWith("Field Name")).Skip(1):

Dictionary<string, string> allFieldLengths = File.ReadLines("path")
    .SkipWhile(l => !l.TrimStart().StartsWith("Field Name")) // skips lines that don't start with "Field Name"
    .Skip(1)                                       // go to next line
    .SkipWhile(l => string.IsNullOrWhiteSpace(l))  // skip following empty line(s)
    .Select(l =>                                   
    {                                              // anonymous method to use "real code"
        var line = l.Trim();                       // remove spaces or tabs from start and end of line
        string[] token = line.Split(new[] { ' ', '\t' }, StringSplitOptions.RemoveEmptyEntries);
        return new { line, token };                // return anonymous type from 
    })
    .Where(x => x.token.Length == 2)               // ignore all lines with more than two fields (invalid data)
    .Select(x => new { FieldName = x.token[0], Length = x.token[1] })
    .GroupBy(x => x.FieldName)                     // groups lines by FieldName, every group contains it Key + all anonymous types which belong to this group
    .ToDictionary(xg => xg.Key, xg => string.Join(",", xg.Select(x => x.Length)));

line.Split(new[] { ' ', '\t' }, StringSplitOptions.RemoveEmptyEntries) будет разделяться пробелом и вкладками и игнорирует все пустые пространства. Используйте GroupBy чтобы гарантировать, что все ключи уникальны в словаре. В случае дубликатов имен полей Length будет соединена с запятой.

Изменить: поскольку вы запросили версию, отличную от LINQ, вот она:

Dictionary<string, string> allFieldLengths = new Dictionary<string, string>();
bool headerFound = false;
bool dataFound = false;
foreach (string l in File.ReadLines("path"))
{
    string line = l.Trim();
    if (!headerFound && line.StartsWith("Field Name"))
    {
        headerFound = true;
        // skip this line:
        continue;
    }
    if (!headerFound)
        continue;
    if (!dataFound && line.Length > 0)
        dataFound = true;
    if (!dataFound)
        continue;
    string[] token = line.Split(new[] { ' ' }, StringSplitOptions.RemoveEmptyEntries);
    if (token.Length != 2)
        continue;
    string fieldName = token[0];
    string length = token[1];
    string lengthInDict;
    if (allFieldLengths.TryGetValue(fieldName, out lengthInDict))
        // append this length
        allFieldLengths[fieldName] = lengthInDict + "," + length;
    else
        allFieldLengths.Add(fieldName, length);
}

Мне больше нравится версия LINQ, потому что она более читабельная и поддерживаемая (imo).

@Terribad: я добавил несколько комментариев к встроенному коду, надеюсь, он даст достаточное объяснение. Иначе скажи, чего не понимаешь.
Я незнаком с LINQ, и это выглядит как ОЧЕНЬ LINQ: P, поэтому мне интересно, могу ли я сделать это с помощью line.Split(new[] { ' ', '\t' }, StringSplitOptions.RemoveEmptyEntries) но без вещей LINQ.
@TimSchmelter Я удалил этот комментарий, потому что у меня была идея, что я могу сделать то, что предположил в приведенном выше комментарии, но все равно спасибо!
@Terribad: однако, я также предоставил не-linq версию :)
Спасибо за публикацию не-LINQ версии. Я думаю, что я попытаюсь понять вашу версию LINQ, так как она намного более читаема.
@Terribad: обратите внимание , что версия без LINQ также использует File.ReadAllLines вместо File.ReadLines для поддержки for -loop. Недостатком является то, что он должен загрузить все в память, прежде чем он сможет начать обработку, в отличие от ReadLines . Может быть, достаточно foreach , тогда вы также можете использовать ReadLines без использования LINQ. Изменить Я проверил это, вы можете использовать foreach + File.ReadLines. Поменял код выше.
@TimSchmelter Спасибо за внимание к деталям! В качестве альтернативы, если я знаю, что первое поле всегда начинается с одной и той же строки, я мог бы просто пропустить строки, пока не достигну этой строки, а затем использовать line.Split(new[] { ' ', '\t' }, StringSplitOptions.RemoveEmptyEntries) пока ReadLine() вернет null . Это значительно упростит код, не правда ли?
@Terribad: я только что попытался «перевести» ваше требование в код. Если вы можете сделать правила исправления, которые могут помочь упростить логику, конечно. Но вы действительно хотите полагаться только на номер строки? Используйте File.ReadLines("").Skip(8) чтобы прочитать все строки, начиная с 9-го.
@TimSchmelter Спасибо, что рассказали мне о Skip() , если бы это был я, я бы, вероятно, закончил цикл ReadLines () 8 раз!
Мой старший инженер знает, как создаются эти текстовые файлы, и сказал, что разумно предположить, что первое поле всегда начинается с одной строки. Я думаю, что это значительно упрощает логику: просто начните чтение с этой строки и Split() используя SpringSplitOptions.RemoveEmptyEntries ! Но, очевидно, ваш метод - это путь для более общих случаев.