Простая справка по Regex для C #

Question

Простая справка по Regex для C #

2

У меня есть незавершенный двоичный файл с некоторой информацией, которую я могу восстановить с помощью regex. Содержимое:

G $12.Angry.Men.1957.720p.HDTV.x264-HDLH Lhttp://site.com/forum/f89/12-angry-men-1957-720p-hdtv-x264-hdl-538403/LI Š M, ABBA.The.Movie.1977.720p.BluRay.DTS.x264-iONN Phttp://site.com/forum/f89/abba-movie-1977-720p-bluray-dts-x264-ion-428687/&

Как я могу разобрать его, чтобы по крайней мере получить links, которые:

http://site.com/forum/f89/abba-movie-1977-720p-bluray-dts-x264-ion-428687/

где 428687 - номер id.

Итак, у меня были бы full link и id.

Другие имена, которые предшествуют, - это имя ссылок:

ABBA.The.Movie.1977.720p.BluRay.DTS.x264-iON

Хотя я не уверен, что они могут быть проанализированы. Я заметил, что все они имеют характер до и после links и NAMES. Может быть, это может сузить проблему?

Btw Я готов дать 500 бонусов за правильный ответ.

Joan Venge 27 окт. 2009, в 15:23

Источник

1

По поводу распознавания ссылки, несколько вопросов: Может ли текст содержать косые черты? Конец гарантирует черту + цифры + косую черту или только гарантированную косую черту? Никаких цифр не предшествует тире? Является ли приведенная выше выдержка верной, что после косой черты может быть любой непробельный символ?
Abel 27 окт. 2009, в 14:05
0

Под текстом вы подразумеваете Имена или ССЫЛКИ? Вы правы, гарантированно быть -DIGIT / для ССЫЛКИ. Всегда есть цифры. Я не понял последний вопрос? Можете ли вы уточнить?
Joan Venge 27 окт. 2009, в 14:08
0

мой последний комментарий о -12734 / ххх в конце URL. Где ххх может быть чем угодно (как & в вашем примере). Не заканчивая пробелом или специальным символом, это затрудняет сопоставление.
Abel 27 окт. 2009, в 14:31
0

Спасибо, я понял это сейчас. Да, из-за двоичного формата он может заканчиваться и / или некоторые другие странные символы. Но что я заметил, так это то, что если вы посмотрите на контент, то у LINKS и NAMES есть по 1 дополнительному символу до и после, это не используется. Для ИМЯ Абба, они есть, и Н.
Joan Venge 27 окт. 2009, в 14:34
2

Мне нравится эта награда за 500, где она? ;-)
Abel 27 окт. 2009, в 14:46
0

Я не знаю, как его настроить, но это происходит через несколько дней, когда нет принятого ответа? Дайте мне знать, и я с удовольствием выложу это в друзья :)
Joan Venge 27 окт. 2009, в 14:54
0

Часто задаваемые вопросы гласят: «Если через 2 дня у вас все равно не будет ответа, который вам нравится, вы можете предложить вознаграждение» . Я не думаю, что мы готовимся, и я не чувствую себя обманщиком. Не волнуйтесь, я скорее получаю эти награды за реальные проблемы или пренебречь вопросами.
Abel 27 окт. 2009, в 15:27

Показать ещё 5 комментариев

Теги:

c#

regex

.net

binary

parsing

2 ответа

1

Предполагая, что все URL-адреса заканчиваются дефисом, а затем некоторые произвольные числа, а затем обратная косая черта. Это может сработать.

`http://[^ ]*-?<id>(\d)+/`

Как вы думаете?

UPDATE: Попробуйте следующее: -

http://(?!http://)[^ ]*-?<id>(\d)+/

Обновленный код (?! http://), чтобы остановить URL-адрес, соответствующий двум URL-адресам, объединен с некоторыми данными в середине между URL-адресами, которые не являются пространством.

Вы можете получить захваченную группу по имени. Весь поиск будет совпадать с URL, и группа будет соответствовать идентификатору.

Jaskirat 27 окт. 2009, в 12:43

1

ваше совпадение будет некорректно совпадать только с первой половиной http _ // site.com/forum-24/something-abba-4737373/, но если ссылка никогда не будет содержать тире + цифры, она будет работать так же хорошо (другими словами: на самом деле нам нужно больше информации о ссылках, чтобы быть уверенными, что мы можем дать правильное регулярное выражение).
Abel 27 окт. 2009, в 14:00
0

Спасибо, попробую сейчас.
Joan Venge 27 окт. 2009, в 14:00
0

Да, информация о ссылках мудрая, может начинаться только с http: // и заканчиваться на / это точно.
Joan Venge 27 окт. 2009, в 14:02
1

Абель, * жадный, он будет соответствовать до первого символа пробела, а затем возвращается к последнему дефису, за которым следует ряд онемев, а затем обратный слеш. Он должен соответствовать всему URL.
Jaskirat 27 окт. 2009, в 14:05
1

Жадный * пытается соответствовать как можно больше.
Jaskirat 27 окт. 2009, в 14:07
0

Спасибо Jass, я попробовал 2-й, но выкинул исключение, используя это: Regex.Matches (content, @ "? <Link> (http: // [^] * -? <Id> (\ d) + /)") ;
Joan Venge 27 окт. 2009, в 14:17
0

@Jass: я знаю, что означает жадность, и вы правы, однако последовательные URL не будут найдены (они будут объединены) из-за одной и той же жадности. Моя точка зрения заключалась в том, что мы слишком мало знаем о данных, чтобы получить хорошие гарантированные результаты.
Abel 27 окт. 2009, в 14:25
0

Конечно, если два URL соединяются без пробела между ними, они будут объединены, но я предположил, что это не так. Хм, может быть, я должен был использовать (?! Http: //), который должен делать ...
Jaskirat 27 окт. 2009, в 15:50

Показать ещё 6 комментариев

Ещё вопросы

По поводу распознавания ссылки, несколько вопросов: Может ли текст содержать косые черты? Конец гарантирует черту + цифры + косую черту или только гарантированную косую черту? Никаких цифр не предшествует тире? Является ли приведенная выше выдержка верной, что после косой черты может быть любой непробельный символ?
Под текстом вы подразумеваете Имена или ССЫЛКИ? Вы правы, гарантированно быть -DIGIT / для ССЫЛКИ. Всегда есть цифры. Я не понял последний вопрос? Можете ли вы уточнить?
мой последний комментарий о -12734 / ххх в конце URL. Где ххх может быть чем угодно (как & в вашем примере). Не заканчивая пробелом или специальным символом, это затрудняет сопоставление.
Спасибо, я понял это сейчас. Да, из-за двоичного формата он может заканчиваться и / или некоторые другие странные символы. Но что я заметил, так это то, что если вы посмотрите на контент, то у LINKS и NAMES есть по 1 дополнительному символу до и после, это не используется. Для ИМЯ Абба, они есть, и Н.
Мне нравится эта награда за 500, где она? ;-)
Я не знаю, как его настроить, но это происходит через несколько дней, когда нет принятого ответа? Дайте мне знать, и я с удовольствием выложу это в друзья :)
Часто задаваемые вопросы гласят: «Если через 2 дня у вас все равно не будет ответа, который вам нравится, вы можете предложить вознаграждение» . Я не думаю, что мы готовимся, и я не чувствую себя обманщиком. Не волнуйтесь, я скорее получаю эти награды за реальные проблемы или пренебречь вопросами.
ваше совпадение будет некорректно совпадать только с первой половиной http _ // site.com/forum-24/something-abba-4737373/, но если ссылка никогда не будет содержать тире + цифры, она будет работать так же хорошо (другими словами: на самом деле нам нужно больше информации о ссылках, чтобы быть уверенными, что мы можем дать правильное регулярное выражение).
Да, информация о ссылках мудрая, может начинаться только с http: // и заканчиваться на / это точно.
Абель, * жадный, он будет соответствовать до первого символа пробела, а затем возвращается к последнему дефису, за которым следует ряд онемев, а затем обратный слеш. Он должен соответствовать всему URL.
Жадный * пытается соответствовать как можно больше.
Спасибо Jass, я попробовал 2-й, но выкинул исключение, используя это: Regex.Matches (content, @ "? <Link> (http: // [^] * -? <Id> (\ d) + /)") ;
@Jass: я знаю, что означает жадность, и вы правы, однако последовательные URL не будут найдены (они будут объединены) из-за одной и той же жадности. Моя точка зрения заключалась в том, что мы слишком мало знаем о данных, чтобы получить хорошие гарантированные результаты.
Конечно, если два URL соединяются без пробела между ними, они будут объединены, но я предположил, что это не так. Хм, может быть, я должен был использовать (?! Http: //), который должен делать ...

Abel · Accepted Answer · 2009-10-27T12-12-00.000Z

2

Лучший ответ

Что-то вроде следующего регулярного выражения?

MatchCollection matches = Regex.Matches(yourString, @"http://\S+?-(\d+)/") 
foreach(Match m in matches)
{
    string id = m.Captures[0].Value;
    string url = m.Value;
}

который будет захватывать ссылки (начиная с http://), тогда все не пространство (пробелы гарантированы не в ссылках HTTP (URI)) и предполагает, что он заканчивается цифрами и завершающей косой чертой (это правильно удалит & в вашем примере или другом концевом тексте).

EDIT: все совпадение - это ссылка, идентификатор находится в первых скобках, обновленный код, чтобы показать, как получить информацию.

Обновление:, если в URL-адрес могут появляться цифры + цифры + косая черта, более чем один раз в URL-адресе, тогда необходимо использовать жадность, но последующие ссылки (без дополнительного текста с пробелами) будут сопоставлены. Если тире + цифры + слэш происходит только один раз для каждого URL-адреса, то предпочтительнее лень. Это решение в настоящее время в коде выше.

Альтернативный подход

Из обновлений и дополнительной информации я понимаю, что в тексте много неясно. Другой подход может быть проще: разделите все на http:// и просмотрите результаты. Это предотвращает необходимость создания сложного регулярного выражения look-forward/backward и гарантирует, что последовательные ссылки (т.е. Без текста между ними) будут правильно обработаны:

// zero-width split:
string[] linksWithText = Regex.Split(yourString, @"(?<=http:\S+-\d+/)");
foreach (string link in linksWithText)
{
    Match m = Regex.Match(link, @"(.*)(http:\S+-(\d+)/)$");
    if (m.Success)
    {
        string text = m.Groups[1].Value;
        string url = m.Groups[2].Value;
        string id = m.Groups[3].Value;
    }
}

Обновление: обновлен альтернативный подход. Сначала текст (имя), затем URL. Обратите внимание на отрицательный внешний вид выражения для разделения на пятно нулевой ширины, взяв что-либо до URL-адреса до конца URL-адреса.

Abel 27 окт. 2009, в 12:12

0

Спасибо, попробую сейчас.
Joan Venge 27 окт. 2009, в 14:01
0

Спасибо, кстати, вы также можете помочь мне сгруппировать ссылку и идентификатор? Ваши верные полные ССЫЛКИ правильно.
Joan Venge 27 окт. 2009, в 14:09
0

просто обновил код и немного изменил регулярное выражение, чтобы сделать это возможным. Смотрите мои правки.
Abel 27 окт. 2009, в 14:22
0

просто обновил код и немного изменил регулярное выражение, чтобы сделать это возможным. Смотрите мои правки (ваше обновление о гарантии тире + цифры + косая черта облегчает задачу)
Abel 27 окт. 2009, в 14:28
0

Я получаю ArgumentOutOFRangeEx для этого: site.com/forum/f89/… System.Text.RegularExpressions.Match
Joan Venge 27 окт. 2009, в 14:31
0

Это строка Captures, которая дает ошибку, а не m.
Joan Venge 27 окт. 2009, в 14:35
0

Я попробовал m.Groups [1] вместо id var, и это сработало.
Joan Venge 27 окт. 2009, в 14:37
0

Таким образом, ваши ссылки и идентификаторы. Вы знаете, можем ли мы также проанализировать Имена? Если это облегчит задачу, я могу удалить ССЫЛКИ из исходного контента, чтобы там были только Имена. Но это всегда НАЗВАНИЯ, сопровождаемые ССЫЛКАМИ в контенте, если это поможет.
Joan Venge 27 окт. 2009, в 14:40
1

Я использовал Captures, который начинается с 0, группы начинаются с 1 (отсюда исключение). Виноват. Я показал альтернативный подход, который должен дать вам больше контроля.
Abel 27 окт. 2009, в 14:43
1

О ваших "именах": это text в моем альтернативном подходе. Используйте это, если вам нужны имена, они легче и читабельнее (ничего из этого не проверялось, надеюсь, код достаточно корректен для продолжения)
Abel 27 окт. 2009, в 14:45
1

Ах, текст приходит раньше, извините. Держись, я исправлю.
Abel 27 окт. 2009, в 14:48
0

Спасибо, ваш второй пример великолепен. Например, он выдает ArgumentOutOFRangeEx, где m равно {}. Я также заметил, что разделение http сделало элементы LINK + next NAME вместо NAME + LINK. Я попытаюсь заставить это работать, но любые указатели были бы очень полезны. Еще раз спасибо.
Joan Venge 27 окт. 2009, в 14:52
0

Ты быстрее меня :)
Joan Venge 27 окт. 2009, в 14:52
0

Я обновил. Выражение расщепления стало чем-то вроде продвинутого. Дело в том, что оно имеет нулевую ширину, что означает, что расщепление не удаляет символы из строки. Результирующие разбиения начинаются с текста, затем URL. Текст мусора (как & в вашем примере) m.Success .
Abel 27 окт. 2009, в 15:23
0

Спасибо Авель. Я попробую это сегодня. Из моей быстрой попытки Console.WriteLine только печатный текст один раз, вы знаете, почему это будет? Когда я просто печатаю id и url, это работает. Также количество напечатанных ссылок показалось меньше. Как вы думаете, новое разбиение может игнорировать некоторые ссылки, если они заканчиваются на &, и т. Д.? В любом случае, я приму ваш ответ и вышлю вам 500, еще раз спасибо.
Joan Venge 27 окт. 2009, в 15:33
1

+1 за все подробное объяснение и подстройку :)
Jaskirat 27 окт. 2009, в 15:48
1

Спасибо, Ясс! @ Джоан: Чтобы ответить на ваши последние вопросы, мне нужен образец ваших данных, особенно. части, которые идут не так, как надо. Я проверил с образцом, который вы дали в вашем вопросе. и я немного расширил его. Он работает нормально для меня, игнорирует & если он появляется в конце строки, он включает его в текст, если он находится в середине (не может изменить это, если вы не знаете, для чего ему соответствовать, т.е. конкретный список персонажей)
Abel 27 окт. 2009, в 16:18
0

Если он посередине, то все в порядке, если в конце игнорировать - это хорошо. Значит ты прав. Я попробую это более тщательно дома. Но ИМЯ также содержало несколько двоичных символов. AFAIK они могут иметь только цифры и буквы и символы, такие как (,) и [,]. Можно ли сопоставить имена без двоичного мусора, который приходит до и после? После этого я могу обрезать первую и последнюю букву, которые являются ASCII, но не имеют фактического имени, с помощью простого анализа строки. Как NAME ABBA и N в начале и в конце. Они не в настоящем имени.
Joan Venge 27 окт. 2009, в 17:49
0

Если ваши данные представляют собой строку: не беспокойтесь, все в строке может соответствовать регулярному выражению .NET. Двоичный мусор сам по себе не определен и может быть неотличим от ASCII (ваш код не кажется ASCII, но на самом деле больше UTF-8/16). Если это байтовый массив, история становится другой. Но тогда вы не можете больше использовать регулярные выражения. Если вы можете определить «бинарный мусор», я могу помочь вам с реализацией. В противном случае, боюсь, в отсутствие определения это будет невозможно.
Abel 27 окт. 2009, в 18:46
0

Привет ABel, спасибо за вашу помощь. Извините, я только что вернулся домой. Поэтому я использовал BinaryFormatter для сериализации в поток, который является FileStream. Так что я думаю, это байтовый массив, верно? Я загрузил файл здесь: storage.to/get/UNhp9BAR/Streamer.bin Дайте мне знать, если это поможет. Еще раз большое спасибо.
Joan Venge 28 окт. 2009, в 01:19
0

Отправленный вами поток - это поток, созданный с помощью сериализации .NET (вы упомянули BinaryFormatter , возможно, вы перенаправили объекты на диск, верно?) Чтобы вернуть их обратно, все, что вам нужно сделать, - это использовать объекты того же типа и десериализовать. Если вам нужна двусторонняя сериализация и вы можете управлять BinaryFormatter , замените его на XmlSerializer , это сделает читаемые и анализируемые данные. Или вы просто используете (точно!) Одни и те же классы, чтобы вернуть данные. Десериализация этого двоичного потока без этой информации является пугающей, по меньшей мере, я надеюсь, что вы можете контролировать ее производство.
Abel 28 окт. 2009, в 08:58
0

Я пытался десериализовать ваши данные, но, по-видимому, они были повреждены. Начало файла неверно. Обратное чтение с .NET 2.0 или 3.5 оба не удаются (SOH поз 9-12 должен разрешиться до Int32 0x1 , который является «основной версией двоичного форматера»).
Abel 28 окт. 2009, в 09:21
0

Я не буду здесь в течение нескольких дней. Если вам нужна (быстрая) помощь, свяжите этот файл с новым вопросом и спросите, как использовать BinaryFormatter для десериализации. Как подсказка: в справке MSDN наглядный пример. Если вы не уверены, какой тип класса использовать, выполните десериализацию object и используйте самоанализ (наведите курсор мыши во время отладки), чтобы выяснить, какие типы он содержит.
Abel 28 окт. 2009, в 09:50
0

Спасибо, Абель. Да, это была моя проблема. Этот файл сериализован, но операция не может быть завершена, поэтому он завершен как 98% содержимого. Я знаю, как сериализовать / десериализовать, но так как эта ошибка произошла из-за недостатка места на диске, я подумал, что смогу получить ссылки обратно с помощью регулярных выражений. Благодаря вам я восстановил большую часть этого.
Joan Venge 28 окт. 2009, в 12:15

Показать ещё 22 комментария