Сценарий регулярного выражения в Python или Perl

Question

Сценарий регулярного выражения в Python или Perl

1

Это действительно облегчило бы мою работу, если бы кто-то помог мне написать script в python или perl, в котором из заданного файла он возвращает все предложения, такие как:

[LANG::...]

... означает что-либо

для ecxample:

[LANG::Sample text with digits 0123]

и записывает его в файл в одной строке.

Большое спасибо за помощь

EDIT:

Спасибо за помощь, а теперь что-то более продвинутое.

если он найдет что-то вроде [: ANG::...], пожалуйста, напишите только... без скобок ang LANG:: tag.

Спасибо, ребята, вы потрясающие:)

gruber 18 март 2011, в 10:04

Источник

1

Может ли быть «во что-нибудь»? Если так, как это обрабатывается? Думаю, это зависит от данных, но это может произойти :)
Øyvind Skaar 18 март 2011, в 09:27
0

скажем, если кто-то хочет написать], то должен использовать управляющий символ, например \, поэтому нужно писать]. То же самое думаю, если кто-то хочет написать \, то должен написать \\
gruber 18 март 2011, в 09:33

Теги:

python

regex

perl

4 ответа

4

perl version

perl -lne "print if /\[LANG::.+?\]/;" infile > outfile

Ed Guiness 18 март 2011, в 07:32

1

Ваш код извлекает целые строки, содержащие такие предложения, а не сами предложения.
eumiro 18 март 2011, в 09:18
0

@eumiro, пока мы не увидим полный входной файл, мое предположение так же хорошо, как и ваше
Ed Guiness 18 март 2011, в 09:27

2

Perl-версия (отредактирована для ввода из файла):

#!/usr/bin/perl 

use strict;
use warnings;

open(my $in, '<', 'input.txt');
open(my $out, '>', 'output.txt');

while ( <$in> ) {
    my @found = /\[LANG::.*?\]/g;
    print $out "$_\n" for @found;
}

Matteo Riva 18 март 2011, в 07:27

0

это может быть написано проще в Perl stackoverflow.com/questions/5349783/…
jfs 18 март 2011, в 13:31
0

Проще относительно. Это действительно короче, но не подходит, если - по какой-то случайности - этот код предназначен не только для одной строки, но должен быть включен в больший скрипт
Matteo Riva 18 март 2011, в 14:42

0

Perl

$ perl -nE'say $1 while /\[LANG::([^]]+)\]/g' input.txt >output.txt

Python

#!/usr/bin/env python
import fileinput, re

for line in fileinput.input():
    for match in re.findall(r'\[LANG::([^]]+)\]', line):
        print match

Использование: $ print-lang input.txt >output.txt

input.txt

井の中の蛙、大海を知らず [LANG::Japanese] a frog in a well cannot conceive 
of the ocean [LANG::English]

терпи казак, атаманом будешь [LANG::Russian] no pain, no gain [LANG::English]

output.txt

Japanese
English
Russian
English

jfs 18 март 2011, в 10:39

Ещё вопросы

Может ли быть «во что-нибудь»? Если так, как это обрабатывается? Думаю, это зависит от данных, но это может произойти :)
скажем, если кто-то хочет написать], то должен использовать управляющий символ, например \, поэтому нужно писать]. То же самое думаю, если кто-то хочет написать \, то должен написать \\
Ваш код извлекает целые строки, содержащие такие предложения, а не сами предложения.
@eumiro, пока мы не увидим полный входной файл, мое предположение так же хорошо, как и ваше
это может быть написано проще в Perl stackoverflow.com/questions/5349783/…
Проще относительно. Это действительно короче, но не подходит, если - по какой-то случайности - этот код предназначен не только для одной строки, но должен быть включен в больший скрипт

eumiro · Accepted Answer · 2011-03-18T06-09-00.000Z

import re

with open('input.txt', 'w') as f:
    text = f.read()
#text = 'Intro [LANG::First text 1] goes on [LANG::Second text 2] and finishes.'

with open('output.txt', 'w') as f:
    for match in re.findall('\[LANG::.*?\]', text):
        f.write(match+'\n')

выходы:

[LANG::First text 1]
[LANG::Second text 2]

Вторая часть вопроса: если он найдет что-то вроде [: ANG::...], пожалуйста, пишите только... без скобок и тега LANG::.

Измените последнюю часть на:

with open('output.txt', 'w') as f:
    for match in re.findall('\[.ANG::.*?\]', text):
        if match.startswith('[:ANG'):
            f.write(match[7:-1]+'\n')
        else:
            f.write(match+'\n')

Исправить эту подстрочную часть match[7:-1] в соответствии с вашими потребностями.

ОК. Скажите, пожалуйста, как получить значение текстовой переменной из файла, а не из жестко заданной строки? Спасибо
Этот сценарий работает, если предложение имеет, например, символ «-». : /
Почему бы не использовать '\[LANG::.*?\]' Или '\[LANG::[^\]]*\]' ?
@gruber - тогда вы должны предоставить достаточно примеров в вашем вопросе
Теперь я изменил его на '\[LANG::.*?\]' Который принимает все символы, кроме (даже экранированных) ] .
Я отредактировал свой вопрос, добавив второе задание. Не могли бы вы посмотреть на него?
Я думаю, '[:ANG' - это опечатка в OP-вопросе, это должно быть '[LANG' . Вам не нужно использовать нарезку для match вы можете извлечь необходимую часть с помощью скобок stackoverflow.com/questions/5349783/…