Python, перебирать строки в файле; если строка равна строке в другом файле, вернуть исходную строку

Question

Python, перебирать строки в файле; если строка равна строке в другом файле, вернуть исходную строку

1

Текстовый файл 1 имеет следующий формат:

'WORD': 1
'MULTIPLE WORDS': 1
'WORD': 2

и т.п.

То есть, слово, разделенное двоеточием, за которым следует число.

Текстовый файл 2 имеет следующий формат:

'WORD'
'WORD'

и т.п.

Мне нужно извлечь одиночные слова (т.е. Только WORD not MULTIPLE WORDS) из файла 1 и, если они соответствуют слову в файле 2, верните слово из файла 1 вместе со своим значением.

У меня есть плохо функционирующий код:

def GetCounts(file1, file2):
    target_contents  = open(file1).readlines()  #file 1 as list--> 'WORD': n
    match_me_contents = open(file2).readlines()   #file 2 as list -> 'WORD'
    ls_stripped = [x.strip('\n') for x in match_me_contents]  #get rid of newlines

    match_me_as_regex= re.compile("|".join(ls_stripped))   

    for line in target_contents:
        first_column = line.split(':')[0]  #get the first item in line.split
        number = line.split(':')[1]   #get the number associated with the word
        if len(first_column.split()) == 1: #get single word, no multiple words 
            """ Does the word from target contents match the word
            from match_me contents?  If so, return the line from  
            target_contents"""
            if re.findall(match_me_as_regex, first_column):  
                print first_column, number

#OUTPUT: WORD, n
         WORD, n
         etc.

Из-за использования регулярных выражений выход является застреленным. Код вернет "актив, 2", например, так как re.findall() будет соответствовать "set" из match_me. Мне нужно сопоставить target_word со всем словом match_me, чтобы заблокировать плохой результат, полученный в результате совпадений с частичным регулярным выражением.

Renklauf 28 авг. 2011, в 04:46

Источник

0

Нет, это была ошибка. Просто исправил это. Я по ошибке нажал "отправить" перед редактированием.
Renklauf 28 авг. 2011, в 02:27
0

Пожалуйста, также предоставьте макет желаемого результата и отредактируйте свои данные, чтобы продемонстрировать описанную проблему.
bukzor 28 авг. 2011, в 02:28
0

Чтобы избежать «частичного совпадения с регулярным выражением», попробуйте выполнить обратную сортировку списка слов по длине: re.compile («|» .join (отсортировано (ls_stripped, reverse = True, key = len)))
twneale 28 авг. 2011, в 02:38
0

twneale: это не помогает ... Вы все равно будете некорректно сопоставлять "asset", когда ls_stripped просто ['set']. Правильное решение - добавить специальные \ A и \ Z к шаблону, но еще лучше - вообще не использовать re .
bukzor 28 авг. 2011, в 02:44
0

@bokzor: вы правы - специальные символы будут необходимы. Я не согласен с тем, что регулярные выражения категорически плохи, особенно когда они значительно упрощают код и сокращают шаблон.
twneale 28 авг. 2011, в 02:57
0

Файл на самом деле включает в себя цитаты?
Karl Knechtel 28 авг. 2011, в 04:29

Показать ещё 4 комментария

Теги:

python

regex

text-processing

8 ответов

1

Наверное, "плохо функционирующими" вы подразумеваете скорость мудрого? Потому что я тестировал и, похоже, работает.

Вы можете сделать вещи более эффективными, сделав set слов в файле2:

word_set = set(ls_stripped)

А затем вместо findall вы увидите, есть ли в наборе:

in_set = just_word in word_set

Также чувствует себя чище, чем регулярное выражение.

Owen 28 авг. 2011, в 00:49

0

Ну, код возвращает неправильный вывод из-за частичных совпадений регулярных выражений. Так что это «плохо функционирующая» часть. Подход regex был плохой идеей для начала ...
Renklauf 28 авг. 2011, в 18:21

1

Похоже, это может быть просто особый случай grep. Если file2 по существу является списком шаблонов, а выходной формат совпадает с файлом 1, то вы можете просто сделать это:

grep -wf file2 file1

-w сообщает grep, чтобы соответствовать только целым словам.

bukzor 28 авг. 2011, в 00:47

0

Если это работает, это заслуживает жирного голоса :)
twneale 28 авг. 2011, в 02:55
0

grep -f =(cat file2 | sed 's/$/\\b/' | sed 's/^/\\b/') file1 чтобы вы соответствовали целым словам.
Owen 28 авг. 2011, в 03:01
0

Это работает при условии, что (a) file2 не имеет нескольких слов в строке и (b) grep доступен в целевой системе.
Blair 28 авг. 2011, в 03:01
1

@Owen: grep -w делает это намного приятнее. Я обновил ответ.
bukzor 28 авг. 2011, в 03:07

Показать ещё 2 комментария

0

Пусть используется сходство формата файла с синтаксисом выражения Python:

from ast import literal_eval
with file("file1") as f:
  word_values = ast.literal_eval('{' + ','.join(line for line in f) + '}')
with file("file2") as f:
  expected_words = set(ast.literal_eval(line) for line in f)
word_values = {k: v for (k, v) in word_values if k in expected_words}

Karl Knechtel 28 авг. 2011, в 02:16

0

Работает красиво. Уже читаю на аст модуль.
Renklauf 28 авг. 2011, в 18:03

0

Вот как я это сделаю. У меня нет интерпретатора python, так что может быть пара опечаток.

Одна из главных вещей, которые вы должны помнить при приходе на Python (особенно, если исходить из Perl), состоит в том, что регулярные выражения обычно представляют собой плохую идею: строковые методы являются мощными и очень быстрыми.

def GetCounts(file1, file2):
    data = {}
    for line in open(file1):
        try:
            word, n = line.rsplit(':', 1)
        except ValueError: # not enough values
            #some kind of input error, go to next line
            continue
        n = int(n.strip())
        if word[0] == word[-1] == "'":
            word = word[1:-1]
        data[word] = n

    for line in open(file2):
        word = line.strip()
        if word[0] == word[-1] == "'":
            word = word[1:-1]
        if word in data:
            print word, data[word]

bukzor 28 авг. 2011, в 01:28

0

Вот что я придумал:

def GetCounts(file1, file2):
    target_contents  = open(file1).readlines()  #file 1 as list--> 'WORD': n
    match_me_contents = set(open(file2).read().split('\n'))   #file 2 as list -> 'WORD'  
    for line in target_contents:
        word = line.split(': ')[0]  #get the first item in line.split
        if " " not in word:
            number = line.split(': ')[1]   #get the number associated with the word
            if word in match_me_contents:  
                print word, number

Изменения в вашей версии:

Перемещено для задания из регулярного выражения
Пошел, чтобы разделить вместо readlines, чтобы избавиться от новых строк без дополнительной обработки
Изменилось разделение слова на слова и проверка того, является ли длина этого объекта простой проверкой, находится ли пробел непосредственно в "слове"
- Это может привести к ошибке, если "пространство" не является фактическим пространством. Это может быть исправлено с помощью регулярного выражения для "\ s" или эквивалента вместо этого, однако с ограничением производительности.
Добавлено пространство в line.split(':'), так что номер этого пути не будет иметь префикс пробела
- Это может привести к ошибке, если перед номером нет пробела.
Перемещенный number = line.split(': ')[1] после проверки, чтобы увидеть, содержит ли слово пробелы для целей эффективности, незначительно, хотя разница в скорости будет (почти наверняка основная часть времени будет потрачена проверка - это работа попал в цель)

Потенциальные ошибки будут возникать, однако, если фактический вход не в том формате, который вы представили.

Root Infinity 28 авг. 2011, в 00:32

0

Мои два входных файла:

file1.txt:

'WORD': 1
'MULTIPLE WORDS': 1
'OTHER': 2

file2.txt:

'WORD'
'NONEXISTENT'

Если file2.txt гарантированно не имеет нескольких слов в строке, тогда нет необходимости явно фильтровать их из первого файла. Это будет сделано с помощью теста на членство:

# Build a set of what words we can return a count for.
with open('file2.txt', 'r') as f:
    allowed_words = set(word.strip() for word in f)

# See which of them exist in the first file.
with open('file1.txt', 'r') as f:
    for line in f:
        word, count = line.strip().split(':')

        # This assumes that strings with a space (multiple words) do not exist in
        # the second file.
        if word in allowed_words:
            print word, count

И выполнение этого дает:

$ python extract.py
'WORD' 1

Если file2.txt может содержать несколько слов, просто измените тест в цикле:

# Build a set of what words we can return a count for.
with open('file2.txt', 'r') as f:
    allowed_words = set(word.strip() for word in f)

# See which of them exist in the first file.
with open('file1.txt', 'r') as f:
    for line in f:
        word, count = line.strip().split(':')

        # This prevents multiple words from being selected.
        if word in allowed_words and not ' ' in word:
            print word, count

Заметьте, я не потрудился лишить цитаты из слов. Я не уверен, что это необходимо - это зависит от того, гарантирован ли вход для них или нет. Было бы тривиально добавить их.

Что-то еще, что вам следует учитывать, это чувствительность к регистру. Если слова в нижнем и верхнем регистре следует рассматривать как одно и то же, тогда вы должны преобразовать все входные данные в верхний регистр (или в нижнем регистре, неважно, какой) до проведения любого тестирования.

EDIT: Вероятно, было бы более эффективно удалить несколько слов из набора допустимых слов, а не выполнять проверку в каждой строке file1:

# Build a set of what words we can return a count for.
with open('file2.txt', 'r') as f:
    allowed_words = set(word.strip() for word in f if not ' ' in f)

# See which of them exist in the first file.
with open('file1.txt', 'r') as f:
    for line in f:
        word, count = line.strip().split(':')

        # Check if the word is allowed.
        if word in allowed_words:
            print word, count

Blair 27 авг. 2011, в 23:59

0

import re, methodcaller

re_target = re.compile(r"^'([a-z]+)': +(\d+)", re.M|re.I)
match_me_contents = open(file2).read().splitlines()
match_me_contents = set(map(methodcaller('strip', "'"), match_me_contents))

res = []
for match in re_target.finditer(open(file1).read()):
    word, value = match.groups()
    if word in match_me_contents:
        res.append((word, value))

twneale 27 авг. 2011, в 23:57

Ещё вопросы

Нет, это была ошибка. Просто исправил это. Я по ошибке нажал "отправить" перед редактированием.
Пожалуйста, также предоставьте макет желаемого результата и отредактируйте свои данные, чтобы продемонстрировать описанную проблему.
Чтобы избежать «частичного совпадения с регулярным выражением», попробуйте выполнить обратную сортировку списка слов по длине: re.compile («|» .join (отсортировано (ls_stripped, reverse = True, key = len)))
twneale: это не помогает ... Вы все равно будете некорректно сопоставлять "asset", когда ls_stripped просто ['set']. Правильное решение - добавить специальные \ A и \ Z к шаблону, но еще лучше - вообще не использовать re .
@bokzor: вы правы - специальные символы будут необходимы. Я не согласен с тем, что регулярные выражения категорически плохи, особенно когда они значительно упрощают код и сокращают шаблон.
Файл на самом деле включает в себя цитаты?
Ну, код возвращает неправильный вывод из-за частичных совпадений регулярных выражений. Так что это «плохо функционирующая» часть. Подход regex был плохой идеей для начала ...
Если это работает, это заслуживает жирного голоса :)
grep -f =(cat file2 | sed 's/$/\\b/' | sed 's/^/\\b/') file1 чтобы вы соответствовали целым словам.
Это работает при условии, что (a) file2 не имеет нескольких слов в строке и (b) grep доступен в целевой системе.
@Owen: grep -w делает это намного приятнее. Я обновил ответ.
Работает красиво. Уже читаю на аст модуль.

ghostdog74 · Accepted Answer · 2011-08-28T00-52-00.000Z

2

Лучший ответ

Если file2 не является большим, залейте их в набор:

file2=set(open("file2").read().split())
for line in open("file1"):
    if line.split(":")[0].strip("'") in file2:
        print line

ghostdog74 28 авг. 2011, в 00:52

0

Лучше использовать набор, чем список здесь. он хорошо обрабатывает дубликаты, и вы можете проверять наличие «in» в постоянное (а не линейное) время.
bukzor 28 авг. 2011, в 02:52
0

Кроме того, поскольку split() разделяется на все пробелы, если file2 имеет строку с несколькими словами, это будет разбито на два (или более) отдельных слова.
Blair 28 авг. 2011, в 02:57
0

@bukzor, я предполагаю, что его file2 содержит только уникальные слова. В противном случае, да, набор лучше. @ Блэр, опять же, я рассматриваю только одно слово в его файле2, так как в его примерах нет особого упоминания, они содержат несколько слов. В противном случае, да, разделение на новые строки будет лучше.
ghostdog74 28 авг. 2011, в 03:03
0

@ ghostdog74: на самом деле это лучше, независимо от дубликатов. Вы можете проверить членство в наборе в постоянное время, но аналогичная проверка в списке будет увеличиваться с увеличением длины списка.
bukzor 28 авг. 2011, в 03:04
0

@Blair: на самом деле OP упоминает, что он особенно хочет сопоставлять только отдельные слова, а не фразы, поэтому split (), кажется, делает это хорошо.
bukzor 28 авг. 2011, в 03:05
0

@bukzor, позвольте мне спросить вас ... между таким набором: ( 5,8,9,3,4,1 ) и большим списком, подобным этому: [ 2,1,3,1,1,9,5 4,3,6,1,8] . Если нужно найти число «1», какой, по вашему мнению, Python будет искать быстрее с оператором «in»?
ghostdog74 28 авг. 2011, в 03:17
0

Я бы поверил в сет. Хеш Python int - это просто int, поэтому он почти эквивалентен поиску в массиве C. Но я также не был бы слишком удивлен, если бы список был быстрее в этом очень маленьком случае. Необходимо время.
bukzor 28 авг. 2011, в 03:24
0

@bukzor, это всего лишь пример. Может быть, не очень хороший, но допустим, что это слова вместо цифр. Список содержит дубликаты, как вы упомянули. Таким образом, число «1» в списке находится на 2-й позиции, а число в списке на последней позиции. Здесь мне любопытно, как будет вести себя оператор «in» (или Python) в ответ на поиск слова первым.
ghostdog74 28 авг. 2011, в 03:31
0

@ ghostdog74: в моем тестировании набор был на 50% быстрее, даже в этом маленьком случае. pastebin.com/S6ZhbsqW
bukzor 28 авг. 2011, в 03:32
0

@ ghostdog74 давайте продолжим эту дискуссию в чате
bukzor 28 авг. 2011, в 03:45
0

@bukzor: если одна из строк в file2 содержит строку 'multiple words' , то split() добавит отдельные слова 'multiple' и 'words' в набор. Это приведет к тому, что слово 'multiple' будет совпадать с file1 , даже если оно не существует само по себе в file1 file2 . В вопросе не указано, могут ли несколько слов встречаться в строке в file2 , но я думаю, что стоит отметить, что это может вызвать проблемы, если они это сделают.
Blair 28 авг. 2011, в 06:14
0

@ sghostdog74: Это хорошо справляется с работой. Спасибо за помощь!
Renklauf 28 авг. 2011, в 18:13

Показать ещё 10 комментариев