Python: извлечение чисел из строки

Question

Python: извлечение чисел из строки

298

Я извлечу все числа, содержащиеся в строке. Что лучше подходит для этой цели, регулярные выражения или метод isdigit()?

Пример:

line = "hello 12 hi 89"

Результат:

[12, 89]

pablouche 26 нояб. 2010, в 22:39

Источник

7

Как бы здесь помогли isinstance ? type("12") - str .
user395760 27 нояб. 2010, в 00:05

Теги:

python

string

regex

numbers

13 ответов

340

Я бы использовал regexp:

>>> import re
>>> re.findall(r'\d+', 'hello 42 I\'m a 32 string 30')
['42', '32', '30']

Это также соответствует 42 из bla42bla. Если вам нужны только числа, ограниченные границами слов (пробел, период, запятая), вы можете использовать \b:

>>> re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string 30')
['42', '32', '30']

В итоге получится список чисел вместо списка строк:

>>> [int(s) for s in re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string 30')]
[42, 32, 30]

Vincent Savard 27 нояб. 2010, в 01:33

9

... а затем int на карту int и все готово. +1 особенно для последней части. Я бы предложил исходные строки ( r'\b\d+\b' == '\\b\\d+\\b' ).
user395760 27 нояб. 2010, в 00:06
5

Его можно поместить в список с генератором, например: int_list = [int(s) for s in re.findall('\\d+', 'hello 12 hi 89')]
GreenMatt 27 нояб. 2010, в 00:19
7

@GreenMatt: технически это понимание списка (а не генератор), но я бы согласился, что понимания / генераторы более Pythonic, чем map .
Seth Johnson 27 нояб. 2010, в 01:23
0

Спасибо, это работает !
pablouche 27 нояб. 2010, в 07:53
1

@ Сид Джонсон: Ой! Вы правы, я опечатка в том, что было, по-видимому, в туманном состоянии ума. :-( Спасибо за исправление!
GreenMatt 28 нояб. 2010, в 14:57
1

мне больше нравится этот ответ: простой и надежный
Quetzalcoatl 06 апр. 2015, в 00:52
0

@delnan - Если у вас есть подобное предложение, отредактируйте его в ответ ... не оставляйте его как комментарий, который люди могут или не могут заметить.
ArtOfWarfare 05 янв. 2016, в 17:57
0

re.findall (r '\ d +', 'привет 42, я 32 строка 30') дает мне числа в списке, а не строки.
denson 07 сен. 2016, в 02:44
0

Или используйте map для преобразования строк в целые числа, как в map(int, re.findall(r'\b\d+\b', 'he33llo 42 I\'ma 32 string 30'))
David Arenburg 04 сен. 2017, в 11:40
0

У меня проблема, хотя. Что делать, если я хочу извлечь числа с плавающей точкой, такие как 1.45 в "hello1.45 hi". Это даст мне 1 и 45 как два разных числа
ab123 24 май 2018, в 05:17

Показать ещё 8 комментариев

74

Это более чем поздно, но вы можете расширить выражение регулярного выражения, чтобы учесть и научную нотацию.

import re

# Format is [(<string>, <expected output>), ...]
ss = [("apple-12.34 ba33na fanc-14.23e-2yapple+45e5+67.56E+3",
       ['-12.34', '33', '-14.23e-2', '+45e5', '+67.56E+3']),
      ('hello X42 I\'m a Y-32.35 string Z30',
       ['42', '-32.35', '30']),
      ('he33llo 42 I\'m a 32 string -30', 
       ['33', '42', '32', '-30']),
      ('h3110 23 cat 444.4 rabbit 11 2 dog', 
       ['3110', '23', '444.4', '11', '2']),
      ('hello 12 hi 89', 
       ['12', '89']),
      ('4', 
       ['4']),
      ('I like 74,600 commas not,500', 
       ['74,600', '500']),
      ('I like bad math 1+2=.001', 
       ['1', '+2', '.001'])]

for s, r in ss:
    rr = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", s)
    if rr == r:
        print('GOOD')
    else:
        print('WRONG', rr, 'should be', r)

Дает все хорошо!

Кроме того, вы можете ознакомиться со встроенным регулярным выражением AWS Glue.

aidan.plenert.macdonald 11 апр. 2015, в 18:13

1

Поскольку это единственный ответ, который кому-либо нравится, вот как это сделать с помощью научной нотации "[- +]? \ D + [\.]? \ D * [Ee]? \ D *". Или какой-то вариант. Повеселись!
aidan.plenert.macdonald 06 нояб. 2015, в 15:12
0

Найти есть проблема с простейшим случаем, например, s = "4" возвращает совпадений. Можно ли отредактировать, чтобы позаботиться об этом?
batFINGER 10 окт. 2016, в 13:03
0

@balFINGER Я исправил это.
aidan.plenert.macdonald 10 окт. 2016, в 17:23
1

хорошо, но он не обрабатывает запятые (например, 74 600)
yekta 11 окт. 2016, в 14:54
0

Более подробной группой является [+-]?\d*[\.]?\d*(?:(?:[eE])[+-]?\d+)? Эта группа дает некоторые ложные срабатывания (то есть + иногда фиксируется сама собой), но может обрабатывать больше форм, например .001 , плюс она не объединяет числа автоматически (как в s=2+1 )
DavisDude 16 март 2017, в 16:34
0

@yekta Исправил это для вас.
aidan.plenert.macdonald 10 авг. 2017, в 19:33
0

@DavisDude Вроде исправили это для вас. "1 + 2" -> ['1', '+2'], но этого должно быть достаточно для большинства применений
aidan.plenert.macdonald 10 авг. 2017, в 19:38
12

Ах да, очевидное [-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)? - так глупо с моей стороны ... как я мог не думать об этом?
Przemek D 04 окт. 2017, в 11:52

Показать ещё 6 комментариев

60

Я предполагаю, что вы хотите плавать не только целыми числами, поэтому я бы сделал что-то вроде этого:

l = []
for t in s.split():
    try:
        l.append(float(t))
    except ValueError:
        pass

Обратите внимание, что некоторые другие решения, размещенные здесь, не работают с отрицательными номерами:

>>> re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string -30')
['42', '32', '30']

>>> '-3'.isdigit()
False

jmnas 27 нояб. 2010, в 02:05

0

Это находит положительные и отрицательные числа с плавающей запятой и целые числа. Для только положительных и отрицательных целых чисел измените float на int .
Hugo 02 июнь 2015, в 12:34
3

Для отрицательных чисел: re.findall("[-\d]+", "1 -2")
ytpillai 15 сен. 2015, в 19:03
0

Имеет ли какое-то значение, если мы пишем continue вместо pass в цикле?
D. Jones 15 авг. 2016, в 10:48
0

Это ловит больше, чем просто положительные целые числа, но использование split () пропустит числа с символами валюты, предшествующими первой цифре без пробела, что часто встречается в финансовых документах.
Marc Maxmeister 02 июнь 2017, в 13:12
0

Не работает для чисел с плавающей запятой, в которых нет пробелов с другими символами, например: «4.5 k вещи» будут работать, «4.5k вещи» не будет.
Jay D. 21 июнь 2018, в 18:01

Показать ещё 3 комментария

46

Если вы знаете, что в строке будет только одно число, то есть "привет 12 привет", вы можете попробовать фильтр.

Например:

In [1]: int(''.join(filter(str.isdigit, '200 grams')))
Out[1]: 200
In [2]: int(''.join(filter(str.isdigit, 'Counters: 55')))
Out[2]: 55
In [3]: int(''.join(filter(str.isdigit, 'more than 23 times')))
Out[3]: 23

Но будь осторожен !!! :

In [4]: int(''.join(filter(str.isdigit, '200 grams 5')))
Out[4]: 2005

dfostic 05 апр. 2016, в 19:20

9

В Python 3.6.3 я получил TypeError: int() argument must be a string, a bytes-like object or a number, not 'filter' - исправляя его с помощью int("".join(filter(str.isdigit, '200 grams')))
Kent Munthe Caspersen 09 апр. 2018, в 08:56

7

# extract numbers from garbage string:
s = '12//n,_@#$%3.14kjlw0xdadfackvj1.6e-19&*ghn334'
newstr = ''.join((ch if ch in '0123456789.-e' else ' ') for ch in s)
listOfNumbers = [float(i) for i in newstr.split()]
print(listOfNumbers)
[12.0, 3.14, 0.0, 1.6e-19, 334.0]

AndreiS 29 март 2018, в 14:51

1

Добро пожаловать в ТАК и спасибо за размещение ответа. Хорошей практикой всегда является добавление некоторых дополнительных комментариев к вашему ответу и почему оно решает проблему, а не просто публикация фрагмента кода.
sebs 29 март 2018, в 13:48
0

не работал в моем случае. не сильно отличается от ответа выше
Anthony 06 июль 2018, в 03:43

7

В этом ответе также содержится случай, когда число с плавающей точкой в строке

def get_first_nbr_from_str(input_str):
    '''
    :param input_str: strings that contains digit and words
    :return: the number extracted from the input_str
    demo:
    'ab324.23.123xyz': 324.23
    '.5abc44': 0.5
    '''
    if not input_str and not isinstance(input_str, str):
        return 0
    out_number = ''
    for ele in input_str:
        if (ele == '.' and '.' not in out_number) or ele.isdigit():
            out_number += ele
        elif out_number:
            break
    return float(out_number)

Menglong Li 03 фев. 2016, в 09:49

5

Я искал решение для удаления строковых масок, особенно с бразильских телефонных номеров, этот пост не ответил, но вдохновил меня. Это мое решение:

>>> phone_number = '+55(11)8715-9877'
>>> ''.join([n for n in phone_number if n.isdigit()])
'551187159877'

Sidon 12 июль 2018, в 20:13

5

Я поражен, увидев, что никто еще не упомянул использование itertools.groupby в качестве альтернативы для достижения этой цели.

Вы можете использовать itertools.groupby() вместе с str.isdigit() для извлечения чисел из строки как:

from itertools import groupby
my_str = "hello 12 hi 89"

l = [int(''.join(i)) for is_digit, i in groupby(my_str, str.isdigit) if is_digit]

Значение, удерживаемое l будет:

[12, 89]

PS: Это просто для иллюстрации, чтобы показать, что в качестве альтернативы мы могли бы также использовать groupby для достижения этой цели. Но это не рекомендуемое решение. Если вы хотите добиться этого, вы должны использовать принятый ответ fmark, основанный на использовании понимания списка с str.isdigit качестве фильтра.

Moinuddin Quadri 16 янв. 2017, в 21:29

2

Поскольку ни один из них не занимался финансовыми цифрами реального мира в документах Excel и Word, которые мне нужно было найти, вот моя вариация. Он обрабатывает ints, float, отрицательные числа, номера валют (потому что он не отвечает на split), и имеет возможность отбрасывать десятичную часть и просто возвращать ints или возвращать все.

Он также обрабатывает систему чисел индийских лаков, где запятые появляются нерегулярно, а не каждые 3 числа друг от друга.

Он не обрабатывает научную нотацию или отрицательные числа, помещенные в круглые скобки в бюджетах, - будет казаться положительным.

Он также не выделяет даты. Есть лучшие способы поиска дат в строках.

import re
def find_numbers(string, ints=True):            
    numexp = re.compile(r'[-]?\d[\d,]*[\.]?[\d{2}]*') #optional - in front
    numbers = numexp.findall(string)    
    numbers = [x.replace(',','') for x in numbers]
    if ints is True:
        return [int(x.replace(',','').split('.')[0]) for x in numbers]            
    else:
        return numbers

Marc Maxmeister 02 июнь 2017, в 15:22

1

Использование Regex ниже - это способ

lines = "hello 12 hi 89"
import re
output = []
line = lines.split()
for word in line:
        match = re.search(r'\d+.?\d*', word)
        if match:
            output.append(float(match.group()))
print (output)

user1464878 16 авг. 2018, в 07:12

1

@jmnas, мне понравился ваш ответ, но он не нашел поплавков. Я работаю над script для анализа кода, идущего на станцию с ЧПУ, и ему нужно найти как размеры X, так и Y, которые могут быть целыми числами или плавать, поэтому я адаптировал ваш код к следующему. Это находит int, float с положительными и отрицательными vals. Все еще не находит шестнадцатеричные форматированные значения, но вы можете добавить "x" и "A" через "F" в кортеж num_char, и я думаю, что он будет анализировать такие вещи, как "0x23AC".

s = 'hello X42 I\'m a Y-32.35 string Z30'
xy = ("X", "Y")
num_char = (".", "+", "-")

l = []

tokens = s.split()
for token in tokens:

    if token.startswith(xy):
        num = ""
        for char in token:
            # print(char)
            if char.isdigit() or (char in num_char):
                num = num + char

        try:
            l.append(float(num))
        except ValueError:
            pass

print(l)

ZacSketches 15 нояб. 2014, в 23:49

0

Лучший вариант, который я нашел, ниже. Он будет извлекать число и может устранить любой тип char.

def extract_nbr(input_str):
    if input_str is None or input_str == '':
        return 0

    out_number = ''
    for ele in input_str:
        if ele.isdigit():
            out_number += ele
    return float(out_number)

Ajay Kumar 11 авг. 2015, в 17:10

Ещё вопросы

Как бы здесь помогли isinstance ? type("12") - str .
... а затем int на карту int и все готово. +1 особенно для последней части. Я бы предложил исходные строки ( r'\b\d+\b' == '\\b\\d+\\b' ).
Его можно поместить в список с генератором, например: int_list = [int(s) for s in re.findall('\\d+', 'hello 12 hi 89')]
@GreenMatt: технически это понимание списка (а не генератор), но я бы согласился, что понимания / генераторы более Pythonic, чем map .
@ Сид Джонсон: Ой! Вы правы, я опечатка в том, что было, по-видимому, в туманном состоянии ума. :-( Спасибо за исправление!
мне больше нравится этот ответ: простой и надежный
@delnan - Если у вас есть подобное предложение, отредактируйте его в ответ ... не оставляйте его как комментарий, который люди могут или не могут заметить.
re.findall (r '\ d +', 'привет 42, я 32 строка 30') дает мне числа в списке, а не строки.
Или используйте map для преобразования строк в целые числа, как в map(int, re.findall(r'\b\d+\b', 'he33llo 42 I\'ma 32 string 30'))
У меня проблема, хотя. Что делать, если я хочу извлечь числа с плавающей точкой, такие как 1.45 в "hello1.45 hi". Это даст мне 1 и 45 как два разных числа
Поскольку это единственный ответ, который кому-либо нравится, вот как это сделать с помощью научной нотации "[- +]? \ D + [\.]? \ D * [Ee]? \ D *". Или какой-то вариант. Повеселись!
Найти есть проблема с простейшим случаем, например, s = "4" возвращает совпадений. Можно ли отредактировать, чтобы позаботиться об этом?
хорошо, но он не обрабатывает запятые (например, 74 600)
Более подробной группой является [+-]?\d*[\.]?\d*(?:(?:[eE])[+-]?\d+)? Эта группа дает некоторые ложные срабатывания (то есть + иногда фиксируется сама собой), но может обрабатывать больше форм, например .001 , плюс она не объединяет числа автоматически (как в s=2+1 )
@DavisDude Вроде исправили это для вас. "1 + 2" -> ['1', '+2'], но этого должно быть достаточно для большинства применений
Ах да, очевидное [-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)? - так глупо с моей стороны ... как я мог не думать об этом?
Это находит положительные и отрицательные числа с плавающей запятой и целые числа. Для только положительных и отрицательных целых чисел измените float на int .
Для отрицательных чисел: re.findall("[-\d]+", "1 -2")
Имеет ли какое-то значение, если мы пишем continue вместо pass в цикле?
Это ловит больше, чем просто положительные целые числа, но использование split () пропустит числа с символами валюты, предшествующими первой цифре без пробела, что часто встречается в финансовых документах.
Не работает для чисел с плавающей запятой, в которых нет пробелов с другими символами, например: «4.5 k вещи» будут работать, «4.5k вещи» не будет.
В Python 3.6.3 я получил TypeError: int() argument must be a string, a bytes-like object or a number, not 'filter' - исправляя его с помощью int("".join(filter(str.isdigit, '200 grams')))
Добро пожаловать в ТАК и спасибо за размещение ответа. Хорошей практикой всегда является добавление некоторых дополнительных комментариев к вашему ответу и почему оно решает проблему, а не просто публикация фрагмента кода.
не работал в моем случае. не сильно отличается от ответа выше

fmark · Accepted Answer · 2010-11-27T02-54-00.000Z

372

Лучший ответ

Если вы хотите извлечь только целые положительные числа, попробуйте следующее:

>>> str = "h3110 23 cat 444.4 rabbit 11 2 dog"
>>> [int(s) for s in str.split() if s.isdigit()]
[23, 11, 2]

Я бы сказал, что это лучше, чем пример регулярного выражения по трем причинам. Во-первых, вам не нужен другой модуль; во-вторых, это более читаемо, потому что вам не нужно разбирать мини-язык регулярных выражений; и, в-третьих, он быстрее (и, следовательно, скорее, более питонический):

python -m timeit -s "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "[s for s in str.split() if s.isdigit()]"
100 loops, best of 3: 2.84 msec per loop

python -m timeit -s "import re" "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "re.findall('\\b\\d+\\b', str)"
100 loops, best of 3: 5.66 msec per loop

Это не будет распознавать поплавки, отрицательные целые числа или целые числа в шестнадцатеричном формате. Если вы не можете принять эти ограничения, тонкий ответ ниже будет делать трюк.

fmark 27 нояб. 2010, в 02:54

10

Очиститель: [int(s) for s in str.split() if s.isdigit()] ==> [23, 11, 2]
Chris Morgan 27 нояб. 2010, в 01:48
0

@ Крис Морган Правда. Не сравнение яблок с яблоками, хотя с регулярным выражением. Я изменил ответ, но не время.
fmark 27 нояб. 2010, в 02:25
0

Спасибо. Оно работает !
pablouche 27 нояб. 2010, в 07:54
4

это не удастся для случая, как "h3110 23 cat 444.4 кролик 11-2 собака"
sharafjaffri 04 дек. 2013, в 08:15
7

Нормативный случай использует re . Это общий и мощный инструмент (поэтому вы узнаете что-то очень полезное). Скорость несколько не имеет значения при разборе журнала (это не какой-то интенсивный числовой решатель в конце концов), модуль re находится в стандартной библиотеке Python, и его загрузка не помешает.
Ioannis Filippidis 22 апр. 2014, в 07:27
0

Замените int(s) на int(s.replace(',', '')) и s.isdigit() на s[0].isdigit() и он будет обрабатывать числа, даже если у них запятая в виде тысяч разделитель в нем. У этого недостатка есть недостаток, что он не работает на 444.4 в вашем примере, но если вы пытаетесь обработать такой сложный ввод, возможно, вам лучше использовать выделенную функцию, а не однострочный.
ArtOfWarfare 13 фев. 2015, в 18:23
14

У меня были строки вроде mumblejumble45mumblejumble в которых я знал, что был только один номер. Решение - просто int(filter(str.isdigit, your_string)) .
Jonas Lindeløv 20 авг. 2015, в 09:57
1

Небольшой комментарий: вы определяете переменную str которая затем переопределяет объект и метод str в базовом python. Это не очень хорошая практика, так как она может понадобиться вам позже в сценарии.
Jonas Lindeløv 20 авг. 2015, в 09:58
0

Оба python2 (2.7.10) и python3 (3.4.2) почти на два порядка быстрее , здесь делают на re версию. С какой версией python вы делали эти тесты ?!
Karl P 12 июль 2016, в 16:12
0

@Jonas, что ты имел в виду под «я знал, что был только один номер»? Предлагаемое вами решение также работает для ситуации с более чем одним числом в строке, например, 'plant_16_day_9_hour_9_label_fmp.png' , дает: 1699. или я мог что-то упустить?
Gathide 19 нояб. 2016, в 08:52
1

@ Gathide, если это твое желаемое поведение, то идеально. Но это не обязательно, и это не будет вызывать предупреждение. Я вижу, что dfostic позже опубликовал полный ответ с этой стратегией, также подчеркнув это поведение предупреждением.
Jonas Lindeløv 20 нояб. 2016, в 20:42
9

int(filter(...)) вызовет TypeError: int() argument must be a string... для Python 3.5, поэтому вы можете использовать обновленную версию: int(''.join(filter(str.isdigit, your_string))) для извлечения всех цифр в одно целое число.
Mark Mishyn 21 март 2017, в 07:51
0

не работает: `` `>>> str = 'issue_date [200]' >>> [int (s) для s в str.split (), если s.isdigit ()] []` ``
Julio Marins 26 апр. 2017, в 23:19
0

«Мне 18, но я не могу водить» не работает из-за. Не работает во многих угловых случаях.
thang 22 июнь 2017, в 22:01
0

Я запускаю ваш тест и python -m timeit -s "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "[s for s in str.split() if s.isdigit()]" 1000 loops, best of 3: 595 usec per loop совершенно другой результат: python -m timeit -s "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "[s for s in str.split() if s.isdigit()]" 1000 loops, best of 3: 595 usec per loop и python -m timeit -s "import re" "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "re.findall('\\b\\d+\\b', str)" 100000 loops, best of 3: 12 usec per loop
d21d3q 27 июль 2017, в 10:50
0

у меня тоже не работает ...
Anthony 06 июль 2018, в 03:40
0

Это хорошо, но для случаев, когда число НЕ окружено пробелами, решение (возможно, с использованием filter(str.isdigit, string) ) становится слишком сложным. Самый гладкий путь на сегодняшний день был бы регулярным выражением. Regex должен быть частью арсенала каждого разработчика. Они пугающие, но их легко понять; избегать их слишком контрпродуктивно. И путь Pythonic не был бы самым быстрым, он был бы самым чистым и самым понятным.
Agustín Lado 15 авг. 2018, в 15:56
0

Это не позаботится, если после числа «220 me xynz 345, 44 k» есть запятая
KeshV 27 окт. 2018, в 02:22
0

Что, если я хочу найти индексы цифр в строке?
HackersInside 22 фев. 2019, в 10:08
0

Вариант Джонаса Линделова в комментариях выше, чтобы получить только первое firstNumberWord = next(filter(str.isdigit, myString.split())) слово: firstNumberWord = next(filter(str.isdigit, myString.split())) (В моем случае это была строка, подобная предложению, поэтому .split() разделяет его на слова)
R. Navega 19 март 2019, в 04:11

Показать ещё 18 комментариев