Расчет возраста живого человека против мертвого человека

Question

Расчет возраста живого человека против мертвого человека

1

РЕДАКТИРОВАТЬ:

Как кто-то предложил, я подготовил проверенный пример. Если вы выберете из него панды и просто поместите необработанные значения вместо значений dataframe, он отлично работает.

Если вы вернете в него панд, как я уже сказал ниже, программа запустится и вернет 0 для печати (true_age).

import pandas as pd
import numpy as np
from datetime import datetime

data = np.array([['','bornYear','bornMonth', 'bornDay','diedYear','diedMonth','diedDay'],
                ['Record1',1932,8,17,1980,3,22],
                ['Record2',1950,4,12,1980,3,22]])


df = pd.DataFrame(data=data[1:,1:],
                  index=data[1:,0],
                  columns=data[0,1:])

byear = int(df.iloc[1]['bornYear'])
bmonth = int(df.iloc[1]['bornMonth'])
bday = int(df.iloc[1]['bornDay'])
died_year = df.iloc[1]['diedYear']
died_month = df.iloc[1]['diedMonth']
died_day = df.iloc[1]['diedDay']
now_year = datetime.now().year
now_month = datetime.now().month
now_day = datetime.now().day
age_raw = now_year - byear
true_age = 0


if died_year is not None:
    died_year = int(died_year)
    died_month = int(died_month)
    died_day = int(died_day)

    age_raw = float(died_year) - float(byear)

    if bmonth > died_month:
        if bday > died_day:
            true_age = age_raw - 1
        elif bday < died_day:
            true_age = age_raw
    elif bmonth < died_month:
        true_age = age_raw

print(true_age)

ОРИГИНАЛЬНАЯ ПОЧТА:

Итак, у меня есть фрейм данных pandas, который является результатом запроса MySQL, который ищет имя пользователя и затем возвращает некоторую информацию о них. Одной из таких сведений является их возраст. В таблице представлены как живые, так и умершие люди. Я пытаюсь сделать так, чтобы, если человек умер, он использует свой фактический возраст (в момент смерти), а не то, что их возраст будет, если они еще живы. Если они все еще живы, поля для даты смерти пусты; если они мертвы, эти области, конечно, имеют ценности. Вот соответствующие переменные, которые я объявил:

bmonth = int(storage.iloc[0]['birthMonth'])
bday = int(storage.iloc[0]['birthDay'])
byear = int(storage.iloc[0]['birthYear'])
died_year = storage.iloc[0]['deathYear']
died_month = storage.iloc[0]['deathMonth']
died_day = storage.iloc[0]['deathDay']
now_year = datetime.now().year
now_month = datetime.now().month
now_day = datetime.now().day
age_raw = now_year - byear
true_age = 0

Теперь у меня это разработано как вложенные операторы if, но я где-то ошибся. Если человек жив, все работает правильно; когда я печатаю возраст, он выводит правильный возраст. Если человек умер, однако, печатный возраст всегда равен нулю. Вот вложенные операторы if, а также соответствующий оператор печати:

#Here are the nested if statements:

    if died_year is None:   

            if bmonth > now_month:
                    if bday > now_day:
                            true_age = age_raw - 1
                    elif bday < now_day:
                            true_age = age_raw
            elif bmonth < now_month:

                    true_age = age_raw

    elif died_year is not None:

            died_year = int(died_year)
            died_month = int(died_month)
            died_day = int(died_day)

            age_raw = died_year - byear

            if bmonth > died_month:
                    if bday > died_day:
                            true_age = age_raw - 1
                    elif bday < died_day:
                            true_age = age_raw
            elif bmonth < died_month:
                    true_age = age_raw

#And now the print statement:

print("DOB: "+str(bmonth)+"/"+str(bday)+"/"+str(byear)+" ("+str(true_age)+" years old)")

Кроме того, у меня есть следующее место, так что дата смерти возвращается на выходе, если человек умер. Он работает нормально и возвращает правильную дату, поэтому я знаю, что все значения верны:

    if died_year is not None:
            print("*DECEASED: "+str(died_month)+"/"+str(died_day)+"/"+str(died_year))

Обратите внимание, что я не преобразовал переменные die_year, died_month и die_day в целые числа до тех пор, пока не будут выполнены соответствующие условия; выполнение этого вне оператора if вызвало бы ошибку, поскольку нулевые значения не могут быть переданы как int(). Я чувствую, что мне не хватает чего-то сверх очевидного здесь, но, возможно, нет. Кроме того, если у кого-то есть лучший способ сделать все это, я всегда буду учиться тому, как быть более эффективным.

adrysdale 23 авг. 2018, в 21:23

Источник

1

Как вы думаете, вы можете привести минимальный воспроизводимый пример ?
rafaelc 23 авг. 2018, в 19:11
2

Похоже, вы можете сделать это с помощью DataFrame.loc и избежать циклов. Преобразование даты в datetime сделает вычитание очень простым.
ALollz 23 авг. 2018, в 19:13
1

Я согласен с ALollz и также добавлю, что логическое значение для того, является ли человек умершим, возможно, будет удобным.
Alessi 42 23 авг. 2018, в 19:17
0

Чтобы расширить то, что сказал @ Alessi42, я бы посоветовал вам проверить, что died_year - это то, что вы ожидаете. Попробуйте print died_year и убедиться, что он ложный.
Nathan Hinchey 23 авг. 2018, в 19:20
0

ValueError: invalid literal for int() with base 10: '' что и следовало ожидать.
Goyo 23 авг. 2018, в 20:41
0

Теперь он печатает 30.0 .
Goyo 23 авг. 2018, в 20:43
0

@Goyo Он не печатал 30 для меня, пока я не обернул все переменные "dead_" с помощью int () внутри оператора if. Затем я перешел к действующему производственному коду и попробовал это исправление, и оно ничего не изменило.
adrysdale 23 авг. 2018, в 20:54
0

@NathanHinchey выводит значение «dead_year» как в примере, так и в рабочем коде.
adrysdale 23 авг. 2018, в 20:55
0

@adrysdale Тогда ваш код не является минимальным воспроизводимым примером . Ваш производственный код делает что-то другое или обрабатывает разные данные или и то, и другое.
Goyo 23 авг. 2018, в 21:07
0

@ Гойо, ты прав, но я не узнал об этом, пока не отправил сообщение. Все еще не уверен, что было несоответствие, но нижеприведенное решение сработало, так что я пока что покрыт.
adrysdale 23 авг. 2018, в 23:36

Показать ещё 8 комментариев

Теги:

python

pandas

python-3.x

3 ответа

0

Отредактировано для минимального примера совместимости

Вы можете определить функцию, которая вычисляет возраст человека:

from datetime import date 


def calc_age(row):
    bm = row['bornMonth']
    bd = row['bornDay']
    by = row['bornYear']

    dm = row['diedMonth']
    dd = row['diedDay']
    dy = row['diedYear']

    birth_date = date(*[int(i) for i in (by, bm, bd)])  # suppose that all the parameters is not None
    try:
        end_date = date(*[int(i) for i in (dy, dm, dd)])
    except (TypeError, ValueError):  # if death date is None
        end_date = date.today()

    # is birth date after death date or today; if True == 1, else == 0
    is_next_year = ((end_date.month, end_date.day) < (birth_date.month, birth_date.day))
    age = end_date.year - birth_date.year - is_next_year 
    return age

Примените эту функцию к кадру данных по строкам:

df.apply(calc_age, axis=1)

и он возвращает pd.Series с возрастом для всех лиц в годах, если нет пропущенных данных. Вы можете связать его с вашим фреймворком данных:

df['personsAge'] = df.apply(calc_age, axis=1)

Затем добавьте еще один столбец со статусом и результатами печати:

def is_dead(row):
    dm = row['diedMonth']
    dd = row['diedDay']
    dy = row['diedYear']
    try:
        died = date(*[int(i) for i in (dy, dm, dd)])
        return True
    except ValueError:
        return False

df['is_dead'] = df.apply(is_dead, axis=1)

def print_status(row):
    bm = row['bornMonth']
    bd = row['bornDay']
    by = row['bornYear']

    dm = row['diedMonth']
    dd = row['diedDay']
    dy = row['diedYear']
    age = row['personsAge']

    print("DOB: "+str(bm)+"/"+str(bd)+"/"+str(by)+" ("+str(age)+" years old)")
    if row['is_dead']:
        print("*DECEASED: "+str(dm)+"/"+str(dd)+"/"+str(dy))

df.apply(print_status, axis=1)

stdout:
DOB: 8/17/1932 (47 years old)
*DECEASED: 3/22/1980
DOB: 4/12/1950 (68 years old)

Если вам не нравится выбор даты копирования и вставки, замените его на подход datetime из решения Андрея Портного.

Mikhail Stepanov 23 авг. 2018, в 18:09

0

Его гораздо проще преобразовать каждое из этих значений в объекты datetime, а затем выполнить фильтрацию if/elif.

import datetime
bmonth = int(storage.iloc[0]['birthMonth'])
bday = int(storage.iloc[0]['birthDay'])
byear = int(storage.iloc[0]['birthYear'])

died_year = storage.iloc[0]['deathYear']
died_month = storage.iloc[0]['deathMonth']
died_day = storage.iloc[0]['deathDay']

start = datetime.datetime(month = bmonth, day=bday, year=byear)
end =  datetime.datetime(month=died_month, day=died_day, year=died_year)
(start-end).days#returns the difference between the days

Вы можете также datetime.now() значение datetime.now().

Надеюсь, что это поможет, это поможет сделать ваш поток лучше.

hpca01 23 авг. 2018, в 17:16

Ещё вопросы

Как вы думаете, вы можете привести минимальный воспроизводимый пример ?
Похоже, вы можете сделать это с помощью DataFrame.loc и избежать циклов. Преобразование даты в datetime сделает вычитание очень простым.
Я согласен с ALollz и также добавлю, что логическое значение для того, является ли человек умершим, возможно, будет удобным.
Чтобы расширить то, что сказал @ Alessi42, я бы посоветовал вам проверить, что died_year - это то, что вы ожидаете. Попробуйте print died_year и убедиться, что он ложный.
ValueError: invalid literal for int() with base 10: '' что и следовало ожидать.
@Goyo Он не печатал 30 для меня, пока я не обернул все переменные "dead_" с помощью int () внутри оператора if. Затем я перешел к действующему производственному коду и попробовал это исправление, и оно ничего не изменило.
@NathanHinchey выводит значение «dead_year» как в примере, так и в рабочем коде.
@adrysdale Тогда ваш код не является минимальным воспроизводимым примером . Ваш производственный код делает что-то другое или обрабатывает разные данные или и то, и другое.
@ Гойо, ты прав, но я не узнал об этом, пока не отправил сообщение. Все еще не уверен, что было несоответствие, но нижеприведенное решение сработало, так что я пока что покрыт.

Andrey Portnoy · Accepted Answer · 2018-08-23T17-49-00.000Z

Pandas имеет фантастическую поддержку временных рядов, поэтому неплохо использовать соответствующие инструменты. После преобразования наших столбцов в один столбец Datetime мы можем выполнить арифметику времени на нем:

# demo dataframe
df = pd.DataFrame({
    'birthMonth': [5, 2],
    'birthDay': [4, 24],
    'birthYear': [1924, 1997],
    'deathMonth': [3, None],
    'deathDay': [1, None],
    'deathYear': [2008, None]
})

# convert birth dates to datetimes
birth = pd.to_datetime(df[['birthMonth', 'birthDay', 'birthYear']]
                       .rename(columns={'birthMonth': 'month', 'birthDay': 'day', 'birthYear': 'year'}))
# convert death dates to datetimes
death = pd.to_datetime(df[['deathMonth', 'deathDay', 'deathYear']]
                       .rename(columns={'deathMonth':'month', 'deathDay': 'day', 'deathYear': 'year'}))

# calculate age in days, normalizing 'now' to midnight of today
age = (pd.Timestamp.now().normalize() - birth).where(death.isnull(), other=death-birth)

Изменить: см. Обсуждение @ALollz ниже относительно нормализации метрики.

Хорошее решение. +1. Вы можете рассмотреть возможность использования pd.Timestamp.now().normalize() таким образом, чтобы живые люди имели часть времени 00: 00; 00, поскольку такой информации для умершего нет.
Это похоже на твердое решение, я собираюсь проверить его и посмотреть, что произойдет.
Это сработало исключительно хорошо. Используя ваше решение, я взял «age» и добавил к нему атрибут dt.days, разделил его на 365.2422, а затем вывел его как целое число. Задача решена. Спасибо!
@ALollz Отличное предложение, не думал об этом. Без этого приведенный выше код выдает разные результаты в разное время дня.
@adrysdale Еще одна вещь, которую вы можете сделать, чтобы преобразовать в годы, это age.astype('timedelta64[Y]')
Я реализовал предложение ALollz с самого начала, я рад, что он упомянул об этом. Что касается .astype (), я попробовал это изначально, но он выдал ошибку, когда впоследствии попытался преобразовать в целое число, что мне нужно было сделать.