1. Авторский тег:
\author{{\small Tanya Araujo$^{a,b}$ and Elsa Fontainha$^{a}$} \and {\small $^{a}$ISEG
(Lisbon School of Economics \& Management) Universidade de Lisboa, } \and
{\small Rua do Quelhas, 6 1200-781 Lisboa Portugal} \and {\small $^{b}$Research
Unit on Complexity and Economics (UECE)} \and {\small Rua Miguel Lupi, 20
1249-078 Lisboa Portugal}}
\author{{\bf R. Vilela Mendes} \and {\small Grupo de Fisica Matematica, Av.
Gama Pinto 2,} \and {\small \ 1699 Lisboa Codex, Portugal
([email protected])} \and {\bf Tanya Araujo and Francisco Lou\cc\a%
} \and {\small Departamento de Economia, ISEG,} \and {\small R. Miguel Lupi
20, 1200 Lisboa, Portugal} \and {\small ([email protected],
[email protected])}}
2. Удалены специальные символы, другие теги, электронные письма и номера:
Таня Арауджо и Эльза Фонтейна ISEG Лиссабонская школа экономики и менеджмента Universidade de Lisboa, Rua do Quelhas, - Лиссабонская группа по изучению сложности и экономики Португалии Rua Miguel Lupi, - Lisboa Portugal
R. Vilela Mendes Grupo de Fisica Matematica, Av. Гама Пинто, Лиссабонский кодекс, Португалия Таня Арауджо и Франциско Лу Департамент экономики, ISEG, Р. Мигель Лупи, Лиссабон, Португалия,
3. Желаемый результат: извлекать только имена и удалять имена университетов или имена мест. Пытался использовать NER из NLTK, но он признает Universidade и Lisboa как PERSON и т.д.
(PERSON Tanya/NNP)
(PERSON Araujo/NNP)
and/CC
(PERSON Elsa/NNP Fontainha/NNP)
ISEG/NNP
(/(
(ORGANIZATION Lisbon/NNP School/NNP)
of/IN
(ORGANIZATION Economics/NNP)
&/CC
Management/NNP
)/)
(PERSON Universidade/NNP)
de/FW
(PERSON Lisboa/NNP)
,/,
(PERSON Rua/NNP)
do/VBP
(PERSON Quelhas/NNP)
,/,
-/:
(PERSON Lisboa/NNP Portugal/NNP Research/NNP Unit/NNP)
on/IN
(ORGANIZATION Complexity/NNP)
and/CC
(GPE Economics/NNP)
(/(
(ORGANIZATION UECE/NNP)
)/)
(PERSON Rua/NNP Miguel/NNP Lupi/NNP)
,/,
-/:
(PERSON Lisboa/NNP Portugal/NNP Alessandro/NNP Spelta/NNP)
corresponding/VBG
author/NN
:/:
and/CC
(PERSON Tanya/NNP Araujo/NNP))
Можно ли разрешить эту проблему, используя NER из NLTK, или мы должны попробовать другие библиотеки, такие как spaCy?
Возможно, вы сможете использовать https://github.com/alvinwan/TexSoup, который будет извлекать элементы автора, например.
>>> from TexSoup import TexSoup
>>> soup = TexSoup(open('tri7.txt').read())
>>> for i in soup.find_all('author'):
... i
...
\author{{\small Tanya Araujo$^{a,b}$ and Elsa Fontainha$^{a}$} \and {\small $^{a}$ISEG
(Lisbon School of Economics \& Management) Universidade de Lisboa, } \and
{\small Rua do Quelhas, 6 1200-781 Lisboa Portugal} \and {\small $^{b}$Research
Unit on Complexity and Economics (UECE)} \and {\small Rua Miguel Lupi, 20
1249-078 Lisboa Portugal}}
Затем вы можете извлечь строки, проиллюстрированные
{{\small Tanya Araujo$^{a,b}$ and Elsa Fontainha$^{a}$}
в этом случае, любым из нескольких способов. Наконец, вы можете отбросить элементы, такие как \small
и $(a,b)$
с помощью regex, если вы не можете заставить TexSoup сделать это за вас.