Как удалить повторяющиеся элементы из массива в Perl?

Question

Как удалить повторяющиеся элементы из массива в Perl?

145

У меня есть массив в Perl:

my @my_array = ("one","two","three","two","three");

Как удалить дубликаты из массива?

David 11 авг. 2008, в 11:23

Источник

Теги:

arrays

perl

duplicates

unique

10 ответов

109

Документация Perl поставляется с хорошей коллекцией часто задаваемых вопросов. Ваш вопрос часто задают:

% perldoc -q duplicate

Ответ, копируемый и вставленный с выхода команды выше, отображается ниже:

Found in /usr/local/lib/perl5/5.10.0/pods/perlfaq4.pod
 How can I remove duplicate elements from a list or array?
   (contributed by brian d foy)

   Use a hash. When you think the words "unique" or "duplicated", think
   "hash keys".

   If you don't care about the order of the elements, you could just
   create the hash then extract the keys. It not important how you
   create that hash: just that you use "keys" to get the unique elements.

       my %hash   = map { $_, 1 } @array;
       # or a hash slice: @hash{ @array } = ();
       # or a foreach: $hash{$_} = 1 foreach ( @array );

       my @unique = keys %hash;

   If you want to use a module, try the "uniq" function from
   "List::MoreUtils". In list context it returns the unique elements,
   preserving their order in the list. In scalar context, it returns the
   number of unique elements.

       use List::MoreUtils qw(uniq);

       my @unique = uniq( 1, 2, 3, 4, 4, 5, 6, 5, 7 ); # 1,2,3,4,5,6,7
       my $unique = uniq( 1, 2, 3, 4, 4, 5, 6, 5, 7 ); # 7

   You can also go through each element and skip the ones you've seen
   before. Use a hash to keep track. The first time the loop sees an
   element, that element has no key in %Seen. The "next" statement creates
   the key and immediately uses its value, which is "undef", so the loop
   continues to the "push" and increments the value for that key. The next
   time the loop sees that same element, its key exists in the hash and
   the value for that key is true (since it not 0 or "undef"), so the
   next skips that iteration and the loop goes to the next element.

       my @unique = ();
       my %seen   = ();

       foreach my $elem ( @array )
       {
         next if $seen{ $elem }++;
         push @unique, $elem;
       }

   You can write this more briefly using a grep, which does the same
   thing.

       my %seen = ();
       my @unique = grep { ! $seen{ $_ }++ } @array;

John Siracusa 11 авг. 2008, в 14:30

0

perldoc.perl.org/...
szabgab 17 сен. 2008, в 07:48
16

Джон из Ма-Анзерс ворует Ма-Реп!
brian d foy 09 окт. 2008, в 23:41
5

Я думаю, что вы должны получить бонусные баллы за то, что действительно изучили вопрос.
Brad Gilbert 24 окт. 2008, в 15:14
2

Мне нравится, что лучший ответ - 95% копирование-вставка и 3 предложения OC. Чтобы быть совершенно ясно, что это лучший ответ; Я просто нахожу этот факт забавным.
Parthian Shot 21 июль 2014, в 18:23

Показать ещё 2 комментария

66

Установите List:: MoreUtils из CPAN

Затем в вашем коде:

use strict;
use warnings;
use List::MoreUtils qw(uniq);

my @dup_list = qw(1 1 1 2 3 4 4);

my @uniq_list = uniq(@dup_list);

Ranguard 31 авг. 2008, в 10:56

2

Это ответ! Но я могу проголосовать только один раз.
Axeman 05 окт. 2008, в 04:42
4

Тот факт, что List :: MoreUtils не связан с Perl своего рода, повреждает переносимость проектов, использующих его :( (я, например, не буду)
yPhil 19 март 2012, в 02:00
3

@Ranguard: @dup_list должен быть внутри вызова uniq , а не @dups
incutonez 11 нояб. 2013, в 14:48
0

@yassinphilip CPAN - это то, что делает Perl настолько мощным и мощным, насколько это возможно. Если вы пишете свои проекты, основанные только на базовых модулях, вы накладываете огромный предел на свой код, а также, возможно, на плохо написанный код, который пытается сделать то, что некоторые модули делают намного лучше, просто чтобы избежать их использования. Кроме того, использование основных модулей ничего не гарантирует, поскольку различные версии Perl могут добавлять или удалять основные модули из дистрибутива, поэтому переносимость все еще зависит от этого.
Francisco Zarabozo 27 июнь 2017, в 14:38

Показать ещё 2 комментария

21

Мой обычный способ сделать это:

my %unique = ();
foreach my $item (@myarray)
{
    $unique{$item} ++;
}
my @myuniquearray = keys %unique;

Если вы используете хэш и добавляете элементы в хэш. У вас также есть бонус узнать, сколько раз каждый элемент отображается в списке.

Xetius 11 авг. 2008, в 11:32

2

У этого есть недостаток - не сохранять первоначальный заказ, если он вам нужен.
Nathan Fellman 18 фев. 2014, в 12:34
0

Лучше использовать кусочки вместо цикла foreach : @unique{@myarray}=()
Onlyjob 20 сен. 2015, в 15:46

6

Переменная @array - это список с повторяющимися элементами

%seen=();
@unique = grep { ! $seen{$_} ++ } @array;

Sreedhar 23 окт. 2010, в 16:19

5

Может быть сделано с простым Perl одним слоем.

my @in=qw(1 3 4  6 2 4  3 2 6  3 2 3 4 4 3 2 5 5 32 3); #Sample data 
my @out=keys %{{ map{$_=>1}@in}}; # Perform PFM
print join ' ', sort{$a<=>$b} @out;# Print data back out sorted and in order.

Блок PFM делает это:

Данные в @in подаются в MAP. MAP создает анонимный хэш. Ключи извлекаются из хэша и подаются на @out

Hawk 09 нояб. 2011, в 21:33

3

Это последнее было очень хорошо. Я бы немного изменил его:

my @arr;
my @uniqarr;

foreach my $var ( @arr ){
  if ( ! grep( /$var/, @uniqarr ) ){
     push( @uniqarr, $var );
  }
}

Я думаю, что это, вероятно, самый читаемый способ сделать это.

Jay 24 янв. 2009, в 00:40

1

Более независимый ..
laki 26 дек. 2013, в 03:52

0

Способ 1: используйте хэш

Логика: хэш может иметь только уникальные ключи, поэтому итерации по массиву, присваивать любое значение каждому элементу массива, сохраняя элемент в качестве ключа этого хэша. Возвращаемые ключи хеша, его уникальный массив.

my @unique = keys {map {$_ => 1} @array};

Способ 2: Расширение метода 1 для повторного использования

Лучше сделать подпрограмму, если мы будем использовать эту функцию несколько раз в нашем коде.

sub get_unique {
    my %seen;
    grep !$seen{$_}++, @_;
}
my @unique = get_unique(@array);

Способ 3: Использовать модуль `List::MoreUtils`

use List::MoreUtils qw(uniq);
my @unique = uniq(@array);

Kamal Nayan 09 май 2017, в 16:36

0

Использование концепции уникальных хэш-ключей:

my @array  = ("a","b","c","b","a","d","c","a","d");
my %hash   = map { $_ => 1 } @array;
my @unique = keys %hash;
print "@unique","\n";

Вывод: a c b d

Sandeep_Black 30 март 2017, в 09:50

0

Попробуйте это, кажется, что функция uniq нуждается в сортированном списке для правильной работы.

use strict;

# Helper function to remove duplicates in a list.
sub uniq {
  my %seen;
  grep !$seen{$_}++, @_;
}

my @teststrings = ("one", "two", "three", "one");

my @filtered = uniq @teststrings;
print "uniq: @filtered\n";
my @sorted = sort @teststrings;
print "sort: @sorted\n";
my @sortedfiltered = uniq sort @teststrings;
print "uniq sort : @sortedfiltered\n";

saschabeaumont 26 май 2015, в 03:26

Ещё вопросы

Я думаю, что вы должны получить бонусные баллы за то, что действительно изучили вопрос.
Мне нравится, что лучший ответ - 95% копирование-вставка и 3 предложения OC. Чтобы быть совершенно ясно, что это лучший ответ; Я просто нахожу этот факт забавным.
Это ответ! Но я могу проголосовать только один раз.
Тот факт, что List :: MoreUtils не связан с Perl своего рода, повреждает переносимость проектов, использующих его :( (я, например, не буду)
@Ranguard: @dup_list должен быть внутри вызова uniq , а не @dups
@yassinphilip CPAN - это то, что делает Perl настолько мощным и мощным, насколько это возможно. Если вы пишете свои проекты, основанные только на базовых модулях, вы накладываете огромный предел на свой код, а также, возможно, на плохо написанный код, который пытается сделать то, что некоторые модули делают намного лучше, просто чтобы избежать их использования. Кроме того, использование основных модулей ничего не гарантирует, поскольку различные версии Perl могут добавлять или удалять основные модули из дистрибутива, поэтому переносимость все еще зависит от этого.
У этого есть недостаток - не сохранять первоначальный заказ, если он вам нужен.
Лучше использовать кусочки вместо цикла foreach : @unique{@myarray}=()

Greg Hewgill · Accepted Answer · 2008-08-11T11-38-00.000Z

151

Лучший ответ

Вы можете сделать что-то подобное, как показано в perlfaq4:

sub uniq {
    my %seen;
    grep !$seen{$_}++, @_;
}

my @array = qw(one two three two three);
my @filtered = uniq(@array);

print "@filtered\n";

Выходы:

one two three

Если вы хотите использовать модуль, попробуйте функцию uniq из List::MoreUtils

Greg Hewgill 11 авг. 2008, в 11:38

27

пожалуйста, не используйте $ a или $ b в примерах, так как они являются волшебными глобальными переменными sort ()
szabgab 17 сен. 2008, в 07:50
2

Это my лексика в этой области, так что все в порядке. При этом, возможно, можно было бы выбрать более описательное имя переменной.
ephemient 18 янв. 2010, в 17:51
2

@ephemient да, но если бы вы добавили сортировку в эту функцию, тогда это превзошло бы $::a и $::b , не так ли?
vol7ron 21 фев. 2012, в 16:45
2

@szabgab, если это так, это невероятно плохое дизайнерское решение для sort использующей нелокальные переменные.
Brian Vandenberg 14 июнь 2012, в 21:12
5

@BrianVandenberg Добро пожаловать в мир 1987 года - когда он был создан - и почти 100% -ную совместимость с обратным словом для perl - так что его нельзя устранить.
szabgab 25 июнь 2012, в 08:19
17

sub uniq { my %seen; grep !$seen{$_}++, @_ } - лучшая реализация, поскольку она сохраняет порядок бесплатно. Или даже лучше, используйте тот из List :: MoreUtils.
ikegami 06 нояб. 2012, в 18:51
1

@ vol7tron означает "обратно" совместимый, извините, это меня беспокоило ;-)
Tyler 29 авг. 2015, в 05:17

Показать ещё 5 комментариев

Как удалить повторяющиеся элементы из массива в Perl?

10 ответов

Способ 1: используйте хэш

Способ 2: Расширение метода 1 для повторного использования

Способ 3: Использовать модуль List::MoreUtils

Ещё вопросы

Способ 3: Использовать модуль `List::MoreUtils`