доработать функцию сопоставления с шаблоном Java для печати в другом порядке, возможна операция связанного списка

Question

доработать функцию сопоставления с шаблоном Java для печати в другом порядке, возможна операция связанного списка

1

В этот момент мой код выглядит следующим образом. Это довольно просто, он просто читает в файле данных и захватывает все интересные биты и печатает их. Проблема в том, что он печатает их неправильно, порядок неправильный.

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class text_processing
{
    @SuppressWarnings("resource")
    public static void main(String[] args) throws IOException
    {
        String text; 
        BufferedReader br = new BufferedReader(new FileReader("/home/matthias/Workbench/SUTD/1_February/brute_force/items.csv"));

        while ((text = br.readLine()) != null) 
        {
            //the main character
            Pattern pat_0 = Pattern.compile( "『(.*?)』" );
            Matcher mat_0 = pat_0.matcher( text );
            if( mat_0.find() )
            {
                System.out.println( mat_0.group(1) );
            }
            //the pin yin
            Pattern pat_1 = Pattern.compile("class=\"\"pinyin\"\">(.*?)<script>(?:(?!<script>).)*");
            Matcher mat_1 = pat_1.matcher( text );
            if( mat_1.find() )
            {
                System.out.println( mat_1.group(1) );
            }
            //the ubiquitous radical 
            Pattern pat_2 = Pattern.compile( "<span class=\"\"b\"\">部首：</span>" ); 
            Matcher mat_2 = pat_2.matcher( text );
            if( mat_2.find() )
            {
                Pattern pat_3 = Pattern.compile("<span class=\"\"b\"\">部首：</span>(.*?)<span class=\"\"b\"\">");
                Matcher mat_3 = pat_3.matcher( text );
                if( mat_3.find() )
                {
                    System.out.println("部首：" + mat_3.group(1) );
                }
                //stroke count
                Pattern pat_4 = Pattern.compile(mat_3.group(1) + "<span class=\"\"b\"\">部首笔画：</span>(.*?)<span class=\"\"b\"\">");
                Matcher mat_4 = pat_4.matcher( text );
                if( mat_4.find() )
                {
                    System.out.println("笔画：" + mat_4.group(1) );
                }

            }
            else
            {
                //simple rad
                Pattern pat_5 = Pattern.compile("简体部首：</span>(.*?)<span class=\"\"b\"\">");
                Matcher mat_5 = pat_5.matcher( text );
                if( mat_5.find() )
                {
                    System.out.println("简体部首：" + mat_5.group(1) );

                    //stroke count
                    Pattern pat_6 = Pattern.compile(mat_5.group(1) + "<span class=\"\"b\"\">部首笔画：</span>(.*?)<span class=\"\"b\"\">");
                    Matcher mat_6 = pat_6.matcher( text );
                    if( mat_6.find() )
                    {
                        System.out.println("简体笔画：" + mat_6.group(1) );
                    }
                }

              //trad rad
                Pattern pat_7 = Pattern.compile("繁体部首：</span>(.*?)<span class=\"\"b\"\">");
                Matcher mat_7 = pat_7.matcher( text );
                if( mat_7.find() )
                {
                    System.out.println("繁体部首：" + mat_7.group(1) );

                    //stroke count
                    Pattern pat_8 = Pattern.compile(mat_7.group(1) + "<span class=\"\"b\"\">部首笔画：</span>(.*?)<span class=\"\"b\"\">");
                    Matcher mat_8 = pat_8.matcher( text );
                    if( mat_8.find() )
                    {
                        System.out.println("繁体笔画：" + mat_8.group(1) );
                    }
                }
            }

            //the decomposition
            Pattern pat_9 = Pattern.compile("#################,\" ]：(.*?)\\(");
            Matcher mat_9 = pat_9.matcher( text );
            if( mat_9.find() )
            {
                System.out.println("首尾分解: " + mat_9.group(1) );
            }
        }
    }
}

Я не контролирую, как структурированы данные.

Возможно, есть какой-то объект LinkedList, который я могу использовать для заполнения, и я могу заполнить правильный порядок на каждой итерации, наконец, распечатать это в конце. Имеет ли это смысл? Если да, то хорошо, но я понятия не имею, как реально реализовать что-то подобное. Если нет, что будет работать лучше?

В настоящее время вывод выглядит следующим образом:

首尾分解: 占乂
卥
xī
简体部首：丨　
简体笔画：1　
繁体部首：卜　
繁体笔画：2　
首尾分解: 巛乙
巤
liè
部首：巛　
笔画：3　
首尾分解: 工页
项
xiàng
简体部首：页　
简体笔画：6　
繁体部首：頁　
繁体笔画：9

Как я хочу, чтобы это выглядело так:

卥
xī
首尾分解: 占乂
简体部首：丨　
简体笔画：1　
繁体部首：卜　
繁体笔画：2　

巤
liè
首尾分解: 巛乙
部首：巛　
笔画：3　

项
xiàng
首尾分解: 工页
简体部首：页　
简体笔画：6　
繁体部首：頁　
繁体笔画：9

Как выглядят данные:

#######################," ]：占乂(zhancha)
","<table width=""620"" border=""0"" cellpadding=""0"" cellspacing=""0"">
<tr bgcolor=""#FFFFFF"">
<td width=""100""><div id=""zibg""><p class=""U5365""></p></div></td>
<td width=""510"" style=""padding-left:10px"">
<p class=""text15"">
『卥』 <br>
<span class=""b"">拼音：</span><span class=""pinyin"">xī<script>Setduyin('Duyin/xi1')</script></span>　<span class=""b"">注音：</span><span class=""pinyin"">ㄒㄧ<script>Setduyin('Duyin/xi1')</script></span><br>
<span class=""b"">简体部首：</span>丨　<span class=""b"">部首笔画：</span>1　<span class=""b"">总笔画：</span>8<br><span class=""b"">繁体部首：</span>卜　<span class=""b"">部首笔画：</span>2　<span class=""b"">总笔画：</span>8<br><span class=""b"">康熙字典笔画</span>( 卥:8； )
</p></td>
</tr>
</table>"
#######################," ]：巛乙(chuanyi)
","<table width=""620"" border=""0"" cellpadding=""0"" cellspacing=""0"">
<tr bgcolor=""#FFFFFF"">
<td width=""100""><div id=""zibg""><p class=""U5DE4""></p></div></td>
<td width=""510"" style=""padding-left:10px"">
<p class=""text15"">
『巤』 <br>
<span class=""b"">拼音：</span><span class=""pinyin"">liè<script>Setduyin('Duyin/lie4')</script></span>　<span class=""b"">注音：</span><span class=""pinyin"">ㄌㄧㄝˋ<script>Setduyin('Duyin/lie4')</script></span><br>
<span class=""b"">部首：</span>巛　<span class=""b"">部首笔画：</span>3　<span class=""b"">总笔画：</span>15<br><span class=""b"">康熙字典笔画</span>( 巤:15； )
</p></td>
</tr>
</table>"

cigno5.5 12 фев. 2015, в 11:39

Источник

0

Regex с разметкой. Кошмар. Используйте такой парсер, как JSoup, и забудьте, что вы когда-либо кодировали это. В качестве предупреждения взгляните на этот пост.
Mena 12 фев. 2015, в 10:18
0

ха-ха, что?! ни в коем случае человек, над которым я работал весь день! Что за чертовщина?
user4506542 12 фев. 2015, в 10:19
0

но в любом случае, это даже решило бы проблему? разбор это не проблема, печать это. разбирает нормально.
user4506542 12 фев. 2015, в 10:20
0

Я только что связал это в моем предыдущем комментарии. Возможно, вы работали над этим весь день, но, поверьте мне, вы потратите гораздо больше, чтобы получить конечный результат, и сходите с ума каждый раз, когда происходит изменение в структуре данных. Поверь мне в этом. Не используйте регулярные выражения для разбора разметки.
Mena 12 фев. 2015, в 10:21
0

хмм. Окей круто. спасибо за это понимание, безусловно, поможет мне стать лучшим программистом. но ... я так чертовски близок, я никак не могу забыть об этом, прежде чем заставить его работать хотя бы один раз, понимаешь, о чем я?
user4506542 12 фев. 2015, в 10:23
0

Проблема здесь, вероятно, в том, что вы ожидаете получить. Мне трудно понять, как сопоставление с образцом (то есть regex решит эту проблему). Например, вы читаете первую строку (на основе сопоставления) и помещаете ее в определенное место. Есть ли у вас набор шаблонов, которым вы всегда должны соответствовать?
ha9u63ar 12 фев. 2015, в 10:24
0

я не могу просто поместить эти извлеченные вещи в связанный список или что-то и определить порядок? кажется, я должен быть в состоянии сделать что-то подобное, верно?
user4506542 12 фев. 2015, в 10:26
0

Да, я понимаю твою точку зрения, но это может быть какое-то время для тех, кто достаточно предан, чтобы покопаться в этом коде и помочь тебе, если вообще когда-нибудь. В общем, я бы предложил начать заново с выделенного парсера и создать свои собственные объекты с различными свойствами, так что позже будет тривиально решить, как их распечатать.
Mena 12 фев. 2015, в 10:26
0

@Mena Я думаю, что вы пытаетесь сказать: «Слишком много символов мандарина для нас, чтобы взять: р»
ha9u63ar 12 фев. 2015, в 10:28
0

но эти символы могут быть чем угодно, данные есть данные
user4506542 12 фев. 2015, в 10:29
0

@ha9u63ar ha9u63ar, это часть проблемы, но как только вы пройдете мимо символов Мандарина и посмотрите на код, появятся настоящие драконы.
Mena 12 фев. 2015, в 10:29
1

Удивительно, что вы и этот пользователь, похоже, решаете одну и ту же проблему. Может быть, вы должны собрать свои головы вместе, чтобы решить это.
RealSkeptic 12 фев. 2015, в 10:29
0

@RealSkeptic прекрасно! И у него уже есть ответ, хотя и спорный.
Mena 12 фев. 2015, в 10:31
0

почему это удивительно, Ямада мой партнер, мы собираем наши головы
user4506542 12 фев. 2015, в 10:31
0

Это вопрос к CodeReview.
barq 12 фев. 2015, в 10:34
2

Тогда, может быть, мы сможем убедить вас обоих отказаться от использования регулярных выражений для анализа HTML, прежде чем вы, скажем, закомментируете часть HTML, и Старшие Боги рассердятся? Вы хотите решить проблему, решить ее правильно .
RealSkeptic 12 фев. 2015, в 10:34
0

oOo, вот почему люди говорят, не разбирать HTML с регулярным выражением ?! это имеет смысл, я думаю.
user4506542 12 фев. 2015, в 10:38
3

@barq Вы не правы, что это вопрос для codereview.se. Когда код не выполняет то, что запрашивающий хочет сделать код, мы называем код неработающим и закрываем вопрос. Этот вопрос может быть по теме после исправления кода.
Pimgd 12 фев. 2015, в 11:02
0

Вы правы, OP путает рефакторинг с функциональностью. Я думал, что это был вопрос рефакторинга.
barq 12 фев. 2015, в 11:25

Показать ещё 17 комментариев

Теги:

java

pattern-matching

linked-list

1 ответ

Ещё вопросы

Regex с разметкой. Кошмар. Используйте такой парсер, как JSoup, и забудьте, что вы когда-либо кодировали это. В качестве предупреждения взгляните на этот пост.
ха-ха, что?! ни в коем случае человек, над которым я работал весь день! Что за чертовщина?
но в любом случае, это даже решило бы проблему? разбор это не проблема, печать это. разбирает нормально.
Я только что связал это в моем предыдущем комментарии. Возможно, вы работали над этим весь день, но, поверьте мне, вы потратите гораздо больше, чтобы получить конечный результат, и сходите с ума каждый раз, когда происходит изменение в структуре данных. Поверь мне в этом. Не используйте регулярные выражения для разбора разметки.
хмм. Окей круто. спасибо за это понимание, безусловно, поможет мне стать лучшим программистом. но ... я так чертовски близок, я никак не могу забыть об этом, прежде чем заставить его работать хотя бы один раз, понимаешь, о чем я?
Проблема здесь, вероятно, в том, что вы ожидаете получить. Мне трудно понять, как сопоставление с образцом (то есть regex решит эту проблему). Например, вы читаете первую строку (на основе сопоставления) и помещаете ее в определенное место. Есть ли у вас набор шаблонов, которым вы всегда должны соответствовать?
я не могу просто поместить эти извлеченные вещи в связанный список или что-то и определить порядок? кажется, я должен быть в состоянии сделать что-то подобное, верно?
Да, я понимаю твою точку зрения, но это может быть какое-то время для тех, кто достаточно предан, чтобы покопаться в этом коде и помочь тебе, если вообще когда-нибудь. В общем, я бы предложил начать заново с выделенного парсера и создать свои собственные объекты с различными свойствами, так что позже будет тривиально решить, как их распечатать.
@Mena Я думаю, что вы пытаетесь сказать: «Слишком много символов мандарина для нас, чтобы взять: р»
но эти символы могут быть чем угодно, данные есть данные
@ha9u63ar ha9u63ar, это часть проблемы, но как только вы пройдете мимо символов Мандарина и посмотрите на код, появятся настоящие драконы.
Удивительно, что вы и этот пользователь, похоже, решаете одну и ту же проблему. Может быть, вы должны собрать свои головы вместе, чтобы решить это.
@RealSkeptic прекрасно! И у него уже есть ответ, хотя и спорный.
почему это удивительно, Ямада мой партнер, мы собираем наши головы
Тогда, может быть, мы сможем убедить вас обоих отказаться от использования регулярных выражений для анализа HTML, прежде чем вы, скажем, закомментируете часть HTML, и Старшие Боги рассердятся? Вы хотите решить проблему, решить ее правильно .
oOo, вот почему люди говорят, не разбирать HTML с регулярным выражением ?! это имеет смысл, я думаю.
@barq Вы не правы, что это вопрос для codereview.se. Когда код не выполняет то, что запрашивающий хочет сделать код, мы называем код неработающим и закрываем вопрос. Этот вопрос может быть по теме после исправления кода.
Вы правы, OP путает рефакторинг с функциональностью. Я думал, что это был вопрос рефакторинга.

cigno5.5 · Accepted Answer · 2015-02-12T08-41-00.000Z

Но очевидно, почему у вас нет ожидаемого порядка: вы читаете файл по строкам, и, конечно же, вы получите правильную строку для pat0 только в третьем цикле (так, после того, как вы обработали первый и второй).

Вероятно, вы должны создать объект утилиты, который поможет повторно упорядочить строки после разбора. Проблема состоит в том, чтобы найти идентификатор группы в пределах своих строк. Я не умею читать ваш алфавит, и поэтому я не могу помочь в этом.

Когда у вас есть "идентификатор группы", вы можете создать объект java.lang.Comparable, который использует идентификатор группы и номер шаблона, чтобы иметь правильный порядок, когда он помещается в Set. По окончании разбора вы можете распечатать строки.