StreamReader не читает японские символы из CSV-файла

Question

StreamReader не читает японские символы из CSV-файла

1

Чтение csv файла с помощью средства чтения потока с полями в двойных кавычках японских символов. Его не читают японские символы и принимают его как символы Юникода. Я пробовал разные типы кодирования, но не работал для меня. Пожалуйста, поделитесь мной идеей или каким-то другим решением для решения этой проблемы. Или есть лучший способ сделать это.

public DataTable ReadDataFromCSV(string path, char delim)
{
    string fulltext;
    string[] arrColumnNames;
    string[] arrColumnValues;
    string[] arrRows;
    int i, j, n;

    System.Data.DataTable dt = new System.Data.DataTable();
    DataRow row;
    if (delim.ToString().Length < 1)
    {
        delim = ',';
    }
    try
    {
        //' check that the file exists before opening it
        if (File.Exists(path))
        {
            using (TextReader sr = new StreamReader(path,Encoding.UTF8))
            {
            fulltext = sr.ReadToEnd();
            arrRows = fulltext.Split('\n');
            arrColumnNames = arrRows[0].Replace('"', ' ').Trim().Split(delim);
            //'add columns to a datatable
            for (n = 0; n < arrColumnNames.Length - 1; n++)
            {
                dt.Columns.Add(new DataColumn(arrColumnNames[n], System.Type.GetType("System.String")));
            }//next
            for (i = 1; i < arrRows.Length - 1; i++)
            {
                arrColumnValues = arrRows[i].Replace('"', ' ').Trim().Split(delim);
                row = dt.NewRow();
                for (j = 0; j < (arrColumnNames.Length - 1); j++)
                {
                    try
                    {
                        if (!(arrColumnValues[j] == null))
                        {
                            row[arrColumnNames[j]] =                      arrColumnValues[j].Replace('"', ' ').Trim();
                        }
                        else
                        {
                            row[arrColumnNames[j]] = "";
                        }//End If
                    }

                    catch (Exception ex)
                    {
                        Console.Write("ERROR: " + ex.Message);
                    }
                }//next
                dt.Rows.Add(row);
            }//next

        }
        }//End if
    }
    catch (Exception ex)
    {
        Console.Write("ERROR: " + ex.Message);
    }

    finally
    {

    }//End Try

    return dt;
}

neo 24 авг. 2014, в 10:04

Источник

1

Какие типы кодирования вы использовали? Японские символы не могут быть закодированы в строке ASCII. Любая подсказка, сколько их? Более 4000 IIRC. Нет способа сделать это в 1 байте ASCII. Что означает, что либо файл является чистым мусором, либо это вообще не ASCII, а какой-то UNICODE.
TomTom 24 авг. 2014, в 08:04
2

@TomTom: Следует отметить, что OP нигде не заявляет, что они предполагают, что файл является ASCII-кодированным; фактически они устанавливают Encoding.UTF8 как кодировку считывателя. (Очевидно, что это все еще не кодировка файла, но он уже соответствует вашему предложению предположить, что «вовсе не ASCII, а какой-то UNICODE».)
O. R. Mapper 24 авг. 2014, в 08:22
2

Я тоже не получаю комментарий @TomTom, зачем привлекать ascii к этой дискуссии? .NET по умолчанию не использует ascii, даже если он не указал его, и нет никаких оснований думать, что кто-то, работающий с японскими символами, подумает, что файл является ASCII?
Ronan Thibaudau 24 авг. 2014, в 08:32
2

Нео, было бы проще, если бы вы могли предоставить файл, чтобы мы могли воспроизвести это. Кроме того, на каком языке установлена ваша ОС / установлен ли японский? (Может быть, он правильно читает файл, но Visual Studio не имеет набора символов для рендеринга?)
Ronan Thibaudau 24 авг. 2014, в 08:33
2

CSV по стандарту не кодируется в Unicode, так как никто не понял этого. Стандарт Unicode / UTF также требует префикса (метки порядка байтов), который, по-видимому, отсутствует в файле. Это означает, что ЕСЛИ файл содержит элементы в кодировке Unicode, он - ах - неправильно кодирован. См. Unicode.org/mail-arch/unicode-ml/y2002-m04/0064.html для ознакомления с некоторыми основами работы UTF по стандарту.
TomTom 24 авг. 2014, в 09:05
2

@TomTom: файл, на который вы явно ссылаетесь, гласит: «UTF-8 не требует спецификации». Следовательно, ваше утверждение о том, что файл автоматически «неправильно закодирован» только потому, что у него нет спецификации, несмотря на то, что он закодирован в Юникоде, неверно.
O. R. Mapper 24 авг. 2014, в 11:43
1

@TomTom: Относительно заявления "CSV для каждого стандарта не кодируется в Юникоде", укажите источник. RFC 4180 не навязывает какую-либо конкретную кодировку; самая близкая вещь, которую это говорит, - "Общее использование CSV - US-ASCII" (и это замечание, кажется, связано только с типами MIME), что очевидно не подразумевает, что файл OP не может быть закодирован Unicode (даже меньше, не зная приложения) это произошло из).
O. R. Mapper 24 авг. 2014, в 11:52
1

Также имейте в виду, что Visual Studio Text Visualizer использует кодировку Windows-1252, а НЕ Unicode, чтобы показать какой-либо текст, следовательно, замена на интересные символы, такие как «?» при просмотре юникода.
toadflakz 24 авг. 2014, в 13:05
0

Encoding encodingShift_Jis = Encoding.GetEncoding ("shift-jis"); используя (TextReader sr = новый StreamReader (путь, encodingShift_Jis)) {
Sharunas Bielskis 26 нояб. 2018, в 18:05

Показать ещё 7 комментариев

Теги:

c#

winforms

c#-4.0

c#-3.0

fastercsv

1 ответ

Ещё вопросы

Какие типы кодирования вы использовали? Японские символы не могут быть закодированы в строке ASCII. Любая подсказка, сколько их? Более 4000 IIRC. Нет способа сделать это в 1 байте ASCII. Что означает, что либо файл является чистым мусором, либо это вообще не ASCII, а какой-то UNICODE.
@TomTom: Следует отметить, что OP нигде не заявляет, что они предполагают, что файл является ASCII-кодированным; фактически они устанавливают Encoding.UTF8 как кодировку считывателя. (Очевидно, что это все еще не кодировка файла, но он уже соответствует вашему предложению предположить, что «вовсе не ASCII, а какой-то UNICODE».)
Я тоже не получаю комментарий @TomTom, зачем привлекать ascii к этой дискуссии? .NET по умолчанию не использует ascii, даже если он не указал его, и нет никаких оснований думать, что кто-то, работающий с японскими символами, подумает, что файл является ASCII?
Нео, было бы проще, если бы вы могли предоставить файл, чтобы мы могли воспроизвести это. Кроме того, на каком языке установлена ваша ОС / установлен ли японский? (Может быть, он правильно читает файл, но Visual Studio не имеет набора символов для рендеринга?)
CSV по стандарту не кодируется в Unicode, так как никто не понял этого. Стандарт Unicode / UTF также требует префикса (метки порядка байтов), который, по-видимому, отсутствует в файле. Это означает, что ЕСЛИ файл содержит элементы в кодировке Unicode, он - ах - неправильно кодирован. См. Unicode.org/mail-arch/unicode-ml/y2002-m04/0064.html для ознакомления с некоторыми основами работы UTF по стандарту.
@TomTom: файл, на который вы явно ссылаетесь, гласит: «UTF-8 не требует спецификации». Следовательно, ваше утверждение о том, что файл автоматически «неправильно закодирован» только потому, что у него нет спецификации, несмотря на то, что он закодирован в Юникоде, неверно.
@TomTom: Относительно заявления "CSV для каждого стандарта не кодируется в Юникоде", укажите источник. RFC 4180 не навязывает какую-либо конкретную кодировку; самая близкая вещь, которую это говорит, - "Общее использование CSV - US-ASCII" (и это замечание, кажется, связано только с типами MIME), что очевидно не подразумевает, что файл OP не может быть закодирован Unicode (даже меньше, не зная приложения) это произошло из).
Также имейте в виду, что Visual Studio Text Visualizer использует кодировку Windows-1252, а НЕ Unicode, чтобы показать какой-либо текст, следовательно, замена на интересные символы, такие как «?» при просмотре юникода.
Encoding encodingShift_Jis = Encoding.GetEncoding ("shift-jis"); используя (TextReader sr = новый StreamReader (путь, encodingShift_Jis)) {

Hans Passant · Accepted Answer · 2014-08-24T06-36-00.000Z

На ваших скриншотах видно много бриллиантов, поэтому единственное, что кристалл состоит в том, что текстовый файл не закодирован в utf-8. Вы должны очень сильно подумать о том, чтобы связаться с программистом, который сгенерировал файл и попросил исправить. Не используя кодировку Юникода в наши дни, особенно для языка, такого как японский, который имеет много кодировок, ни одна из них не является доминирующей, является большой ошибкой. Это было так плохо, что язык получил свое собственное слово от страданий, которые он вызвал.

Возможности:

932: Shift-JIS в Windows
20932, 51932: EUC на Unix
50220, 50221, 50222: ISO 2022
несколько кодовых страниц EBCDIC, с которыми вы не должны мириться.

Большое спасибо текст был закодирован Shift-JIS