Wie kann ich CSV-Dateien in C++ lesen und analysieren?

Question 1

Ich muss CSV-Dateidaten in C++ laden und verwenden. An dieser Stelle kann es sich wirklich nur um einen kommagetrennten Parser handeln (dh machen Sie sich keine Gedanken über das Escapezeichen für neue Zeilen und Kommas). Die Hauptanforderung ist ein zeilenweiser Parser, der bei jedem Aufruf der Methode einen Vektor für die nächste Zeile zurückgibt.

Ich habe diesen Artikel gefunden, der sehr vielversprechend aussieht:
http://www.boost.org/doc/libs/1_35_0/libs/spirit/example/fundamental/list_parser.cpp

Ich habe Boost’s Spirit noch nie verwendet, bin aber bereit, es zu versuchen. Aber nur, wenn es keine einfachere Lösung gibt, die ich übersehe.

Question 2

Meine Version verwendet nichts anderes als die Standard-C++11-Bibliothek. Es kommt gut mit Excel CSV-Zitaten zurecht:

spam eggs,"foo,bar","""fizz buzz"""
1.23,4.567,-8.00E+09

Der Code ist als endlicher Automat geschrieben und verbraucht jeweils ein Zeichen. Ich denke, es ist einfacher, darüber nachzudenken.

#include <istream>
#include <string>
#include <vector>

enum class CSVState {
    UnquotedField,
    QuotedField,
    QuotedQuote
};

std::vector<std::string> readCSVRow(const std::string &row) {
    CSVState state = CSVState::UnquotedField;
    std::vector<std::string> fields {""};
    size_t i = 0; // index of the current field
    for (char c : row) {
        switch (state) {
            case CSVState::UnquotedField:
                switch (c) {
                    case ',': // end of field
                              fields.push_back(""); i++;
                              break;
                    case '"': state = CSVState::QuotedField;
                              break;
                    default:  fields[i].push_back(c);
                              break; }
                break;
            case CSVState::QuotedField:
                switch (c) {
                    case '"': state = CSVState::QuotedQuote;
                              break;
                    default:  fields[i].push_back(c);
                              break; }
                break;
            case CSVState::QuotedQuote:
                switch (c) {
                    case ',': // , after closing quote
                              fields.push_back(""); i++;
                              state = CSVState::UnquotedField;
                              break;
                    case '"': // "" -> "
                              fields[i].push_back('"');
                              state = CSVState::QuotedField;
                              break;
                    default:  // end of quote
                              state = CSVState::UnquotedField;
                              break; }
                break;
        }
    }
    return fields;
}

/// Read CSV file, Excel dialect. Accept "quoted fields ""with quotes"""
std::vector<std::vector<std::string>> readCSV(std::istream &in) {
    std::vector<std::vector<std::string>> table;
    std::string row;
    while (!in.eof()) {
        std::getline(in, row);
        if (in.bad() || in.fail()) {
            break;
        }
        auto fields = readCSVRow(row);
        table.push_back(fields);
    }
    return table;
}

Question 3

Die C++-String-Toolkit-Bibliothek (StrTk) verfügt über eine Token-Grid-Klasse, mit der Sie Daten entweder aus laden können Textdateien, Zeichenketten oder Zeichenpufferund um sie zeilenweise zu analysieren/verarbeiten.

Sie können die Zeilen- und Spaltentrennzeichen angeben oder einfach die Standardwerte verwenden.

void foo()
{
   std::string data = "1,2,3,4,5\n"
                      "0,2,4,6,8\n"
                      "1,3,5,7,9\n";

   strtk::token_grid grid(data,data.size(),",");

   for(std::size_t i = 0; i < grid.row_count(); ++i)
   {
      strtk::token_grid::row_type r = grid.row(i);
      for(std::size_t j = 0; j < r.size(); ++j)
      {
         std::cout << r.get<int>(j) << "\t";
      }
      std::cout << std::endl;
   }
   std::cout << std::endl;
}

Weitere Beispiele sind zu finden Hier

Question 4

Sie können Boost Tokenizer mit escaped_list_separator verwenden.

escaped_list_separator analysiert eine Obermenge der csv. Boost::tokenizer

Dies verwendet nur Boost-Tokenizer-Header-Dateien, es ist keine Verknüpfung mit Boost-Bibliotheken erforderlich.

Hier ein Beispiel (vgl Analysieren Sie die CSV-Datei mit Boost Tokenizer in C++ für Details bzw Boost::tokenizer ):

#include <iostream>     // cout, endl
#include <fstream>      // fstream
#include <vector>
#include <string>
#include <algorithm>    // copy
#include <iterator>     // ostream_operator
#include <boost/tokenizer.hpp>

int main()
{
    using namespace std;
    using namespace boost;
    string data("data.csv");

    ifstream in(data.c_str());
    if (!in.is_open()) return 1;

    typedef tokenizer< escaped_list_separator<char> > Tokenizer;
    vector< string > vec;
    string line;

    while (getline(in,line))
    {
        Tokenizer tok(line);
        vec.assign(tok.begin(),tok.end());

        // vector now contains strings from one row, output to cout here
        copy(vec.begin(), vec.end(), ostream_iterator<string>(cout, "|"));

        cout << "\n----------------------" << endl;
    }
}

Question 5

Es ist nicht übertrieben, Spirit zum Parsen von CSVs zu verwenden. Spirit eignet sich gut für Micro-Parsing-Aufgaben. Mit Spirit 2.1 ist es beispielsweise so einfach wie:

bool r = phrase_parse(first, last,

    //  Begin grammar
    (
        double_ % ','
    )
    ,
    //  End grammar

    space, v);

Der Vektor v wird mit den Werten gefüllt. Es gibt eine Reihe von Tutorials Dies wird in der neuen Spirit 2.1-Dokumentation angesprochen, die gerade mit Boost 1.41 veröffentlicht wurde.

Das Tutorial geht von einfach bis komplex. Die CSV-Parser werden irgendwo in der Mitte vorgestellt und berühren verschiedene Techniken bei der Verwendung von Spirit. Der generierte Code ist so eng wie handgeschriebener Code. Sehen Sie sich den generierten Assembler an!