Lerne fortschrittliche Rust-Programmierung mit KI-Unterstützung

Vor mehr als 20 Jahren musste ich für eine Programmiersprache die MSDN-Bibliothek von Visual Studio 6 mit 6 CD-ROMs installieren. Algorithmen mit Stift und Papier, Bücher für Entwurfsmuster und MSDN-Abfragen waren oft zeitaufwendig. Das Erlernen neuer Programmiersprachen hat sich mit Remote-Zusammenarbeit und KI stark gewandelt. Jetzt kannst du einen Remote Development Workspace nutzen, deinen Bildschirm freigeben und zusammen programmieren. Mit GitLab Duo Codevorschläge hast du immer einen intelligenten Partner. Codevorschläge lernt von deinem Programmierstil und deiner Erfahrung. Es werden nur Input und Kontext benötigt.

Wir bauen auf den Blogbeitrag „Erste Schritte“ auf und erstellen eine einfache Feed-Reader-Anwendung.

Vorbereitungen
- Codevorschläge
Rust vertiefen
Module
- Modulfunktion im main() aufrufen
Crates
- feed-rs: XML-Feed parsen
Laufzeit-Konfiguration: Programmargumente
- Umgang mit Benutzereingabefehlern
Persistenz und Datenspeicherung
Optimierung
Feed-XML in Objekte parsen
- Generische Feed-Datentypen zuordnen
- Fehlerbehebung mit Option::unwrap()
Benchmarks
- Benchmarks für sequentielle/parallele Ausführung
- CI/CD mit Rust-Caching
Wie geht es weiter?
- Asynchrone Lernübungen
- Teile dein Feedback

Vorbereitung

Richte VS Code und deine Entwicklungsumgebung mit Rust ein.

Codevorschläge

Mache dich vorher damit vertraut. GitLab Duo Codevorschläge werden angezeigt, während du tippst. Drücke tab, um einen Codevorschlag anzunehmen. Das Schreiben von neuem Code funktioniert zuverlässiger als das Refactoring von bestehendem Code. Der gleiche Codevorschlag wird ggf. nicht erneut angezeigt, wenn du einen Codevorschlag löschst. Codevorschläge sind gerade in der Betaphase und wir verbessern die Genauigkeit der generierten Inhalte. Sieh dir die bekannten Einschränkungen an.

Tipp: Die neueste Version von Codevorschläge unterstützt mehrzeilige Anweisungen. Passe die Spezifikationen an deine Bedürfnisse an, um bessere Vorschläge zu erhalten.

    // Create a function that iterates over the source array
    // and fetches the data using HTTP from the RSS feed items. // Store the results in a new hash map.
    // Print the hash map to the terminal.

Die VS-Code-Erweiterung wird angezeigt, wenn ein Vorschlag angeboten wird. Mit tab kannst du die vorgeschlagene(n) Zeile(n) oder mit cmd cursor right ein Wort annehmen. Über das Menü mit den drei Punkten kannst du immer die Symbolleiste anzeigen.

VS Code überlagert GitLab Duo Codevorschläge mit Anweisungen

Rust vertiefen

Vertiefen wir nun Rust, eine der unterstützten Sprachen in Codevorschläge. Rust by Example und das offizielle Rust-Buch bieten einen guten Einstieg. Auf beide Ressourcen wird hier verwiesen.

Hallo, Reader-App

Es gibt viele Möglichkeiten, eine Anwendung zu erstellen und Rust zu lernen. Einige beinhalten die Nutzung bestehender Rust-Bibliotheken, der Crates. Wir verwenden sie weiter unten. Du kannst eine App mit einer Befehlszeile erstellen, die Bilder verarbeitet und die Ergebnisse in eine Datei schreibt. Es macht Spaß, ein Labyrinth zu lösen oder ein Sudoku-Lösungsprogramm zu schreiben. Spieleentwicklung ist auch gut. Das Buch Hands-on Rust bietet einen Lernpfad für ein Dungeon-Crawler-Spiel. Fatima Sarah Khalid hat Dragon Realm in C++ mit ein wenig KI-Unterstützung gestartet.

Ein echter Anwendungsfall: Wichtige Infos sollen in einem RSS-Feed für (Sicherheits-)Releases, Blogbeiträge und Diskussionen in Foren wie Hacker News gesammelt werden. Oft möchten wir nach Keywords oder Versionen filtern. Mit diesen Anforderungen können wir eine Anforderungsliste erstellen:

Daten von verschiedenen Quellen abrufen (HTTP-Websites, REST API, RSS-Feeds). RSS-Feeds in der ersten Iteration.
Die Daten parsen.
Die Daten den Benutzer(innen) präsentieren oder auf die Festplatte schreiben.
Die Leistung optimieren.

Diese Anwendungsausgabe ist nach den Lernschritten verfügbar:

VS-Code-Terminal, Cargo-Run mit formatierter Feedelement-Ausgabe

Die Anwendung sollte modular und die Grundlage für weitere Datentypen, Filter und Hooks sein, um später Aktionen auszulösen.

Projekt initialisieren

Zur Erinnerung: cargo init im Projekt-Root erstellt die Dateistruktur, darunter den Eingangspunkt main(). Daher lernen wir nun, wie wir Rust-Module erstellen und verwenden.

Erstelle ein neues Verzeichnis learn-rust-ai-app-reader, wechsle dorthin und führe cargo init aus. Dieser Befehl führt implizit git init aus, um ein neues Git-Repository lokal zu initialisieren. Zuletzt wird der Git-Remote-Repository-Pfad konfiguriert, z. B. https://gitlab.com/gitlab-de/use-cases/ai/learn-with-ai/learn-rust-ai-app-reader. Passe den Pfad an. Durch das Pushen des Git-Repositorys wird automatisch ein neues privates Projekt in GitLab erstellt.

mkdir learn-rust-ai-app-reader
cd learn-rust-ai-app-reader

cargo init

git remote add origin https://gitlab.com/gitlab-de/use-cases/ai/learn-with-ai/learn-rust-ai-app-reader.git
git push --set-upstream origin main

Öffne VS Code aus dem neu erstellten Verzeichnis. Die CLI code öffnet ein neues VS-Code-Fenster auf macOS.

code .

RSS-Feed-URLs definieren

Füge eine neue Hashmap hinzu, um die RSS-Feed-URLs in der Datei src/main.rs in der Funktion main() zu speichern. Du kannst mit GitLab Duo Codevorschläge über einen mehrzeiligen Kommentar ein HashMap-Objekt erstellen und mit Standardwerten für Hacker News und TechCrunch initialisieren. Hinweis: Stelle sicher, dass die URLs korrekt sind, wenn du Vorschläge erhältst.

fn main() {
    // Define RSS feed URLs in the variable rss_feeds
    // Use a HashMap
    // Add Hacker News and TechCrunch
    // Ensure to use String as type

}

Anweisungen sind enthalten für: :

Den Variablennamen rss_feeds.
Den Typ HashMap.
Initiale Seed-Schlüssel-/Wertpaare.
Den String als Typ (sichtbar mit to_string()-Aufrufen).

Ein möglicher vorgeschlagener Pfad:

use std::collections::HashMap;

fn main() {
    // Define RSS feed URLs in the variable rss_feeds
    // Use a HashMap
    // Add Hacker News and TechCrunch
    // Ensure to use String as type
    let rss_feeds = HashMap::from([
        ("Hacker News".to_string(), "https://news.ycombinator.com/rss".to_string()),
        ("TechCrunch".to_string(), "https://techcrunch.com/feed/".to_string()),
    ]);

}

VS Code mit Codevorschlägen für RSS-Feed-URLs für Hacker News und TechCrunch

Öffne ein neues Terminal in VS Code (cmd Umschalt p – suche nach terminal). Führe cargo build aus, um die Änderungen zu erstellen. Die Fehlermeldung weist dich an, den Import von use std::collections::HashMap; hinzuzufügen.

Der nächste Schritt betrifft die RSS-Feed-URLs. Im letzten Blogbeitrag haben wir Code in Funktionen aufgeteilt. Wir möchten den Code für unsere Reader-Anwendung modular mit Rust-Modulen strukturieren.

Module

Module organisieren Code. Mit ihnen können auch Funktionen im Modulbereich ausgeblendet und der Zugriff darauf vom Bereich main() aus beschränkt werden. In unserer Reader-Anwendung möchten wir den RSS-Feed abrufen/XML-Antwort parsen. Der Caller main() sollte nur auf die Funktion get_feeds() zugreifen können, andere Funktionen sind nur im Modul verfügbar.

Erstelle eine neue Datei feed_reader.rs im Verzeichnis src/. Weise Codevorschläge an, ein öffentliches Modul feed_reader und eine öffentliche Funktion get_feeds() mit einer String-HashMap als Eingabe zu erstellen. Wichtig: Die Datei- und Modulnamen müssen gemäß der Rust-Modulstruktur identisch sein.

Codevorschläge: öffentliches Modul mit Funktions- und Eingabetypen erstellen

Wenn du Codevorschläge mit Namen/Typ der Eingabevariablen anweist, wird auch das Modul std::collections::HashMap importiert. Tipp: Experimentiere mit Kommentaren und verfeinere die Variablentypen. Die Übergabe von Funktionsparametern als Objektreferenzen gilt in Rust als Best Practice.

// Create public module feed_reader
// Define get_feeds() function which takes rss_feeds as String HashMap reference as input
pub mod feed_reader {
    use std::collections::HashMap;

    pub fn get_feeds(rss_feeds: &HashMap<String, String>) {
        // Do something with the RSS feeds
    }
}

Codevorschläge: öffentliches Modul mit Funktion und vorgeschlagener Eingabevariable

Weise Codevorschläge innerhalb der Funktion weiter an:

// Iterate over the RSS feed URLs
// Fetch URL content
// Parse XML body
// Print the result

Codevorschläge: öffentliches Modul mit Funktion , Schritt 1: iterieren

Codevorschläge: öffentliches Modul mit Funktion , Schritt 2: URL-Inhalt abrufen

Codevorschläge: öffentliches Modul mit Funktion, Schritt 3: XML-Body parsen

Codevorschläge: öffentliches Modul mit Funktion, Schritt 4: Ergebnisse drucken

Codevorschlag:

// Create public module feed_reader
// Define get_feeds() function which takes rss_feeds as String HashMap reference as input
pub mod feed_reader {
    use std::collections::HashMap;

    pub fn get_feeds(rss_feeds: &HashMap<String, String>) {
        // Iterate over the RSS feed URLs
        for (name, url) in rss_feeds {
            println!("{}: {}", name, url);

            // Fetch URL content
            let body = reqwest::blocking::get(url).unwrap().text().unwrap();

            // Parse XML body
            let parsed_body = roxmltree::Document::parse(&body).unwrap();

            // Print the result
            println!("{:#?}", parsed_body);
        }
    }
}

Du siehst ein neues Keyword: unwrap(). Rust unterstützt keine null-Werte und verwendet immer den Typ Option. Wenn du einen bestimmten wrapped-Typ verwenden willst, z. B. Text oder String, rufe die Methode unwrap() auf, um den Wert zu erhalten. Methode unwrap() gerät bei Wert None in Panik.

Hinweis Codevorschläge bezogen sich auf Funktion reqwest:: blocking::get für Kommentaranweisung // Fetch URL content. Crate reqwest ist kein Tippfehler. Sie bietet einen praktischen, übergeordneten HTTP-Client für asynchrone und blockierende Anfragen.

Parsen des XML-Textes ist schwierig. Du erhältst ggf. unterschiedliche Ergebnisse, das Schema ist nicht für jede RSS-Feed-URL gleich. Rufen wir die Funktion get_feeds() auf und verbessern den Code.

Modulfunktion in main() aufrufen

Funktion main() kennt Funktion get_feeds() noch nicht, wir müssen ihr Modul importieren. Evtl. kennst du schon die Keywords include oder import. Das Rust-Modulsystem ist anders.

Module sind in Pfadverzeichnissen organisiert. Hier liegen beide Quelldateien auf derselben Verzeichnisebene vor. feed_reader.rs wird als Crate interpretiert, die ein Modul feed_reader enthält, das Funktion get_feeds() definiert.

src/
  main.rs
  feed_reader.rs

Um auf get_feeds() aus Datei feed_reader.rs zuzugreifen, müssen wir den Modulpfad in den Bereich main.rs bringen, dann den vollständigen Funktionspfad aufrufen.

mod feed_reader;

fn main() {

    feed_reader::feed_reader::get_feeds(&rss_feeds);

Alternativ können wir den vollständigen Funktionspfad mit Keyword use importieren und später den kurzen Funktionsnamen verwenden.

mod feed_reader;
use feed_reader::feed_reader::get_feeds;

fn main() {

    get_feeds(&rss_feeds);

Tipp: Lies den Blogbeitrag Erklärung des Rust-Modulsystems für ein besseres visuelles Verständnis.


fn main() {
    // ...

    // Print feed_reader get_feeds() output
    println!("{}", feed_reader::get_feeds(&rss_feeds));

use std::collections::HashMap;

mod feed_reader;
// Alternative: Import full function path
//use feed_reader::feed_reader::get_feeds;

fn main() {
    // Define RSS feed URLs in the variable rss_feeds
    // Use a HashMap
    // Add Hacker News and TechCrunch
    // Ensure to use String as type
    let rss_feeds = HashMap::from([
        ("Hacker News".to_string(), "https://news.ycombinator.com/rss".to_string()),
        ("TechCrunch".to_string(), "https://techcrunch.com/feed/".to_string()),
    ]);

    // Call get_feeds() from feed_reader module
    feed_reader::feed_reader::get_feeds(&rss_feeds);
    // Alternative: Imported full path, use short path here.
    //get_feeds(&rss_feeds);
}

Führe cargo build erneut im Terminal aus, um den Code zu erstellen.

cargo build

Potenzielle Build-Fehler, wenn sich Codevorschläge auf allgemeinen Code und Bibliotheken für HTTP-Anfragen und XML-Parsing beziehen:

Fehler: could not find blocking in reqwest. Lösung: Aktiviere Funktion blocking für Crate in Config.toml: reqwest = { version = "0.11.20", features = ["blocking"] }.
Fehler: failed to resolve: use of undeclared crate or module reqwest. Lösung: Füge Crate reqwest hinzu.
Fehler: failed to resolve: use of undeclared crate or module roxmltree. Lösung: Füge Crate roxmltree hinzu.

vim Config.toml

reqwest = { version = "0.11.20", features = ["blocking"] }

cargo add reqwest
cargo add roxmltree

Tipp: Kopiere den Fehlermeldungs-String mit einem führenden Rust <error message> in einen Browser, um zu sehen, ob eine fehlende Crate verfügbar ist. Allgemein führt diese Suche zu einem Ergebnis auf crates.io und du kannst die fehlenden Abhängigkeiten hinzufügen.

Wenn der Build erfolgreich ist, führe den Code mit cargo run aus und überprüfe die RSS-Feed-Ausgabe von Hacker News.

VS-Code-Terminal, cargo run zum Abrufen des XML-Feeds von Hacker News

Wie kann der XML-Body in ein für Menschen lesbares Format geparst werden? Als Nächstes lernen wir über bestehende Lösungen und Rust-Crates.

Crates

RSS-Feeds haben gemeinsame Protokolle und Spezifikationen. Es fühlt sich an, als würde man das Rad neu erfinden, wenn man XML-Elemente parsen und die untere Objektstruktur verstehen will. Empfehlung: Schau nach, ob es dieses Problem samt Code schon gibt.

Der wiederverwendbare Bibliothekscode in Rust ist in Crates organisiert und in Paketen/der Paket-Registry auf crates.io verfügbar. Füge diese Abhängigkeiten hinzu, indem du die Datei Config.toml im Abschnitt [dependencies] bearbeitest oder cargo add <name> verwendest.

Für die Reader-App verwenden wir Feed-rs-Crate. Öffne ein neues Terminal, führe folgenden Befehl aus:

cargo add feed-rs

VS-Code-Terminal: Crate hinzufügen, in Config.toml überprüfen

feed-rs: XML-Feed parsen

Gehe zu src/feed_reader.rs, ändere den Teil, in dem wir den XML-Body parsen. Codevorschläge versteht, wie Crate feed-rs mit Funktion parser::parse aufgerufen wird, aber feed-rs erwartet die String-Eingabe als Rohbytes, um die Codierung selbst zu bestimmen. Wir können im Kommentar Anweisungen geben, um das erwartete Ergebnis zu erhalten.

            // Parse XML body with feed_rs parser, input in bytes
            let parsed_body = feed_rs::parser::parse(body.as_bytes()).unwrap();

Codevorschläge: öffentliches Modul mit Funktion , Schritt 5: XML-Parser in feed-rs ändern

Den Vorteil von feed-rs siehst du im Ausdruck mit cargo run: Alle Schlüssel/Werte werden ihren jeweiligen Rust-Objekttypen zugeordnet und können für weitere Operationen verwendet werden.

VS-Code-Terminal, cargo run zum Abrufen des XML-Feeds von Hacker News

Laufzeit-Konfiguration: Programmargumente

Bisher haben wir das Programm mit hardcoded RSS-Feed-Werten ausgeführt, die in die Binärdatei kompiliert wurden. Jetzt wird der RSS-Feed zur Laufzeit konfiguriert.

Rust stellt in der Standard-Misc-Bibliothek Programmargumente bereit. Argumente parsen ist besser und schneller als das Zielen auf erweiterte Programmargument-Parser (z. B. die Crate clap) oder das Verschieben der Programmparameter in eine Konfigurationsdatei/ein Format (TOML, YAML). Vor diesem Blog habe ich Verschiedenes für die beste Lernerfahrung ausprobiert und versagt. Du kannst trotzdem versuchen, RSS-Feeds anders zu konfigurieren.

Als langweilige Lösung können Befehlsparameter als "name,url" String-Wert-Paare übergeben und durch das ,-Zeichen getrennt werden, um den Namen und die URL-Werte zu extrahieren. Der Kommentar weist Codevorschläge an, diese Vorgänge auszuführen und die HashMap rss_feeds um die neuen Werte zu erweitern. Die Variable ist möglicherweise nicht veränderbar und muss in let mut rss_feeds geändert werden.

Gehe zu src/main.rs und füge der Funktion main() nach der Variable rss_feeds diesen Code hinzu. Beginne mit einem Kommentar, um die Programmargumente zu definieren, überprüfe die vorgeschlagenen Codeschnipsel.

    // Program args, format "name,url"
    // Split value by , into name, url and add to rss_feeds

Codevorschläge für Programmargumente und Aufteilung von name,URL-Werten für die Variable rss_feeds

Vollständiges Codebeispiel:

fn main() {
    // Define RSS feed URLs in the variable rss_feeds
    // Use a HashMap
    // Add Hacker News and TechCrunch
    // Ensure to use String as type
    let mut rss_feeds = HashMap::from([
        ("Hacker News".to_string(), "https://news.ycombinator.com/rss".to_string()),
        ("TechCrunch".to_string(), "https://techcrunch.com/feed/".to_string()),
    ]);

    // Program args, format "name,url"
    // Split value by , into name, url and add to rss_feeds
    for arg in std::env::args().skip(1) {
        let mut split = arg.split(",");
        let name = split.next().unwrap();
        let url = split.next().unwrap();
        rss_feeds.insert(name.to_string(), url.to_string());
    }

    // Call get_feeds() from feed_reader module
    feed_reader::feed_reader::get_feeds(&rss_feeds);
    // Alternative: Imported full path, use short path here.
    //get_feeds(&rss_feeds);
}

Du kannst Programmargumente direkt an den Befehl cargo run übergeben, wobei den Argumenten -- vorgestellt ist. --. Füge alle Argumente mit doppelten Anführungszeichen und den Namen gefolgt von einem Komma und den RSS-Feed-URL als Argument ein. Trenne alle Argumente mit Leerzeichen.

cargo build

cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

VS-Code-Terminal, Beispiel einer RSS-Feed-Ausgabe für den GitLab-Blog

Fehlerbehandlung bei Benutzereingaben

Wenn die Benutzereingabe nicht der Programmerwartung entspricht, müssen wir einen Fehler ausgeben und dem Caller helfen, die Programmargumente zu beheben. Die Übergabe eines fehlerhaften URL-Formats sollte als Laufzeitfehler behandelt werden. Weise Codevorschläge an, einen Fehler auszugeben, wenn die URL nicht gültig ist.

    // Ensure that URL contains a valid format, otherwise throw an error

Mögliche Lösung: Beginnt die Variable url mit http:// oder https://? Wenn nicht, gib einen Fehler mit dem Makro Panic! aus. Vollständiges Codebeispiel:

    // Program args, format "name,url"
    // Split value by , into name, url and add to rss_feeds
    for arg in std::env::args().skip(1) {
        let mut split = arg.split(",");
        let name = split.next().unwrap();
        let url = split.next().unwrap();

        // Ensure that URL contains a valid format, otherwise throw an error
        if !url.starts_with("http://") && !url.starts_with("https://") {
            panic!("Invalid URL format: {}", url);
        }

        rss_feeds.insert(name.to_string(), url.to_string());
    }

Teste, was passiert, wenn du ein : in einem URL-String entfernst. Füge die Umgebungsvariable RUST_BACKTRACE=full hinzu, um beim Aufruf von panic() eine ausführlichere Ausgabe zu erhalten.

RUST_BACKTRACE=full cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https//www.cncf.io/feed/"

VS-Code-Terminal mit falschem URL-Format, panic-Fehler-Backtrace

Persistenz und Datenspeicherung

Bei der langweiligen Lösung zum Speichern der Feed-Daten wird der geparste Body in eine neue Datei kopiert. Weise Codevorschläge an, ein Muster zu verwenden, das den RSS-Feed-Namen und das aktuelle ISO-Datum enthält.

    // Parse XML body with feed_rs parser, input in bytes
    let parsed_body = feed_rs::parser::parse(body.as_bytes()).unwrap();

    // Print the result
    println!("{:#?}", parsed_body);

    // Dump the parsed body to a file, as name-current-iso-date.xml
    let now = chrono::offset::Local::now();
    let filename = format!("{}-{}.xml", name, now.format("%Y-%m-%d"));
    let mut file = std::fs::File::create(filename).unwrap();
    file.write_all(body.as_bytes()).unwrap();

Ein möglicher Vorschlag ist die Verwendung der Crate chrono. Füge sie mit cargo add chrono hinzu, rufe wieder cargo build und cargo run auf.

Die Dateien werden in das gleiche Verzeichnis geschrieben, in dem cargo run ausgeführt wurde. Wenn du die Binärdatei direkt im Verzeichnis target/debug/ ausführst, werden alle Dateien dort abgelegt.

VS-Code mit CNCF-RSS-Feed-Inhaltsdatei, auf Festplatte gespeichert

Optimierung

Die Einträge in der Variable rss_feeds werden nacheinander ausgeführt. Bei einer Liste mit über 100 konfigurierten URLs kann das Abrufen und Verarbeiten lange dauern. Was wäre, wenn Abrufanforderungen parallel ausgeführt würden?

Asynchrone Ausführung

Rust stellt Threads für die asynchrone Ausführung bereit.

Bei der einfachsten Lösung wird für jede RSS-Feed-URL ein Thread erstellt. Wir sprechen später über Optimierungsstrategien. Vor der parallelen Ausführung musst du die Ausführungszeit des sequentiellen Codes mit dem Befehl cargo run vor time messen.

time cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

0.21s user 0.08s system 10% cpu 2.898 total

Beachte, dass diese Übung mehr manuelle Codearbeit erfordern könnte. Empfehlung: Den sequentiellen Arbeitszustand in einem neuen Git-Commit und einem neuen Git-Branch sequential-exec beibehalten, um die Auswirkungen der parallelen Ausführung besser zu vergleichen.

git commit -avm "Sequential execution working"
git checkout -b sequential-exec
git push -u origin sequential-exec

git checkout main

Threads spawnen

Öffne src/feed_reader.rs und refaktorisiere die Funktion get_feeds(). Beginne mit einem Git-Commit für den aktuellen Status und lösche dann den Inhalt des Funktionsbereichs. Füge die folgenden Codekommentare hinzu:

// Store threads in vector: Speichere die Thread-Alias in einem Vektor, damit wir warten können, bis sie am Ende des Funktionsaufrufs abgeschlossen sind.
// Loop over rss_feeds and spawn threads: Erstelle Boilerplate-Code für die Iteration über alle RSS-Feeds und einen neuen Thread.

Füge die folgenden use-Anweisungen hinzu, um mit den Modulen thread und time zu arbeiten.

    use std::thread;
    use std::time::Duration;

Schreibe den Code weiter, schließe die for-Schleife. Codevorschläge schlägt dann automatisch vor, das Thread-Alias in der Vektorvariable threads hinzuzufügen und bietet an, den Threads am Ende der Funktion beizutreten.

    pub fn get_feeds(rss_feeds: &HashMap<String, String>) {

        // Store threads in vector
        let mut threads: Vec<thread::JoinHandle<()>> = Vec::new();

        // Loop over rss_feeds and spawn threads
        for (name, url) in rss_feeds {
            let thread_name = name.clone();
            let thread_url = url.clone();
            let thread = thread::spawn(move || {

            });
            threads.push(thread);
        }

        // Join threads
        for thread in threads {
            thread.join().unwrap();
        }
    }

Füge die Crate thread hinzu, erstelle den Code, führe ihn erneut aus.

cargo add thread

cargo build

cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

Zu diesem Zeitpunkt werden keine Daten verarbeitet oder gedruckt. Bevor wir die Funktion erneut hinzufügen, informieren wir uns über die neu eingeführten Keywords.

Funktionsumfänge, Threads und Closures

Mit dem vorgeschlagenen Code gilt es neue Keywords und Designmuster zu erlernen. Der Thread-Alias hat den Typ thread:: JoinHandle, wir können also warten, bis die Threads (join()) beendet haben.

thread::spawn() erstellt einen neuen Thread, in dem wir ein Funktionsobjekt übergeben können. In diesem Fall wird der Ausdruck closure als anonyme Funktion übergeben. Closure-Eingaben werden mit der Syntax || übergeben. Du erkennst den Closure move, der die Variablen des Funktionsbereichs in den Thread-Bereich verschiebt. Dadurch wird die manuelle Angabe vermieden, welche Variablen in den neuen Funktions-/Closure-Bereich übergeben werden müssen.

Einschränkung: rss_feeds ist eine Referenz &, die vom Funktions-Caller get_feeds() als Parameter übergeben wird. Die Variable ist nur im Funktionsbereich gültig. Provoziere diesen Fehler mit diesem Codeausschnitt:

pub fn get_feeds(rss_feeds: &HashMap<String, String>) {

    // Store threads in vector
    let mut threads: Vec<thread::JoinHandle<()>> = Vec::new();

    // Loop over rss_feeds and spawn threads
    for (key, value) in rss_feeds {
        let thread = thread::spawn(move || {
            println!("{}", key);
        });
    }
}

VS-Code-Terminal, Fehler im Variablenbereich mit Referenzen und Thread-Verschiebungs-Closure

Obwohl die Variable key im Funktionsbereich erstellt wurde, verweist sie auf die Variable rss_feeds und kann nicht in den Thread-Bereich verschoben werden. Werte, auf die über den Funktionsparameter rss_feeds zugegriffen wird, erfordern eine lokale Kopie mit clone().

VS-Code-Terminal, Thread-Spawn mit Klon

pub fn get_feeds(rss_feeds: &HashMap<String, String>) {

    // Store threads in vector
    let mut threads: Vec<thread::JoinHandle<()>> = Vec::new();

    // Loop over rss_feeds and spawn threads
    for (name, url) in rss_feeds {
        let thread_name = name.clone();
        let thread_url = url.clone();
        let thread = thread::spawn(move || {
            // Use thread_name and thread_url as values, see next chapter for instructions.

Feed-XML in Objekttypen parsen

Als Nächstes werden die Schritte für das Parsen des RSS-Feeds im Thread-Closure wiederholt. Füge folgende Codekommentare hinzu:

// Parse XML body with feed_rs parser, input in bytes. Damit rufst du den Inhalt der RSS-Feed-URL ab und parst ihn mit den Crate-Funktionen feed_rs.
// Check feed_type attribute feed_rs::model::FeedType::RSS2 or Atom and print its name: Extrahiere den Feed-Typ, indem du das Attribut feed_type mit dem feed_rs::model::FeedType vergleichst. Dazu braucht Codevorschläge Anweisungen, in denen die genauen ENUM-Werte für den Abgleich angegeben werden.

Weise Codevorschläge an, mit bestimmten Feed-Typen abzugleichen

            // Parse XML body with feed_rs parser, input in bytes
            let body = reqwest::blocking::get(thread_url).unwrap().bytes().unwrap();
            let feed = feed_rs::parser::parse(body.as_ref()).unwrap();

            // Check feed_type attribute feed_rs::model::FeedType::RSS2 or Atom and print its name
            if feed.feed_type == feed_rs::model::FeedType::RSS2 {
                println!("{} is an RSS2 feed", thread_name);
            } else if feed.feed_type == feed_rs::model::FeedType::Atom {
                println!("{} is an Atom feed", thread_name);
            }

Erstelle das Programm und führe es erneut aus. Überprüfe die Ausgabe.

time cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

CNCF is an RSS2 feed
TechCrunch is an RSS2 feed
GitLab Blog is an Atom feed
Hacker News is an RSS2 feed

Wir überprüfen diese Ausgabe: Öffne die Feed-URLs im Browser oder sieh die heruntergeladenen Dateien an.

Hacker News unterstützt RSS-Version 2.0 mit channel(title,link,description,item(title,link,pubDate,comments)). TechCrunch und der CNCF-Blog haben eine ähnliche Struktur.

<rss version="2.0"><channel><title>Hacker News</title><link>https://news.ycombinator.com/</link><description>Links for the intellectually curious, ranked by readers.</description><item><title>Writing a debugger from scratch: Breakpoints</title><link>https://www.timdbg.com/posts/writing-a-debugger-from-scratch-part-5/</link><pubDate>Wed, 27 Sep 2023 06:31:25 +0000</pubDate><comments>https://news.ycombinator.com/item?id=37670938</comments><description><![CDATA[<a href="https://news.ycombinator.com/item?id=37670938">Comments</a>]]></description></item><item>

Im GitLab-Blog wird das Atom-Feed-Format verwendet, das RSS zwar ähnlich ist, aber eine andere Parsing-Logik erfordert.

<?xml version='1.0' encoding='utf-8' ?>
<feed xmlns='http://www.w3.org/2005/Atom'>
<!-- / Get release posts -->
<!-- / Get blog posts -->
<title>GitLab</title>
<id>https://about.gitlab.com/blog</id>
<link href='https://about.gitlab.com/blog/' />
<updated>2023-09-26T00:00:00+00:00</updated>
<author>
<name>The GitLab Team</name>
</author>
<entry>
<title>Atlassian Server ending: Goodbye disjointed toolchain, hello DevSecOps platform</title>
<link href='https://about.gitlab.com/blog/2023/09/26/atlassian-server-ending-move-to-a-single-devsecops-platform/' rel='alternate' />
<id>https://about.gitlab.com/blog/2023/09/26/atlassian-server-ending-move-to-a-single-devsecops-platform/</id>
<published>2023-09-26T00:00:00+00:00</published>
<updated>2023-09-26T00:00:00+00:00</updated>
<author>
<name>Dave Steer, Justin Farris</name>
</author>

Generische Feed-Datentypen zuordnen

Mit roxmltree::Document::parse müssten wir den XML-Knotenbaum und dessen spezifische Tag-Namen verstehen. Glücklicherweise bietet feed_rs::model::Feed ein kombiniertes Modell für RSS- und Atom-Feeds. Wir verwenden daher die Crate feed_rs weiter.

Atom: Feed->Feed, Eintrag->Eintrag
RSS: Kanal->Feed, Element->Eintrag

Zusätzlich zur obigen Zuordnung müssen wir die erforderlichen Attribute extrahieren und deren Datentypen zuordnen. Es ist hilfreich, die Dokumentation für feed_rs::model zu öffnen, um die Strukturen und ihre Felder sowie Implementierungen zu verstehen. Andernfalls würden einige Vorschläge zu Fehlern bei der Typkonvertierung und Kompilierungsfehlern führen, die für die Implementierung von feed_rs spezifisch sind.

Eine Feed-Struktur liefert den title, Typ Option<Text> (entweder ist ein Wert festgelegt oder nichts). Eine Entry-Struktur bietet:

title: Option<Text>mit Text und dem Feld content als String.
updated: Option<DateTime<Utc>> mit DateTime mit der format()-Methode.
summary: Option<Text> Text und das Feld content als String.
links: Vec<Link>, Vektor mit Link-Elementen. Das Attribut href liefert die rohe URL-Zeichenfolge.

Nutze dieses Wissen, um die erforderlichen Daten aus den Feed-Einträgen zu extrahieren. Zur Erinnerung: Alle Option-Typen müssen unwrap() aufrufen und erfordert weitere rohe Anweisungen für Codevorschläge.

                // https://docs.rs/feed-rs/latest/feed_rs/model/struct.Feed.html
                // https://docs.rs/feed-rs/latest/feed_rs/model/struct.Entry.html
                // Loop over all entries, and print
                // title.unwrap().content
                // published.unwrap().format
                // summary.unwrap().content
                // links href as joined string
                for entry in feed.entries {
                    println!("Title: {}", entry.title.unwrap().content);
                    println!("Published: {}", entry.published.unwrap().format("%Y-%m-%d %H:%M:%S"));
                    println!("Summary: {}", entry.summary.unwrap().content);
                    println!("Links: {:?}", entry.links.iter().map(|link| link.href.clone()).collect::<Vec<String>>().join(", "));
                    println!();
                }

Codevorschläge zum Drucken von Feed-Eintragstypen mit spezifischen Anforderungen

Fehlerbehandlung mit der Option unwrap()

Wiederhole die mehrzeiligen Anweisungen, nachdem du das Programm erstellt und erneut ausgeführt hast. Spoiler: unwrap() ruft das Makro panic! auf und lässt das Programm abstürzen, wenn es auf leere Werte stößt. Dies kann passieren, wenn ein Feld wie summary in den Feed-Daten nicht festgelegt ist.

GitLab Blog is an Atom feed
Title: How the Colmena project uses GitLab to support citizen journalists
Published: 2023-09-27 00:00:00
thread '<unnamed>' panicked at 'called `Option::unwrap()` on a `None` value', src/feed_reader.rs:40:59

Mögliche Lösung: std::Option::unwrap_or_else verwenden und einen leeren String als Standardwert festlegen. Die Syntax erfordert einen Closure, der eine leere Text-Strukturinstanziierung zurückgibt.

Es waren viele Versuche nötig, um die richtige Initialisierung zu finden. Das Übergeben nur einer leeren Zeichenfolge funktionierte nicht mit benutzerdefinierten Typen. Ich zeige dir, was ich versucht habe.

// Problem: The `summary` attribute is not always initialized. unwrap() will panic! then.
// Requires use mime; and use feed_rs::model::Text;
/*
// 1st attempt: Use unwrap() to extraxt Text from Option<Text> type.
println!("Summary: {}", entry.summary.unwrap().content);
// 2nd attempt. Learned about unwrap_or_else, passing an empty string.
println!("Summary: {}", entry.summary.unwrap_or_else(|| "").content);
// 3rd attempt. summary is of the Text type, pass a new struct instantiation.
println!("Summary: {}", entry.summary.unwrap_or_else(|| Text{}).content);
// 4th attempt. Struct instantiation requires 3 field values.
println!("Summary: {}", entry.summary.unwrap_or_else(|| Text{"", "", ""}).content);
// 5th attempt. Struct instantation with public fields requires key: value syntax
println!("Summary: {}", entry.summary.unwrap_or_else(|| Text{content_type: "", src: "", content: ""}).content);
// 6th attempt. Reviewed expected Text types in https://docs.rs/feed-rs/latest/feed_rs/model/struct.Text.html and created Mime and String objects
println!("Summary: {}", entry.summary.unwrap_or_else(|| Text{content_type: mime::TEXT_PLAIN, src: String::new(), content: String::new()}).content);
// 7th attempt: String and Option<String> cannot be casted automagically. Compiler suggested using `Option::Some()`.
println!("Summary: {}", entry.summary.unwrap_or_else(|| Text{content_type: mime::TEXT_PLAIN, src: Option::Some(), content: String::new()}).content);
*/

// xth attempt: Solution. Option::Some() requires a new String object.
println!("Summary: {}", entry.summary.unwrap_or_else(|| Text{content_type: mime::TEXT_PLAIN, src: Option::Some(String::new()), content: String::new()}).content);

Dies war nicht zufriedenstellend, da die Codezeile kompliziert ist und manuelle Arbeit ohne Codevorschläge erforderte. Ich ging also einen Schritt zurück: Wenn Option none ist, gibt unwrap() einen Fehler aus. Ich fragte Codevorschläge in einem neuen Kommentar:

                // xth attempt: Solution. Option::Some() requires a new String object.
                println!("Summary: {}", entry.summary.unwrap_or_else(|| Text{content_type: mime::TEXT_PLAIN, src: Option::Some(String::new()), content: String::new()}).content);

                // Alternatively, use Option.is_none()

Codevorschläge hat nach Alternativen gefragt, wenn Options.is_none

Ergebnis: erhöhte Lesbarkeit, weniger CPU-Zyklen, die mit unwrap() verschwendet wurden, und eine Lernkurve .

Denke daran: Füge das Speichern der XML-Daten auf der Festplatte erneut hinzu, um die Reader-App erneut abzuschließen.

                // Dump the parsed body to a file, as name-current-iso-date.xml
                let file_name = format!("{}-{}.xml", thread_name, chrono::Local::now().format("%Y-%m-%d-%H-%M-%S"));
                let mut file = std::fs::File::create(file_name).unwrap();
                file.write_all(body.as_ref()).unwrap();

Erstelle das Programm, führe es aus, um die Ausgabe zu überprüfen.

cargo build

time cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

VS-Code-Terminal, cargo run mit formatierter Ausgabe von Feed-Einträgen

Benchmarks

Benchmarks für sequentielle vs. parallele Ausführung

Vergleiche die Ausführungszeit-Benchmarks, indem du jeweils fünf Samples erstellst.

Sequentielle Ausführung. Beispiel-Quellcode MR
Parallele Ausführung. Beispiel-Quellcode MR

# Sequential
git checkout sequential-exec

time cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

0.21s user 0.08s system 10% cpu 2.898 total
0.21s user 0.08s system 11% cpu 2.585 total
0.21s user 0.09s system 10% cpu 2.946 total
0.19s user 0.08s system 10% cpu 2.714 total
0.20s user 0.10s system 10% cpu 2.808 total

# Parallel
git checkout parallel-exec

time cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

0.19s user 0.08s system 17% cpu 1.515 total
0.18s user 0.08s system 16% cpu 1.561 total
0.18s user 0.07s system 17% cpu 1.414 total
0.19s user 0.08s system 18% cpu 1.447 total
0.17s user 0.08s system 16% cpu 1.453 total

Die CPU-Nutzung ist bei der parallelen Ausführung von vier RSS-Feed-Threads gestiegen, hat aber die Gesamtzeit fast halbiert. Wenn wir dies beachten, können wir unsere Kenntnisse von Rust vertiefen und den Code und die Funktionalität optimieren.

Beachte, dass wir den Debug-Build über Cargo ausführen und noch nicht über die optimierten veröffentlichten Builds. Einschränkungen bei der parallelen Ausführung: Einige HTTP-Endpunkte haben Ratenbegrenzungen eingeführt.

Das System, das mehrere Threads parallel ausführt, könnte ebenfalls überlastet werden – Threads erfordern einen Kontextwechsel im Kernel und weisen jedem Thread Ressourcen zu. Während ein Thread Rechenressourcen erhält, werden andere Threads in den Ruhezustand versetzt. Wenn zu viele Threads gespawned werden, kann dies das System verlangsamen, anstatt den Vorgang zu beschleunigen. Lösungen umfassen Entwurfsmuster wie Arbeitswarteschlangen, bei denen der Caller eine Aufgabe in eine Warteschlange einfügt und eine definierte Anzahl von Worker-Threads die Aufgaben für die asynchrone Ausführung aufnimmt.

Rust bietet auch eine Datensynchronisation zwischen Threads, sogenannten Channels. Um einen gleichzeitigen Datenzugriff zu gewährleisten, stehen mutexes zur Verfügung, die sichere Sperren bieten.

CI/CD mit Rust-Caching

Füge die folgende CI/CD-Konfiguration in die Datei .gitlab-ci.yml ein. Der Job run-latest ruft cargo run mit URL-Beispielen für RSS-Feeds auf und misst die Ausführungszeit kontinuierlich.

stages:
  - build
  - test
  - run

default:
  image: rust:latest
  cache:
    key: ${CI_COMMIT_REF_SLUG}
    paths:
      - .cargo/bin
      - .cargo/registry/index
      - .cargo/registry/cache
      - target/debug/deps
      - target/debug/build
    policy: pull-push

# Cargo data needs to be in the project directory for being cached.
variables:
  CARGO_HOME:${CI_PROJECT_DIR}/.cargo

build-latest:
  stage: build
  script:
    - cargo build --verbose

test-latest:
  stage: build
  script:
    - cargo test --verbose

run-latest:
  stage: run
  script:
    - time cargo run -- "GitLab Blog,https://about.gitlab.com/atom.xml" "CNCF,https://www.cncf.io/feed/"

GitLab-CI/CD-Pipelines für Rust, Cargo-Run-Ausgabe

Wie geht es weiter?

Dieser Blogbeitrag war schwierig zu erstellen, da ich sowohl selbst fortgeschrittene Rust-Programmiertechniken erlernte als auch eine gute Lernkurve mit Codevorschlägen fand. Letzteres hilft bei der schnellen Generierung von Code, nicht nur von Textbausteinen. Nach dem Lesen dieses Blogbeitrags kennst du einige Herausforderungen und Turnarounds. Der Beispiel-Lösungscode für die Reader-App ist im Projekt learn-rust-ai-app-reader verfügbar.

Das Parsen von RSS-Feeds ist herausfordernd, da es sich um Datenstrukturen mit externen HTTP-Anforderungen und parallelen Optimierungen handelt. Als erfahrene(r) Rust-Benutzer(in) hast du dich vielleicht gefragt: Warum verwendet er nicht die Crate std::rss? -- Sie ist für die erweiterte asynchrone Ausführung optimiert und erlaubt es nicht, die verschiedenen Rust-Funktionen, die in diesem Blogbeitrag erläutert werden, zu zeigen und zu erklären. Versuche als Übung den Code mit der Crate rss neu zu schreiben.

Asynchrone Lernübungen

Was du in diesem Blogbeitrag gelernt hast, bildet die Grundlage für zukünftige Projekte mit persistenter Speicherung und Präsentation der Daten. Hier sind ein paar Ideen, mit denen du deine Kenntnisse von Rust vertiefen und die Reader-App optimieren kannst:

Datenspeicherung: Verwende eine Datenbank wie sqlite und RSS-Feed-Update-Tracking.
Benachrichtigungen: Spawne untergeordnete Prozesse, um Benachrichtigungen in Telegram usw. auszulösen.
Funktionalität: Erweitere die Reader-Typen zu REST-APIs
Konfiguration: Füge Unterstützung für Konfigurationsdateien für RSS-Feeds, APIs usw. hinzu.
Effizienz: Füge Unterstützung für Filter und abonnierte Tags hinzu.
Bereitstellungen: Verwende einen Webserver, sammle Prometheus-Metriken und stelle auf Kubernetes bereit.

In einem zukünftigen Blogbeitrag werden wir einige dieser Ideen besprechen und zeigen, wie wir sie umsetzen können. Tauche in vorhandene RSS-Feed-Implementierungen ein und erfahre, wie du den vorhandenen Code in Rust-Bibliotheken (crates) nutzen kannst.

Teile dein Feedback

Wenn du GitLab Duo Codevorschläge verwendest, teile deine Meinung im Feedback-Ticket.