Toxische Kommentarerkennung auf Schwedisch
Toxische Kommentarerkennung auf Schwedisch

Erkennen toxischer Nachrichten in schwedischer Sprache

Auch wenn die rasante Entwicklung des Internets und der sozialen Medien wesentlich zur menschlichen Verbindung beiträgt, ist es unbestreitbar, dass dies auch der Grund ist, warum toxische Verhaltensweisen online häufiger werden. So wurde die Klassifizierung toxischer Kommentare in den letzten Jahren von Experten im Bereich Machine Learning untersucht. Kürzlich bat uns einer unserer Kunden, Ebbot beizubringen, toxische Nachrichten in Gesprächen zu erkennen. Dank dieser speziellen Anfrage haben wir die Möglichkeit, an einem der schwierigsten Themen im Bereich Natural Language Processing (NLP) zu arbeiten. Und ja, wir können nicht aufgeregter sein! 🥳

Herausforderungen beim Sammeln von Datensätzen

Um diese Klassifizierungsaufgabe erfolgreich umzusetzen, müssen wir Ebbot auf einem Textdatensatz mit Toxizität schulen. Obwohl große beschriftete Trainingsdatensätze vorhanden sind, sind sie auf Schwedisch nicht verfügbar. Und die Verwendung von maschineller Übersetzung ist kein guter Ansatz, da es viele Slangs gibt, die nicht genau von Maschinen übersetzt werden können.

Ebbots Lösung zur Erkennung toxischer Nachrichten

Nach der Forschung fanden wir ein Open-Source-Modell, das von Laura Hanu bei Unitarygebaut wurde. Zusätzlich zu der Originalversion, die nur Englisch unterstützte und auf Wikipedia-Kommentaren trainiert wurde, stellte Unitary auch ein mehrsprachiges Modell zur Verfügung, das in 7 verschiedenen Sprachen (Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Türkisch und Russisch) trainiert wurde.
Gleichzeitig haben wir auch ein maschinelles Übersetzungsmodell der Forschungsgruppe Sprachentechnologie der Universität Helsinki gefunden. Diese Kombination ermöglicht es uns, den Mangel an Datasets zu umgehen und die Anforderungen unserer Kunden zu erfüllen. Nach dem Empfang von Eingabetext in Schwedisch übersetzt Ebbot ihn zuerst ins Englische und führt ihn dann durch den Toxizitätsklassifikum. Die Ausgabe wird die Ergebnisse für sechs Kategorien von toxischen Nachrichten sein: Toxizität, schwere Toxizität, obszön, Bedrohung, Beleidigung und Identitäthass. Mit dieser Methode können wir nicht nur entscheiden, ob eine Nachricht toxisch ist oder nicht, sondern wir sind auch in der Lage zu sehen, welche Art von unangemessenen Verhaltensweisen sie mit sich bringt.
Beispiele für die Erkennung toxischer Kommentare
Beispiele für die Erkennung toxischer Kommentare aus unserer Beispiel-Web-App
Wir sind uns bewusst, dass dies nicht die beste Lösung ist, wenn es darum geht, Probleme mit Machine Learning/Artificial Intelligence zu lösen. Wenn wir jedoch den Herausforderungen gegenüberstehen, keine verfügbaren Schulungsdatensätze zu haben,betrachten wir dies als eine der schnellsten und einfachsten Möglichkeiten, mehrsprachige NLP-Herausforderungen zu bewältigen. Derzeit testen wir das Modell und sammeln Benutzerfeedback, um die Leistung der App zu verbessern. Aber bitte zögern Sie nicht, uns zu kontaktieren, wenn Sie Fragen über unser Bot-Builder-Produkt oder spezielle NLP-Integrationen haben 🙌 Wir sind in der Regel sehr reaktionsschnell 😉
Sell-Ebbot-Rosa-background-chatbot

Möchten Sie mehr über unser Produkt erfahren?

Wenn Sie neugierig sind und mehr darüber wissen möchten, wie Ebbot – ein hilfsbereiter digitaler Mitarbeiter – Ihnen helfen kann, treffen wir uns und sprechen Sie darüber! Alles, was Sie tun müssen, ist auf die Schaltfläche unten 👇

Diesen Beitrag teilen

Teilen auf facebook
Anteil auf linkedin
Teilen auf Twitter
Teilen per E-Mail

Lesen Sie mehr

Rechtschreibfehler in schwedischer Sprache automatisch korrigieren

Da unser NLP-Team von Hello Ebbot verstanden hat, dass Tippfehler einer der Gründe sein können, warum Ebbot nicht die richtige Antwort geben kann, hat es beschlossen, eine neue Funktion zur Autokorrektur von Rechtschreibfehlern zu entwickeln, insbesondere für die schwedische Sprache! Unser Rechtschreibkorrekturer berücksichtigt nicht nur den Kontext, um eine bessere Korrektur zu ermöglichen, sondern hat auch eine feste Leistung.

MEHR LESEN »