FemSMA

Ziel von FemSMA ist es, die bisherige Praxis „gender-blinder“ Social Media Analysen um die Genderdimension zu bereichern. Dadurch soll auch einer genderbildenden Praxis der Sozialforschung sowie der Markt- und Meinungsforschung entgegengewirkt werden. Konkret soll ein technisches Konzept bzw. ein Forschungsprototyp zur automatisierten Feststellung des Genders der Autorin bzw. des Autors eines Social Media Beitrags entwickelt werden. Durch das Projekt wird das übergeordnete Ziel verfolgt, das Bewusstsein über genderbedingte Unterschiede, die sich in userInnengenerierten Informationen in sozialen Medien niederschlagen zu schärfen.

FemSMA

Automatisierte, gendersensible Verfahren zum Ausbau von „Social Media Analysen“ als EDV-gestützte Forschungsmethodik

Beteiligte Organisationen

INSET Research & Advisory Unternehmensberatung GmbH (Projektkoordination), Österreichisches Forschungsinstitut für Artificial Intelligence (OFAI)

Laufzeit

Oktober 2012 – September 2014

Projektleitung

MMag.a Dr.in Verena Grubmüller (bis November 2013), Benedikt Springer (ab Dezember 2013)

Homepage

http://femsma.ofai.at/

Ziel des Projekts

Ziel von FemSMA ist es, die bisherige Praxis „gender-blinder“ Social Media Analysen um die Genderdimension zu bereichern. Dadurch soll auch einer genderbildenden Praxis der Sozialforschung sowie der Markt- und Meinungsforschung entgegengewirkt werden. Konkret soll ein technisches Konzept bzw. ein Forschungsprototyp zur automatisierten Feststellung des Genders der Autorin bzw. des Autors eines Social Media Beitrags entwickelt werden. Durch das Projekt wird das übergeordnete Ziel verfolgt, das Bewusstsein über genderbedingte Unterschiede, die sich in userInnengenerierten Informationen in sozialen Medien niederschlagen zu schärfen.

Aus genderlinguistischer Sicht soll durch das Projekt die Frage beantwortet werden, wie Gender auf der Mikroebene der Interaktion in einzelnen Social Media Plattformen sprachlich hergestellt wird. Aus sozialwissenschaftlicher Sicht wird darauf abgezielt, Interessen und Bedürfnisse der Zielgruppe zu identifizieren. Das Ziel aus computerwissenschaftlicher Sicht ist die Entwicklung geeigneter statistischer Lernverfahren für die Analyse von Social Media Beiträgen entlang der Gendervariable, die als Kontinuum angesehen wird.

Fragestellung

Wie kann die sprachliche Konstruktion von Gender in der kommunikativen Interaktion in sozialen Medien in eine automatische Verarbeitung überführt und in weiterer Folge für eine gendersensible Social Media Analyse (SMA) nutzbar gemacht werden?

Hintergrund des Projekts

Forschungsergebnisse haben gezeigt, dass Frauen soziale Medien nicht nur anders nutzen als Männer sondern sich auch anders ausdrücken. Die Inhalte sozialer Medien stellen mittlerweile eine wichtige Quelle wissenschaftlicher Studien dar, dienen aber zunehmend auch Unternehmen oder politischen Parteien zur Feststellung von Stimmungstrends. Die für Analysen von Social Media Beiträgen verwendete Software lässt derzeit keine gendersensible Analyse zu. Dies liegt daran, dass zumeist keine expliziten Informationen zum Gender von AutorInnen vorliegen und zudem nur jene Informationen verwendet werden können, die die BenutzerInnen öffentlich verfügbar machen. Folglich kann die Gender-Bestimmung häufig nur anhand textanalytischer Mechanismen erfolgen.

Geschlechter-/Gender-Konzeption

Das Projekt fokussiert auf das soziale Geschlecht von AutorInnen von Social Media Beiträgen.

Ergebnisse

Ergebnisse aus linguistischer Sicht

Auf Basis des Vergleichs rezenter Studien sowie eigenen Untersuchungen am Datenmaterial wurden die Ebenen Gender Indexicalization, Lexical Choice, Stilistik sowie Phänomene der computervermittelten Kommunikation als relevante Untersuchungsdimensionen für eine Gender-Klassifizierung in Social Media identifiziert und qualitativ und quantitativ analysiert. Die statistische Auswertung zeigt deutlich, dass ein Rückschluss auf das Gender einer/s Userin/Users zum Großteil von kontextuellen Faktoren wie die Art des Social Mediums, das Thema und dem Grad der Formalität einer Diskussion beeinflusst ist. Ein solcher kontextueller Einfluss lässt sich im Datenmaterial sehr gut an der Untersuchung der Verwendung von Emoticons (als ein zentrales Phänomen computervermittelter Kommunikation) zeigen: Ein gegenderter Gebrauch von Emoticons ist in der Studie in 5 von 11 untersuchten Medien signifikant: Userinnen verwenden in Web-Foren zu „persönlichen“ Themen mehr Emoticons als User. In Web-Foren mit stärker „öffentlich-politischen“ Themen gibt es keine signifikanten Unterschiede.

Ergebnisse aus sozialwissenschaftlicher Sicht

Bewusstsein über den Nutzen einer gendersensiblen SMA war v.a. unter den Akteurinnen des Use Case Targeting vorhanden, die SMA bereits ergänzend zu klassischen Methoden der Markt- und Meinungsforschung einsetzen. Insbesondere in der zielgerichteten Gestaltung von (Werbe-) Kampagnen wird Potenzial darin gesehen, Social Media Content auch nach der Variable Gender auswerten zu können. Unter den RepräsentantInnen der anderen Zielgruppen (F&E/Scientific Community, Öffentlicher Dienst/Politik, PR/Public Affairs/Medien, IKT Unternehmen) bestand prinzipielles Interesse an dem Ansatz. Bei diesen potenziellen UserInnen wurde im Zuge der Interviews sowie des UserInnen-Workshops zu einer verstärkten Bewusstseinsbildung beigetragen.

Das rasche Anwachsen von UserInnen-generiertem Content in Social Media sowie dessen Eigenschaft, im Vergleich zu traditionellen Umfragedaten tendenziell weniger dem Effekt der „sozialen Erwünschtheit“ zu unterliegen, haben die Nutzung von SMA zu einer interessanten Forschungsmethode gemacht. Bei der Anwendung für (sozial-) wissenschaftliche Zwecke bestehen aber nach wie vor Herausforderungen. Dazu zählen die begrenzte wissenschaftliche Reliabilität von Ergebnissen aus existierenden (v.a. für den Einsatz im Bereich Business Intelligence konzipierten) SMA Tools und der große Aufwand bei der Datenakquise und -analyse mittels etablierter Tools (z.B. Atlas.ti). FemSMA hat vor diesem Hintergrund SMA für den Einsatz in den (Sozial-) Wissenschaften in dreifacher Hinsicht optimiert: Ausgereiftere Möglichkeiten bei der Erstellung eines nach Gendergruppen differenzierten Datenmaterials (mittels der „Corpus Workbench“), vereinfachte und optimierte qualitative Textanalyse im Vergleich zu den gängigen wissenschaftlichen Analysetools, z.B. durch integrierte Term Extraction, Aufzeigen von geeigneten statistischen Lernverfahren, die im Vergleich zu bisherigen Methoden den Kontext von Social Media Beiträgen einbeziehen.

Ergebnisse aus computerwissenschaftlicher Sicht

Als geeignete statistische Lernverfahren wurden Support Vector Machines (SVM) und Decsision Trees identifiziert und angewandt. Im Hinblick auf das ursprüngliche Vorhaben einer Modellierung der Gendervariable als Kontinuum – d.h. nicht ausschließlich als binäre Kategorie, um auch Raum für andere Konzeptionen von Geschlecht zu geben – konnte keine gangbare Lösung gefunden werden. Dies ist auf einen Mangel an entsprechenden Daten zurückzuführen. Konkret konnten abgesehen von vereinzelten Ausnahmen keine Ressourcen gefunden werden, die nicht eine Männlich-Weiblich-Dichotomie repräsentieren. Dementsprechend blieben die Klassifizierungen im Rahmen des Projekts binär.

Das im Rahmen von FemSMA erstellte deutschsprachige Korpus von Social Media Beiträgen umfasst eine breite Palette an Foren, Tweets und Facebook-Postings. Weiteres wurde zwischen persönlichen, themenorientierten, symmetrischen, asymmetrischen Kommunikationskontexten unterschieden. Auf der Basis von eigens entwickelten, genderlinguistisch fundierten Richtlinien erfolgte eine Annotierung hinsichtlich Gender, die sowohl Metainformationen (z.B. Profilbild, Profilstatement, Nickname), als auch Text (genderindexikalisierende Phrasen) einbezog. Auf diese Weise wurde ein nach Gendergruppen (männlich, weiblich) differenziertes Datenmaterial erstellt.

Mit der „FemSMA Experimentation Platform“ wurde eine Experimentierumgebung für flexibles Trainieren und Testen unterschiedlicher Classifier basierend auf Decision Tree und SVM Technologie implementiert. Diese ist eng mit der Corpus Workbench gekoppelt, sodass alle dort registrierten und manuell klassifizierten Ressourcen direkt zugreifbar sind. Des Weiteren verwenden Corpus Workbench und Experimentation Platform dieselbe Tokenizerkomponente, sodass die automatisch annotierten textuellen Merkmale eins zu eins für das maschinelle Lernen eingesetzt werden können. Die Einbindung des Kontexts ist ein zweistufiger Prozess: Zum einen unterstützt die Experimentation Platform die manuelle Auswahl der Ressourcen aus der Corpus Workbench für das Modelltraining, d.h. es wird die menschliche Kompetenz genutzt, um Social Media Ressourcen thematisch einzuteilen. Zum anderen fließt über die Features „FEMTERMS_ALL“ (Terme, die im gesamten FemSMA Corpus häufiger von Frauen verwendet wurden) und „FEMTERMS_SPC“ (Terme, die in einem bestimmten, frei wählbaren Subcorpus des FemSMA Corpus häufiger von Frauen verwendet wurden) genrespezifische Information mit in den Lernprozess ein.

Zusammen stellen Corpus Workbench und Experimentation Platform den Forschungsprototypen dar. Dieser ist eine wissenschaftlich fundierte technologische Basis für entsprechende Weiterentwicklungen für eine „gendersensible Social Media Analyse“. Die Ergebnisse des Projekts zeigten, dass dabei die adäquate Einbeziehung der spezifischen Kontextfaktoren (z.B. Medium, Thema, soziokulturelle Faktoren) sowie die benötigten Datenmengen für verlässliche Ergebnisse aus statistischen Lernverfahren die zentralen Herausforderungen sind.

Dissemination der Ergebnisse

Newsletter: Es wurden zwei Newsletter im Netzwerk der KonsortialpartnerInnen sowie unter den adressierten Zielgruppen verbreitet.

Im Verlauf des Projekts erfolgte die aktive Teilnahme an drei wissenschaftlichen Konferenzen.

Krenn, Brigitte; Wetschanow, Karin (2013). „Methoden und Tools zum automatischen Erkennen von Doing Gender – ein interdisziplinärer Ansatz“, Proceedings der Tagung „Digital Methods“, Universität Wien, November 2013 (Paper)

Krenn, Brigitte (2016). FemSMA Corpus Workbench. Ein Werkzeug zur Unterstützung der qualitativen und quantitativen Analyse von textuellen Daten, in: Linguistik online 76, 2/16 http://dx.doi.org/10.13092/lo.76.2818

Karin Wetschnow hielt im Wintersemester 2013/14 das Proseminar „Gender und CMC“ am Institut für Sprachwissenschaft der Universität Wien, in das die Erkenntnisse aus dem laufenden Forschungsprozess von FemSMA einflossen.

Karin Wetschanow und Brigitte Krenn hielten im Wintersemester 2014/15 das Proseminar „Gender und Social Media: Linguistische und sprachtechnologische Analysemethoden“ am Institut für Sprachwissenschaft der Universität Wien, welches sich konzeptionell und inhaltlich aus FemSMA heraus entwickelt hat.