Text in english

Text Analytics

Einführung in die Analyse und Verarbeitung natürlichsprachlicher Texte

Kurs nur in Deutsch

Semesterwochenstunden:

4

Leistungspunkte:

5

Vorkenntnisse:

Wünschenswert: Datenbanken, Programmieren 1 und 2

Veranstaltungstyp:

Seminaristischer Unterricht mit praktischen Übungen.
Die notwendigen theoretischen Konzepte werden in der Vorlesung gemeinsam erarbeitet und im Übungsteil exemplarisch in umgesetzt bzw. unter Verwendung existierender Frameworks angewandt.
Es wird mit Python gearbeitet.

Semesterturnus:

Sommersemester

Arbeitsaufwand:

150 Stunden, davon:
50 Stunden Präsenzzeit
100 Stunden Vor- und Nachbereitung der Vorlesung, Abschlussprojekt und Abschlussprüfung

Beitrag zu den Zielen des Studiengangs:

 

Lernziel:

Nach der Teilnahme an diesem Modul sind die Studierenden in der Lage
  • wichtige Begriffe im Bereich des Natural Language Processing zu definieren
  • überwachte und unüberwachte maschinelle Lernverfahren für die Analyse unstrukturierter, natürlichsprachlicher Texte zu erklären, zu bewerten und einzusetzen
  • Textdaten mit Python systematisch aufzubereiten, zu visualisieren und zu analysieren
  • eigenständig Lösungsansätze für analytische Fragestellungen zu natürlichsprachlichen Texten zu entwickeln
  • Machine-Learning-Prozesse in Python umzusetzen

Schlüsselqualifikationen:

Fähigkeit zu selbständigem Lernen, komplexem Denken, Abstraktions- und Transferfähigkeit, analytische Kompetenz, Teamfähigkeit

Lehrinhalte:

Ein Großteil der digital verfügbaren Information liegt in Form unstrukturierter Texte vor, und diese Datenmenge wächst täglich. Aufgrund der Eigenheiten natürlicher Sprache erfordert die automatisierte Erschließung von Web-Inhalten, Nutzer-Kommentaren, Emails oder digitalisierten Gesprächsprotokollen besondere Verfahren und Algorithmen. Diese kommen beispielsweise in Suchmaschinen, Spam-Filtern oder bei der Verbrechensbekämpfung zum Einsatz. Ziel der Veranstaltung ist es, die Studierenden mit grundlegenden Methoden zum Auffinden von Information (Information Retrieval), zur automatisierten Analyse von Textinhalten (Text Mining) und zur Extraktion von Wissen (Knowledge Acquisition) vertraut zu machen. 
Im Einzelnen wird auf folgende Aspekte eingegangen:
  • Grundlagen des Natural Language Processing (NLP)
    • Vagheit in der Sprache
    • Aufbereitung von Texten
    • Part-of-Speech-Tagging
    • Named Entity Recognition
  • Information Retrieval
    • Vektorraum-Modell
    • Ähnlichkeit von Dokumenten
    • Arbeitsweise von Suchmaschinen
  • Text Mining und Machine Learning auf Texten
    • Topic-Analyse und Clustering
    • Klassifikation
    • Meinungs- und Stimmungsanalyse
    • Kontextuelle Ähnlichkeitsanalyse mit Word Embeddings

Literatur:

Bengfort, Benjamin ; Bilbro, Rebecca ; Ojeda, Tony: Applied Text Analysis with Python. O'Reilly, 2018.
Bird, Steven ; Klein, Ewan ; Loper, Edward: Natural Language Processing with Python. O'Reilly, 2009. Online frei verfügbar unter http://www.nltk.org/book/ 
Henrich, Andreas: Information Retrieval 1. Universität Bamberg, Lehrstuhl für Medieninformatik, 2008. Online frei verfügbar unter https://www.uni-bamberg.de/minf/ir1-buch/ 
Manning, Christopher D. ; Raghavan, Prabhakar ; Schütze, Hinrich: An Introduction to Information Retrieval. Cambridge University Press, 2009. Online frei verfügbar unter https://nlp.stanford.edu/IR-book/   
Raschka, Sebastian: Python Machine Learning. Packt Publishing, 2015. Online im Campusnetz verfügbar unter http://proquest.tech.safaribooksonline.de/9781783555130 (auf Deutsch bei MITP Verlag erschienen, aber nicht online verfügbar) 
VanderPlas, Jake: Python Data Science Handbook. O’Reilly, 2016. Komplett als Jupyter-Notebooks verfügbar unter https://jakevdp.github.io/PythonDataScienceHandbook/ 
Zhai, ChengXiang ; Massung, Sean: Text Data Management and Analysis. ACM Books, 2016. (in Bib. und IN-Präsenzbib.)

Bemerkungen:

 

Leistungsnachweis:

Studienarbeit in Form eines Abschlussprojekts mit Vortrag (Aufwand ca. 40h) und mündliche Befragung (15 min), Gewichtung jeweils 50%.

Zulassungsvoraussetzungen:

 

Hilfsmittel:

 

Modulverantwortliche/r:

Prof. Dr. Albrecht





TH Nürnberg
Fakultät Informatik
Webmaster-IN



Root- Zertifikat

© 2019 Fakultät Informatik