Large Language Models und philosophische Fachzeitschriften: Neue Herausforderungen

Von Gottfried Schweiger (Salzburg)


Die Zeitschrift für praktische Philosophie hat in diesem Jahr zweimal das Thema Künstliche Intelligenz und Large Language Models im Kontext philosophischer Fachzeitschriften auf die Agenda gesetzt. Im Februar fand im Rahmen des Kongresses der Österreichischen Gesellschaft für Philosophie eine erste Veranstaltung mit Karoline Reinhardt (Universität Passau) und Norbert Paulo (KU Eichstätt-Ingolstadt) statt. Im Juni wurde diese Diskussion inm Rahmen einer online Veranstaltung fortgesetzt, bei der Martin Hähnel (Universität Bremen), Suzana Aplsancar (Universität Paderborn) und Luise Müller (FU Berlin) ihre Perspektiven als Herausgeber:innen einbrachten. In beiden Veranstaltungen wurde deutlich, dass es sich hier nicht um eine technologische Entwicklung unter vielen handelt, sondern um einen Wandel, der bereits jetzt die Praxis des wissenschaftlichen Arbeitens und Publizierens stark verändert und der sowohl Risiken als auch Chancen birgt.

Es geht unter anderem um die Frage, was es für das wissenschaftliche Publizieren bedeutet, wenn Texte ganz oder teilweise von Maschinen generiert werden können, die in der Lage sind, sprachlich hochkomplexe und argumentativ durchaus überzeugende Passagen zu produzieren. Die Diskussionen in beiden Veranstaltungen kreisten um mehrere Themenkomplexe, die sich als zentral für die weitere Entwicklung der Zeitschriftenlandschaft erweisen: Wie kann und soll der Einsatz von LLMs im wissenschaftlichen Schreibprozess reguliert werden? Wie kann diese Technologie nützlich und sinnvoll eingesetzt werden? Welche Auswirkungen hat es auf die Reputation von Autor:innen und Zeitschriften, wenn bekannt wird, dass LLMs beim Verfassen von Texten zum Einsatz kamen? Welche ethischen und rechtlichen Fragen stellen sich (etwa im Hinblick auf Urheberschaft, Plagiate oder die intellektuelle Autonomie von Forscher:innen)? Und schließlich, welche Rolle könnten LLMs im Peer-Review-Prozess spielen, also nicht nur beim Schreiben, sondern auch beim Begutachten von Texten?

Zunächst ist es hier hilfreich, einen Blick in die empirische Forschung zu werfen, die mittlerweile klar zeigt, dass LLMs eine erhebliche Rolle im wissenschaftlichen Publizieren spielen und eingesetzt werden (Kousha 2024). Dabei ist jedoch zu beachten, dass die rasante Entwicklung und Verbesserung der Fähigkeiten von LLMs als auch die Verbesserung der Kenntnisse der Nutzer:innen, wie diese sinnvoll eingesetzt werden können, innerhalb weniger Jahre, ja sogar Monate stattgefunden hat und weiter geht, die empirische Forschung also immer etwas hinterherhinkt. Wenn die derzeit verfügbare Empirie also darauf hindeutet, dass ChatGPT primär für sprachliche Verbesserungen eingesetzt wird, was unter anderem die Bedeutung der Technologie für Nichtmuttersprachler:innen unterstreicht, dann ist das nur ein vorläufiger Einblick und unterschätzt vermutlich, wie heute damit gearbeitet wird. Eine Umfrage von Elsevier bestätigt diese Tendenz: 31 Prozent nutzten generative KI für Forschungsaktivitäten, und 93 Prozent waren der Ansicht, dass LLMs beim Schreiben und Begutachten hilfreich seien (Elsevier 2024) – wobei freilich die Frage der öffentlichen Deklaration dieser Nutzung eine andere ist. Schätzungen auf Basis spezifischer Sprachmuster, die typischerweise von LLMs verwendet werden (etwa Begriffe wie “meticulous”, “intricate” oder “showcasing”), legen nahe, dass im Jahr 2023 über 60.000 wissenschaftliche Publikationen mit LLM-Unterstützung verfasst wurden (Gray 2024), während Analysen von medizinischen Abstracts ergaben, dass etwa zehn Prozent der 2024 in PubMed veröffentlichten Texte Spuren von LLM-Nutzung aufweisen (Kobak et al. 2024). Diese Befunde verdeutlichen, dass der Einsatz von LLMs im wissenschaftlichen Schreiben keineswegs eine Randerscheinung ist, sondern bereits eine Dimension erreicht hat, die es erforderlich macht, über angemessene Umgangsformen und Regulierungen nachzudenken. Für die Philosophie liegen noch keine Zahlen vor, es ist aber anzunehmen, dass auch hier der Einsatz von LLMs zu nehmen wird und bereits stattfindet.

LLMs kommen aber nicht nur beim Verfassen von Texten, sondern auch im Peer-Review-Prozess zum Einsatz. Eine Studie schätzt, dass die KI-Nutzung bei Begutachtungen für Informatik-Konferenzen in den letzten Jahren bei über 10% lag (Liang et al. 2024) – möglicherweise, um die Arbeitsbelastung zu reduzieren, oder um die sprachliche Qualität ihrer Gutachten zu verbessern. Eine andere, qualitative Untersuchung mit Gutachter:innen aus verschiedenen Disziplinen (Ebadi et al. 2025) ergab, dass die Befragten LLMs als potenziell wertvolles Werkzeug ansehen, um bestimmte Prozesse zu vereinfachen, wodurch die Arbeitsbelastung verringert und die Konsistenz bei der Anwendung von Begutachtungsstandards erhöht werden könnte. Allerdings betonten die befragten Gutachter:innen auch erhebliche ethische Bedenken, insbesondere im Hinblick auf mögliche Verzerrungen, mangelnde Transparenz sowie Risiken in bezug auf Datenschutz und Vertraulichkeit. LLMs sollen menschliches Urteilsvermögen nicht ersetzen, sondern lediglich ergänzen. Es braucht weiterhin menschliche Aufsicht, um die Qualität der KI-generierten Gutachten sicherzustellen und dort, wo es nötig ist, zu korrigieren. Ein interessanter Nebenbefund dieser Studie ist, dass viele Gutachter:innen nicht darüber informiert waren, dass zahlreiche Zeitschriften bereits Richtlinien zum Einsatz von LLMs im Peer-Review entwickelt haben.

Im Einklang damit sah auch Luise Müller von der Zeitschrift für philosophische Literatur in der Diskussion im Juni großes Potenzial für den sinnvollen Einsatz solcher Technologien in verschiedenen Bereichen der philosophischen Redaktionsarbeit. Perspektivisch könnten starke reasoning Modelle bei der Begutachtung eingesetzt werden und dabei helfen, die Arbeitsbelastung der Gutachter:innen zu reduzieren (was angesichts der oft beklagten Überlastung von Reviewer:innen und der damit verbundenen Verzögerungen im Publikationsprozess ein wichtiger Vorteil wäre). Darüber hinaus ließe sich der Produktionsprozess durch den Einsatz von AI agents weitgehend automatisieren. Müller zeigt sie sich skeptisch gegenüber der oft geäußerten Befürchtung, dass der flächendeckende Einsatz von LLMs beim Schreiben von Artikeln notwendigerweise problematisch sein müsse oder die Fähigkeit zum eigenständigen Denken unterminieren könnte. Vielmehr schlägt sie vor, dass bestimmte Textformen, die ohnehin eine generische Struktur aufweisen (etwa Stipendien-Gutachten oder Empfehlungsschreiben), sich gut von LLMs generieren lassen könnten und dann nur noch von Hand veredelt werden müssten, was zeitliche Ressourcen für inhaltlich anspruchsvollere Aufgaben freisetzen würde.

Norbert Paulo ergänzte diese Perspektive um einen wichtigen Aspekt, der in den Debatten über KI und wissenschaftliches Schreiben häufig zu kurz kommt: die Frage der Gerechtigkeit. Bei allen Risiken, die mit LLMs verbunden sind, sollte man nicht vergessen, dass sie auch dazu beitragen können, bestehende Ungerechtigkeiten im akademischen Betrieb zu vermindern. Paulo weist darauf hin, dass nur die allerwenigsten Philosoph:innen in ihrer Muttersprache schreiben können und die große Mehrheit gezwungen ist, auf Englisch zu publizieren, was oft mit Qualitätseinbußen einhergeht, die sich negativ auf die Karrierewege auswirken, weil die sprachliche Eleganz und Präzision, die in Peer-Review-Prozessen oft eine wichtige Rolle spielt, für Nichtmuttersprachler:innen deutlich schwerer zu erreichen ist. LLMs können hier enorm hilfreich sein, um die sprachliche Qualität englischer Texte zu erhöhen und damit eine strukturelle Benachteiligung zumindest teilweise auszugleichen. Noch weiter geht Paulos Vorschlag, LLMs auch im Begutachtungsprozess einzusetzen, allerdings nicht, um diesen zu automatisieren und Menschen überflüssig zu machen, sondern um ihn fairer zu gestalten. Bisher stellt es einen erheblichen Vorteil dar, an einem großen Philosophieinstitut zu arbeiten, an dem eigene Texte mit vielen Kolleg:innen diskutieren kann, bevor man sie bei einer Zeitschrift einreicht, wodurch viele Fehler und Schwächen schon vor der Einreichung beseitgt werden, was die Chancen einer Annahme deutlich erhöht. Forscher:innen außerhalb solcher Institutionen haben diese Möglichkeit oft nicht. Paulo schlägt daher vor, dass Verlage mit den in einer bestimmten Zeitschrift erschienenen Aufsätzen (und möglicherweise auch mit Gutachten zu Einreichungen) LLMs trainieren, mit denen Autor:innen ihre eigenen Texte diskutieren können, bevor sie diese einreichen, was sowohl die Qualität der Einreichungen erhöhen als auch strukturelle Ungleichheiten im akademischen Feld reduzieren könnte.

Diese unterschiedlichen Perspektiven verdeutlichen, dass es sich bei der Frage nach dem Umgang mit LLMs um ein komplexes Problem handelt, das nicht mit einfachen Antworten oder pauschalen Verboten zu lösen ist. Vielmehr scheint es notwendig, differenziert zu fragen, in welchen Kontexten und für welche Zwecke der Einsatz von LLMs sinnvoll sein kann und wo er problematisch ist oder zumindest besondere Vorkehrungen erfordert. Die Diskussionen machten auch deutlich, dass verschiedene Zeitschriften unterschiedliche Zugänge haben und dass ein Austausch über diese Erfahrungen wichtig sein wird, um voneinander zu lernen und eventuell auch gemeinsame Standards zu entwickeln, sofern solche überhaupt wünschenswert sind, was selbst eine offene Frage ist. Die oben genannten empirischen Befunde zur tatsächlichen Nutzung von LLMs zeigen, dass die Entwicklung bereits weiter fortgeschritten ist, als es die fachöffentliche Diskussion manchmal vermuten lässt, und dass viele Forscher:innen längst Wege gefunden haben, diese Technologien in ihre Arbeitsprozesse zu integrieren, ohne dies notwendigerweise transparent zu machen (was wiederum Fragen nach der Ehrlichkeit und Integrität im wissenschaftlichen Betrieb aufwirft).

Vor diesem Hintergrund ist auch zu sehen, dass in der Deutschen Gesellschaft für Philosophie ab 2026 eine neue Arbeitsgemeinschaft zu philosophischen Fachzeitschriften ihre Arbeit aufnimmt, die sich mit diesen und anderen Fragen der Zeitschriftenlandschaft befassen wird. Philosophische Zeitschriften sind schließlich zentrale Institutionen der akademischen Philosophie, die weit mehr leisten als nur die Veröffentlichung neuer Forschungsergebnisse, indem sie Qualitätsstandards sichern, Sichtbarkeit und Reputation beeinflussen und maßgeblich die fachliche Kultur und Struktur der Disziplin prägen. Die neue AG versteht sich als Forum, in dem Erfahrungen gebündelt, zentrale Herausforderungen identifiziert und gemeinsame Perspektiven entwickelt werden können, und richtet sich an alle, die in unterschiedlichen Funktionen mit Zeitschriften befasst sind, insbesondere Herausgeber:innen und Redakteur:innen. Sprecher:innen der AG sind Gottfried Schweiger (Universität Salzburg), Kathi Beier (Universität Bremen) und Karoline Reinhardt (Universität Passau).

Die Gründung dieser Arbeitsgemeinschaft ist ein wichtiger Schritt, um die Diskussionen, die bereits an verschiedenen Orten geführt werden, zu bündeln und zu institutionalisieren. Die Fragen, die sich im Zusammenhang mit LLMs stellen, erfordern eine gemeinsame Reflexion und Debatte, die verschiedene Perspektiven einbezieht und sowohl die Chancen als auch die Risiken des technologischen Wandels analysiert. Dabei wird es auch darum gehen, zwischen verschiedenen Einsatzformen von LLMs zu unterscheiden (etwa zwischen der Nutzung für sprachliche Korrekturen, die weithin akzeptiert scheint, und dem Verfassen ganzer Argumentationen, was deutlich kontroverser ist) und zu klären, welche Transparenzanforderungen angemessen sind, ohne dass diese zu bürokratisch werden oder Forscher:innen, die nicht in ihrer Muttersprache publizieren (können) erneut benachteiligen.

Literatur

Ebadi, S., Nejadghanbar, H., Salman, A. R., & Khosravi, H. (2025). Exploring the Impact of Generative AI on Peer Review: Insights from Journal Reviewers. Journal of Academic Ethics. https://doi.org/10.1007/s10805-025-09604-4

Elsevier (2024). Insights 2024: Attitudes toward AI – Full report. https://www.elsevier.com/insights/attitudes-toward-ai

Gray, A. (2024). ChatGPT “contamination”: Estimating the prevalence of LLMs in the scholarly literature. arXiv preprint arXiv:2403.16887.

Kobak, D., Márquez, R. G., Horvát, E. Á., & Lause, J. (2024). Delving into ChatGPT usage in academic writing through excess vocabulary. arXiv preprint arXiv:2406.07016.

Kousha, K. (2024). How is ChatGPT acknowledged in academic publications? Scientometrics, 129, 7959–7969. https://doi.org/10.1007/s11192-024-05193-y

Liang, W., Izzo, Z., Zhang, Y., Lepp, H., Cao, H., & Zhao, X. (2024). Monitoring AI-modified content at scale: A case study on the impact of ChatGPT on AI conference peer reviews. arXiv preprint arXiv:2403.07183.