
Manche finden es gut, manche schlecht, aber fast niemand möchte wirklich etwas ändern. Erste Einblicke in eine Studie zu Begutachtungspraktiken in philosophischen Fachzeitschriften
Von Gottfried Schweiger (Salzburg)
Im Frühjahr 2026 hat die AG Philosophische Fachzeitschriften der DGPhil eine online Erhebung zu Begutachtungspraktiken in philosophischen Fachzeitschriften durchgeführt. Erste Eindrücke der Auswertung der knapp 200 vollständig ausgefüllten Fragebögen zeigen, dass die Einschätzungen in der Community durchaus auseinandergehen, aber fast niemand etwas am System der blinden Begutachtung, die mittlerweile als Goldstandard angesehen wird, ändern möchte. Eine erste Auswahl der Befunde.
Die sozialwissenschaftliche Literatur zu Begutachtungspraktiken in Fachzeitschriften ist durchaus reichlich, ebenso wie die philosophie-interne Diskussion über die Vor- und Nachteile blinder Begutachtung, etwa die Frage, ob dadurch Ungerechtigkeiten im System reproduziert werden, welche Qualität abgesichert und wie viel Diversität dadurch ermöglich bzw. verhindert wird. Für die akademische Philosophie fehlen detaillierte sozialwissenschaftliche Forschungen insgesamt, für den deutschsprachigen Raum insbesondere. Diese black box zumindest in mancher Hinsicht zu öffnen, war das Ziel einer Studie, die im Rahmen der AG Philosophische Fachzeitschriften von mir durchgeführt wurde und die neben der quantitieren Erhebung, die hier ausschnittartig vorgestellt wird, auch eine qualitativen Teil mit vertiefenden Interviews mit Herausgeber:innen von Zeitschriften umfasst. Detaillierte Ergebnisse werden im Herbst vorliegen.
Wer spricht hier? Eine erfahrene und statushohe Stichprobe
Zunächst kurz zur hier vorgestellten Stichprobe (Abbildung 1). Insgesamt liegen 202 vollständig ausgefüllte Fragebögen vor. Alle Befragten kennen das System als Autor:in, 187 auch als Gutachter:in und 90 sogar als Herausgeber:in. Zugleich ist die Stichprobe massiv in Richtung Seniorität verzerrt: 111 Befragte sind Professor:innen, also 55 Prozent, und 88 Personen, also 43,6 Prozent, sind länger als 15 Jahre promoviert. Das ist wichtig, weil hier nicht einfach „die Philosophie“ spricht, sondern ein ziemlich erfahrener und statushoher Ausschnitt davon. Wer die Verhältnisse in der akademischen Philosophie kennt, weiß, die Realität ist eine andere, der größte Teil der dort tätigen Menschen sind befristet angestellt im großen Feld des Mittelbaus unterhalb der Professur. Diese Verzerrung in der Stichprobe ist natürlich relevant, dennoch, das kann ich gleich vorwegsagen, es gibt nur wenig relevanten Unterschiede zwischen den „jüngeren“ und den „älteren“ Kolleg:innen, wenn es um die Erfahrungen mit und Einschätzungen der Begutachtungspraktiken geht. Ein bisschen mehr tut sich zwischen den Geschlechtern, aber auch hier zunächst nur der Bericht zur Stichprobe: Fast 2/3 der Fragebögen wurden von Männern ausgefüllt. Konkret: 132 Befragte sind männlich (65,3 %), 63 weiblich (31,2 %), 1 Person divers, 6 machen keine Angabe. Das scheint mir, ohne hier konkrete Zahlen zum Vergleich zu haben, die Situation auf der Ebene der Professuren ganz gut zu spiegeln. Nach kurz zur Methode: Die meisten Einschätzungen wurden auf fünfstufigen Likert-Skalen erhoben. Vereinfacht gesagt: je höher der Wert, desto stärker die Zustimmung bzw. desto höher die Priorisierung. In den Abbildungen werden deshalb teils Mittelwerte gezeigt, teils sogenannte Top-2-Werte, also der Anteil jener, die eine Aussage eher oder voll zustimmend bewertet haben.

Peer Review wird geschätzt und für gut befunden – aber nicht ohne erhebliche Zweifel
So, nun also ein paar deskriptive Einblicke. Zeitschriften sind der wichtigste Publikationsort (Abbildung 2). In Zahlen: 66,2 Prozent stimmen zu, dass begutachtete Zeitschriftenartikel die zentrale Publikationsform in ihrem Feld sind. Noch deutlicher ist die Englisch-Orientierung: 74,8 Prozent sagen, Publikationen auf Englisch seien wichtiger als deutschsprachige Publikationen, und 59,4 Prozent meinen, die besten Artikel in ihrem Feld erschienen in englischsprachigen Zeitschriften. So traurig mal für die deutsche Publikationslandschaft. Wie freiwillig dieser Zug zu den Zeitschriften ist, lässt sich nicht abschließend sagen, zumindest sagen die meisten Kolleg:innen, sie publizieren dort, weil es von ihnen erwartet wird (von wem diese Erwartungen konkret formuliert werden, haben wir nicht abgefragt). Auch die Auswertung nach Teildisziplinen zeigt kein grundsätzlich anderes Bild: Von 180 explorativen Vergleichen bleiben nach FDR-Korrektur nur fünf signifikant. Wo Unterschiede auftreten, sind sie punktuell, etwa dass jene, die zu Logik arbeiten die Diversität von Themen und Ansätzen geringer priorisieren (M = 3,05 vs. 3,96) oder dass in der Politischen Philosophie der Einfluss von Prestige auf die Begutachtung größer wahrgenommen wird (M = 3,45 vs. 2,99).

Die meisten sind der Meinung Peer Review ist eine gute Sache: sie sichert die Qualität und führt zu einer Auswahl hochwertiger Beiträge (Abbildung 3). Das ist die gute Seite, die schlechte wird ebenso mit großer Mehrheit gesehen: Peer Review ist schlecht für Diversität und zwar sowohl auf Ebene der Autor:innen als auch Themen und Methoden. Gemischt sind die Resultate auch, wenn es um Fairness und Transparenz geht. Eine deutliche Mehrheit findet die Verfahren intransparent. Und, das ist interessant, auch jene, die als Gutachter:innen und Herausgeber:innen tätig sind, teilen das. Ein klares Votum gibt es hinsichtlich der Dauer der Begutachtungsverfahren: sie sind zu lange! Und relativ klar ist auch die Einschätzung, dass trotz Begutachtung zu viele schlechte Texte erscheinen. Wie es zusammenpasst, dass Peer Review zur Auswahl der besten Beiträge führt und Qualität sichert, aber trotzdem zu viele schlechte Texte erscheinen, ist noch aufzuklären.

Interessant sind die IST-SOLL-Vergleiche, weil hier gibt es einige große Lücken (Abbildung 4). Begutachtungsverfahren, da sind sich deutliche Mehrheiten einig, sollten nämlich Diversität fördern, sie sollten transparent und fair sein. Sie sind es aber nicht. Das Prestige der Autor:innen sollte im Begutachtungsverfahren keine Rolle spielen, die Wahrnehmung ist aber, dass es das dennoch tut. Und auch dem wiederum stimmen alle zu, egal, ob sie nur Autor:innen oder eben auch Gutachter:innen und Herausgeber:innen sind. Irgendwo hakt es im System. Es gelingt denjenigen, die durch ihre Gutachten und herausgeberischen Entscheidungen an der „Macht“ sitzen offensichtlich nicht, ihre eigenen Überzeugungen von Diversität, Fairness und Transparenz umzusetzen.

Ganz verschwinden die Statusunterschiede dann aber doch nicht (Abbildung 5). Professor:innen sehen manche gegenwärtigen Verfahren etwas positiver als die anderen Gruppen. Besonders deutlich ist das bei der Transparenz: Professor bewerten die Transparenz der Entscheidungskriterien im Schnitt mit 2,99, Postdocs, Mittelbau und außeruniversitär Beschäftigte nur mit 2,47, Doktorand mit 2,50. Das ist immer noch kein berauschender Wert, aber es ist eben doch ein Unterschied. Wer im System besser positioniert ist, sieht offenbar etwas mehr Transparenz als jene, die stärker von Entscheidungen abhängig sind. Noch interessanter wird es bei den Reformen. Mehr Transparenz hat für Professor:innen einen Mittelwert von 3,15, für Postdocs/Mittelbau 3,82 und für Doktorand:innen 3,78. Noch klarer ist der Unterschied bei der Schulung von Gutachter:innen: Professor:innen liegen hier bei 2,65, Postdocs/Mittelbau bei 3,27 und Doktorand:innen bei 3,65. Man könnte also sagen: Je weniger abgesichert die eigene Position im akademischen Feld ist, desto stärker wird der Wunsch nach expliziteren Regeln, besserer Vorbereitung und nachvollziehbareren Verfahren.

Bei Prestige ist das Bild etwas anders. Dass institutionelles Prestige der Autor:innen die Begutachtungsentscheidungen beeinflusst, sehen alle Gruppen in ähnlichem Ausmaß (bei doppeltblinden Begutachtungen kann das eigentlich nur bedeuten, dass diese doch nicht ganz so blind sind, wie erhofft, oder dass dieser Faktor auf Ebene der Herausgeber:innen, die die Autor:innen kennen, eine Rolle spielt): Die Mittelwerte liegen in allen Statusgruppen sehr hoch, zwischen 4,68 und 4,89. Das Problem wird also gemeinsam gesehen. Nur die Dringlichkeit, daraus institutionelle Konsequenzen zu ziehen, ist nicht ganz gleich verteilt. Auch bei Diversität zeigt sich ein erwartbares Muster. Doktorand:innen bewerten es höher, dass Peer Review die Diversität von Themen und theoretischen Ansätzen fördern sollte. Ihr Mittelwert liegt hier bei 4,44, bei Postdocs/Mittelbau bei 3,90 und bei Professor:innen bei 3,71. Auch hier gibt es also keinen großen Dissens.
Post-hoc-Tests zeigen, dass die Statusunterschiede vor allem zwischen Professor:innen und den weniger etablierten Gruppen liegen. Professor:innen bewerten die Transparenz des gegenwärtigen Systems signifikant höher als Postdocs/Mittelbau. Umgekehrt priorisieren Postdocs/Mittelbau und Doktorand:innen mehr Transparenz sowie eine Schulung von Gutachter:innen signifikant stärker als Professor:innen. Bei der gewünschten Förderung von Diversität auf Ebene der publizierten Themen- und Ansätze unterscheiden sich vor allem Doktorand:innen von den anderen Gruppen. Für die gefordertet Unabhängigkeit der Begtutachutng vom Prestige der Autor:innen gibt es keine signifikanten Statusgruppenunterschiede. Kurz gesagt: Statusunterschiede spielen eine Rolle, aber keine große. Fast alle sehen ähnliche Probleme. Aber wer weniger sicher im System steht, legt mehr Gewicht auf die Förderung von Transparenz, eine Schulung der Gutachter:innen, die Formulierung expliziter Kriterien und auch auf mehr Diversität in den Fachzeitschriften. Wer stärker etabliert ist, teilt diese Forderungen, aber erlebt das System in diesen Fragen als besser aufgestellt.
Ebensowenig Dissens gibt es im Großen und Ganzen zwischen den Geschlechtern (Abbildung 6). Insgesamt sind Männer mit 65,3 Prozent in der Stichprobe wie gesagt deutlich überrepräsentiert. Bei vielen Einschätzungen sind die Unterschiede nicht riesig, aber an einer Stelle sind sie sehr klar: Frauen priorisieren mehr Diversität auf Ebene der Herausgeber:innen deutlich stärker als Männer. Der Mittelwert liegt bei Frauen bei 3,60, bei Männern bei 2,83. Das ist einer der robustesten Gruppenunterschiede der Auswertung.

Reform ja, Abschaffung nein: Was sich die Befragten wünschen
Die siebte Abbildung schließlich zeigt, wo die Reformbereitschaft tatsächlich liegt. Es gibt keinen großen Wunsch, das System einfach abzuschaffen oder blinde Begutachtung grundsätzlich über Bord zu werfen. Viel stärker sind die Wünsche nach klareren Qualitätskriterien, mehr Transparenz und besseren Verfahren. Bei Abschaffung blinder Verfahren zeigen sich nach Geschlecht, Status, Karriere, Publikations- oder Review-Erfahrung keine robusten Zusammenhänge. Für die Zustimmung zur Forderung, Gutachten zu veröffentlichen, gibt es höchstens schwache Hinweise: Personen, die nur Autor:innen sind, liegen im Mittel höher als Gutachter:innen und Herausgeber:innen; auch die Spearman-Auswertung zeigt unkorrektiert einen kleinen Zusammenhang mit dem Gutachter:innenstatus, aber nach FDR-Korrektur bleibt das nicht signifikant. Also: es gibt aus den vorliegenden Daten kein belastbares Profil.
Das passt gut zum Gesamtbild: Die meisten wollen blinde Begutachtungsverfahren nicht loswerden, aber sie wollen, dass diese nachvollziehbarer, verlässlicher und weniger informell ablaufen. Auch strengere Begutachtung allein scheint kaum als Lösung gesehen zu werden. Das Problem wird also nicht darin verortet, dass zu wenig selektiert wird, sondern eher darin, dass nicht klar genug ist, nach welchen Kriterien selektiert wird, wer diese Kriterien anwendet und wie daraus am Ende Entscheidungen werden. Das passt gut zu den vorherigen Befunden: Die Community hält am System fest, aber sie traut seinen Routinen nicht ganz. Oder anders gesagt: Peer Review soll bleiben, aber es soll weniger Black Box und mehr nachvollziehbares Verfahren werden.

So viel ein erster Einblick. In den nächsten beiden Posts werde ich mir die Subgruppen der Gutachter:innen und Herausgeber:innen genauer ansehen, ebenso wie die Fragen, was denn nun ein gutes Gutachten ausmacht, dass es eine hohe wahrgenommene Sicherheit über Qualitätsstandards gibt und wie die „informelle Praxis“ von Herausgeber: innen Publikationsentscheidungen trotz diverser Schwachstellen bei der Begutachtung produziert.
Hinweis: Am 24. Juni 2026 von 15.30 bis 17.00 Uhr porganisiert die AG eine Online-Veranstaltung „Diversität in philosophischen Fachzeitschriften. Warum und wie sollte sie gefördert werden?“ mit Thomas Bedorf, Marina Martínez Mateo und Karoline Reinhardt sowie der Moderation von Kathi Beier.
Link: https://tinyurl.com/yjrk8f5v
Gottfried Schweiger arbeitet am Zentrum für Ethik und Armutsforschung an der Universität Salzburg.

