Vergleich von Variationalen Quantenschaltkreis-Strukturen für Quanten-Reinforcement Learning