Standaard Boekhandel gebruikt cookies en gelijkaardige technologieën om de website goed te laten werken en je een betere surfervaring te bezorgen.
Hieronder kan je kiezen welke cookies je wilt inschakelen:
Technische en functionele cookies
Deze cookies zijn essentieel om de website goed te laten functioneren, en laten je toe om bijvoorbeeld in te loggen. Je kan deze cookies niet uitschakelen.
Analytische cookies
Deze cookies verzamelen anonieme informatie over het gebruik van onze website. Op die manier kunnen we de website beter afstemmen op de behoeften van de gebruikers.
Marketingcookies
Deze cookies delen je gedrag op onze website met externe partijen, zodat je op externe platformen relevantere advertenties van Standaard Boekhandel te zien krijgt.
Door een staking bij bpost kan je online bestelling op dit moment iets langer onderweg zijn dan voorzien. Dringend iets nodig? Onze winkels ontvangen jou met open armen!
Afhalen na 1 uur in een winkel met voorraad
Gratis thuislevering in België vanaf € 30
Ruim aanbod met 7 miljoen producten
Door een staking bij bpost kan je online bestelling op dit moment iets langer onderweg zijn dan voorzien. Dringend iets nodig? Onze winkels ontvangen jou met open armen!
Je kan maximaal 250 producten tegelijk aan je winkelmandje toevoegen. Verwijdere enkele producten uit je winkelmandje, of splits je bestelling op in meerdere bestellingen.
Many real-world problems are inherently hierarchically structured. The use of this structure in an agent's policy may well be the key to improved scalability and higher performance on motor skill tasks. However, such hierarchical structures cannot be exploited by current policy search algorithms. We concentrate on a basic, but highly relevant hierarchy - the `mixed option' policy. Here, a gating network first decides which of the options to execute and, subsequently, the option-policy determines the action. Using a hierarchical setup for our learning method allows us to learn not only one solution to a problem but many. We base our algorithm on a recently proposed information theoretic policy search method, which addresses the exploitation-exploration trade-off by limiting the loss of information between policy updates.