api/policy_8h_source.html

 // -*- Mode: c++ -*-
 // copyright (c) 2004 by Christos Dimitrakakis <dimitrak@idiap.ch>
 // $Id$


 /***************************************************************************
  *                                                                         *
  *   This program is free software; you can redistribute it and/or modify  *
  *   it under the terms of the GNU General Public License as published by  *
  *   the Free Software Foundation; either version 2 of the License, or     *
  *   (at your option) any later version.                                   *
  *                                                                         *
  ***************************************************************************/
 #ifndef POLICY_H
 #define POLICY_H

 #include <cmath>
 #include <cstdlib>
 #include <cstdio>
 #include <learning/ANN.h>
 #include <learning/Distribution.h>

 enum LearningMethod {QLearning, Sarsa, ForcedLearning, ELearning};
 enum ConfidenceDistribution {SINGULAR, BOUNDED, GAUSSIAN, LAPLACIAN};

 class DiscretePolicy
 {
 protected:

     enum LearningMethod learning_method;
     int n_states;
     int n_actions;
     real** Q;
     real** e;
     real* eval;
     real* sample;
     real pQ;
     int ps;
     int pa;
     real r;
     real temp;
     real tdError;
     bool smax;
     bool pursuit;
     real** P;
     real gamma;
     real lambda;
     real alpha;
     real expected_r;
     real expected_V;
     int n_samples;
     int min_el_state;
     int max_el_state;
     bool replacing_traces;
     bool forced_learning;
     bool confidence;
     bool confidence_eligibility;
     bool reliability_estimate;
     enum ConfidenceDistribution confidence_distribution;
     bool confidence_uses_gibbs;
     real zeta;
     real** vQ;
     int confMax(real* Qs, real* vQs, real p = 1.0);
     int confSample(real* Qs, real* vQs);
     int softMax(real* Qs);
     int eGreedy(real* Qs);
     int argMax(real* Qs);
 public:
     DiscretePolicy (int n_states, int n_actions, real alpha=0.1, real gamma=0.8, real lambda=0.8, bool softmax = false, real randomness=0.1, real init_eval=0.0);
     virtual ~DiscretePolicy();
     virtual void setLearningRate (real alpha) {this->alpha = alpha;}
     virtual real getTDError () {return tdError;}
     virtual real getLastActionValue () {return Q[ps][pa];}
     virtual int SelectAction(int s, real r, int forced_a=-1);
     virtual void Reset();
     virtual void loadFile (char* f);
     virtual void saveFile (char* f);
     virtual void setQLearning();
     virtual void setELearning();
     virtual void setSarsa();
     virtual bool useConfidenceEstimates(bool confidence, real zeta=0.01, bool confidence_eligibility = false);
     virtual void setForcedLearning(bool forced);
     virtual void setRandomness (real epsilon);
     virtual void setGamma (real gamma);
     virtual void setPursuit (bool pursuit);
     virtual void setReplacingTraces (bool replacing);
     virtual void useSoftmax (bool softmax);
     virtual void setConfidenceDistribution (enum ConfidenceDistribution cd);
     virtual void useGibbsConfidence (bool gibbs);
     virtual void useReliabilityEstimate (bool ri);
     virtual void saveState (FILE* f);
 };


 #endif
DiscretePolicy::forced_learning
bool forced_learning
Force agent to take supplied action.
Definition: policy.h:173

DiscretePolicy::softMax
int softMax(real *Qs)
Softmax Gibbs sampling.
Definition: policy.cpp:783

DiscretePolicy::setPursuit
virtual void setPursuit(bool pursuit)
Use Pursuit for action selection.
Definition: policy.cpp:618

GAUSSIAN
Definition: policy.h:142

DiscretePolicy::confidence_uses_gibbs
bool confidence_uses_gibbs
Additional gibbs sampling for confidence.
Definition: policy.h:178

DiscretePolicy::confidence
bool confidence
Confidence estimates option.
Definition: policy.h:174

DiscretePolicy::r
real r
reward
Definition: policy.h:158

DiscretePolicy::tdError
real tdError
temporal difference error
Definition: policy.h:160

DiscretePolicy::sample
real * sample
sampling output
Definition: policy.h:154

DiscretePolicy::P
real ** P
pursuit action probabilities
Definition: policy.h:163

DiscretePolicy::~DiscretePolicy
virtual ~DiscretePolicy()
Kill the agent and free everything.
Definition: policy.cpp:155

SINGULAR
Definition: policy.h:142

Sarsa
Definition: policy.h:140

DiscretePolicy::max_el_state
int max_el_state
max state ID to search for eligibility
Definition: policy.h:171

DiscretePolicy::eval
real * eval
evaluation of current aciton
Definition: policy.h:153

BOUNDED
Definition: policy.h:142

LearningMethod
LearningMethod
Types of learning methods.
Definition: policy.h:140

DiscretePolicy::ps
int ps
previous state
Definition: policy.h:156

DiscretePolicy::setSarsa
virtual void setSarsa()
Set the algorithm to SARSA mode.
Definition: policy.cpp:611

DiscretePolicy::eGreedy
int eGreedy(real *Qs)
e-greedy sampling
Definition: policy.cpp:802

DiscretePolicy::saveFile
virtual void saveFile(char *f)
Save policy to a file.
Definition: policy.cpp:550

DiscretePolicy::pursuit
bool pursuit
pursuit option
Definition: policy.h:162

DiscretePolicy::Reset
virtual void Reset()
Use at the end of every episode, after agent has entered the absorbing state.
Definition: policy.cpp:474

DiscretePolicy::n_actions
int n_actions
number of actions
Definition: policy.h:150

Distribution.h

DiscretePolicy::expected_r
real expected_r
Expected reward.
Definition: policy.h:167

DiscretePolicy::vQ
real ** vQ
variance estimate for Q
Definition: policy.h:180

DiscretePolicy::pQ
real pQ
previous Q
Definition: policy.h:155

DiscretePolicy::getTDError
virtual real getTDError()
Get the temporal difference error of the previous action.
Definition: policy.h:193

QLearning
Definition: policy.h:140

DiscretePolicy::replacing_traces
bool replacing_traces
Replacing instead of accumulating traces.
Definition: policy.h:172

ELearning
Definition: policy.h:140

DiscretePolicy::setELearning
virtual void setELearning()
Set the algorithm to ELearning mode.
Definition: policy.cpp:604

DiscretePolicy::n_samples
int n_samples
number of samples for above expected r and V
Definition: policy.h:169

DiscretePolicy::setLearningRate
virtual void setLearningRate(real alpha)
Set the learning rate.
Definition: policy.h:191

DiscretePolicy::alpha
real alpha
learning rate
Definition: policy.h:166

DiscretePolicy::useSoftmax
virtual void useSoftmax(bool softmax)
Set action selection to softmax.
Definition: policy.cpp:662

p
static Point p[4]
Definition: Convex.cpp:54

DiscretePolicy::setForcedLearning
virtual void setForcedLearning(bool forced)
Set forced learning (force-feed actions)
Definition: policy.cpp:639

DiscretePolicy::loadFile
virtual void loadFile(char *f)
Load policy from a file.
Definition: policy.cpp:484

DiscretePolicy::confidence_distribution
enum ConfidenceDistribution confidence_distribution
Distribution to use for confidence sampling.
Definition: policy.h:177

DiscretePolicy::n_states
int n_states
number of states
Definition: policy.h:149

DiscretePolicy::getLastActionValue
virtual real getLastActionValue()
Get the vale of the last action taken.
Definition: policy.h:195

DiscretePolicy::learning_method
enum LearningMethod learning_method
learning method to use;
Definition: policy.h:148

DiscretePolicy::useGibbsConfidence
virtual void useGibbsConfidence(bool gibbs)
Add Gibbs sampling for confidences.
Definition: policy.cpp:704

DiscretePolicy::setGamma
virtual void setGamma(real gamma)
Set the gamma of the sum to be maximised.
Definition: policy.cpp:656

DiscretePolicy::smax
bool smax
softmax option
Definition: policy.h:161

ConfidenceDistribution
ConfidenceDistribution
Types of confidence distributions.
Definition: policy.h:142

DiscretePolicy::confMax
int confMax(real *Qs, real *vQs, real p=1.0)
Confidence-based Gibbs sampling.
Definition: policy.cpp:715

DiscretePolicy::setConfidenceDistribution
virtual void setConfidenceDistribution(enum ConfidenceDistribution cd)
Set the distribution for direct action sampling.
Definition: policy.cpp:684

DiscretePolicy::confidence_eligibility
bool confidence_eligibility
Apply eligibility traces to confidence.
Definition: policy.h:175

DiscretePolicy::setQLearning
virtual void setQLearning()
Set the algorithm to QLearning mode.
Definition: policy.cpp:598

DiscretePolicy::argMax
int argMax(real *Qs)
Get ID of maximum action.
Definition: policy.cpp:816

ForcedLearning
Definition: policy.h:140

DiscretePolicy::lambda
real lambda
Eligibility trace decay.
Definition: policy.h:165

LAPLACIAN
Definition: policy.h:142

DiscretePolicy::setRandomness
virtual void setRandomness(real epsilon)
Set randomness for action selection. Does not affect confidence mode.
Definition: policy.cpp:645

DiscretePolicy::useReliabilityEstimate
virtual void useReliabilityEstimate(bool ri)
Use the reliability estimate method for action selection.
Definition: policy.cpp:673

DiscretePolicy::gamma
real gamma
Future discount parameter.
Definition: policy.h:164

DiscretePolicy::pa
int pa
previous action
Definition: policy.h:157

DiscretePolicy::useConfidenceEstimates
virtual bool useConfidenceEstimates(bool confidence, real zeta=0.01, bool confidence_eligibility=false)
Set to use confidence estimates for action selection, with variance smoothing zeta.
Definition: policy.cpp:580

DiscretePolicy::temp
real temp
scratch
Definition: policy.h:159

DiscretePolicy::confSample
int confSample(real *Qs, real *vQs)
Directly sample from action value distribution.
Definition: policy.cpp:749

DiscretePolicy::e
real ** e
eligibility trace
Definition: policy.h:152

DiscretePolicy::SelectAction
virtual int SelectAction(int s, real r, int forced_a=-1)
Select an action a, given state s and reward from previous action.
Definition: policy.cpp:283

DiscretePolicy::expected_V
real expected_V
Expected state return.
Definition: policy.h:168

DiscretePolicy
Discrete policies with reinforcement learning.
Definition: policy.h:144

DiscretePolicy::Q
real ** Q
state-action evaluation
Definition: policy.h:151

ANN.h
A neural network implementation.

real
float real
Definition: real.h:13

DiscretePolicy::saveState
virtual void saveState(FILE *f)
Save the current evaluations in text format to a file.
Definition: policy.cpp:128

DiscretePolicy::min_el_state
int min_el_state
min state ID to search for eligibility
Definition: policy.h:170

DiscretePolicy::DiscretePolicy
DiscretePolicy(int n_states, int n_actions, real alpha=0.1, real gamma=0.8, real lambda=0.8, bool softmax=false, real randomness=0.1, real init_eval=0.0)
Create a new discrete policy.
Definition: policy.cpp:42

DiscretePolicy::reliability_estimate
bool reliability_estimate
reliability estimates option
Definition: policy.h:176

DiscretePolicy::setReplacingTraces
virtual void setReplacingTraces(bool replacing)
Use Pursuit for action selection.
Definition: policy.cpp:629

DiscretePolicy::zeta
real zeta
Confidence smoothing.
Definition: policy.h:179