api/ann__policy_8h_source.html

 // -*- Mode: c++ -*-
 // copyright (c) 2004 by Christos Dimitrakakis <dimitrak@idiap.ch>
 // $Id$


 /***************************************************************************
  *                                                                         *
  *   This program is free software; you can redistribute it and/or modify  *
  *   it under the terms of the GNU General Public License as published by  *
  *   the Free Software Foundation; either version 2 of the License, or     *
  *   (at your option) any later version.                                   *
  *                                                                         *
  ***************************************************************************/

 #ifndef ANN_POLICY_H
 #define ANN_POLICY_H

 #include <learning/policy.h>
 class ANN_Policy : public DiscretePolicy
 {
 protected:
     ANN* J;
     ANN** Ja;
     real* ps;
     real* JQs;
     real J_ps_pa;
     real* delta_vector;
     bool eligibility;
     bool separate_actions;
 public:
     ANN_Policy (int n_states, int n_actions, int n_hidden = 0, real alpha=0.1, real gamma=0.8, real lambda=0.8, bool eligibility = false, bool softmax = false, real randomness=0.1, real init_eval=0.0, bool separate_actions = false);
     virtual ~ANN_Policy();
     virtual int SelectAction(real* s, real r, int forced_a=-1);
     virtual void Reset();
     virtual real getLastActionValue () {return J_ps_pa;}
     virtual real* getActionProbabilities () {
         real sum = 0.0;
         int i;
         for (i=0; i<n_actions; i++) {
             sum += eval[i];
         }
         for (i=0; i<n_actions; i++) {
             eval[i] = eval[i]/sum;
         }
         return eval;
     }
     virtual bool useConfidenceEstimates(bool confidence, real zeta=0.01);
 };


 #endif
DiscretePolicy::confidence
bool confidence
Confidence estimates option.
Definition: policy.h:174

DiscretePolicy::r
real r
reward
Definition: policy.h:158

ANN_Policy::useConfidenceEstimates
virtual bool useConfidenceEstimates(bool confidence, real zeta=0.01)
Set to use confidence estimates for action selection, with variance smoothing zeta.
Definition: ann_policy.cpp:188

ANN_Policy::Reset
virtual void Reset()
Reset eligibility traces.
Definition: ann_policy.cpp:175

ANN_Policy::~ANN_Policy
virtual ~ANN_Policy()
Definition: ann_policy.cpp:60

DiscretePolicy::eval
real * eval
evaluation of current aciton
Definition: policy.h:153

ANN_Policy::SelectAction
virtual int SelectAction(real *s, real r, int forced_a=-1)
Select an action, given a vector of real numbers which represents the state.
Definition: ann_policy.cpp:75

ANN_Policy::J
ANN * J
Evaluation network.
Definition: ann_policy.h:38

DiscretePolicy::n_actions
int n_actions
number of actions
Definition: policy.h:150

ANN_Policy::ps
real * ps
Previous state vector.
Definition: ann_policy.h:40

ANN_Policy::ANN_Policy
ANN_Policy(int n_states, int n_actions, int n_hidden=0, real alpha=0.1, real gamma=0.8, real lambda=0.8, bool eligibility=false, bool softmax=false, real randomness=0.1, real init_eval=0.0, bool separate_actions=false)
Make a new policy.
Definition: ann_policy.cpp:17

ANN_Policy::eligibility
bool eligibility
eligibility option
Definition: ann_policy.h:44

DiscretePolicy::alpha
real alpha
learning rate
Definition: policy.h:166

policy.h

ANN_Policy
A type of discrete action policy using a neural network for function approximation.
Definition: ann_policy.h:35

DiscretePolicy::n_states
int n_states
number of states
Definition: policy.h:149

DiscretePolicy::lambda
real lambda
Eligibility trace decay.
Definition: policy.h:165

ANN_Policy::JQs
real * JQs
Placeholder for evaluation vector (separate_actions)
Definition: ann_policy.h:41

DiscretePolicy::gamma
real gamma
Future discount parameter.
Definition: policy.h:164

ANN_Policy::getLastActionValue
virtual real getLastActionValue()
Return the last action value.
Definition: ann_policy.h:56

ANN_Policy::separate_actions
bool separate_actions
Single/separate evaluation option.
Definition: ann_policy.h:45

ANN_Policy::J_ps_pa
real J_ps_pa
Evaluation of last action.
Definition: ann_policy.h:42

DiscretePolicy
Discrete policies with reinforcement learning.
Definition: policy.h:144

ANN_Policy::delta_vector
real * delta_vector
Scratch vector for TD error.
Definition: ann_policy.h:43

real
float real
Definition: real.h:13

ANN_
ANN management structure.
Definition: ANN.h:89

ANN_Policy::Ja
ANN ** Ja
Evaluation networks (for separate_actions case)
Definition: ann_policy.h:39

ANN_Policy::getActionProbabilities
virtual real * getActionProbabilities()
Definition: ann_policy.h:58

DiscretePolicy::zeta
real zeta
Confidence smoothing.
Definition: policy.h:179