api/policy_8cpp_source.html

 // -*- Mode: c++ -*-
 // $Id$

 // copyright (c) 2004 by Christos Dimitrakakis <dimitrak@idiap.ch>
 /***************************************************************************
  *                                                                         *
  *   This program is free software; you can redistribute it and/or modify  *
  *   it under the terms of the GNU General Public License as published by  *
  *   the Free Software Foundation; either version 2 of the License, or     *
  *   (at your option) any later version.                                   *
  *                                                                         *
  ***************************************************************************/

 #include <cstring>
 #include <learning/learn_debug.h>
 #include <learning/policy.h>
 #include <learning/MathFunctions.h>
 #ifdef WIN32
 #include <float.h>
 #define isnan _isnan
 #endif // WIN32

 #undef POLICY_LOG

 #ifndef POLICY_LOG
 #undef logmsg
 #define logmsg empty_log
 #endif

 void empty_log(const char* s, ...)
 {
 }
 DiscretePolicy::DiscretePolicy (int n_states, int n_actions, real alpha,
                 real gamma, real lambda, bool softmax,
                 real randomness, real init_eval)
 {
     if (lambda<0.0f) lambda = 0.0f;
     if (lambda>0.99f) lambda = 0.99f;

     if (gamma<0.0f) gamma = 0.0f;
     if (gamma>0.99f) gamma = 0.99f;

     if (alpha<0.0f) alpha = 0.0f;
     if (alpha>1.0f) alpha = 1.0f;

     this->n_states = n_states;
     this->n_actions = n_actions;
     this->gamma = gamma;
     this->lambda = lambda;
     this->alpha = alpha;
     smax = softmax;
     temp = randomness;
     //logmsg ("RR:%f", temp);
     if (smax) {
         if (temp<0.1f)
             temp = 0.1f;
     } else {
         if (temp<0.0f) {
             temp = 0.0f;
         }
         if (temp>1.0f) {
             temp = 1.0f;
         }
     }
     learning_method = Sarsa;

     logmsg ("#Making Sarsa(lambda) ");
     if (smax) {
         logmsg ("#softmax");
     } else {
         logmsg ("#e-greedy");
     }
     logmsg (" policy with Q:[%d x %d] -> R, a:%f g:%f, l:%f, t:%f\n",
             this->n_states, this->n_actions, this->alpha, this->gamma, this->lambda, this->temp);

     P = new real* [n_states];
     Q = new real* [n_states];
     e = new real* [n_states];
     vQ = new real* [n_states];
     for (int s=0; s<n_states; s++) {
         P[s] = new real [n_actions];
         Q[s] = new real [n_actions];
         e[s] = new real [n_actions];
         vQ[s] = new real [n_actions];
         for (int a=0; a<n_actions; a++) {
             P[s][a] = 1.0/((float)  n_actions);
             Q[s][a] = init_eval;
             e[s][a] = 0.0;
             vQ[s][a] = 1.0;
         }
     }
     pQ = 0.0;
     ps = -1;
     pa = -1;
     min_el_state = 0;
     max_el_state = n_states -1;
     eval = new real[n_actions];
     sample = new real[n_actions];
     for (int a=0; a<n_actions; a++) {
         eval[a] = 0.0;
         sample[a] = 0.0;
     }
     forced_learning = false;
     confidence = false;
     confidence_uses_gibbs = true;
     confidence_distribution = SINGULAR;
     zeta = 0.01f;
     tdError = 0.0f;
     expected_r = 0.0f;
     expected_V = 0.0f;
     n_samples = 0;
     replacing_traces = false;
 }

 void DiscretePolicy::saveState(FILE* f)
 {
     if (!f)
         return;
     for (int s=0; s<n_states; s++) {

         //softMax(Q[s]);
         real sum2=0.0;
         int a;
         for (a=0; a<n_actions; a++) {
             sum2 += eval[a];
         }
         for (a=0; a<n_actions; a++) {
             fprintf (f, "%f ", Q[s][a]);
         }
         for (a=0; a<n_actions; a++) {
             fprintf (f, "%f ", P[s][a]);
         }
         for (a=0; a<n_actions; a++) {
             fprintf (f, "%f ", vQ[s][a]);
         }
     }

     fprintf (f, "\n");
 }

 DiscretePolicy::~DiscretePolicy()
 {
     real sum = 0.0;
     FILE* f = fopen ("/tmp/discrete","wb");

     int s;
     for (s=0; s<n_states; s++) {
         sum += Q[s][argMax(Q[s])];
         if (f) {
             //softMax(Q[s]);
             real sum2=0.0;
             int a;
             for (a=0; a<n_actions; a++) {
                 sum2 += eval[a];
             }
             for (a=0; a<n_actions; a++) {
                 fprintf (f, "%f ", Q[s][a]);
             }
             for (a=0; a<n_actions; a++) {
                 fprintf (f, "%f ", P[s][a]);
             }
             for (a=0; a<n_actions; a++) {
                 fprintf (f, "%f ", vQ[s][a]);
             }
             fprintf (f, "\n");
         }
     }

     if (f) {
         fclose (f);
     }

     logmsg ("#Expected return of greedy policy over random distribution of states: %f\n", sum/((real) n_states));

     for (s=0; s<n_states; s++) {
         delete [] P[s];
         delete [] Q[s];
         delete [] e[s];
         delete [] vQ[s];
     }
     delete [] P;
     delete [] Q;
     delete [] vQ;
     delete [] e;
     delete [] eval;
     delete [] sample;
 }

 int DiscretePolicy::SelectAction (int s, real r, int forced_a)
 {
     if ((s<0)||(s>=n_states)) {
         return 0;
     }

     if ((ps>=0)&&(pa>=0)) {
         expected_r += r;
         expected_V += Q[ps][pa];
         n_samples++;

         if (s==0) {
             real max_estimate = 0.0;
             real max_estimate_k = 0.0;
             for (int i=0; i<n_states; i++) {
                 max_estimate += Q[i][argMax (Q[i])];
                 max_estimate_k += 1.0;
             }

 #if 0
             logmsg ("%f %f %f %f#rTVV\n",
                     expected_r/((real) n_samples),
                     temp,
                     expected_V/((real) n_samples),
                     max_estimate/max_estimate_k);
 #endif
             expected_r = 0.0;
             expected_V= 0.0;
             n_samples = 0;
         }
     }
     int a, amax;
     int argmax = argMax (Q[s]);

     P[s][argmax] += zeta*(1.0-P[s][argmax]);
     for (int j=0; j<n_actions; j++) {
         if (j!=argmax) {
             P[s][j] += zeta*(0.0-P[s][j]);
         }
     }


     if (forced_learning) {
         a = forced_a;
     } else if (pursuit) {
         real sum = 0.0;
         a = -1;
         int j;
         for (j=0; j<n_actions; j++) {
             sum += P[s][j];
         }
         real X = urandom()*sum;
         real dsum=0.0;
         for (j=0; j<n_actions; j++) {
             dsum += P[s][j];
             if (X<=dsum) {
                 a = j;
                 break;
             }
         }
         if (a==-1) {
             fprintf (stderr, "No action selected with pursuit!\n");
         }
     } else if (confidence) {
         if (confidence_uses_gibbs && (confidence_distribution == SINGULAR)) {
             a = confMax (Q[s],vQ[s]);
         } else {
             a = confSample (Q[s], vQ[s]);
             if (confidence_uses_gibbs) { // and not SINGULAR distribution
                 a = softMax(sample); //use softmax on the sample values
             }
         }
     } else if (reliability_estimate) {
         temp = sqrt(Sum(vQ[s], n_actions)/((real) n_actions));
         //temp = 0.1;
         a = softMax(Q[s]);
         //printf ("%f\n", temp);
     } else if (smax) {
         a = softMax (Q[s]);
         //printf ("Q[%d][%d]=%f\n", s, a, Q[s][a]);
     } else {
         a = eGreedy (Q[s]);
     }

     if (a<0 || a>=n_actions) {
         fprintf (stderr, "Action %d out of bounds.. ", a);
         a = (int) floor (urandom()*((real) n_actions));
         fprintf (stderr, "mapping to %d\n", a);
     }

     real EQ_s = 0.0;
     int i;

     switch (learning_method) {

     case Sarsa:
         amax = a;
         EQ_s = Q[s][amax];
         break;
     case QLearning:
         amax = argmax;
         EQ_s = Q[s][amax];
         break;
     case ELearning:
         amax = a; //? correct ?
         Normalise(eval, eval, n_actions);
         EQ_s = 0.0;
         for (i=0; i<n_actions; i++) {
             EQ_s += eval[i] * Q[s][i];
         }
         break;
     default:
         amax = a;
         EQ_s = Q[s][amax];
         fprintf (stderr, "Unknown learning method\n");
     }
     if ((ps>=0)&&(pa>=0)) { // do not update at start of episode
         real delta = r + gamma*EQ_s - Q[ps][pa];
         tdError = delta;
         if (replacing_traces) {
             e[ps][pa] = 1.0;
         } else {
             e[ps][pa] += 1.0;
         }
         real ad = alpha*delta;
         real gl = gamma * lambda;
         real variance_threshold = 0.0001f;
         if  (confidence_eligibility == false) {
             vQ[ps][pa] = (1.0 - zeta)*vQ[ps][pa] + zeta*(ad*ad);
             if (vQ[ps][pa]<variance_threshold) {
                 vQ[ps][pa]=variance_threshold;
             }
         }
         if (ps<min_el_state) min_el_state = ps;
         if (ps>max_el_state) max_el_state = ps;


         for (i=0; i<n_states; i++) {
             //for (int i=min_el_state; i<=max_el_state; i++) {
             bool el=true;
             for (int j=0; j<n_actions; j++) {
                 if (e[i][j]>0.01) {
                     Q[i][j] += ad * e[i][j];
                     if (confidence_eligibility == true) {
                         real zeta_el = zeta * e[i][j];
                         vQ[i][j] = (1.0 - zeta_el)*vQ[i][j] + zeta_el*(ad*ad);
                         if (vQ[i][j]<variance_threshold) {
                             vQ[i][j]=variance_threshold;
                         }
                     }
                     //this is the same as setting e[ps][pa] += (1-P[ps][pa])
                     // if P[][] remains unchanged between updates.
                     // -- removed because it doesn't work! --
                     //P[i][j] += 0.01*delta * e[i][j] * (1.-P[i][j]);
                     if ((fabs (Q[i][j])>1000.0)||(isnan(Q[i][j]))) {
                         printf ("u: %d %d %f %f\n", i,j,Q[i][j], ad * e[i][j]);
                     }

                     //This is only needed for Qlearning, but sarsa is not
                     //affected since always amax==a;
                     if (amax==a) {
                         e[i][j] *= gl;
                     } else {
                         e[i][j] = 0.0;
                     }
                 } else {
                     e[i][j] = 0.0;
                     el = false;
                 }
             }
             if (el==false) {
                 if (min_el_state==i)
                     min_el_state++;
             } else {
                 max_el_state = i;
             }
         }
     }

     //printf ("%d %d #STATE\n", min_el_state, max_el_state);
     //  printf ("Q[%d,%d]=%f r=%f e=%f ad=%f gl=%f #QV\n",
     //          ps, pa, Q[ps][pa], r, e[ps][pa], ad, gl);
     ps = s;
     pa = a;

     return a;
 }

 void DiscretePolicy::Reset ()
 {
     for (int s=0; s<n_states; s++) {
         for (int a=0; a<n_actions; a++) {
             e[s][a] = 0.0;
         }
     }
 }

 void DiscretePolicy::loadFile (char* f)
 {
     FILE* fh = NULL;
     fh = fopen (f, "rb");
     if (fh==NULL) {
         fprintf (stderr, "Failed to read file %s\n", f);
         return;
     }
     char rtag[256];
     const char* start_tag="QSA";
     const char* close_tag="END";
     int n_read_states, n_read_actions;

     fread((void *) rtag, sizeof (char), strlen (start_tag)+1, fh);
     if (strcmp (rtag, start_tag)) {
         fprintf (stderr, "Could not find starting tag\n");
         return;
     }
     fread((void *) &n_read_states, sizeof(int), 1, fh);
     fread((void *) &n_read_actions, sizeof(int), 1, fh);

     if ((n_read_states!=n_states)||(n_read_actions!=n_actions)) {
         fprintf (stderr, "File has %dx%d space! Aborting read.\n", n_read_states, n_read_actions);
         fclose(fh);
         return;
     }

     int i, j;
     for (i=0; i<n_states; i++) {
         fread((void *) Q[i], sizeof(real), n_actions, fh);
         for (j=0; j<n_actions; j++) {
             if ((fabs (Q[i][j])>100.0)||(isnan(Q[i][j]))) {
                 printf ("l: %d %d %f\n", i,j,Q[i][j]);
                 Q[i][j] = 0.0;
             }
         }
     }
     for (i=0; i<n_states; i++) {
         for (j=0; j<n_actions; j++) {
             {
                 P[i][j] = 1.0/((real) n_actions);
             }
         }
         int argmax = argMax (Q[i]);
         P[i][argmax] += 0.001*(1.0-P[i][argmax]);
         for (int j=0; j<n_actions; j++) {
             if (j!=argmax) {
                 P[i][j] += 0.001*(0.0-P[i][j]);
             }
         }
     }


     fread((void *) rtag, sizeof (char), strlen (close_tag)+1, fh);
     if (strcmp (rtag, close_tag)) {
         fprintf (stderr, "Could not find ending tag\n");
         fclose (fh);
         return;
     }


     fclose (fh);
 }

 void DiscretePolicy::saveFile (char* f) {
     FILE* fh = NULL;
     fh = fopen (f, "wb");
     if (fh==NULL) {
         fprintf (stderr, "Failed to write to file %s\n", f);
         return;
     }

     const char* start_tag="QSA";
     const char* close_tag="END";

     fwrite((void *) start_tag, sizeof (char), strlen (start_tag)+1, fh);
     fwrite((void *) &n_states, sizeof(int), 1, fh);
     fwrite((void *) &n_actions, sizeof(int), 1, fh);
     for (int i=0; i<n_states; i++) {
         fwrite((void *) Q[i], sizeof(real), n_actions, fh);
         for (int j=0; j<n_actions; j++) {
             if ((fabs (Q[i][j])>100.0)||(isnan(Q[i][j]))) {
                 printf ("s: %d %d %f\n", i,j,Q[i][j]);
             }
         }
     }
     fwrite((void *) close_tag, sizeof (char), strlen (start_tag)+1, fh);
     fclose (fh);
 }

 bool DiscretePolicy::useConfidenceEstimates (bool confidence, real zeta, bool confidence_eligibility) {
     this->confidence = confidence;
     this->zeta = zeta;
     this->confidence_eligibility = confidence_eligibility;

     if (confidence_eligibility) {
         logmsg ("#+[ELIG_VAR]");
     }
     if (confidence) {
         logmsg ("#+[CONDIFENCE]");
     } else {
         logmsg ("#-[CONDIFENCE]\n");
     }

     return confidence;
 }

 void DiscretePolicy::setQLearning() {
     learning_method = QLearning;
     logmsg ("#[Q-learning]\n");
 }

 void DiscretePolicy::setELearning() {
     learning_method = ELearning;
     logmsg ("#[E-learning]\n");
 }

 void DiscretePolicy::setSarsa()
 {
     learning_method = Sarsa;
     logmsg ("#[Sarsa]\n");
 }

 void DiscretePolicy::setPursuit(bool pursuit)
 {
     this->pursuit = pursuit;
     if (pursuit) {
         logmsg ("#+[PURSUIT]\n");
     } else {
         logmsg ("#-[PURSUIT]\n");
     }
 }

 void DiscretePolicy::setReplacingTraces (bool replacing)
 {
     this->replacing_traces = replacing;
     if (replacing) {
         logmsg ("#[REPLACING TRACES]\n");
     } else {
         logmsg ("#[ACCUMULATING TRACES]\n");
     }
 }
 void DiscretePolicy::setForcedLearning(bool forced)
 {
     forced_learning = forced;
 }

 void DiscretePolicy::setRandomness (real epsilon)
 {
     temp = epsilon;
     if (smax) {
         if (temp<0.01) {
             smax = false;
         }
     }
 }

 void DiscretePolicy::setGamma (real gamma)
 {
     this->gamma = gamma;
 }

 void DiscretePolicy::useSoftmax (bool softmax)
 {
     smax = softmax;
     if (smax) {
         logmsg ("#+[SMAX]\n");
     } else {
         logmsg ("#-[SMAX]\n");
     }
 }

 void DiscretePolicy::useReliabilityEstimate (bool ri)
 {
     reliability_estimate = ri;
     if (ri) {
         logmsg("#+[RI]\n");
     } else {
         logmsg("#-[RI]\n");
     }
 }

 void DiscretePolicy::setConfidenceDistribution (enum ConfidenceDistribution cd)
 {
     switch (cd) {
     case SINGULAR:
         logmsg("#[SINGULAR CONFIDENCE]\n"); break;
     case BOUNDED:
         logmsg("#[BOUNDED CONFIDENCE]\n"); break;
     case GAUSSIAN:
         logmsg("#[GAUSSIAN CONFIDENCE]\n"); break;
     case LAPLACIAN:
         logmsg("#[LAPLACIAN CONFIDENCE]\n"); break;
     default:
         Serror ("Unknown type %d\n", cd);
     }
     confidence_distribution = cd;
 }

 void DiscretePolicy::useGibbsConfidence (bool gibbs)
 {
     if (gibbs) {
         logmsg ("#+[GIBBS CONFIDENCE]\n");
     } else {
         logmsg ("#-[GIBBS CONFIDENCE]\n");
     }
     this->confidence_uses_gibbs = gibbs;
 }

 // ---------- action selection helpers -------------
 int DiscretePolicy::confMax(real* Qs, real* vQs, real p) {
     real sum=0.0;
     int a;
 #if 0
     for (a=0; a<n_actions; a++) {
         eval[a] = exp(pow(Qs[a]/sqrt(vQs[a]), p));
         sum += eval[a];
     }
 #else
     for (a=0; a<n_actions; a++) {
         real Q = Qs[a];
         real cum = 1.0;
         //real v = sqrt(vQs[a]);
         for (int j=0; j<n_actions; j++) {
             if (j!=a) {
                 cum += exp ((Qs[j]-Q)/sqrt(vQs[j]));
             }
         }
         eval[a] = 1.0/(cum);//#exp(Qs[a]/sqrt(vQs[a]));
         sum += eval[a];
     }
 #endif
     real X = urandom()*sum;
     real dsum = 0.0;
     for (a=0; a<n_actions; a++) {
         dsum += eval[a];
         if (X<=dsum)
             return a;

     }
     fprintf (stderr, "ConfMax: No action selected! %f %f %f\n",X,dsum,sum);
     return -1;
 }

 int DiscretePolicy::confSample(real* Qs, real* vQs) {
     static NormalDistribution gaussian;
     static LaplacianDistribution laplacian;
     static UniformDistribution uniform;

     for (int a=0; a<n_actions; a++) {
         //eval[a] = Qs[a] + urandom(-1.0,1.0)*vQs[a];
         switch(confidence_distribution) {
         case SINGULAR:
             sample[a] = Qs[a];
             break;
         case BOUNDED:
             uniform.setMean(Qs[a]);
             uniform.setVariance(vQs[a]);
             sample[a] = uniform.generate();
             break;
         case GAUSSIAN:
             gaussian.setMean(Qs[a]);
             gaussian.setVariance(vQs[a]);
             sample[a] = gaussian.generate();
             break;
         case LAPLACIAN:
             laplacian.setMean(Qs[a]);
             laplacian.setVariance(vQs[a]);
             sample[a] = Qs[a] + laplacian.generate();
             break;
         default:
             Serror ("Unknown distribution ID:%d\n", confidence_distribution);
             break;
         }
     }
     return argMax(sample);
 }

 int DiscretePolicy::softMax(real* Qs) {
     real sum=0.0f;
     real beta = 1.0f/temp;
     int a;
     for (a=0; a<n_actions; a++) {
         eval[a] = exp(beta * Qs[a]);
         sum += eval[a];
     }
     real X = urandom()*sum;
     real dsum = 0.0;
     for (a=0; a<n_actions; a++) {
         dsum += eval[a];
         if (X<=dsum)
             return a;

     }
     fprintf (stderr, "softMax: No action selected! %f %f %f\nT:%f\n",X,dsum,sum,temp);
     return -1;
 }
 int DiscretePolicy::eGreedy(real* Qs) {
     real X = urandom();
     int amax = argMax(Qs);
     real base_prob = temp/((real) n_actions);
     for (int a=0; a<n_actions; a++) {
         eval[a] = base_prob;
     }
     eval[amax] += 1.0-temp;
     if (X<temp) {
         return rand()%n_actions;
     }
     return argMax(Qs);
 }

 int DiscretePolicy::argMax(real* Qs) {
     real max = Qs[0];
     int arg_max = 0;
     for (int a=1; a<n_actions; a++) {
         if (max<Qs[a]) {
             max = Qs[a];
             arg_max = a;
         }
     }
     return arg_max;
 }


DiscretePolicy::forced_learning
bool forced_learning
Force agent to take supplied action.
Definition: policy.h:173

DiscretePolicy::softMax
int softMax(real *Qs)
Softmax Gibbs sampling.
Definition: policy.cpp:783

DiscretePolicy::setPursuit
virtual void setPursuit(bool pursuit)
Use Pursuit for action selection.
Definition: policy.cpp:618

GAUSSIAN
Definition: policy.h:142

DiscretePolicy::confidence_uses_gibbs
bool confidence_uses_gibbs
Additional gibbs sampling for confidence.
Definition: policy.h:178

DiscretePolicy::confidence
bool confidence
Confidence estimates option.
Definition: policy.h:174

DiscretePolicy::r
real r
reward
Definition: policy.h:158

max
Scalar max(Scalar x, Scalar y)
Definition: Basic.h:50

DiscretePolicy::tdError
real tdError
temporal difference error
Definition: policy.h:160

DiscretePolicy::sample
real * sample
sampling output
Definition: policy.h:154

UniformDistribution::setVariance
virtual void setVariance(real var)
Definition: Distribution.h:95

DiscretePolicy::P
real ** P
pursuit action probabilities
Definition: policy.h:163

DiscretePolicy::~DiscretePolicy
virtual ~DiscretePolicy()
Kill the agent and free everything.
Definition: policy.cpp:155

LaplacianDistribution::setVariance
virtual void setVariance(real var)
Definition: Distribution.h:122

LaplacianDistribution
Laplacian probability distribution.
Definition: Distribution.h:103

LaplacianDistribution::setMean
virtual void setMean(real mean)
Definition: Distribution.h:124

SINGULAR
Definition: policy.h:142

Sarsa
Definition: policy.h:140

DiscretePolicy::max_el_state
int max_el_state
max state ID to search for eligibility
Definition: policy.h:171

DiscretePolicy::eval
real * eval
evaluation of current aciton
Definition: policy.h:153

BOUNDED
Definition: policy.h:142

DiscretePolicy::ps
int ps
previous state
Definition: policy.h:156

DiscretePolicy::setSarsa
virtual void setSarsa()
Set the algorithm to SARSA mode.
Definition: policy.cpp:611

DiscretePolicy::eGreedy
int eGreedy(real *Qs)
e-greedy sampling
Definition: policy.cpp:802

UniformDistribution::generate
virtual real generate()
Definition: Distribution.cpp:37

DiscretePolicy::saveFile
virtual void saveFile(char *f)
Save policy to a file.
Definition: policy.cpp:550

X
Definition: Basic.h:58

DiscretePolicy::pursuit
bool pursuit
pursuit option
Definition: policy.h:162

DiscretePolicy::Reset
virtual void Reset()
Use at the end of every episode, after agent has entered the absorbing state.
Definition: policy.cpp:474

DiscretePolicy::n_actions
int n_actions
number of actions
Definition: policy.h:150

DiscretePolicy::expected_r
real expected_r
Expected reward.
Definition: policy.h:167

DiscretePolicy::vQ
real ** vQ
variance estimate for Q
Definition: policy.h:180

DiscretePolicy::pQ
real pQ
previous Q
Definition: policy.h:155

MathFunctions.h

QLearning
Definition: policy.h:140

DiscretePolicy::replacing_traces
bool replacing_traces
Replacing instead of accumulating traces.
Definition: policy.h:172

ELearning
Definition: policy.h:140

LaplacianDistribution::generate
virtual real generate()
Definition: Distribution.cpp:78

DiscretePolicy::setELearning
virtual void setELearning()
Set the algorithm to ELearning mode.
Definition: policy.cpp:604

NormalDistribution::generate
virtual real generate()
Definition: Distribution.cpp:54

DiscretePolicy::n_samples
int n_samples
number of samples for above expected r and V
Definition: policy.h:169

DiscretePolicy::alpha
real alpha
learning rate
Definition: policy.h:166

empty_log
void empty_log(const char *s,...)
Definition: policy.cpp:30

DiscretePolicy::useSoftmax
virtual void useSoftmax(bool softmax)
Set action selection to softmax.
Definition: policy.cpp:662

policy.h

UniformDistribution::setMean
virtual void setMean(real mean)
Definition: Distribution.h:97

p
static Point p[4]
Definition: Convex.cpp:54

DiscretePolicy::setForcedLearning
virtual void setForcedLearning(bool forced)
Set forced learning (force-feed actions)
Definition: policy.cpp:639

DiscretePolicy::loadFile
virtual void loadFile(char *f)
Load policy from a file.
Definition: policy.cpp:484

DiscretePolicy::confidence_distribution
enum ConfidenceDistribution confidence_distribution
Distribution to use for confidence sampling.
Definition: policy.h:177

DiscretePolicy::n_states
int n_states
number of states
Definition: policy.h:149

logmsg
#define logmsg
Definition: policy.cpp:27

DiscretePolicy::learning_method
enum LearningMethod learning_method
learning method to use;
Definition: policy.h:148

DiscretePolicy::useGibbsConfidence
virtual void useGibbsConfidence(bool gibbs)
Add Gibbs sampling for confidences.
Definition: policy.cpp:704

DiscretePolicy::setGamma
virtual void setGamma(real gamma)
Set the gamma of the sum to be maximised.
Definition: policy.cpp:656

UniformDistribution
Uniform probability distribution.
Definition: Distribution.h:81

DiscretePolicy::smax
bool smax
softmax option
Definition: policy.h:161

ConfidenceDistribution
ConfidenceDistribution
Types of confidence distributions.
Definition: policy.h:142

DiscretePolicy::confMax
int confMax(real *Qs, real *vQs, real p=1.0)
Confidence-based Gibbs sampling.
Definition: policy.cpp:715

DiscretePolicy::setConfidenceDistribution
virtual void setConfidenceDistribution(enum ConfidenceDistribution cd)
Set the distribution for direct action sampling.
Definition: policy.cpp:684

DiscretePolicy::confidence_eligibility
bool confidence_eligibility
Apply eligibility traces to confidence.
Definition: policy.h:175

NormalDistribution
Gaussian probability distribution.
Definition: Distribution.h:57

DiscretePolicy::setQLearning
virtual void setQLearning()
Set the algorithm to QLearning mode.
Definition: policy.cpp:598

DiscretePolicy::argMax
int argMax(real *Qs)
Get ID of maximum action.
Definition: policy.cpp:816

Sum
real Sum(real *a, int n)
Definition: MathFunctions.cpp:209

DiscretePolicy::lambda
real lambda
Eligibility trace decay.
Definition: policy.h:165

LAPLACIAN
Definition: policy.h:142

Normalise
void Normalise(real *src, real *dst, int n_elements)
Normalise a vector to a destination vector (low level)
Definition: MathFunctions.cpp:160

DiscretePolicy::setRandomness
virtual void setRandomness(real epsilon)
Set randomness for action selection. Does not affect confidence mode.
Definition: policy.cpp:645

DiscretePolicy::useReliabilityEstimate
virtual void useReliabilityEstimate(bool ri)
Use the reliability estimate method for action selection.
Definition: policy.cpp:673

DiscretePolicy::gamma
real gamma
Future discount parameter.
Definition: policy.h:164

DiscretePolicy::pa
int pa
previous action
Definition: policy.h:157

DiscretePolicy::useConfidenceEstimates
virtual bool useConfidenceEstimates(bool confidence, real zeta=0.01, bool confidence_eligibility=false)
Set to use confidence estimates for action selection, with variance smoothing zeta.
Definition: policy.cpp:580

DiscretePolicy::temp
real temp
scratch
Definition: policy.h:159

DiscretePolicy::confSample
int confSample(real *Qs, real *vQs)
Directly sample from action value distribution.
Definition: policy.cpp:749

NormalDistribution::setMean
virtual void setMean(real mean)
Definition: Distribution.h:76

DiscretePolicy::e
real ** e
eligibility trace
Definition: policy.h:152

DiscretePolicy::SelectAction
virtual int SelectAction(int s, real r, int forced_a=-1)
Select an action a, given state s and reward from previous action.
Definition: policy.cpp:283

learn_debug.h

Serror
#define Serror
Definition: learn_debug.h:10

DiscretePolicy::expected_V
real expected_V
Expected state return.
Definition: policy.h:168

urandom
real urandom()
Definition: Distribution.cpp:23

DiscretePolicy::Q
real ** Q
state-action evaluation
Definition: policy.h:151

NormalDistribution::setVariance
virtual void setVariance(real var)
Definition: Distribution.h:74

real
float real
Definition: real.h:13

DiscretePolicy::saveState
virtual void saveState(FILE *f)
Save the current evaluations in text format to a file.
Definition: policy.cpp:128

DiscretePolicy::min_el_state
int min_el_state
min state ID to search for eligibility
Definition: policy.h:170

DiscretePolicy::DiscretePolicy
DiscretePolicy(int n_states, int n_actions, real alpha=0.1, real gamma=0.8, real lambda=0.8, bool softmax=false, real randomness=0.1, real init_eval=0.0)
Create a new discrete policy.
Definition: policy.cpp:42

DiscretePolicy::reliability_estimate
bool reliability_estimate
reliability estimates option
Definition: policy.h:176

DiscretePolicy::setReplacingTraces
virtual void setReplacingTraces(bool replacing)
Use Pursuit for action selection.
Definition: policy.cpp:629

DiscretePolicy::zeta
real zeta
Confidence smoothing.
Definition: policy.h:179