Added doc page for SACD

2023-08-07 14:03:12 +02:00 · 2023-08-07 14:03:12 +02:00 · d97dbc727c
parent 610fd3dcf6
commit d97dbc727c
2 changed files with 100 additions and 0 deletions
--- a/docs/index.rst
+++ b/docs/index.rst
@ -35,6 +35,7 @@ RL Baselines3 Zoo also offers a simple interface to train, evaluate agents and d
  modules/ppo_mask
  modules/ppo_recurrent
  modules/qrdqn
+  modules/sacd
  modules/tqc
  modules/trpo

--- a/docs/modules/sacd.rst
+++ b/docs/modules/sacd.rst
@ -0,0 +1,99 @@
+.. _sacd:
+
+.. automodule:: sb3_contrib.sacd
+
+
+SACD
+====
+
+
+`Soft Actor Critic Discrete (SACD) <https://arxiv.org/abs/1910.07207>`_ is a modification of the original Soft Actor Critic Algorithm for discrete action spaces.
+
+.. rubric:: Available Policies
+
+.. autosummary::
+    :nosignatures:
+
+    MlpPolicy
+    CnnPolicy
+    MultiInputPolicy
+
+
+Notes
+-----
+
+- Original paper: https://arxiv.org/abs/1910.07207
+- Original Implementation: https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch
+
+
+Can I use?
+----------
+
+-  Recurrent policies: ❌
+-  Multi processing: ✔️
+-  Gym spaces:
+
+
+============= ====== ===========
+Space         Action Observation
+============= ====== ===========
+Discrete      ✔️       ✔️
+Box           ❌      ✔️
+MultiDiscrete ❌      ✔️
+MultiBinary   ❌      ✔️
+Dict          ❌      ✔️
+============= ====== ===========
+
+
+Example
+-------
+.. code-block:: python
+
+  import gymnasium as gym
+
+  from sb3_contrib import SACD
+
+  env = gym.make("CartPole-v1", render_mode="rgb_array")
+
+  model = SACD("MlpPolicy", env, verbose=1, policy_kwargs=dict(net_arch=[64,64]))
+  model.learn(total_timesteps=20_000)
+  model.save("sacd_cartpole")
+
+  del model # remove to demonstrate saving and loading
+
+  model = SACD.load("sac_cartpole")
+
+  obs, info = env.reset()
+  while True:
+      action, _states = model.predict(obs, deterministic=True)
+      obs, reward, terminated, truncated, info = env.step(action)
+      if terminated or truncated:
+          obs, info = env.reset()
+
+
+
+Parameters
+----------
+
+.. autoclass:: SACD
+  :members:
+  :inherited-members:
+
+.. _sac_policies:
+
+SACD Policies
+-------------
+
+.. autoclass:: MlpPolicy
+  :members:
+  :inherited-members:
+
+.. autoclass:: stable_baselines3.sac.policies.SACPolicy
+  :members:
+  :noindex:
+
+.. autoclass:: CnnPolicy
+  :members:
+
+.. autoclass:: MultiInputPolicy
+  :members: