Upload 4 files

1641a08 verified 17 days ago

28 kB

	import os
	import glob
	import re
	import hashlib
	from typing import Dict, List, Optional, Any, Tuple

	import numpy as np
	import torch
	from torch.utils.data import Dataset, DataLoader
	from tqdm import tqdm
	import json


	# CONFIG & REGISTRY
	DROP_OBS_KEYS = []
	DATA_DIR = "TrajectoryData_from_docker"
	INDEX_CACHE_PATH = os.path.join(DATA_DIR, "episode_index_cache_topk.json")
	NORM_CACHE_PATH = os.path.join(DATA_DIR, "norm_stats_v_topk.npz")

	PAD_ID = 0
	UNK_ID = 1
	SENSOR_START_ID = 2
	ACTION_START_ID = 300
	VOCAB_SIZE = 512

	CONTEXT_LEN = 48
	MAX_TOKENS_PER_STEP = 64
	MAX_ZONES = 32
	PHYSICS_HORIZON = 16
	SEED = 42

	USE_TOPK = True
	TOPK_FRAC = 0.8
	TOPK_MODE = "filter"
	TOPK_ON = "energy"
	TOPK_BOOST = 3.0

	# --- Action Discretization ---
	NUM_ACTION_BINS = 64
	HTG_LOW, HTG_HIGH = 15.0, 30.0
	CLG_LOW, CLG_HIGH = 15.0, 30.0

	# --- Normalization & Scaling ---
	USE_NORMALIZATION = True
	ACTION_VALUE_INPUT_MODE = "prev"
	ACTION_VALUE_MASK_CONST = 0.0
	COMFORT_SCALE = 1.0

	# --- Preference conditioning ---
	PREF_MODE = "sample"
	PREF_FIXED_LAMBDA = 0.5
	PREF_BETA_A = 5.0
	PREF_BETA_B = 2.0
	ZONE_SRC_REGEX = 1
	ZONE_SRC_PAREN = 2
	ZONE_SRC_CORE_PERIM = 3
	ZONE_SRC_HASH = 4

	HVAC_KEYWORD_MAP = {
	# Sensors (2..299)
	"temp": 10, "t_in": 10, "temperature": 10,
	"humidity": 11, "rh": 11,
	"co2": 12, "ppm": 12,
	"power": 13, "energy": 13, "kw": 13,
	"occupancy": 14, "occ": 14, "people": 14,
	"solar": 15, "rad": 15, "radiation": 15,
	"outdoor": 16, "site": 16, "environment": 16,
	"pressure": 17, "flow": 18, "fan": 19, "speed": 19,
	# Actions (offset from ACTION_START_ID)
	"setpoint": 10, "stpt": 10,
	"damper": 11, "position": 11, "valve": 12,
	}

	# ============================================================
	# HELPER
	# ============================================================
	def compute_comfort_indices_from_state_keys(state_keys: List[str]) -> List[int]:
	kl = [str(k).lower() for k in state_keys]

	any_idx = [i for i, k in enumerate(kl)
	if ("ash55" in k and "notcomfortable" in k and "any" in k)]
	if len(any_idx) > 0:
	return any_idx

	return [i for i, k in enumerate(kl)
	if ("ash55" in k and "notcomfortable" in k)]


	def extract_zone_id_with_source(name_lower: str) -> Tuple[int, int]:
	m = re.search(r'(?:\bzone\b\|\bz\b\|\bzn\b)[_\s\-]*?(\d+)\b', name_lower)
	if m:
	zid = int(m.group(1))
	zid = min(max(zid, 0), MAX_ZONES - 1)
	return zid, ZONE_SRC_REGEX
	parens = re.findall(r'\(([^)]+)\)', name_lower)
	for chunk in parens:
	m2 = re.search(r'(?:\bzone\b\|\bz\b\|\bzn\b)[_\s\-]*?(\d+)\b', chunk)
	if m2: return min(max(int(m2.group(1)), 0), MAX_ZONES - 1), ZONE_SRC_PAREN
	m4 = re.search(r'(?:perimeter\|perim\|core)[_\s\-]?(?:zn[_\s\-])?(\d+)\b', name_lower)
	if m4:
	return min(max(int(m4.group(1)), 0), MAX_ZONES - 1), ZONE_SRC_CORE_PERIM
	h = int(hashlib.md5(name_lower.encode()).hexdigest(), 16)
	return 1 + (h % max(1, (MAX_ZONES - 1))), ZONE_SRC_HASH

	def parse_feature_identity(name: str, is_action: bool = False) -> Tuple[int, int, int]:
	name_lower = str(name).lower()
	zone_id, zone_src = extract_zone_id_with_source(name_lower)
	found_id = UNK_ID
	for key, val in HVAC_KEYWORD_MAP.items():
	if key in name_lower:
	found_id = val
	break
	if found_id == UNK_ID:
	hash_val = int(hashlib.md5(name_lower.encode()).hexdigest(), 16)
	found_id = 50 + (hash_val % 50)
	final_id = (ACTION_START_ID if is_action else SENSOR_START_ID) + found_id
	if final_id >= VOCAB_SIZE: final_id = UNK_ID
	return final_id, zone_id, zone_src

	def discretize_actions_to_bins(actions: np.ndarray, action_keys: List[str]) -> np.ndarray:
	out = np.zeros_like(actions, dtype=np.int64)
	for j, k in enumerate(action_keys):
	kl = k.lower()
	if "clg" in kl or "cool" in kl: lo, hi = CLG_LOW, CLG_HIGH
	else: lo, hi = HTG_LOW, HTG_HIGH
	a = np.clip(actions[:, j], lo, hi)
	x = (a - lo) / (hi - lo + 1e-12)
	bins = np.rint(x * (NUM_ACTION_BINS - 1)).astype(np.int64)
	out[:, j] = np.clip(bins, 0, NUM_ACTION_BINS - 1)
	return out

	def discounted_cumsum(x: np.ndarray, gamma: float = 1.0) -> np.ndarray:
	y = np.zeros_like(x, dtype=np.float32)
	running = 0.0
	for t in range(len(x)-1, -1, -1):
	running = x[t] + gamma * running
	y[t] = running
	return y

	def _mix_u64(x: int) -> int:
	x &= 0xFFFFFFFFFFFFFFFF
	x ^= (x >> 33)
	x = (x * 0xff51afd7ed558ccd) & 0xFFFFFFFFFFFFFFFF
	x ^= (x >> 33)
	x = (x * 0xc4ceb9fe1a85ec53) & 0xFFFFFFFFFFFFFFFF
	x ^= (x >> 33)
	return x & 0xFFFFFFFFFFFFFFFF

	def dataset_signature(npz_paths: List[str]) -> str:
	parts = []
	for p in npz_paths:
	try:
	st = os.stat(p)
	parts.append(f"{p}\|{st.st_size}\|{int(st.st_mtime)}")
	except FileNotFoundError:
	parts.append(f"{p}\|missing")
	raw = "\n".join(parts).encode("utf-8")
	return hashlib.md5(raw).hexdigest()

	def compute_occupancy_indices_from_state_keys(state_keys: List[str]) -> List[int]:
	kl = [str(k).lower() for k in state_keys]
	return [i for i, k in enumerate(kl) if ("occ" in k and "count" in k)]

	# ============================================================
	# 1) EPISODE INDEX
	# ============================================================

	class EpisodeIndex:
	def __init__(self, npz_paths: List[str]):
	self.paths = list(npz_paths)
	self.T: List[int] = []

	self.returns_energy: List[float] = []
	self.returns_comfort: List[float] = []

	self.s_meta: List[List[Tuple[int,int,int]]] = []
	self.a_meta: List[List[Tuple[int,int,int]]] = []
	self.state_keys: List[List[str]] = []
	self.action_keys: List[List[str]] = []
	self.keep_indices_map: List[List[int]] = []
	self.comfort_idx: List[List[int]] = []

	sig = dataset_signature(self.paths)

	if os.path.exists(INDEX_CACHE_PATH):
	try:
	with open(INDEX_CACHE_PATH, "r") as f:
	cache = json.load(f)
	if cache.get("signature") == sig and "returns_energy" in cache:
	print(f"[DataLoader] Loading cached index: {INDEX_CACHE_PATH}")
	self.T = cache["T"]
	self.returns_energy = cache["returns_energy"]
	self.returns_comfort = cache["returns_comfort"]
	self.state_keys = cache["state_keys"]

	self.action_keys = cache["action_keys"]
	self.keep_indices_map = cache.get("keep_indices_map", [])
	self.s_meta = [[parse_feature_identity(k, is_action=False) for k in ks] for ks in self.state_keys]
	self.a_meta = [[parse_feature_identity(k, is_action=True) for k in ks] for ks in self.action_keys]
	if "comfort_idx" in cache:
	self.comfort_idx = cache["comfort_idx"]
	else:
	print("[DataLoader] Cache missing comfort_idx. Rebuilding.")
	raise ValueError("Outdated Cache")

	print(f"[DataLoader] Cache loaded. Episodes indexed: {len(self.T)}")
	return
	else:
	print("[DataLoader] Cache signature mismatch")
	except Exception as e:
	print(f"[DataLoader] Failed load cache: {e}")
	for p in tqdm(self.paths, desc="Indexing"):
	try:
	with np.load(p, allow_pickle=True) as d:
	obs = d["observations"]
	if "rewards_energy" in d:
	r_e = d["rewards_energy"]
	r_c = d["rewards_comfort"]
	else:
	r_e = d["rewards"]
	r_c = np.zeros_like(r_e)

	ret_e = float(np.sum(r_e))
	ret_c = float(np.sum(r_c))

	T = int(obs.shape[0])

	# Get RAW keys
	raw_s_keys = d["state_keys"].astype(object).tolist() if "state_keys" in d else []
	a_keys = d["action_keys"].astype(object).tolist() if "action_keys" in d else []
	raw_s_keys = list(map(str, raw_s_keys))
	a_keys = list(map(str, a_keys))
	c_idx = compute_comfort_indices_from_state_keys(raw_s_keys)
	keep_idxs = [i for i, k in enumerate(raw_s_keys) if k not in DROP_OBS_KEYS]
	s_keys = [raw_s_keys[i] for i in keep_idxs]

	s_meta = [parse_feature_identity(k, is_action=False) for k in s_keys]
	a_meta = [parse_feature_identity(k, is_action=True) for k in a_keys]

	self.T.append(T)
	self.returns_energy.append(ret_e)
	self.returns_comfort.append(ret_c)
	self.state_keys.append(s_keys)
	self.action_keys.append(a_keys)
	self.comfort_idx.append(c_idx) # Save indices relative to RAW array

	self.s_meta.append(s_meta)
	self.a_meta.append(a_meta)
	self.keep_indices_map.append(keep_idxs)

	except Exception as e:
	print(f"[IndexError] {p}: {e}")

	# Save Cache
	try:
	cache = {
	"signature": sig,
	"T": self.T,
	"returns_energy": self.returns_energy,
	"returns_comfort": self.returns_comfort,
	"state_keys": self.state_keys,
	"action_keys": self.action_keys,
	"keep_indices_map": self.keep_indices_map,
	"comfort_idx": self.comfort_idx, # Added
	}
	with open(INDEX_CACHE_PATH, "w") as f:
	json.dump(cache, f)
	print(f"[DataLoader] Saved index cache: {INDEX_CACHE_PATH}")
	except Exception as e:
	print(f"[DataLoader] Warning: failed to save cache: {e}")

	def __len__(self):
	return len(self.T)

	# ============================================================
	# 2) NORMALIZATION
	# ============================================================

	def compute_and_save_norm_stats(npz_paths: List[str], index: "EpisodeIndex", max_episodes: int = 1000, stride: int = 4):
	rng = np.random.default_rng(SEED)
	n = len(index)
	if n == 0:
	raise RuntimeError("EpisodeIndex is empty (no valid episodes).")

	k = min(max_episodes, n)
	eps_idx = rng.choice(np.arange(n), size=k, replace=False)

	obs_sum, obs_sumsq = None, None
	act_sum, act_sumsq = None, None
	count = 0

	for ei in tqdm(eps_idx, desc="Computing norm stats"):
	p = index.paths[int(ei)]
	with np.load(p, allow_pickle=True) as d:
	obs = d["observations"].astype(np.float32)
	act = d["actions"].astype(np.float32)

	keep_idxs = index.keep_indices_map[int(ei)]
	obs = obs[:, keep_idxs]


	obs = obs[::stride]
	act = act[::stride]

	if obs_sum is None:
	obs_sum = np.zeros(obs.shape[1], dtype=np.float64)
	obs_sumsq = np.zeros(obs.shape[1], dtype=np.float64)
	act_sum = np.zeros(act.shape[1], dtype=np.float64)
	act_sumsq = np.zeros(act.shape[1], dtype=np.float64)

	obs_sum += obs.sum(axis=0)
	obs_sumsq += (obs**2).sum(axis=0)
	act_sum += act.sum(axis=0)
	act_sumsq += (act**2).sum(axis=0)
	count += obs.shape[0]

	if obs_sum is None or obs_sumsq is None or act_sum is None or act_sumsq is None:
	raise ValueError("obs_sum, obs_sumsq, act_sum, or act_sumsq is not initialized properly.")

	obs_mean = (obs_sum / max(count, 1)).astype(np.float32)
	obs_std = np.sqrt(np.maximum((obs_sumsq / max(count, 1)) - obs_mean**2, 1e-6)).astype(np.float32)
	act_mean = (act_sum / max(count, 1)).astype(np.float32)
	act_std = np.sqrt(np.maximum((act_sumsq / max(count, 1)) - act_mean**2, 1e-6)).astype(np.float32)
	all_re = np.abs(np.array(index.returns_energy))
	all_rc = np.abs(np.array(index.returns_comfort))

	scale_energy = float(np.percentile(all_re, 95)) if len(all_re) > 0 else 1.0
	scale_comfort = float(np.percentile(all_rc, 95)) if len(all_rc) > 0 else 1.0

	scale_energy = max(scale_energy, 1.0)
	scale_comfort = max(scale_comfort, 1.0)

	np.savez_compressed(
	NORM_CACHE_PATH,
	obs_mean=obs_mean, obs_std=obs_std,
	act_mean=act_mean, act_std=act_std,
	scale_energy=np.array([scale_energy], dtype=np.float32),
	scale_comfort=np.array([scale_comfort], dtype=np.float32),
	)



	class GeneralistDataset(Dataset):
	def __init__(
	self,
	npz_paths: List[str],
	max_tokens: int = MAX_TOKENS_PER_STEP,
	seed: int = SEED,
	virtual_len: int = 60_000,
	gamma_rtg: float = 1.0,
	topk_frac: Optional[float] = None,
	topk_mode: Optional[str] = None,
	topk_on: Optional[str] = None,
	):

	self.index = EpisodeIndex(npz_paths)
	self.max_tokens = int(max_tokens)
	self.seed = int(seed)
	self.virtual_len = int(virtual_len)
	self.epoch = 0
	self.gamma_rtg = float(gamma_rtg)
	self.is_train = True

	self.all_eps = np.arange(len(self.index), dtype=np.int64)

	# ---------------- Top-K selection ----------------
	self.use_topk = bool(USE_TOPK) if topk_frac is None else True
	self.topk_frac = float(TOPK_FRAC) if topk_frac is None else float(topk_frac)
	self.topk_mode = str(TOPK_MODE) if topk_mode is None else str(topk_mode)
	self.topk_on = str(TOPK_ON) if topk_on is None else str(topk_on)
	rets_e = np.asarray(self.index.returns_energy, dtype=np.float32)
	rets_c = np.asarray(self.index.returns_comfort, dtype=np.float32)





	self.sel_eps = self.all_eps
	self.weights = None

	if self.use_topk and len(self.all_eps) > 0:
	total_k = max(1, int(round(self.topk_frac * len(self.all_eps))))

	# === STRATEGY 1: PARETO UNION (Energy + Comfort + Mixed) ===
	if self.topk_on == "pareto":
	print("[Top-K] Strategy: Energy + Comfort + Mixed")
	k_part = max(1, total_k // 3)

	# 1. Best Energy
	idx_energy = np.argsort(rets_e)[::-1][:k_part]
	# 2. Best Comfort
	idx_comfort = np.argsort(rets_c)[::-1][:k_part]
	# 3. Best Mixed (Balanced)
	norm_e = (rets_e - rets_e.mean()) / (rets_e.std() + 1e-6)
	norm_c = (rets_c - rets_c.mean()) / (rets_c.std() + 1e-6)
	idx_mixed = np.argsort(norm_e + norm_c)[::-1][:k_part]

	# Combine unique indices
	top_eps = np.unique(np.concatenate([idx_energy, idx_comfort, idx_mixed]))

	else:
	if self.topk_on == "energy": rank_signal = rets_e
	elif self.topk_on == "comfort": rank_signal = rets_c
	elif self.topk_on == "mixed": rank_signal = rets_e + rets_c
	else: rank_signal = rets_e # Fallback

	order = np.argsort(rank_signal)[::-1]
	top_eps = order[:total_k]
	# === APPLY FILTER ===
	if self.topk_mode == "filter":
	self.sel_eps = top_eps
	self.weights = None
	elif self.topk_mode == "weighted":
	self.sel_eps = top_eps
	self.weights = None


	# Load Norm Stats
	if USE_NORMALIZATION:
	if not os.path.exists(NORM_CACHE_PATH):
	print("[DataLoader] Computing Norm Stats...")
	compute_and_save_norm_stats(npz_paths, self.index)

	z = np.load(NORM_CACHE_PATH)
	self.obs_mean = z["obs_mean"].astype(np.float32)
	self.obs_std = z["obs_std"].astype(np.float32)
	self.act_mean = z["act_mean"].astype(np.float32)
	self.act_std = z["act_std"].astype(np.float32)

	self.scale_energy = float(z["scale_energy"][0])
	self.scale_comfort = float(z["scale_comfort"][0])
	else:
	self.obs_mean = None
	self.scale_energy = 1.0
	self.scale_comfort = 1.0


	def set_epoch(self, e: int):
	self.epoch = int(e)

	def __len__(self):
	return self.virtual_len


	def __getitem__(self, i: int) -> Dict[str, Any]:
	x = _mix_u64(self.seed ^ (self.epoch * 0x9E3779B97F4A7C15) ^ (int(i) * 0xD1B54A32D192ED03))

	# Preference sampling
	if PREF_MODE == "fixed":
	lam = float(PREF_FIXED_LAMBDA)
	else:
	rng = np.random.default_rng(int(x & 0xFFFFFFFF))
	lam = float(rng.beta(PREF_BETA_A, PREF_BETA_B))

	if self.weights is None:
	ep_i = int(self.sel_eps[x % len(self.sel_eps)])
	else:
	u = ((x & 0xFFFFFFFF) / 2**32)
	#Clip index to avoid out-of-bounds
	cdf = np.cumsum(self.weights)
	idx = int(np.searchsorted(cdf, u, side="right"))
	idx = min(idx, len(self.weights) - 1)
	ep_i = int(self.sel_eps[idx])

	p = self.index.paths[ep_i]
	T_total = int(self.index.T[ep_i])
	L = CONTEXT_LEN
	# 1. Load Data
	with np.load(p, allow_pickle=True) as d:
	raw_obs = d["observations"].astype(np.float32)
	at = d["actions"].astype(np.float32)

	if "rewards_energy" in d:
	re = d["rewards_energy"].astype(np.float32)
	rc = d["rewards_comfort"].astype(np.float32)
	else:
	re = d["rewards"].astype(np.float32)
	rc = np.zeros_like(re)

	if T_total >= L:
	total_r = re + rc
	num_candidates = 20
	candidates = np.random.randint(0, T_total - L, size=num_candidates)
	scores = np.array([total_r[c : c + L].sum() for c in candidates])

	scores_stab = (scores - np.max(scores)) / (np.std(scores) + 1e-6)
	probs = np.exp(scores_stab)
	probs /= probs.sum()
	s0 = np.random.choice(candidates, p=probs)
	else:
	s0 = 0
	cidx = self.index.comfort_idx[ep_i]
	if len(cidx) > 0:
	ash55_raw_slice = raw_obs[:, cidx]
	else:
	ash55_raw_slice = np.zeros((T_total, 1), dtype=np.float32)
	keep_idxs = self.index.keep_indices_map[ep_i]
	st = raw_obs[:, keep_idxs]
	s_keys_ep = self.index.state_keys[ep_i]
	def find_idx(substring):
	for idx, k in enumerate(s_keys_ep):
	if substring in k.lower(): return idx
	return -1

	idx_out = find_idx("outdoor_temp")
	idx_dew = find_idx("dewpoint")
	idx_hr = find_idx("hour")
	idx_mth = find_idx("month")
	idx_occ = compute_occupancy_indices_from_state_keys(s_keys_ep)

	def get_window(arr, pad_val=0.0):
	if T_total >= L:
	return arr[s0:s0+L]
	else:
	out = np.full((L, *arr.shape[1:]), pad_val, dtype=np.float32)
	out[:T_total] = arr
	return out

	st_win = get_window(st)
	at_win = get_window(at)
	at_win_raw = at_win.copy()

	re_win = get_window(re)
	rc_win = get_window(rc)

	ash55_win = get_window(ash55_raw_slice)
	ash55_any = ash55_win.mean(axis=1).astype(np.float32)

	tm_win = np.zeros((L,), dtype=np.float32)
	valid_len = min(T_total, L)
	tm_win[:valid_len] = 1.0

	valid_mask = (tm_win > 0.5)

	FORECAST_STEPS = 48
	future_start = s0 + L
	future_end = min(T_total, future_start + FORECAST_STEPS)

	forecast_temp = 0.0
	if idx_out != -1:
	current_vals = st_win[valid_mask, idx_out]
	if len(current_vals) > 0:
	forecast_temp = current_vals.mean()
	if future_end > future_start:
	future_vals = st[future_start:future_end, idx_out]
	if len(future_vals) > 0:
	forecast_temp = future_vals.mean()

	# 3. Context Vector
	t_mean, t_std = 0.0, 0.0
	if idx_out != -1 and valid_mask.sum() > 0:
	vals = st_win[valid_mask, idx_out]
	t_mean, t_std = vals.mean(), vals.std()

	d_mean = 0.0
	if idx_dew != -1 and valid_mask.sum() > 0:
	d_mean = st_win[valid_mask, idx_dew].mean()

	occ_frac = 0.0
	if len(idx_occ) > 0 and valid_mask.sum() > 0:
	occ_sum = st_win[valid_mask][:, idx_occ].sum(axis=1)
	occ_frac = (occ_sum > 0.5).mean()

	# Cyclical Time
	hr_sin, hr_cos = 0.0, 0.0
	if idx_hr != -1 and valid_mask.sum() > 0:
	hr_val = st_win[valid_mask, idx_hr][0]
	hr_sin = np.sin(2 * np.pi * hr_val / 24.0)
	hr_cos = np.cos(2 * np.pi * hr_val / 24.0)

	mth_sin, mth_cos = 0.0, 0.0
	if idx_mth != -1 and valid_mask.sum() > 0:
	mth_val = st_win[valid_mask, idx_mth][0]
	mth_sin = np.sin(2 * np.pi * mth_val / 12.0)
	mth_cos = np.cos(2 * np.pi * mth_val / 12.0)
	ctx_vec = np.array([
	t_mean, t_std, d_mean, occ_frac,
	hr_sin, hr_cos, mth_sin, mth_cos,
	forecast_temp,
	0.0
	], dtype=np.float32)

	next_st_win = np.zeros_like(st_win)
	future_4h_st_win = np.zeros_like(st_win)

	if T_total >= L:
	end_idx = min(s0 + L + 1, T_total)
	actual_len = end_idx - (s0 + 1)
	if actual_len > 0:
	next_st_win[:actual_len] = st[s0+1 : end_idx]
	f_end_idx = min(s0 + L + PHYSICS_HORIZON, T_total)
	f_actual_len = f_end_idx - (s0 + PHYSICS_HORIZON)
	if f_actual_len > 0:
	future_4h_st_win[:f_actual_len] = st[s0 + PHYSICS_HORIZON : f_end_idx]
	else:
	if T_total > 1:
	next_st_win[:T_total-1] = st[1:T_total]
	if USE_NORMALIZATION and (self.obs_mean is not None):
	st_win = (st_win - self.obs_mean) / self.obs_std
	next_st_win = (next_st_win - self.obs_mean) / self.obs_std
	future_4h_st_win = (future_4h_st_win - self.obs_mean) / self.obs_std
	at_win = (at_win - self.act_mean) / self.act_std
	delta_4h_win = future_4h_st_win - st_win
	full_rtg_e = discounted_cumsum(re, gamma=self.gamma_rtg)
	full_rtg_c = discounted_cumsum(rc, gamma=self.gamma_rtg)

	rtg_e_win = get_window(full_rtg_e)
	rtg_c_win = get_window(full_rtg_c)

	rtg_e_norm = rtg_e_win / self.scale_energy
	rtg_c_norm = rtg_c_win / self.scale_comfort

	rtg_combined = np.stack([rtg_e_norm, rtg_c_norm], axis=-1)

	if getattr(self, "is_train", True):
	rtg_combined += np.random.normal(0, 0.005, rtg_combined.shape).astype(np.float32)
	feat_ids = np.full((L, self.max_tokens), PAD_ID, dtype=np.int64)
	feat_vals = np.zeros((L, self.max_tokens), dtype=np.float32)
	zone_ids = np.zeros((L, self.max_tokens), dtype=np.int64)
	attn_mask = np.zeros((L, self.max_tokens), dtype=np.int64)

	target_toks = np.full((L, self.max_tokens), -100, dtype=np.int64)
	target_mask = np.zeros((L, self.max_tokens), dtype=np.float32)

	s_meta = self.index.s_meta[ep_i]
	a_meta = self.index.a_meta[ep_i]

	S_dim = min(len(s_meta), st_win.shape[1])
	A_dim = min(len(a_meta), at_win.shape[1])

	num_act_toks = min(A_dim, self.max_tokens)
	num_state_toks = min(S_dim, self.max_tokens - num_act_toks)
	if num_state_toks > 0:
	feat_ids[:, :num_state_toks] = [m[0] for m in s_meta[:num_state_toks]]
	zone_ids[:, :num_state_toks] = [m[1] for m in s_meta[:num_state_toks]]
	feat_vals[:, :num_state_toks] = st_win[:, :num_state_toks]
	attn_mask[:, :num_state_toks] = 1
	if num_act_toks > 0:
	start = num_state_toks
	end = start + num_act_toks
	feat_ids[:, start:end] = [m[0] for m in a_meta[:num_act_toks]]
	zone_ids[:, start:end] = [m[1] for m in a_meta[:num_act_toks]]
	attn_mask[:, start:end] = 1

	a_in = np.zeros((L, num_act_toks), dtype=np.float32)
	if L > 1:
	a_in[1:] = at_win[:-1, :num_act_toks]
	feat_vals[:, start:end] = a_in

	a_keys = self.index.action_keys[ep_i]
	at_discrete = discretize_actions_to_bins(at_win_raw, a_keys)

	target_toks[:, start:end] = at_discrete[:, :num_act_toks]
	target_mask[:, start:end] = 1.0

	valid_t = (tm_win > 0.5)[:, None]
	attn_mask *= valid_t.astype(np.int64)
	target_mask *= valid_t

	return {
	"feature_ids": feat_ids,
	"feature_values": feat_vals,
	"zone_ids": zone_ids,
	"attention_mask": attn_mask,
	"target_action_tokens": target_toks,
	"target_mask": target_mask,
	"rtg": rtg_combined,
	"rtg_energy": rtg_e_norm,
	"rtg_comfort": rtg_c_norm,
	"rewards_energy": re_win,
	"rewards_comfort": rc_win,
	"pref_lambda": np.float32(lam),
	"ash55_any": ash55_any,
	"next_obs": next_st_win,
	"target_4h_delta": delta_4h_win,
	"time_mask": tm_win,
	"context": ctx_vec,
	}

	def generalist_collate_fn(batch: List[Dict[str, Any]]) -> Dict[str, Any]:
	def stack(k):
	return np.stack([b[k] for b in batch])

	return {
	"feature_ids": torch.from_numpy(stack("feature_ids")).long(),
	"feature_values": torch.from_numpy(stack("feature_values")).float(),
	"zone_ids": torch.from_numpy(stack("zone_ids")).long(),
	"attention_mask": torch.from_numpy(stack("attention_mask")).long(),
	"target_action_tokens": torch.from_numpy(stack("target_action_tokens")).long(),
	"target_mask": torch.from_numpy(stack("target_mask")).float(),

	"rtg": torch.from_numpy(stack("rtg")).float(),
	"rtg_energy": torch.from_numpy(stack("rtg_energy")).float(),
	"rtg_comfort": torch.from_numpy(stack("rtg_comfort")).float(),

	"rewards_energy": torch.from_numpy(stack("rewards_energy")).float(),
	"rewards_comfort": torch.from_numpy(stack("rewards_comfort")).float(),

	"pref_lambda": torch.from_numpy(stack("pref_lambda")).float(),
	"ash55_any": torch.from_numpy(stack("ash55_any")).float(),

	"next_obs": torch.from_numpy(stack("next_obs")).float(),
	"target_4h_delta": torch.from_numpy(stack("target_4h_delta")).float(),
	"time_mask": torch.from_numpy(stack("time_mask")).float(),
	"context": torch.from_numpy(stack("context")).float(),
	}

	# ============================================================
	# 4) DEBUG MAIN
	# ============================================================

	def main():
	npz_paths = sorted(glob.glob(os.path.join(DATA_DIR, "TrajectoryData_officesmall", "*", "traj_ep_seed*.npz"), recursive=True))
	npz_paths = [p for p in npz_paths if os.path.basename(p) not in ("norm_stats.npz",)]

	if not npz_paths:
	print(f"No data found in {DATA_DIR}")
	return
	ds = GeneralistDataset(npz_paths, max_tokens=64)
	loader = DataLoader(ds, batch_size=4, collate_fn=generalist_collate_fn, num_workers=0)

	batch = next(iter(loader))


	if __name__ == "__main__":
	main()