Accuknoxtechnologies
/

CodeLanguage-Encoder-v1

Text Classification

language-identification

text-embeddings-inference

Model card Files Files and versions

Yash1005 commited on 7 days ago

Commit

c0873de

·

verified ·

1 Parent(s): 7bc7eaf

add/update model card with eval metrics

Files changed (1) hide show

README.md +52 -5

README.md CHANGED Viewed

@@ -13,13 +13,18 @@ tags:
 # Code Language Identification (encoder, multi-label)
-Multi-label classifier over 25 programming languages, fine-tuned from
-**[`jhu-clsp/mmBERT-base`](https://huggingface.co/jhu-clsp/mmBERT-base)**. Single forward pass;
-`is_valid` = any language above threshold (0.5).
 - **Base model**: [`jhu-clsp/mmBERT-base`](https://huggingface.co/jhu-clsp/mmBERT-base)
-- **Trained with**: max_seq_length=3072, epochs=2, lr=2e-05
 - **Labels (25)**: Python, JavaScript, Java, C, C++, C#, Go, Rust, Kotlin, Swift, Ruby, R, Scala, Perl, Lua, Bash, PowerShell, Batch, SQL, Dockerfile, YAML, Makefile, Terraform, AWK, jq
 ## Usage
@@ -45,4 +50,46 @@ result = {"is_valid": bool(present), "category": {k: True for k in present}}
 print(result)   # e.g. {"is_valid": True, "category": {"Python": True}}
 ```
-> Test-set metrics are added by `eval_and_push_card.py` after evaluation.

 # Code Language Identification (encoder, multi-label)
+Encoder classifier that detects which programming languages (out of
+25) appear in an input. Fine-tuned from
+**[`jhu-clsp/mmBERT-base`](https://huggingface.co/jhu-clsp/mmBERT-base)**.
+Replaces the 2B Qwen decoder LoRA with a single-forward-pass encoder for
+lower-latency runtime-security use in LLM-Guard's `Code` scanner.
 - **Base model**: [`jhu-clsp/mmBERT-base`](https://huggingface.co/jhu-clsp/mmBERT-base)
 - **Labels (25)**: Python, JavaScript, Java, C, C++, C#, Go, Rust, Kotlin, Swift, Ruby, R, Scala, Perl, Lua, Bash, PowerShell, Batch, SQL, Dockerfile, YAML, Makefile, Terraform, AWK, jq
+- **Output**: per-language sigmoid; `is_valid` = any language above threshold
+  (0.5).
+- **Multilingual / long context**: inherited from the base encoder; trained with
+  inputs up to the base model's positional limit.
 ## Usage
 print(result)   # e.g. {"is_valid": True, "category": {"Python": True}}
 ```
+## Test-set metrics (n=500)
+| Metric | Value |
+|--------|-------|
+| is_valid accuracy | 0.958 |
+| category-set (exact) accuracy | 0.820 |
+| micro-F1 | 0.898 |
+| macro-F1 | 0.895 |
+| latency mean (ms/example) | 2.3932456970214844 |
+| latency p95 (ms/example) | 3.833106905221939 |
+| device | cuda:0 |
+### Per-language F1
+| Language | F1 |
+|----------|----|
+| AWK | 0.926 |
+| Bash | 0.722 |
+| Batch | 0.902 |
+| C | 0.864 |
+| C# | 0.927 |
+| C++ | 0.936 |
+| Dockerfile | 0.977 |
+| Go | 0.919 |
+| Java | 0.917 |
+| JavaScript | 0.816 |
+| Kotlin | 1.000 |
+| Lua | 0.867 |
+| Makefile | 0.878 |
+| Perl | 0.857 |
+| PowerShell | 0.833 |
+| Python | 0.863 |
+| R | 0.906 |
+| Ruby | 0.900 |
+| Rust | 0.981 |
+| SQL | 0.980 |
+| Scala | 0.762 |
+| Swift | 0.917 |
+| Terraform | 0.895 |
+| YAML | 0.955 |
+| jq | 0.889 |
+*Evaluated on `test_dataset_langid.csv`. Generated 2026-06-02 09:23 UTC.*