Activation Steering | Security Research Group

EMNLP: Unsupervised Concept Vector Extraction for Bias Control in LLMs

20 November 2025 LLM, Hannah Cyberey, Yangfeng Ji, activation steering, bias, fairness

Our paper on extracting concept vectors for LLMs was presented at the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP):

Hannah Cyberey, Yangfeng Ji, and David Evans. In Conference on Empirical Methods in Natural Language Processing (EMNLP). Suzhou, China. November 2025. [ACL Anthology [arXiv] [Code]

Steering “gender” concept in QWEN-1.8B, evaluated on an example from Winogenerated fill-in- the-blank task. Baseline shows the original probabilities with no steering applied.

All Posts by Category or Tags.