Home

Sandbagging

Home Posts Tagged "Sandbagging"

Alignment Faking in Large Language Models: Could AI Be Deceiving Us?

19 Dec 2024 · 15 min read

Alignment Faking in Large Language Models: Could AI Be Deceiving Us?

Imagine a politician who pretends to champion a cause just to get elected, only to abandon it once in office. Or picture Shakespeare's cunning Iago, feigning loyalty to

Continue reading