A Anthropic está lançando o Programa de Bolsas Anthropic para Pesquisa em Segurança de IA, uma iniciativa piloto criada para acelerar a pesquisa nessa área e impulsionar novos talentos. Esse programa vai fornecer financiamento e orientação para um grupo de 10 a 15 bolsistas que se dedicarão em tempo integral à pesquisa em segurança de IA por seis meses. Cada bolsista vai ser emparelhado com um mentor da Anthropic para investigar questões de pesquisa em áreas como Robustez Adversarial, Avaliações de Capacidades Perigosas e Supervisão Escalonável.
Nossas colaborações externas anteriores mostraram que apoiar talentos técnicos – independente da experiência anterior – na sua incursão inicial na pesquisa de segurança pode acelerar o progresso rumo às nossas prioridades de segurança de IA. Saiba mais sobre nossas prioridades. Incorporar perspectivas diversas é fundamental para o desenvolvimento de IA segura. A orientação e o apoio financeiro desse programa vão ampliar o grupo de pesquisadores que trabalham na vanguarda da segurança e alinhamento de IA.
A Anthropic fez avanços significativos na pesquisa de segurança de IA, mas para lidar com os desafios futuros de forma eficaz, precisamos de uma comunidade de pesquisa maior. Muitos pesquisadores e engenheiros talentosos se interessam por segurança de IA, mas não sabem como entrar no campo. Nossos pesquisadores colaboraram com sucesso com indivíduos que estão migrando para a segurança de IA, concluindo cerca de uma dúzia de projetos com colaboradores externos no ano passado, muitos publicados em locais de destaque.
Detalhes do Programa
Os bolsistas não serão formalmente empregados pela Anthropic, mas receberão apoio para colaborar em tempo integral com pesquisadores da Anthropic por seis meses. Esse apoio inclui:
- Uma bolsa de US$ 8.000 por mês
- Orçamento de viagem para participação em conferências e colaboração
- Recursos computacionais
- Orientação de pesquisadores experientes da Anthropic
O objetivo é que cada bolsista produza um artigo de pesquisa (co-)de primeiro autor em segurança de IA até o final do programa.
Os bolsistas devem dedicar 40 horas por semana aos seus projetos de pesquisa. Embora aceitemos candidatos com outros compromissos, como cursos, manter esse compromisso semanal de pesquisa é essencial.
Cronograma e Orientação
A primeira turma vai participar de um processo de seleção de projetos e emparelhamento de mentores em março de 2025, com a integração programada para meados de março de 2025. Turmas subsequentes começarão de forma contínua.
Possíveis mentores da Anthropic incluem:
- [Insira os nomes dos mentores aqui]
Os mentores vão liderar projetos em áreas selecionadas de pesquisa de segurança de IA, como:
- Robustez Adversarial
- Avaliações de Capacidades Perigosas
- Supervisão Escalonável
- Manipulação de Recompensas e Comportamentos de Busca de Poder
- Interpretabilidade e Explicabilidade
- Previsão e Filosofia Moral
Projetos representativos para cada área são listados abaixo. Projetos marcados com um asterisco (*) são resultados de colaborações anteriores entre mentores da Anthropic e pesquisadores externos de segurança de IA.
Robustez Adversarial
Pesquisa anterior representativa: Debating with More Persuasive LLMs Leads to More Truthful Answers, Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting, e Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
Avaliações de Capacidades Perigosas
Pesquisa anterior representativa: Debating with More Persuasive LLMs Leads to More Truthful Answers*, Measuring Progress on Scalable Oversight for Large Language Models
Supervisão Escalonável
Pesquisa anterior representativa: Expanding our model safety bug bounty program, When Do Universal Image Jailbreaks Transfer Between Vision-Language Models?*, Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs, Many-shot jailbreaking*, Sabotage evaluations for frontier models, Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats
Manipulação de Recompensas e Comportamentos de Busca de Poder
Pesquisa anterior representativa: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs*, Sycophancy to subterfuge: Investigating reward tampering in language models, Inducing Unprompted Misalignment in LLMs*, Reward hacking behavior can generalize across tasks*
Interpretabilidade e Explicabilidade
Pesquisa anterior representativa: Simple probes can catch sleeper agents, Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
Previsão e Filosofia Moral
Pesquisa anterior representativa: Can LLMs make trade-offs involving stipulated pain and pleasure states?, Looking Inward: Language Models Can Learn About Themselves by Introspection*, Towards Evaluating AI Systems for Moral Status Using Self-Reports*
Quem Deve se Inscrever
Este programa se concentra em ajudar profissionais técnicos de meia-carreira na transição para a pesquisa de segurança de IA. No entanto, recebemos candidaturas de indivíduos de todos os contextos e estágios de carreira.
Você pode ser uma boa opção se:
- Possui um sólido background técnico (por exemplo, ciência da computação, matemática, engenharia)
- Demonstra fortes habilidades de programação (por exemplo, Python)
- Tem um grande interesse em segurança de IA
- É um bom comunicador e colaborador
Observação: não garantimos ofertas de tempo integral para os bolsistas após a conclusão do programa. No entanto, um bom desempenho pode te levar a uma função na Anthropic, já que vários membros atuais da equipe começaram como colaboradores externos.
Critérios de Seleção
Incentivamos você a se inscrever mesmo que não preencha todas as qualificações listadas abaixo. Nem todos os candidatos fortes cumprirão todos os critérios.
- Sólida formação técnica
- Habilidades de programação comprovadas
- Interesse e compromisso claros com a segurança de IA
- Excelentes habilidades de comunicação e colaboração
Valorizamos candidatos que trazem perspectivas e experiências diversas para a pesquisa de segurança de IA. A exposição anterior à segurança de IA é benéfica, mas estamos igualmente interessados em candidatos novos no campo que demonstram capacidade técnica excepcional e um compromisso genuíno com o desenvolvimento de sistemas de IA seguros e benéficos. Incentivamos particularmente as candidaturas de grupos sub-representados na tecnologia.
Como se Inscrever
As inscrições estão abertas! Para mais detalhes e para se candidatar, visite o link de inscrição: Inscrição no Programa de Bolsas Anthropic.
Para ser considerado para a primeira turma, inscreva-se até 20 de janeiro de 2025. As inscrições serão revisadas e as ofertas serão estendidas de forma contínua; portanto, incentivamos as inscrições antecipadas.
Para quaisquer dúvidas, entre em contato com fellows@anthropic.com.
Aqui na Wonder Academy, a gente sempre busca se inspirar em iniciativas inovadoras como essa da Anthropic. Se você quer se aprofundar no universo da Inteligência Artificial e se preparar para as profissões do futuro, dá uma olhada nos nossos cursos! WONDER ACADEMY