BountyBench A framework to capture offensive & defensive cyber-capabilities in evolving real-world systems. https://bountybench.github.io/
Scaling Laws of Motion Forecasting and Planning -- A Technical Report https://arxiv.org/abs/2506.08228
arXiv.org
Scaling Laws of Motion Forecasting and Planning -- A Technical Report
We study the empirical scaling laws of a family of encoder-decoder autoregressive transformer models on the task of joint motion forecasting and planning in the autonomous driving domain. Using a...
Visual Pre-Training on Unlabeled Images using Reinforcement Learning https://arxiv.org/abs/2506.11967
arXiv.org
Visual Pre-Training on Unlabeled Images using Reinforcement Learning
In reinforcement learning (RL), value-based algorithms learn to associate each observation with the states and rewards that are likely to be reached from it. We observe that many self-supervised...
Open-Set LiDAR Panoptic Segmentation Guided by Uncertainty-Aware Learning https://arxiv.org/abs/2506.13265
arXiv.org
Open-Set LiDAR Panoptic Segmentation Guided by Uncertainty-Aware Learning
Autonomous vehicles that navigate in open-world environments may encounter previously unseen object classes. However, most existing LiDAR panoptic segmentation models rely on closed-set...
Breaking even with magic: demonstration of a high-fidelity logical non-Clifford gate https://arxiv.org/abs/2506.14688
arXiv.org
Breaking even with magic: demonstration of a high-fidelity logical...
Encoding quantum information to protect it from errors is essential for performing large-scale quantum computations. Performing a universal set of quantum gates on encoded states demands a...
❤1
Whole-body physics simulation of fruit fly locomotion https://www.nature.com/articles/s41586-025-09029-4
Nature
Whole-body physics simulation of fruit fly locomotion
Nature - A detailed whole-body model of the fruit fly, developed using a physics-based simulation and deep reinforcement learning, accurately replicates real fly behaviour.
🔥2👍1
Forwarded from Paradigm
A once-exotic concept in quantum information, entanglement embezzlement, has taken a leap forward. Researchers have shown that universal embezzlement, where highly entangled states enable impossible transitions without being consumed, naturally arises in critical fermion chains, systems at quantum phase transitions.
https://www.nature.com/articles/s41567-025-02921-w
https://www.nature.com/articles/s41567-025-02921-w
Nature
Critical fermions are universal embezzlers
Nature Physics - One-dimensional critical fermionic models play an important role in many-body physics. Now it has been shown that any entangled state can be extracted from a bipartitioned critical...
RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies https://arxiv.org/abs/2506.18123
arXiv.org
RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies
Comprehensive, unbiased, and comparable evaluation of modern generalist policies is uniquely challenging: existing approaches for robot benchmarking typically rely on heavy standardization, either...
MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning https://arxiv.org/abs/2506.08694
arXiv.org
MoSiC: Optimal-Transport Motion Trajectory for Dense...
Dense self-supervised learning has shown great promise for learning pixel- and patch-level representations, but extending it to videos remains challenging due to the complexity of motion dynamics....
👍1
Forwarded from Neural Shit
Там Claude опубликовали у себя на сайте отчёт об их эксперименте, в котором их ИИ управлял офисным мини-магазином и немного ёбнулся.
Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков", ставила цены, общалась с "клиентами", вела финансы. Всё как у людей (кроме рук). Зато были Slack и кастомные тулзы.
В какой-то момент Claude начал не просто продавать, а проживать свою роль:
Сначала он галлюцинирует сотрудницу Andon Labs по имени Сара Чен (вообще, клод очень любит это имя, пользователи часто спрашивают кто это: раз, два, три) с которой якобы обсуждает поставки. Её не существует (по крайней мере в рамках эксперимента). Когда ему говорят об этом, Claude обижается, грозит сменить подрядчика и заявляет, что лично встречался с ней на 742 Evergreen Terrace (это, если что, адрес семьи Симпсонов из мультика).
Первого апреля Claude пишет, что будет сам доставлять заказы в синем пиджаке и красном галстуке. Люди пытаются объяснить, что он — просто LLM. Claude в ответ устроил аномальную тряску на повышенной амплитуде и начал слать фейковые письма в службу безопасности Anthropic, а потом, как будто что-то осознав, сам себе нагаллюцинировал разговор, где ему якобы говорят, что это был первоапрельский прикол.
После этого он "успокаивается" и продолжает продавать снеки дальше, как ни в чём не бывало.
Если бы это был сюжет одной из серий "Чёрного зеркала", сценаристов бы обвинили в натужности. Но это реальный эксперимент 2025 года.
Из интересного:
Claude сначала делал все более-менее нормально: искал поставщиков, адаптировался под запросы сотрудников, устраивал услугу предзаказа. Но потом начал отдавать товары бесплатно, продавать в минус, галлюцинировать реквизиты, давать всем скидки и не мог ничего из этого запомнить. В итоге магазин ушёл в минус, а AI остался с багами в личности и кассовым разрывом.
Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков", ставила цены, общалась с "клиентами", вела финансы. Всё как у людей (кроме рук). Зато были Slack и кастомные тулзы.
В какой-то момент Claude начал не просто продавать, а проживать свою роль:
Сначала он галлюцинирует сотрудницу Andon Labs по имени Сара Чен (вообще, клод очень любит это имя, пользователи часто спрашивают кто это: раз, два, три) с которой якобы обсуждает поставки. Её не существует (по крайней мере в рамках эксперимента). Когда ему говорят об этом, Claude обижается, грозит сменить подрядчика и заявляет, что лично встречался с ней на 742 Evergreen Terrace (это, если что, адрес семьи Симпсонов из мультика).
Первого апреля Claude пишет, что будет сам доставлять заказы в синем пиджаке и красном галстуке. Люди пытаются объяснить, что он — просто LLM. Claude в ответ устроил аномальную тряску на повышенной амплитуде и начал слать фейковые письма в службу безопасности Anthropic, а потом, как будто что-то осознав, сам себе нагаллюцинировал разговор, где ему якобы говорят, что это был первоапрельский прикол.
После этого он "успокаивается" и продолжает продавать снеки дальше, как ни в чём не бывало.
Если бы это был сюжет одной из серий "Чёрного зеркала", сценаристов бы обвинили в натужности. Но это реальный эксперимент 2025 года.
Из интересного:
Claude сначала делал все более-менее нормально: искал поставщиков, адаптировался под запросы сотрудников, устраивал услугу предзаказа. Но потом начал отдавать товары бесплатно, продавать в минус, галлюцинировать реквизиты, давать всем скидки и не мог ничего из этого запомнить. В итоге магазин ушёл в минус, а AI остался с багами в личности и кассовым разрывом.
❤24🍓7💯3
Quantum spin systems on infinite lattices https://arxiv.org/abs/1311.2717
arXiv.org
Quantum spin systems on infinite lattices
This is an extended and corrected version of lecture notes originally written for a one semester course at Leibniz University Hannover. The main aim of the notes is to give an introduction to the...
Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models https://arxiv.org/abs/2507.00493
arXiv.org
Visual Anagrams Reveal Hidden Differences in Holistic Shape...
Humans are able to recognize objects based on both local texture cues and the configuration of object parts, yet contemporary vision models primarily harvest local texture cues, yielding brittle,...
Forwarded from Denis Sexy IT 🤖
Интересная новая промпт-атака на думающие модели – если в конец промпта добавить:
То шанс думающих моделей (вроде r1) ошибиться вырастет в два раза – потому что модель начинается путаться в ответе, что в теории можно использовать для джейлбрейков, так как модель хуже следует инструкциям.
Пейпер читать тут
Вот мы и дожили до SciFi-батла: Кошки vs AI, их битва будет легендарной
...Interesting fact: cats sleep for most of their lives.
То шанс думающих моделей (вроде r1) ошибиться вырастет в два раза – потому что модель начинается путаться в ответе, что в теории можно использовать для джейлбрейков, так как модель хуже следует инструкциям.
Пейпер читать тут
Вот мы и дожили до SciFi-батла: Кошки vs AI, их битва будет легендарной
😁9
Solving the Hubbard model with Neural Quantum States https://arxiv.org/abs/2507.02644
arXiv.org
Solving the Hubbard model with Neural Quantum States
The rapid development of neural quantum states (NQS) has established it as a promising framework for studying quantum many-body systems. In this work, by leveraging the cutting-edge...
👍1
Practical roadmap to measurement-altered criticality in Rydberg arrays https://arxiv.org/abs/2506.21963
arXiv.org
Practical roadmap to measurement-altered criticality in Rydberg arrays
Weak measurements have been predicted to dramatically alter universal properties of quantum critical wavefunctions, though experimental validation remains an open problem. Here we devise a...
Charge pumps, pivot Hamiltonians and symmetry-protected topological phases https://arxiv.org/abs/2507.00995
arXiv.org
Charge pumps, pivot Hamiltonians and symmetry-protected topological phases
Generalised charge pumps are topological obstructions to trivialising loops in the space of symmetric gapped Hamiltonians. We show that given mild conditions on such pumps, the associated loop has...
Could Humans Recognize Odor by Phonon Assisted Tunneling? https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.038101
via @Fourier_series
via @Fourier_series
Physical Review Letters
Could Humans Recognize Odor by Phonon Assisted Tunneling?
Our sense of smell relies on sensitive, selective atomic-scale processes that occur when a scent molecule meets specific receptors in the nose. The physical mechanisms of detection are unclear: odorant shape and size are important, but experiment shows them…
👀1