scale-ai/swe-bench-pro

Published 4/15/2026 by Alex Shaw

harbor run -d scale-ai/swe-bench-pro

SWE-Bench Pro is a benchmark designed to provide a rigorous and realistic evaluation of AI agents for software engineering. It was developed to address several limitations in existing benchmarks by tackling four key challenges:

Data Contamination: Models have likely seen the evaluation code during training, making it hard to know if they are problem-solving or recalling a memorized solution.
Limited Task Diversity: Many benchmarks fail to capture the full spectrum of real-world software challenges and instead focus on simple utility libraries.
Oversimplified Problems: Ambiguous or underspecified issues are often removed from benchmarks, which doesn't reflect a real developer's workflow.
Unreliable and Irreproducible Testing: Inconsistent setups make it difficult to know if a solution truly works or if the environment is just configured incorrectly.

SWE-Bench Pro addresses these gaps by sourcing tasks from diverse and complex codebases, including consumer applications, B2B services, and developer tools. To reduce contamination risk, the public and held-out OSS subsets use strong copyleft licenses (e.g., GPL). The private subset consists of proprietary codebases from startup partners.

The benchmark is significantly more challenging than its predecessors; top models score around 23% on the SWE-Bench Pro public set, compared to 70%+ on SWE-Bench Verified. This provides a more accurate measure of an agent’s true problem-solving capabilities in environments that mirror professional software development.

Read the paper here: https://scale.com/research/swe_bench_pro

Check out the GitHub and view trajectories here: https://docent.transluce.org/dashboard/032fb63d-4992-4bfc-911d-3b7dafcb931f

(https://labs.scale.com/leaderboard/swe_bench_pro_public)

⌘K

Task
scale-ai/instance_flipt-io__flipt-a0cbc0cb65ae601270bdbe3f5313e2dfd49c80e4
scale-ai/instance_element-hq__element-web-b007ea81b2ccd001b00f332bee65070aa7fc00f9-vnan
scale-ai/instance_tutao__tutanota-fbdb72a2bd39b05131ff905780d9d4a2a074de26-vbc0d9ba8f0071fbe982809910959a6ff8884dbbf
scale-ai/instance_navidrome__navidrome-3f2d24695e9382125dfe5e6d6c8bbeb4a313a4f9
scale-ai/instance_protonmail__webclients-51742625834d3bd0d10fe0c7e76b8739a59c6b9f
scale-ai/instance_qutebrowser__qutebrowser-9ed748effa8f3bcd804612d9291da017b514e12f-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
scale-ai/instance_nodebb__nodebb-70b4a0e2aebebe8f2f559de6680093d96a697b2f-vnan
scale-ai/instance_future-architect__vuls-1832b4ee3a20177ad313d806983127cb6e53f5cf
scale-ai/instance_element-hq__element-web-6961c256035bed0b7640a6e5907652c806968478-vnan
scale-ai/instance_navidrome__navidrome-3972616585e82305eaf26aa25697b3f5f3082288
scale-ai/instance_element-hq__element-web-ca8b1b04effb4fec0e1dd3de8e3198eeb364d50e-vnan
scale-ai/instance_ansible__ansible-d6d2251929c84c3aa883bad7db0f19cc9ff0339e-v30a923fb5c164d6cd18280c02422f75e611e8fb2
scale-ai/instance_gravitational__teleport-629dc432eb191ca479588a8c49205debb83e80e2
scale-ai/instance_tutao__tutanota-8513a9e8114a8b42e64f4348335e0f23efa054c4-vee878bb72091875e912c52fc32bc60ec3760227b
scale-ai/instance_protonmail__webclients-32ff10999a06455cb2147f6873d627456924ae13
scale-ai/instance_gravitational__teleport-af5e2517de7d18406b614e413aca61c319312171-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_internetarchive__openlibrary-3f580a5f244c299d936d73d9e327ba873b6401d9-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
scale-ai/instance_future-architect__vuls-ef2be3d6ea4c0a13674aaab08b182eca4e2b9a17-v264a82e2f4818e30f5a25e4da53b27ba119f62b5
scale-ai/instance_gravitational__teleport-fb0ab2b9b771377a689fd0d0374777c251e58bbf
scale-ai/instance_ansible__ansible-83fb24b923064d3576d473747ebbe62e4535c9e3-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
scale-ai/instance_flipt-io__flipt-518ec324b66a07fdd95464a5e9ca5fe7681ad8f9
scale-ai/instance_tutao__tutanota-1ff82aa365763cee2d609c9d19360ad87fdf2ec7-vc4e41fd0029957297843cb9dec4a25c7c756f029
scale-ai/instance_internetarchive__openlibrary-e8084193a895d8ee81200f49093389a3887479ce-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_internetarchive__openlibrary-7f7e53aa4cf74a4f8549a5bcd4810c527e2f6d7e-v13642507b4fc1f8d234172bf8129942da2c2ca26
scale-ai/instance_flipt-io__flipt-e594593dae52badf80ffd27878d2275c7f0b20e9
scale-ai/instance_internetarchive__openlibrary-910b08570210509f3bcfebf35c093a48243fe754-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
scale-ai/instance_qutebrowser__qutebrowser-3d01c201b8aa54dd71d4f801b1dd12feb4c0a08a-v5fc38aaf22415ab0b70567368332beee7955b367
scale-ai/instance_protonmail__webclients-c8117f446c3d1d7e117adc6e0e46b0ece9b0b90e
scale-ai/instance_ansible__ansible-3889ddeb4b780ab4bac9ca2e75f8c1991bcabe83-v0f01c69f1e2528b935359cfe578530722bca2c59
scale-ai/instance_internetarchive__openlibrary-5c6c22f3d2edf2f1b10f5dc335e32cb6a5f40341-v76304ecdb3a5954fcf13feb710e8c40fcf24b73c
scale-ai/instance_internetarchive__openlibrary-7f6b722a10f822171501d027cad60afe53337732-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_navidrome__navidrome-812dc2090f20ac4f8ac271b6ed95be5889d1a3ca
scale-ai/instance_protonmail__webclients-01ea5214d11e0df8b7170d91bafd34f23cb0f2b1
scale-ai/instance_future-architect__vuls-030b2e03525d68d74cb749959aac2d7f3fc0effa
scale-ai/instance_element-hq__element-web-a692fe21811f88d92e8f7047fc615e4f1f986b0f-vnan
scale-ai/instance_ansible__ansible-29aea9ff3466e4cd2ed00524b9e56738d568ce8b-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
scale-ai/instance_nodebb__nodebb-76c6e30282906ac664f2c9278fc90999b27b1f48-vd59a5728dfc977f44533186ace531248c2917516
scale-ai/instance_ansible__ansible-f8ef34672b961a95ec7282643679492862c688ec-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
scale-ai/instance_qutebrowser__qutebrowser-1a9e74bfaf9a9db2a510dc14572d33ded6040a57-v2ef375ac784985212b1805e1d0431dc8f1b3c171
scale-ai/instance_flipt-io__flipt-dae029cba7cdb98dfb1a6b416c00d324241e6063
scale-ai/instance_flipt-io__flipt-5aef5a14890aa145c22d864a834694bae3a6f112
scale-ai/instance_ansible__ansible-4c5ce5a1a9e79a845aff4978cfeb72a0d4ecf7d6-v1055803c3a812189a1133297f7f5468579283f86
scale-ai/instance_flipt-io__flipt-e2bd19dafa7166c96b082fb2a59eb54b4be0d778
scale-ai/instance_navidrome__navidrome-7073d18b54da7e53274d11c9e2baef1242e8769e
scale-ai/instance_flipt-io__flipt-b4bb5e13006a729bc0eed8fe6ea18cff54acdacb
scale-ai/instance_protonmail__webclients-1917e37f5d9941a3459ce4b0177e201e2d94a622
scale-ai/instance_flipt-io__flipt-b433bd05ce405837804693bebd5f4b88d87133c8
scale-ai/instance_nodebb__nodebb-eb49a64974ca844bca061744fb3383f5d13b02ad-vnan
scale-ai/instance_qutebrowser__qutebrowser-f7753550f2c1dcb2348e4779fd5287166754827e-v059c6fdc75567943479b23ebca7c07b5e9a7f34c
scale-ai/instance_element-hq__element-web-53b42e321777a598aaf2bb3eab22d710569f83a8-vnan
scale-ai/instance_navidrome__navidrome-fa85e2a7816a6fe3829a4c0d8e893e982b0985da
scale-ai/instance_flipt-io__flipt-2eac0df47b5ecc8bb05002d80383ceb08ab3620a
scale-ai/instance_gravitational__teleport-d6ffe82aaf2af1057b69c61bf9df777f5ab5635a-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_gravitational__teleport-ac2fb2f9b4fd1896b554d3011df23d3d71295779
scale-ai/instance_qutebrowser__qutebrowser-5fdc83e5da6222fe61163395baaad7ae57fa2cb4-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
scale-ai/instance_protonmail__webclients-4817fe14e1356789c90165c2a53f6a043c2c5f83
scale-ai/instance_element-hq__element-web-ecfd1736e5dd9808e87911fc264e6c816653e1a9-vnan
scale-ai/instance_internetarchive__openlibrary-25858f9f0c165df25742acf8309ce909773f0cdd-v13642507b4fc1f8d234172bf8129942da2c2ca26
scale-ai/instance_element-hq__element-web-ca58617cee8aa91c93553449bfdf9b3465a5119b-vnan
scale-ai/instance_tutao__tutanota-fe240cbf7f0fdd6744ef7bef8cb61676bcdbb621-vc4e41fd0029957297843cb9dec4a25c7c756f029
scale-ai/instance_flipt-io__flipt-9f8127f225a86245fa35dca4885c2daef824ee55
scale-ai/instance_protonmail__webclients-6e165e106d258a442ae849cdf08260329cb92d39
scale-ai/instance_protonmail__webclients-cba6ebbd0707caa524ffee51c62b197f6122c902
scale-ai/instance_element-hq__element-web-5dfde12c1c1c0b6e48f17e3405468593e39d9492-vnan
scale-ai/instance_qutebrowser__qutebrowser-ff1c025ad3210506fc76e1f604d8c8c27637d88e-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
scale-ai/instance_internetarchive__openlibrary-c05ccf2cd8baa81609434e0e35c4a63bc0da5a25-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
scale-ai/instance_gravitational__teleport-c1b1c6a1541c478d7777a48fca993cc8206c73b9
scale-ai/instance_tutao__tutanota-de49d486feef842101506adf040a0f00ded59519-v10a26bfb45a064b93f4fc044a0254925037b88f1
scale-ai/instance_internetarchive__openlibrary-3f7db6bbbcc7c418b3db72d157c6aed1d45b2ccf-v430f20c722405e462d9ef44dee7d34c41e76fe7a
scale-ai/instance_flipt-io__flipt-2ca5dfb3513e4e786d2b037075617cccc286d5c3
scale-ai/instance_future-architect__vuls-61c39637f2f3809e1b5dad05f0c57c799dce1587
scale-ai/instance_navidrome__navidrome-87d4db7638b37eeb754b217440ab7a372f669205
scale-ai/instance_internetarchive__openlibrary-6e889f4a733c9f8ce9a9bd2ec6a934413adcedb9-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_ansible__ansible-a7d2a4e03209cff1e97e59fd54bb2b05fdbdbec6-v0f01c69f1e2528b935359cfe578530722bca2c59
scale-ai/instance_tutao__tutanota-befce4b146002b9abc86aa95f4d57581771815ce-vee878bb72091875e912c52fc32bc60ec3760227b
scale-ai/instance_protonmail__webclients-a6e6f617026794e7b505d649d2a7a9cdf17658c8
scale-ai/instance_future-architect__vuls-457a3a9627fb9a0800d0aecf1d4713fb634a9011
scale-ai/instance_flipt-io__flipt-ea9a2663b176da329b3f574da2ce2a664fc5b4a1
scale-ai/instance_qutebrowser__qutebrowser-ebfe9b7aa0c4ba9d451f993e08955004aaec4345-v059c6fdc75567943479b23ebca7c07b5e9a7f34c
scale-ai/instance_element-hq__element-web-1077729a19c0ce902e713cf6fab42c91fb7907f1-vnan
scale-ai/instance_navidrome__navidrome-29b7b740ce469201af0a0510f3024adc93ef4c8e
scale-ai/instance_gravitational__teleport-1b08e7d0dbe68fe530a0f08ad408ec198b7c53fc-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_internetarchive__openlibrary-8a9d9d323dfcf2a5b4f38d70b1108b030b20ebf3-v13642507b4fc1f8d234172bf8129942da2c2ca26
scale-ai/instance_gravitational__teleport-005dcb16bacc6a5d5890c4cd302ccfd4298e275d-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_future-architect__vuls-e4728e388120b311c4ed469e4f942e0347a2689b-v264a82e2f4818e30f5a25e4da53b27ba119f62b5
scale-ai/instance_internetarchive__openlibrary-b67138b316b1e9c11df8a4a8391fe5cc8e75ff9f-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_ansible__ansible-5d253a13807e884b7ce0b6b57a963a45e2f0322c-v1055803c3a812189a1133297f7f5468579283f86
scale-ai/instance_future-architect__vuls-8d5ea98e50cf616847f4e5a2df300395d1f719e9
scale-ai/instance_element-hq__element-web-772df3021201d9c73835a626df8dcb6334ad9a3e-vnan
scale-ai/instance_internetarchive__openlibrary-123e6e5e1c85b9c07d1e98f70bfc480bc8016890-v2733ff199fb72f0d033a30dc62cb0a4742e3a7f4
scale-ai/instance_nodebb__nodebb-0f788b8eaa4bba3c142d171fd941d015c53b65fc-v0ec6d6c2baf3cb4797482ce4829bc25cd5716649
scale-ai/instance_internetarchive__openlibrary-e1e502986a3b003899a8347ac8a7ff7b08cbfc39-v08d8e8889ec945ab821fb156c04c7d2e2810debb
scale-ai/instance_qutebrowser__qutebrowser-5cef49ff3074f9eab1da6937a141a39a20828502-v02ad04386d5238fe2d1a1be450df257370de4b6a
scale-ai/instance_internetarchive__openlibrary-03095f2680f7516fca35a58e665bf2a41f006273-v8717e18970bcdc4e0d2cea3b1527752b21e74866
scale-ai/instance_qutebrowser__qutebrowser-a84ecfb80a00f8ab7e341372560458e3f9cfffa2-v2ef375ac784985212b1805e1d0431dc8f1b3c171
scale-ai/instance_protonmail__webclients-dfe5604193d63bfcb91ce60d62db2f805c43bf11
scale-ai/instance_protonmail__webclients-7b833df125859e5eb98a826e5b83efe0f93a347b
scale-ai/instance_element-hq__element-web-f14374a51c153f64f313243f2df6ea4971db4e15
scale-ai/instance_protonmail__webclients-4feccbc9990980aee26ea29035f8f931d6089895
scale-ai/instance_navidrome__navidrome-09ae41a2da66264c60ef307882362d2e2d8d8b89

Displaying 100 of 731 tasks

scale-ai/swe-bench-pro

Published 4/15/2026 by Alex Shaw

New Job

harbor run -d scale-ai/swe-bench-pro

Data Contamination: Models have likely seen the evaluation code during training, making it hard to know if they are problem-solving or recalling a memorized solution.
Limited Task Diversity: Many benchmarks fail to capture the full spectrum of real-world software challenges and instead focus on simple utility libraries.
Oversimplified Problems: Ambiguous or underspecified issues are often removed from benchmarks, which doesn't reflect a real developer's workflow.
Unreliable and Irreproducible Testing: Inconsistent setups make it difficult to know if a solution truly works or if the environment is just configured incorrectly.

Read the paper here: https://scale.com/research/swe_bench_pro

Check out the GitHub and view trajectories here: https://docent.transluce.org/dashboard/032fb63d-4992-4bfc-911d-3b7dafcb931f

(https://labs.scale.com/leaderboard/swe_bench_pro_public)

⌘K

Task
scale-ai/instance_flipt-io__flipt-a0cbc0cb65ae601270bdbe3f5313e2dfd49c80e4
scale-ai/instance_element-hq__element-web-b007ea81b2ccd001b00f332bee65070aa7fc00f9-vnan
scale-ai/instance_tutao__tutanota-fbdb72a2bd39b05131ff905780d9d4a2a074de26-vbc0d9ba8f0071fbe982809910959a6ff8884dbbf
scale-ai/instance_navidrome__navidrome-3f2d24695e9382125dfe5e6d6c8bbeb4a313a4f9
scale-ai/instance_protonmail__webclients-51742625834d3bd0d10fe0c7e76b8739a59c6b9f
scale-ai/instance_qutebrowser__qutebrowser-9ed748effa8f3bcd804612d9291da017b514e12f-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
scale-ai/instance_nodebb__nodebb-70b4a0e2aebebe8f2f559de6680093d96a697b2f-vnan
scale-ai/instance_future-architect__vuls-1832b4ee3a20177ad313d806983127cb6e53f5cf
scale-ai/instance_element-hq__element-web-6961c256035bed0b7640a6e5907652c806968478-vnan
scale-ai/instance_navidrome__navidrome-3972616585e82305eaf26aa25697b3f5f3082288
scale-ai/instance_element-hq__element-web-ca8b1b04effb4fec0e1dd3de8e3198eeb364d50e-vnan
scale-ai/instance_ansible__ansible-d6d2251929c84c3aa883bad7db0f19cc9ff0339e-v30a923fb5c164d6cd18280c02422f75e611e8fb2
scale-ai/instance_gravitational__teleport-629dc432eb191ca479588a8c49205debb83e80e2
scale-ai/instance_tutao__tutanota-8513a9e8114a8b42e64f4348335e0f23efa054c4-vee878bb72091875e912c52fc32bc60ec3760227b
scale-ai/instance_protonmail__webclients-32ff10999a06455cb2147f6873d627456924ae13
scale-ai/instance_gravitational__teleport-af5e2517de7d18406b614e413aca61c319312171-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_internetarchive__openlibrary-3f580a5f244c299d936d73d9e327ba873b6401d9-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
scale-ai/instance_future-architect__vuls-ef2be3d6ea4c0a13674aaab08b182eca4e2b9a17-v264a82e2f4818e30f5a25e4da53b27ba119f62b5
scale-ai/instance_gravitational__teleport-fb0ab2b9b771377a689fd0d0374777c251e58bbf
scale-ai/instance_ansible__ansible-83fb24b923064d3576d473747ebbe62e4535c9e3-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
scale-ai/instance_flipt-io__flipt-518ec324b66a07fdd95464a5e9ca5fe7681ad8f9
scale-ai/instance_tutao__tutanota-1ff82aa365763cee2d609c9d19360ad87fdf2ec7-vc4e41fd0029957297843cb9dec4a25c7c756f029
scale-ai/instance_internetarchive__openlibrary-e8084193a895d8ee81200f49093389a3887479ce-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_internetarchive__openlibrary-7f7e53aa4cf74a4f8549a5bcd4810c527e2f6d7e-v13642507b4fc1f8d234172bf8129942da2c2ca26
scale-ai/instance_flipt-io__flipt-e594593dae52badf80ffd27878d2275c7f0b20e9
scale-ai/instance_internetarchive__openlibrary-910b08570210509f3bcfebf35c093a48243fe754-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
scale-ai/instance_qutebrowser__qutebrowser-3d01c201b8aa54dd71d4f801b1dd12feb4c0a08a-v5fc38aaf22415ab0b70567368332beee7955b367
scale-ai/instance_protonmail__webclients-c8117f446c3d1d7e117adc6e0e46b0ece9b0b90e
scale-ai/instance_ansible__ansible-3889ddeb4b780ab4bac9ca2e75f8c1991bcabe83-v0f01c69f1e2528b935359cfe578530722bca2c59
scale-ai/instance_internetarchive__openlibrary-5c6c22f3d2edf2f1b10f5dc335e32cb6a5f40341-v76304ecdb3a5954fcf13feb710e8c40fcf24b73c
scale-ai/instance_internetarchive__openlibrary-7f6b722a10f822171501d027cad60afe53337732-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_navidrome__navidrome-812dc2090f20ac4f8ac271b6ed95be5889d1a3ca
scale-ai/instance_protonmail__webclients-01ea5214d11e0df8b7170d91bafd34f23cb0f2b1
scale-ai/instance_future-architect__vuls-030b2e03525d68d74cb749959aac2d7f3fc0effa
scale-ai/instance_element-hq__element-web-a692fe21811f88d92e8f7047fc615e4f1f986b0f-vnan
scale-ai/instance_ansible__ansible-29aea9ff3466e4cd2ed00524b9e56738d568ce8b-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
scale-ai/instance_nodebb__nodebb-76c6e30282906ac664f2c9278fc90999b27b1f48-vd59a5728dfc977f44533186ace531248c2917516
scale-ai/instance_ansible__ansible-f8ef34672b961a95ec7282643679492862c688ec-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
scale-ai/instance_qutebrowser__qutebrowser-1a9e74bfaf9a9db2a510dc14572d33ded6040a57-v2ef375ac784985212b1805e1d0431dc8f1b3c171
scale-ai/instance_flipt-io__flipt-dae029cba7cdb98dfb1a6b416c00d324241e6063
scale-ai/instance_flipt-io__flipt-5aef5a14890aa145c22d864a834694bae3a6f112
scale-ai/instance_ansible__ansible-4c5ce5a1a9e79a845aff4978cfeb72a0d4ecf7d6-v1055803c3a812189a1133297f7f5468579283f86
scale-ai/instance_flipt-io__flipt-e2bd19dafa7166c96b082fb2a59eb54b4be0d778
scale-ai/instance_navidrome__navidrome-7073d18b54da7e53274d11c9e2baef1242e8769e
scale-ai/instance_flipt-io__flipt-b4bb5e13006a729bc0eed8fe6ea18cff54acdacb
scale-ai/instance_protonmail__webclients-1917e37f5d9941a3459ce4b0177e201e2d94a622
scale-ai/instance_flipt-io__flipt-b433bd05ce405837804693bebd5f4b88d87133c8
scale-ai/instance_nodebb__nodebb-eb49a64974ca844bca061744fb3383f5d13b02ad-vnan
scale-ai/instance_qutebrowser__qutebrowser-f7753550f2c1dcb2348e4779fd5287166754827e-v059c6fdc75567943479b23ebca7c07b5e9a7f34c
scale-ai/instance_element-hq__element-web-53b42e321777a598aaf2bb3eab22d710569f83a8-vnan
scale-ai/instance_navidrome__navidrome-fa85e2a7816a6fe3829a4c0d8e893e982b0985da
scale-ai/instance_flipt-io__flipt-2eac0df47b5ecc8bb05002d80383ceb08ab3620a
scale-ai/instance_gravitational__teleport-d6ffe82aaf2af1057b69c61bf9df777f5ab5635a-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_gravitational__teleport-ac2fb2f9b4fd1896b554d3011df23d3d71295779
scale-ai/instance_qutebrowser__qutebrowser-5fdc83e5da6222fe61163395baaad7ae57fa2cb4-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
scale-ai/instance_protonmail__webclients-4817fe14e1356789c90165c2a53f6a043c2c5f83
scale-ai/instance_element-hq__element-web-ecfd1736e5dd9808e87911fc264e6c816653e1a9-vnan
scale-ai/instance_internetarchive__openlibrary-25858f9f0c165df25742acf8309ce909773f0cdd-v13642507b4fc1f8d234172bf8129942da2c2ca26
scale-ai/instance_element-hq__element-web-ca58617cee8aa91c93553449bfdf9b3465a5119b-vnan
scale-ai/instance_tutao__tutanota-fe240cbf7f0fdd6744ef7bef8cb61676bcdbb621-vc4e41fd0029957297843cb9dec4a25c7c756f029
scale-ai/instance_flipt-io__flipt-9f8127f225a86245fa35dca4885c2daef824ee55
scale-ai/instance_protonmail__webclients-6e165e106d258a442ae849cdf08260329cb92d39
scale-ai/instance_protonmail__webclients-cba6ebbd0707caa524ffee51c62b197f6122c902
scale-ai/instance_element-hq__element-web-5dfde12c1c1c0b6e48f17e3405468593e39d9492-vnan
scale-ai/instance_qutebrowser__qutebrowser-ff1c025ad3210506fc76e1f604d8c8c27637d88e-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
scale-ai/instance_internetarchive__openlibrary-c05ccf2cd8baa81609434e0e35c4a63bc0da5a25-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
scale-ai/instance_gravitational__teleport-c1b1c6a1541c478d7777a48fca993cc8206c73b9
scale-ai/instance_tutao__tutanota-de49d486feef842101506adf040a0f00ded59519-v10a26bfb45a064b93f4fc044a0254925037b88f1
scale-ai/instance_internetarchive__openlibrary-3f7db6bbbcc7c418b3db72d157c6aed1d45b2ccf-v430f20c722405e462d9ef44dee7d34c41e76fe7a
scale-ai/instance_flipt-io__flipt-2ca5dfb3513e4e786d2b037075617cccc286d5c3
scale-ai/instance_future-architect__vuls-61c39637f2f3809e1b5dad05f0c57c799dce1587
scale-ai/instance_navidrome__navidrome-87d4db7638b37eeb754b217440ab7a372f669205
scale-ai/instance_internetarchive__openlibrary-6e889f4a733c9f8ce9a9bd2ec6a934413adcedb9-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_ansible__ansible-a7d2a4e03209cff1e97e59fd54bb2b05fdbdbec6-v0f01c69f1e2528b935359cfe578530722bca2c59
scale-ai/instance_tutao__tutanota-befce4b146002b9abc86aa95f4d57581771815ce-vee878bb72091875e912c52fc32bc60ec3760227b
scale-ai/instance_protonmail__webclients-a6e6f617026794e7b505d649d2a7a9cdf17658c8
scale-ai/instance_future-architect__vuls-457a3a9627fb9a0800d0aecf1d4713fb634a9011
scale-ai/instance_flipt-io__flipt-ea9a2663b176da329b3f574da2ce2a664fc5b4a1
scale-ai/instance_qutebrowser__qutebrowser-ebfe9b7aa0c4ba9d451f993e08955004aaec4345-v059c6fdc75567943479b23ebca7c07b5e9a7f34c
scale-ai/instance_element-hq__element-web-1077729a19c0ce902e713cf6fab42c91fb7907f1-vnan
scale-ai/instance_navidrome__navidrome-29b7b740ce469201af0a0510f3024adc93ef4c8e
scale-ai/instance_gravitational__teleport-1b08e7d0dbe68fe530a0f08ad408ec198b7c53fc-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_internetarchive__openlibrary-8a9d9d323dfcf2a5b4f38d70b1108b030b20ebf3-v13642507b4fc1f8d234172bf8129942da2c2ca26
scale-ai/instance_gravitational__teleport-005dcb16bacc6a5d5890c4cd302ccfd4298e275d-vee9b09fb20c43af7e520f57e9239bbcf46b7113d
scale-ai/instance_future-architect__vuls-e4728e388120b311c4ed469e4f942e0347a2689b-v264a82e2f4818e30f5a25e4da53b27ba119f62b5
scale-ai/instance_internetarchive__openlibrary-b67138b316b1e9c11df8a4a8391fe5cc8e75ff9f-ve8c8d62a2b60610a3c4631f5f23ed866bada9818
scale-ai/instance_ansible__ansible-5d253a13807e884b7ce0b6b57a963a45e2f0322c-v1055803c3a812189a1133297f7f5468579283f86
scale-ai/instance_future-architect__vuls-8d5ea98e50cf616847f4e5a2df300395d1f719e9
scale-ai/instance_element-hq__element-web-772df3021201d9c73835a626df8dcb6334ad9a3e-vnan
scale-ai/instance_internetarchive__openlibrary-123e6e5e1c85b9c07d1e98f70bfc480bc8016890-v2733ff199fb72f0d033a30dc62cb0a4742e3a7f4
scale-ai/instance_nodebb__nodebb-0f788b8eaa4bba3c142d171fd941d015c53b65fc-v0ec6d6c2baf3cb4797482ce4829bc25cd5716649
scale-ai/instance_internetarchive__openlibrary-e1e502986a3b003899a8347ac8a7ff7b08cbfc39-v08d8e8889ec945ab821fb156c04c7d2e2810debb
scale-ai/instance_qutebrowser__qutebrowser-5cef49ff3074f9eab1da6937a141a39a20828502-v02ad04386d5238fe2d1a1be450df257370de4b6a
scale-ai/instance_internetarchive__openlibrary-03095f2680f7516fca35a58e665bf2a41f006273-v8717e18970bcdc4e0d2cea3b1527752b21e74866
scale-ai/instance_qutebrowser__qutebrowser-a84ecfb80a00f8ab7e341372560458e3f9cfffa2-v2ef375ac784985212b1805e1d0431dc8f1b3c171
scale-ai/instance_protonmail__webclients-dfe5604193d63bfcb91ce60d62db2f805c43bf11
scale-ai/instance_protonmail__webclients-7b833df125859e5eb98a826e5b83efe0f93a347b
scale-ai/instance_element-hq__element-web-f14374a51c153f64f313243f2df6ea4971db4e15
scale-ai/instance_protonmail__webclients-4feccbc9990980aee26ea29035f8f931d6089895
scale-ai/instance_navidrome__navidrome-09ae41a2da66264c60ef307882362d2e2d8d8b89

Displaying 100 of 731 tasks

Data Contamination: Models have likely seen the evaluation code during training, making it hard to know if they are problem-solving or recalling a memorized solution.
Limited Task Diversity: Many benchmarks fail to capture the full spectrum of real-world software challenges and instead focus on simple utility libraries.
Oversimplified Problems: Ambiguous or underspecified issues are often removed from benchmarks, which doesn't reflect a real developer's workflow.
Unreliable and Irreproducible Testing: Inconsistent setups make it difficult to know if a solution truly works or if the environment is just configured incorrectly.

Read the paper here: https://scale.com/research/swe_bench_pro

Check out the GitHub and view trajectories here: https://docent.transluce.org/dashboard/032fb63d-4992-4bfc-911d-3b7dafcb931f

(https://labs.scale.com/leaderboard/swe_bench_pro_public)