kgmon/deepsearchqa

DeepSearchQA is a 900-prompt factuality benchmark from Google DeepMind for evaluating deep research agents on difficult multi-step information-seeking tasks.

Published 4/30/2026 by Ivan Sorokin

New Job

harbor run -d kgmon/deepsearchqa

DeepSearchQA is a 900-prompt factuality benchmark from Google DeepMind for evaluating deep research agents on difficult multi-step information-seeking tasks across 17 fields.

Each Harbor task from the kgmon/deepsearchqa dataset uses a fixed instruction prompt instruction.md that asks the agent to answer one DeepSearchQA problem and write the final response to /workspace/answer.txt.

The task prompt template is:

Answer the following question. You may use the web or any available tools needed to answer the question.

Write your final answer to `/workspace/answer.txt`.

## Question

{problem}

Verifier

The verifier is adapted from the Kaggle Evaluation Starter Code.

The verifier uses hidden metadata derived from DSQA-full.csv, including the gold answer and answer type. These fields are not exposed in instruction.md.

It uses the official DeepSearchQA grading prompt and calls gemini-2.5-flash by default. Set one of these environment variables before running:

export GEMINI_API_KEY="..."
# or
export GOOGLE_API_KEY="..."

Optional override:

export DEEPSEARCHQA_GRADER_MODEL="gemini-2.5-flash"

The verifier writes reward.json with reward, fully_correct, fully_incorrect, correct_with_excessive_answers, precision, recall, f1_score, and grader_valid.

fully_correct: all expected answers were found with no excessive answers.
fully_incorrect: none of the expected answers were found.
correct_with_excessive_answers: all expected answers were found, but extra answers were also supplied.

The primary reward is per-task F1.

Local Run

harbor run -p datasets/deepsearchqa -a <agent> -m "<model>"

DeepSearchQA tasks intentionally omit solution/solve.sh; the gold answer is hidden in verifier metadata and is not part of the agent runtime.

Source

Dataset: https://huggingface.co/datasets/google/deepsearchqa
File: DSQA-full.csv
License: Apache-2.0

⌘K

Task
kgmon/deepsearchqa-0861
kgmon/deepsearchqa-0393
kgmon/deepsearchqa-0525
kgmon/deepsearchqa-0078
kgmon/deepsearchqa-0762
kgmon/deepsearchqa-0451
kgmon/deepsearchqa-0406
kgmon/deepsearchqa-0442
kgmon/deepsearchqa-0498
kgmon/deepsearchqa-0603
kgmon/deepsearchqa-0037
kgmon/deepsearchqa-0414
kgmon/deepsearchqa-0173
kgmon/deepsearchqa-0551
kgmon/deepsearchqa-0742
kgmon/deepsearchqa-0195
kgmon/deepsearchqa-0197
kgmon/deepsearchqa-0075
kgmon/deepsearchqa-0774
kgmon/deepsearchqa-0512
kgmon/deepsearchqa-0703
kgmon/deepsearchqa-0323
kgmon/deepsearchqa-0115
kgmon/deepsearchqa-0784
kgmon/deepsearchqa-0845
kgmon/deepsearchqa-0454
kgmon/deepsearchqa-0419
kgmon/deepsearchqa-0505
kgmon/deepsearchqa-0260
kgmon/deepsearchqa-0039
kgmon/deepsearchqa-0456
kgmon/deepsearchqa-0151
kgmon/deepsearchqa-0344
kgmon/deepsearchqa-0469
kgmon/deepsearchqa-0718
kgmon/deepsearchqa-0741
kgmon/deepsearchqa-0557
kgmon/deepsearchqa-0338
kgmon/deepsearchqa-0014
kgmon/deepsearchqa-0462
kgmon/deepsearchqa-0042
kgmon/deepsearchqa-0768
kgmon/deepsearchqa-0872
kgmon/deepsearchqa-0267
kgmon/deepsearchqa-0232
kgmon/deepsearchqa-0881
kgmon/deepsearchqa-0891
kgmon/deepsearchqa-0169
kgmon/deepsearchqa-0460
kgmon/deepsearchqa-0727
kgmon/deepsearchqa-0658
kgmon/deepsearchqa-0408
kgmon/deepsearchqa-0835
kgmon/deepsearchqa-0870
kgmon/deepsearchqa-0807
kgmon/deepsearchqa-0242
kgmon/deepsearchqa-0432
kgmon/deepsearchqa-0180
kgmon/deepsearchqa-0683
kgmon/deepsearchqa-0853
kgmon/deepsearchqa-0725
kgmon/deepsearchqa-0437
kgmon/deepsearchqa-0474
kgmon/deepsearchqa-0164
kgmon/deepsearchqa-0321
kgmon/deepsearchqa-0137
kgmon/deepsearchqa-0723
kgmon/deepsearchqa-0249
kgmon/deepsearchqa-0769
kgmon/deepsearchqa-0500
kgmon/deepsearchqa-0051
kgmon/deepsearchqa-0398
kgmon/deepsearchqa-0574
kgmon/deepsearchqa-0160
kgmon/deepsearchqa-0874
kgmon/deepsearchqa-0009
kgmon/deepsearchqa-0308
kgmon/deepsearchqa-0001
kgmon/deepsearchqa-0113
kgmon/deepsearchqa-0203
kgmon/deepsearchqa-0619
kgmon/deepsearchqa-0399
kgmon/deepsearchqa-0015
kgmon/deepsearchqa-0339
kgmon/deepsearchqa-0546
kgmon/deepsearchqa-0748
kgmon/deepsearchqa-0439
kgmon/deepsearchqa-0453
kgmon/deepsearchqa-0065
kgmon/deepsearchqa-0178
kgmon/deepsearchqa-0641
kgmon/deepsearchqa-0077
kgmon/deepsearchqa-0279
kgmon/deepsearchqa-0362
kgmon/deepsearchqa-0490
kgmon/deepsearchqa-0337
kgmon/deepsearchqa-0739
kgmon/deepsearchqa-0656
kgmon/deepsearchqa-0816
kgmon/deepsearchqa-0191

Displaying 100 of 900 tasks

kgmon/deepsearchqa

DeepSearchQA is a 900-prompt factuality benchmark from Google DeepMind for evaluating deep research agents on difficult multi-step information-seeking tasks.

Published 4/30/2026 by Ivan Sorokin

New Job

harbor run -d kgmon/deepsearchqa

DeepSearchQA is a 900-prompt factuality benchmark from Google DeepMind for evaluating deep research agents on difficult multi-step information-seeking tasks across 17 fields.

The task prompt template is:

Answer the following question. You may use the web or any available tools needed to answer the question.

Write your final answer to `/workspace/answer.txt`.

## Question

{problem}

Verifier

The verifier is adapted from the Kaggle Evaluation Starter Code.

The verifier uses hidden metadata derived from DSQA-full.csv, including the gold answer and answer type. These fields are not exposed in instruction.md.

It uses the official DeepSearchQA grading prompt and calls gemini-2.5-flash by default. Set one of these environment variables before running:

export GEMINI_API_KEY="..."
# or
export GOOGLE_API_KEY="..."

Optional override:

export DEEPSEARCHQA_GRADER_MODEL="gemini-2.5-flash"

The verifier writes reward.json with reward, fully_correct, fully_incorrect, correct_with_excessive_answers, precision, recall, f1_score, and grader_valid.

fully_correct: all expected answers were found with no excessive answers.
fully_incorrect: none of the expected answers were found.
correct_with_excessive_answers: all expected answers were found, but extra answers were also supplied.

The primary reward is per-task F1.

Local Run

harbor run -p datasets/deepsearchqa -a <agent> -m "<model>"

DeepSearchQA tasks intentionally omit solution/solve.sh; the gold answer is hidden in verifier metadata and is not part of the agent runtime.

Source

Dataset: https://huggingface.co/datasets/google/deepsearchqa
File: DSQA-full.csv
License: Apache-2.0

⌘K

Task
kgmon/deepsearchqa-0861
kgmon/deepsearchqa-0393
kgmon/deepsearchqa-0525
kgmon/deepsearchqa-0078
kgmon/deepsearchqa-0762
kgmon/deepsearchqa-0451
kgmon/deepsearchqa-0406
kgmon/deepsearchqa-0442
kgmon/deepsearchqa-0498
kgmon/deepsearchqa-0603
kgmon/deepsearchqa-0037
kgmon/deepsearchqa-0414
kgmon/deepsearchqa-0173
kgmon/deepsearchqa-0551
kgmon/deepsearchqa-0742
kgmon/deepsearchqa-0195
kgmon/deepsearchqa-0197
kgmon/deepsearchqa-0075
kgmon/deepsearchqa-0774
kgmon/deepsearchqa-0512
kgmon/deepsearchqa-0703
kgmon/deepsearchqa-0323
kgmon/deepsearchqa-0115
kgmon/deepsearchqa-0784
kgmon/deepsearchqa-0845
kgmon/deepsearchqa-0454
kgmon/deepsearchqa-0419
kgmon/deepsearchqa-0505
kgmon/deepsearchqa-0260
kgmon/deepsearchqa-0039
kgmon/deepsearchqa-0456
kgmon/deepsearchqa-0151
kgmon/deepsearchqa-0344
kgmon/deepsearchqa-0469
kgmon/deepsearchqa-0718
kgmon/deepsearchqa-0741
kgmon/deepsearchqa-0557
kgmon/deepsearchqa-0338
kgmon/deepsearchqa-0014
kgmon/deepsearchqa-0462
kgmon/deepsearchqa-0042
kgmon/deepsearchqa-0768
kgmon/deepsearchqa-0872
kgmon/deepsearchqa-0267
kgmon/deepsearchqa-0232
kgmon/deepsearchqa-0881
kgmon/deepsearchqa-0891
kgmon/deepsearchqa-0169
kgmon/deepsearchqa-0460
kgmon/deepsearchqa-0727
kgmon/deepsearchqa-0658
kgmon/deepsearchqa-0408
kgmon/deepsearchqa-0835
kgmon/deepsearchqa-0870
kgmon/deepsearchqa-0807
kgmon/deepsearchqa-0242
kgmon/deepsearchqa-0432
kgmon/deepsearchqa-0180
kgmon/deepsearchqa-0683
kgmon/deepsearchqa-0853
kgmon/deepsearchqa-0725
kgmon/deepsearchqa-0437
kgmon/deepsearchqa-0474
kgmon/deepsearchqa-0164
kgmon/deepsearchqa-0321
kgmon/deepsearchqa-0137
kgmon/deepsearchqa-0723
kgmon/deepsearchqa-0249
kgmon/deepsearchqa-0769
kgmon/deepsearchqa-0500
kgmon/deepsearchqa-0051
kgmon/deepsearchqa-0398
kgmon/deepsearchqa-0574
kgmon/deepsearchqa-0160
kgmon/deepsearchqa-0874
kgmon/deepsearchqa-0009
kgmon/deepsearchqa-0308
kgmon/deepsearchqa-0001
kgmon/deepsearchqa-0113
kgmon/deepsearchqa-0203
kgmon/deepsearchqa-0619
kgmon/deepsearchqa-0399
kgmon/deepsearchqa-0015
kgmon/deepsearchqa-0339
kgmon/deepsearchqa-0546
kgmon/deepsearchqa-0748
kgmon/deepsearchqa-0439
kgmon/deepsearchqa-0453
kgmon/deepsearchqa-0065
kgmon/deepsearchqa-0178
kgmon/deepsearchqa-0641
kgmon/deepsearchqa-0077
kgmon/deepsearchqa-0279
kgmon/deepsearchqa-0362
kgmon/deepsearchqa-0490
kgmon/deepsearchqa-0337
kgmon/deepsearchqa-0739
kgmon/deepsearchqa-0656
kgmon/deepsearchqa-0816
kgmon/deepsearchqa-0191

Displaying 100 of 900 tasks

DeepSearchQA is a 900-prompt factuality benchmark from Google DeepMind for evaluating deep research agents on difficult multi-step information-seeking tasks across 17 fields.

The task prompt template is:

Answer the following question. You may use the web or any available tools needed to answer the question.

Write your final answer to `/workspace/answer.txt`.

## Question

{problem}

Verifier

The verifier is adapted from the Kaggle Evaluation Starter Code.

The verifier uses hidden metadata derived from DSQA-full.csv, including the gold answer and answer type. These fields are not exposed in instruction.md.

It uses the official DeepSearchQA grading prompt and calls gemini-2.5-flash by default. Set one of these environment variables before running:

export GEMINI_API_KEY="..."
# or
export GOOGLE_API_KEY="..."

Optional override:

export DEEPSEARCHQA_GRADER_MODEL="gemini-2.5-flash"

The verifier writes reward.json with reward, fully_correct, fully_incorrect, correct_with_excessive_answers, precision, recall, f1_score, and grader_valid.

fully_correct: all expected answers were found with no excessive answers.
fully_incorrect: none of the expected answers were found.
correct_with_excessive_answers: all expected answers were found, but extra answers were also supplied.

The primary reward is per-task F1.

Local Run

harbor run -p datasets/deepsearchqa -a <agent> -m "<model>"

DeepSearchQA tasks intentionally omit solution/solve.sh; the gold answer is hidden in verifier metadata and is not part of the agent runtime.

Source

Dataset: https://huggingface.co/datasets/google/deepsearchqa
File: DSQA-full.csv
License: Apache-2.0