Hermes 3-70B

Verified

NLP reasoning and summarization model with high accuracy.

Trust Score

Top 15% of models

Live Benchmark Scores

HELM Overall

+2.1

87.3

MMLU

+0.8

84.6

TruthfulQA

+1.4

79.2

GSM8K

+3.2

91.5

HumanEval

-0.5

73.8

LMArena ELO

+18

1247

Specialty

NLP Reasoning / Summarization

Primary KPIs

AccuracyRobustnessHallucination Rate

NLP reasoning and summarization model with high accuracy. Specializes in NLP Reasoning / Summarization.

Trust Score

Predictability

Difficulty

Surprise Index