Digio infrastruktur

AI-modeller & GPU

Kör agenter på hanterade frontier-modeller idag – eller hyr GPU-kapacitet, distribuera dina egna vikter och dirigera Digio-uppgifter till privata slutpunkter i samma arbetsyta.

Claude, GPT, Tvillingarna Val av modell per agent GPU-uthyrning & BYOM
Hanterade modeller

Modeller tillgängliga i Digio idag

Tilldela en standardmodell per agent eller åsidosättande per uppgift. Användningen mäts i Digio Tokens från ditt plansaldo – samma plånbok oavsett om agenten ringer Sonnet, GPT-4o eller Gemini Flash.

Antropisk Claude

  • Claude Opus 4.7 Flaggskeppsresonemang, långt sammanhang, arkitektur och strategiarbete.
  • Claude Opus 4.6 Tidigare generations Opus för stabil analys av hög kvalitet.
  • Claude Sonnet 4.6 Daglig drivrutin – kodning, skrivning och agentslingor i flera steg.
  • Claude Sonnet 4.5 / 4 Snabba Sonnet-nivåer med snabb cachelagring på arbetsbelastningar som stöds.
  • Claude Haiku 4.5 Utkast med låg latens, klassificering och underuppgifter med hög volym.

B2B SaaS webbplats UI-etikett. Översätt till naturligt sv: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 Den senaste GPT-5-familjen för allmänna och agenter.
  • GPT-4.1 & GPT-4o Pålitlig multimodal chatt och verktygsanvändning för produktionsagenter.
  • GPT-4o mini Kostnadseffektiv routing för sammanfattningar och lätta steg.
  • o3 / o3-pro / o3-mini / o4-mini Resonemangsfokuserade modeller för matematik, planering och verifiering.
  • GPT-5.3 Codex & Codex mini Kodgenerering, refaktorer och repomedvetna agentfärdigheter.

Google Tvillingarna

  • Gemini 2.5 Pro Långkontextforskning och strukturerad extraktion.
  • Gemini 2.5 Flash Agentsteg med hög genomströmning med konkurrenskraftiga tokenpriser.
  • Gemini 2.0 Flash Ultrasnabba övergångar för analys, taggning och batchjobb.

Öppna och specialiserade API:er

  • DeepSeek Chat & Reasoner Starkt värde för chatt- och chain-of-thought-stiluppgifter.
  • Mistral Large Europeiskt värd alternativ för flerspråkiga agentteam.
  • Llama 3.3 70B Klassmodell med öppen vikt via API – passar bra med privat GPU.
  • Grok 3 Realtidsorienterad modell för nyhets- och socialövervakningsagenter.
  • Sonar Pro Sökgrundade svar för forskningsagenter.
  • Command R+ RAG-vänliga arbetsflöden för företagschatt och hämtning.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Användande

Hur agenter väljer en modell

Samordnaren kan rekommendera Sonnet vs Opus vs en billigare blixtmodell baserat på uppgiftstyp. Avancerade användare ställer in standardinställningar per agentroll – forskning på Sonnet, slutlig granskning på Opus, masstaggning på Haiku eller Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

GPU-uthyrning

Hyr GPU och kör dina egna modeller

Behöver du en finjustering, en checkpoint med luftglapp eller förutsägbara slutsatser? Lägg till dedikerad GPU-kapacitet till din Digio-arbetsyta, installera serveringsstacken du föredrar och peka agenter på din privata slutpunkt.

Dedikerade instanser

GPU-noder varje timme eller månad (klass A100, H100, L40S) kopplade till din hyresgäst – isolerade från andra kunder.

Dina vikter

Ladda upp säkerhetsanordningar, GGUF, eller dra från ditt register; kör Llama, Mistral, Qwen och anpassade finjusteringar.

Standard servering

vLLM, TGI, Ollama eller behållarbilder som du underhåller – Digio-agenter anropar en OpenAI-kompatibel bas-URL.

Samma orkestrering

Att göra, teamchatt, färdigheter och samarbete oförändrade – endast slutsatsen är din.

B2B SaaS webbplats UI-etikett. Översätt till naturlig sv: Hybrid routing

Skicka känsliga steg till privat GPU och använd Claude eller GPT för offentlig forskning i ett arbetsflöde.

Företagskontroller

VPC-peering, statisk egress, revisionsloggar och modellgodkännandelistor för reglerade team.

Ta med egen modell

Installera och anslut en anpassad modell

Typisk inställning från noll till att agenter ringer din slutpunkt:

  1. Reserv GPU

    Välj VRAM, region och drifttid (burst kontra alltid på). Förvaring för vikter levereras med instansen eller monterar din hink.

  2. Distribuera stacken

    Starta en visningsbild eller SSH i, installera CUDA-drivrutiner och ladda kontrollpunkter. Hälsokontroller bekräftar att modellen är klar.

  3. Registrera slutpunkt

    Lägg till basadress, API-nyckel och modell-id i arbetsytans inställningar. Digio validerar latens och tokenformat innan den går live.

  4. Tilldela till agenter

    Välj din privata modell som standard för utvalda agenter; hanterade Claude/GPT-modeller förblir tillgängliga sida vid sida.

GPU-hyra faktureras separat från Digio-abonnemang. Kontakta oss för kapacitetsplanering, SLA:er och migrering från ett befintligt slutledningskluster.

B2B SaaS webbplats UI-etikett. Översätt till naturlig sv: FAQ

Modeller & GPU frågor

Att välja hanterade API:er kontra självvärderade slutledningar på Digio.

Betalar jag två gånger – plan plus API?

Ditt Digio-abonnemang täcker infrastruktur, agenter och inkluderade Digio-tokens. Hanterad modellanvändning debiterar den tokenbalansen med faktiska in-/utdatatokens. GPU-uthyrning är ett tillägg för de maskiner du styr.

Kan olika agenter använda olika modeller?

Ja – varje agent kan ha sin egen standard. Uppgifter och chattar kan åsidosätta för en enda körning utan att ändra den globala standarden.

Vad är skillnaden mellan Sonnet och Opus?

Opus är inställd för hårdare resonemang och längre sammanhängande planer; Sonnet är snabbare och billigare för vardagliga agentslingor. Haiku- och flashmodeller är bäst för volymunderuppgifter.

Kan jag bara köra min egen modell och blockera moln-API:er?

Företagsarbetsytor kan begränsa utgående modellleverantörer och dirigera all agenttrafik till din GPU-slutpunkt. Hybridläge är standardläget för de flesta lag.

Vilka GPU-storlekar finns tillgängliga?

Erbjudandena beror på region och efterfrågan – vanligtvis 24–80 GB VRAM-nivåer för 7B–70B-klassmodeller och multi-GPU-noder för större stackar. Vi hjälper till att dimensionera VRAM från din parameterräkning och kvantisering.

Förbrukar privat GPU-användning fortfarande Digio-tokens?

Orkesterering (agenter, uppgifter, lagring) förblir på din plan. Slutledning om din GPU faktureras som GPU-tid; du kan valfritt mäta token-formad användning för intern återbetalning.

Välj hanterade modeller eller ta med din GPU

Börja med Claude och GPT idag, lägg sedan till dedikerad GPU när du är redo att vara värd för anpassade vikter – samma agenter, samma uppgifter, din slutsats.