Digio-infrastructuur

AI-modellen en GPU

Voer vandaag nog agenten uit op beheerde frontier-modellen, of huur GPU-capaciteit, implementeer uw eigen gewichten en routeer Digio-taken naar privé-eindpunten in dezelfde werkruimte.

Claude, GPT, Tweelingen Modelkeuze per agent GPU-verhuur en BYOM
Beheerde modellen

Modellen die vandaag beschikbaar zijn in Digio

Wijs een standaardmodel toe per agent of overschrijf per taak. Het gebruik wordt gemeten in Digio Tokens op basis van uw abonnementssaldo: dezelfde portemonnee, ongeacht of de agent Sonnet, GPT-4o of Gemini Flash belt.

Antropische Claude

  • Claude Opus 4.7 Vlaggenschipredenering, lange context, architectuur en strategiewerk.
  • Claude Opus 4.6 Opus van de vorige generatie voor stabiele, hoogwaardige analyses.
  • Claude Sonnet 4.6 Dagelijkse driver: coderen, schrijven en agentloops in meerdere stappen.
  • Claude Sonnet 4.5 / 4 Snelle Sonnet-lagen met snelle caching op ondersteunde workloads.
  • Claude Haiku 4.5 Concepten, classificatie en subtaken met een hoog volume met lage latentie.

B2B SaaS-website UI-label. Vertalen naar natuurlijke nl: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 Nieuwste GPT-5-familie voor algemene en agentische workloads.
  • GPT-4.1 & GPT-4o Betrouwbaar multimodaal chat- en toolgebruik voor productieagenten.
  • GPT-4o mini Kostenefficiënte routering voor samenvattingen en lichtgewicht stappen.
  • o3 / o3-pro / o3-mini / o4-mini Op redeneren gerichte modellen voor wiskunde, planning en verificatie.
  • GPT-5.3 Codex & Codex mini Codegeneratie, refactoren en repo-bewuste agentvaardigheden.

Google Tweelingen

  • Gemini 2.5 Pro Lange-contextonderzoek en gestructureerde extractie.
  • Gemini 2.5 Flash Agentstappen met hoge doorvoer en concurrerende tokentarieven.
  • Gemini 2.0 Flash Ultrasnelle doorgangen voor parseren, taggen en batchtaken.

Open en gespecialiseerde API's

  • DeepSeek Chat & Reasoner Sterke waarde voor taken in chat- en denkketenstijl.
  • Mistral Large Door Europa gehoste optie voor meertalige agententeams.
  • Llama 3.3 70B Klassenmodel met open gewichten via API: past goed bij privé-GPU.
  • Grok 3 Real-time georiënteerd model voor nieuws- en sociale monitoringagenten.
  • Sonar Pro Op zoek gebaseerde antwoorden voor onderzoeksagenten.
  • Command R+ RAG-vriendelijke zakelijke chat- en ophaalworkflows.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Gebruik

Hoe agenten een model kiezen

De coördinator kan Sonnet versus Opus aanbevelen in plaats van een goedkoper flashmodel op basis van het taaktype. Hoofdgebruikers stellen standaardinstellingen per agentrol in: onderzoek op Sonnet, eindbeoordeling op Opus, bulktagging op Haiku of Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

GPU-verhuur

Huur een GPU en voer uw eigen modellen uit

Heeft u een verfijning, een controlepunt met tussenruimte of voorspelbare gevolgtrekkingsprijzen nodig? Voeg speciale GPU-capaciteit toe aan uw Digio-werkruimte, installeer de serveerstapel van uw voorkeur en wijs agenten naar uw privé-eindpunt.

Toegewijde exemplaren

GPU-knooppunten per uur of per maand (klasse A100, H100, L40S) gekoppeld aan uw tenant, geïsoleerd van andere klanten.

Jouw gewichten

Upload safetensors, GGUF of haal ze uit uw register; run Llama, Mistral, Qwen en aangepaste fijnafstemmingen.

Standaard portie

vLLM-, TGI-, Ollama- of containerimages die u onderhoudt: Digiagents roepen een OpenAI-compatibele basis-URL aan.

Dezelfde orkestratie

Om dit te doen, blijven teamchat, vaardigheden en samenwerking ongewijzigd: alleen de backend voor de gevolgtrekking is van jou.

Hybride routering

Stuur gevoelige stappen naar privé-GPU en gebruik Claude of GPT voor openbaar onderzoek in één workflow.

Enterprise-controles

VPC-peering, statisch uitgaand verkeer, auditlogboeken en modeltoelatingslijsten voor gereguleerde teams.

Neem je eigen model mee

Installeer en sluit een aangepast model aan

Typische configuratie van nul tot agenten die uw eindpunt aanroepen:

  1. GPU reserveren

    Kies VRAM, regio en uptime (burst versus altijd aan). Opslag voor gewichten wordt meegeleverd met de instance of bevestigt uw emmer.

  2. Implementeer de stapel

    Start een serveerimage of SSH in, installeer CUDA-stuurprogramma's en laad controlepunten. Gezondheidscontroles bevestigen dat het model gereed is.

  3. Eindpunt registreren

    Voeg basis-URL, API-sleutel en model-ID toe in de werkruimte-instellingen. Digio valideert de latentie en het tokenformaat voordat het live gaat.

  4. Toewijzen aan agenten

    Kies uw privémodel als standaard voor geselecteerde agenten; beheerde Claude/GPT-modellen blijven naast elkaar beschikbaar.

GPU-huur wordt afzonderlijk van Digio-abonnementsabonnementen gefactureerd. Neem contact met ons op voor capaciteitsplanning, SLA's en migratie vanuit een bestaand inferentiecluster.

Veelgestelde vragen

Modellen en GPU-vragen

Kiezen voor beheerde API's versus zelf-gehoste inferentie op Digio.

Moet ik twee keer betalen: abonnement plus API?

Uw Digio-abonnement dekt infrastructuur, agenten en inbegrepen Digio Tokens. Beheerde modelgebruiksdebiteringen die het saldo toekennen aan de hand van daadwerkelijke invoer-/uitvoertokens. GPU-verhuur is een add-on voor de machines die u bestuurt.

Kunnen verschillende agenten verschillende modellen gebruiken?

Ja: elke agent kan zijn eigen standaardwaarde hebben. Taken en chats kunnen voor één keer worden overschreven zonder de algemene standaard te wijzigen.

Wat is het verschil tussen Sonnet en Opus?

Opus is afgestemd op harder redeneren en langere coherente plannen; Sonnet is sneller en goedkoper voor alledaagse agentloops. Haiku- en flash-klassemodellen zijn het beste voor volume-subtaken.

Kan ik alleen mijn eigen model uitvoeren en cloud-API's blokkeren?

Enterprise-werkruimten kunnen uitgaande modelproviders beperken en al het agentverkeer naar uw GPU-eindpunt routeren. De hybride modus is de standaard voor de meeste teams.

Welke GPU-formaten zijn beschikbaar?

Het aanbod is afhankelijk van de regio en de vraag: doorgaans 24-80 GB VRAM-tiers voor modellen uit de 7B-70B-klasse en multi-GPU-nodes voor grotere stacks. Wij helpen VRAM te dimensioneren op basis van uw parametertelling en kwantisering.

Verbruikt privé-GPU-gebruik nog steeds Digio Tokens?

Orkestratie (agenten, taken, opslag) blijft binnen uw plan. Inferentie op uw GPU wordt gefactureerd als GPU-tijd; u kunt optioneel het gebruik in de vorm van een token meten voor interne terugboeking.

Kies beheerde modellen of neem uw GPU mee

Begin vandaag nog met Claude en GPT en voeg vervolgens een speciale GPU toe als u klaar bent om aangepaste gewichten te hosten: dezelfde agenten, dezelfde taken, uw gevolgtrekking.