KI-nyheter – uke 10

Spark TTS: En ny, åpen kildekode-basert stemmekloningsteknologi som kan gjenskape stemmer basert på kun få sekunders opptak. Teknologien leverer svært naturlig tale, med korrekt bruk av pauser, pust og uttrykksfullhet, og fungerer på både engelsk og kinesisk.

Se denne videoen for å høre et eksempel der Spark TTS brukes til å simulere en stemme som snakker om skepsis rundt bruk av KI. Lyden er generert med Spark TTS basert på et kort lydklipp.

Hunyuan Image-to-Video: Tencent har lansert en AI-modell som genererer imponerende og realistiske videoer fra ett eller flere bilder. Dette gjør avanserte animasjoner tilgjengelige selv på datamaskiner med begrenset VRAM.

Notagen AI: Et kraftig verktøy som komponerer original klassisk musikk, inkludert for orkester og kor. AI-en er trent på 1,6 millioner musikkstykker og skaper avanserte og realistiske noter og partiturer.

DiffRhythm: En ny, åpen kildekode-basert AI-musikkgenerator som kloner musikkstil med imponerende realisme, inkludert både vokal og instrumenter.

Diffusion Self-Distillation: En AI-teknologi som lar brukere gjenskape spesifikke objekter og personer fra bilder. Dette er nyttig for produktfotografering og andre kreative prosjekter.

QwQ 32B: En kraftig, men relativt liten AI-modell fra Alibaba som oppnår gode resultater innen logisk resonnering og matematikk, og utfordrer større modeller som DeepSeek R1.

Babel Multilingual AI: Alibabas nye AI-modell støtter mer enn 25 språk og overgår konkurrerende modeller på flerspråklige oppgaver. Den er egnet for bruk på både store og små datamaskiner.

GPT-4.5 og Grok 3: OpenAI og Elon Musks xAI konkurrerer tett med nye chatbot-modeller. Grok 3 ser nå ut til å toppe brukerpreferanser, og ligger foran GPT-4.5.

Unitree og Reflex Robotics: Disse to selskapene demonstrerer imponerende humanoide roboter med avansert mobilitet og funksjonalitet innen logistikk og lagerhåndtering.

Del denne artikkelen

Prøv KI selv!