Gå til hovedindhold
GPT-Trainer

GPT-Trainer - Sources

Sources (kilder) er en meget væsentlig del af din chatbot. Sources er som et bibliotek, som chatbotten har fri adgang til.

Indhold

    Den vil benytte disse kilder til at give et præcist svar til brugeren. Jo mere data, der ligger i biblioteket, jo mere kan chatbotten svare på. 

    Chatbotten vil godt kunne svare på generelle spørgsmål uden at bruge biblioteket. Dette ville svare direkte til at spørge en generel chatbot som fx ChatGPT.  

    For at sikre, at chatbotten leverer de mest præcise og relevante svar, er det vigtigt at vedligeholde og opdatere kilderne løbende. Her er nogle best practices til kildebehandling: 

    1. Sørg for, at kilder, der bruges af chatbotten, er opdaterede, og ikke konflikter. 

    1. Vurder løbende, om de kilder, der bruges, stadig er relevante for de spørgsmål, brugerne stiller. Overvej at fjerne forældede kilder og erstatte dem med nyere information. 

    1. Hvis chatbotten benytter sig af websites som kilder, anbefales det at benytte ’Re-train’-funktionen regelmæssigt. Dette sørger for at crawle eller scrape de valgte sider igen og opdatere indholdet, hvis siden har ændret sig. 
      Vælg først de ønskede kilder og tryk derefter på Re-train sources i toppen.

    2. Det er meget vigtigt, at ingen kilder indeholder sensitiv eller forretningskritisk information.

    Search og Filter 

    Benyt søgefeltet og filteret til lynhurtigt at finde det, du leder efter. Du kan filtrere på datatype eller tags. 

    Tags 

    Tags er som et mærkat, der kan sætte på en kilde. Hvert mærkat kan bruges på flere kilder, og hver kilde kan have flere tags. På denne måde kan du hurtigt få overblik over dine kilder med at gruppere dem.  

    Tags kan også bruges til filtreret søgning. 

    Citation Reference 

    Hvis denne indstilling slås fra, vil chatbotten ikke længere henvise til denne kilde. Den vil dog stadig benytte den til at svare brugeren. Normalt vil brugeren modtage et link eller få mulighed for at downloade de kilder, chatbotten har brugt. 

    Denne kan være brugbart, hvis du har dokumenter, som ikke er læsbart for mennesker eller hvis brugerne ikke må få adgang til specifikke filer. Bemærk dog, at dele af indholdet muligvis kan blive citeret ord for ord. 

    Title og Link 

    Titlen, der star skrevet i dette felt, bil blive brugt, når chatbotten henviser til denne kilde. Hold dem korte og præcise. 

    Linket er mere valgfrit. Dette bruges oftest i forbindelse med filer, som også kan findes online. Normalt vil kilden blive downloadet, men hvis dette link er udfyldt, vil brugeren i stedet blive henvist til det. 

    Add sources 

    For at tilføje mere viden til chatbotten, kan du tilføje flere kilder til biblioteket. Der kan tilføjet forskellige typer af kilder. 

    For det allerbedste resultat anbefales at alle kilder er i samme sprog, og at dette sprog er det samme som det sprog, chatbotten forventes at skulle modtage beskeder i. 

    Husk at kilder IKKE må indeholde sensitiv information! Dokumenterne opbevares hos GPT-trainer og behandles af OpenAI. Aabenraa Kommune har ikke databehandleraftaler med nogle af disse. Ikke-sensitivt data eller data, der i forvejen er offentligt tilgængeligt, er intet problem. 

    Når en kilde er uploadet, kan den findes i listen under Sources. For at se indholdet af kilden kan du klikke på den ønskede kilde, og derefter på View Content. 

    Du vil opleve, at mange, især større, dokumenter bliver inddelt i chunks. 

    Files 

    Dette er den mest grundlæggende datatype. Her kan du uploade PDF-filer, word-dokumenter, samt rå tekstfiler m.m. 

    For chatbottens vedkommende behøver disse filer ikke være struktureret eller letlæseligt for mennesker. Dog anbefales det at kilder er læsbare for mennesker, hvis brugeren henvises til disse kilder. 

    Tables 

    Det er muligt at uploade en tabel til chatbotten i form af CSV-filer eller excel-dokumenter. Nogle eksempler kunne være lister med links eller kontaktpersoner. Her er det vigtigt at være meget struktureret, og at tabellen er relativ simpel. 

    Images 

    Chatbotten har mulighed for at sende billeder til brugeren. Disse billeder skal ses som supplement til den genererede tekst, mere end det er en videnskilde for chatbotten. 

    Billeder, der uploades her, vil automatisk omdannes til en tekstbeskrivelse af billedet. Det anbefales at du omskriver denne tekst til dansk, og fjerne eventuel unødvendig information. Pointen med denne beskrivelse er, at chatbotten, som ingen øjne har, forstår hvad billedet viser, så den kan bruge det korrekt i relevante sammenhænge. 

    For at se og redigere billedbeskrivelsen skal du gå til sources, klikke på billedet, og derefter klikke på View Content 

    Website URL 

    Dette er en meget populær kildetype. Her kan du give systemet et link, og systemet vil automatisk ’crawle’ eller ’scrape’ hjemmesiden – altså trække brødteksten ud af siden og lægge det i biblioteket. 

    Det er muligt at scrape flere sider på én gang. Hvis du til sidst i URL’en skriver en skråstreg ’/’ vil systemet først lede efter undersider til den specificerede URL. Her er et eksempel: 

    Dette vil kun trække hovedsiden ud. 

    Dette vil trække eventuelle undersider ud. Eksempel: 

    Husk at disse sider skal være offentligt tilgængelige. Hvis siden kun er tilgængeligt internt eller via login, vil systemet ikke kunne trække brødteksten korrekt ud. Dette kan omgås ved at uploade den samme data på anden vis eller ved at benytte en intern web-scraber. 

    Website sitemap 

    Hvis du har adgang til et såkaldt sitemap har du her mulighed for at uploade rigtig mange sider på én gang. I princippet kan du tilføje en hel hjemmeside med få klik. 

    Du kan referere til sitemappet med URL eller ved at uploade det i XML-format. 

    Q&A 

    Q&A (Spørgsmål og svar) handler om at lave foruddefinerede svar til bestemte spørgsmål. Hvis dette er nødvendigt, indikerer det ofte mangelfuld kildebibliotek. Det anbefales i stedet at du tilføjer den manglende information med Website URL eller File.  

    Google Drive 

    Mulighed for at tilknytte personligt Google Drev, for hurtig adgang til personlige eller delte filer. Dette anbefales ikke. 

    YouTube 

    Her kan du tilføje en YouTube-video til biblioteket. Chatbotten henter undertekster ud fra videoen. Både for at forstå hvad videoen handler om, så den korrekt kan henvise, men også for at kunne bruge videoens indhold til at svare på spørgsmål direkte.