Solliciteer nu!
Groningen, v junior 2021-01-22 2021-03-15

Zoek jij voor februari 2021 een gave afstudeeropdracht? Ben je woonachtig in de omgeving Groningen? Heb jij interesse in machine learning? Dan hebben wij dé stageplek voor jou!

Jessica van Straten

+31 6 500 38 906

jvanstraten@ilionx.com

Kan ik je ergens mee helpen?
Stel je vraag via Whatsapp
Stel je vraag

De afstudeeropdracht

Ken je dat, dat je iets op internet wilt opzoeken maar je net niet de juiste woorden kunt vinden? Je hebt bijvoorbeeld laatst een artikel in de media gelezen over een demonstratie in Rotterdam, maar was het nou eigenlijk wel in Rotterdam? Of wacht, ging het niet toch om een staking?

Wat wil het geval: de huidige zoekmachines doen niet aan context. Als je niet precies de juiste zoekwoorden gebruikt, krijg je ook niet de resultaten die je nodig hebt.

Eerdere collega’s van ilionx en eerdere afstudeerders zagen hierin een mooie kans om machine learning-skills te vergroten door dit probleem te tackelen. Samen met afstudeerders ontwikkelde ilionx de Tekst-engine. Deze machine kan teksten terugvinden en verbanden aan elkaar koppelen aan de hand van een omschrijving “Geen enkel woord hoeft daarbij letterlijk in die tekst voor te komen.” Zo wordt het steeds makkelijker voor computers om de context van een zoekvraag te leren begrijpen, wat een grote efficiency-slag gaat betekenen.

Hoe werkt dat dan?

De Tekst-engine kan ‘begrijpend lezen’ (Language Understanding Intelligence Service). Na het ‘lezen’ en zoeken van – en in – de teksten, gaat de machine relevante onderwerpen vinden. Het mooie aan machine learning is dat de machine ‘leert’ aan de hand van grote hoeveelheid teksten. Hoe meer je het gebruikt, hoe beter het wordt. “Bij ilionx heb ik tijdens mijn stage de kans gekregen om een demo-omgeving te maken die aan de hand van nieuwsberichten een scheiding maakt in ‘socials’ en ‘nieuws’, ook met sentiment analyse”, vertelt Kees.

Kun je voorbeelden geven?

“Vergelijk het met een boekenkast. Stel, je hebt je boeken gesorteerd op genre. Elke plank heeft een eigen genre. Binnen die plank sorteer je de boeken op jaartal. Dan heb je dus al twee dimensies waarop de boeken zijn gesorteerd, namelijk genre en jaartal. Als je een thriller uit 1990 wilt vinden, dan weet je precies op welke plank en waar je op die plank je moet zoeken. De Tekst-engine werkt ook zo, maar heeft niet twee maar honderd dimensies! Zo kun je een tekst in een database gemakkelijk terugvinden, ook als je niet letterlijk de woorden uit een tekst kent, want de woorden die daar dichtbij zitten in de dimensies, die worden gebruikt.”

In de praktijk kun je bijvoorbeeld denken aan de geestelijke gezondheidszorg. Daar is een schat aan data beschikbaar dat kan helpen om de zorg te verbeteren. Denk dan bijvoorbeeld aan een verhoogd risicoprofiel of om vergelijkbare gevallen op te sporen.

Waarom is deze Tekst-engine ontwikkeld? Waarom wilde ilionx dit maken?

In onze Business Analytics afdeling doen we inmiddels al jaren veel met data. Voor het overgrote deel worden conclusies getrokken uit getallen, maar hoe zit dat met teksten? Daar ligt nog een heel ontgonnen terrein. Vooral de laatste jaren is het vakgebied erg in opkomst en op deze manier kunnen wij onze klanten betere inzichten geven.

Met welke techniek is de Tekst-engine gebouwd?

“Het project bestaat uit een proces dat woorden een betekenis geeft en teksten metadateert. Daarvoor zijn verschillende technieken gebruikt, waaronder woordvectorisatie, waardoor woorden in een teksten een bepaalde waarde krijgen. Je kunt hiermee ‘berekenen’ welke woorden dicht bij elkaar liggen. We vonden het vooral belangrijk dat deze omgeving zo eenvoudig mogelijk toegankelijk zou zijn. Verder hebben we de oplossing in de cloud draaien in containers zodat we deze dienst schaalbaar kunnen aanbieden. We maken gebruik van een API waarmee kan worden gecommuniceerd, zodat resultaten eenvoudig kunnen worden gebruikt in andere applicaties.”

Welke toepassingsmogelijkheden in de praktijk zie je?

“Wat je er nu al mee kunt doen, is het automatiseren van het indelen van teksten door automatisch tags toe te voegen. Ook kun je een zogeheten ‘boekenkast’ maken over een onderwerp. Ik zie vooral mogelijkheden om nieuws uit meerdere informatiebronnen real-time te groeperen en indexeren, zodat dit niet meer handmatig hoeft te gebeuren. Inmiddels koppelen we ook voor klanten aan document managementsystemen, zodat tags en allerlei meta data direct aan het document gekoppeld wordt.”

Of we elkaar binnenkort offline of voorlopig nog even online ontmoeten… we gaan het zien, maar dat we deze functie graag willen invullen is een zekerheid! Uiteraard beweegt onze sollicitatieprocedure mee met de geldende ‘corona’ regels.
Tot snel!

Samen blijven ontdekken en het beste uit jezelf halen

Onze mensen vertellen
Link gekopieërd