Gezocht op tag(s): Niet-commercieel

AUTONOMATA-POI-corpus

Gemaakt op woensdag 30 november -0001   »Lexica

Het corpus is een database van 800 voorgelezen Points-Of-Interest (POI's) uit Nederland en België, bestaande uit namen van restaurants, hotels, campings, cafés etc.

Details

AUTONOMATA-POI-demo

Gemaakt op woensdag 30 november -0001   »Lexica

Een demo van een spraakherkenner voor POIs (Points of Interest). Deze demo herkent overnachtingsadressen en eetgelegenheden in enkele grote steden (o.a. Amsterdam, Antwerpen, Gent, Rotterdam).

Details

CD-ROM Middelnederlands

Gemaakt op woensdag 30 november -0001   »Lexica

Cd-rom Middelnederlands (verschenen in 1998): bevat het Middelnederlands Woordenboek, de teksten van het Corpus Gysseling en een collectie van bijna 300 rijm- en prozateksten.

Details

CHOREC-spraakcorpus

Gemaakt op woensdag 30 november -0001   »Lexica

Een verzameling van 130 uur voorgelezen kinderspraak.

Details

Corpus Gysseling

Gemaakt op woensdag 30 november -0001   »Lexica

Een verzameling van alle dertiende-eeuwse teksten die als bronnenmateriaal hebben gediend voor het Vroegmiddelnederlands Woordenboek.

Details

Corpus Middelnederlands

Gemaakt op woensdag 30 november -0001   »Lexica

Corpus Middelnederlands: een verzameling van 336 Middelnederlandse literaire teksten uit de periode 1250-1500, in TEI gecodeerd (oorspronkelijk gepubliceerd op de cd-rom Middelnederlands).

Details

Corpus Pathologische en Normale Spraak (COPAS)

Gemaakt op woensdag 30 november -0001   »Lexica

Een verzameling opnames van bijna 200 sprekers met een hoorbare spraakstoornis en van 122 controlesprekers.

Details

D-TUNA-corpus

Gemaakt op woensdag 30 november -0001   »Lexica

Het D-TUNA-corpus bestaat uit 2400 geschreven en (getranscribeerde) gesproken referentiële expressies.

Details

DPC - Dutch Parallel Corpus (niet-commercieel)

Gemaakt op woensdag 30 november -0001   »Lexica

Een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans.

Details

DuOMAn-subjectivitylexicon

Gemaakt op woensdag 30 november -0001   »Lexica

Een verzameling van ongeveer 9.000 woorden waarvoor aangegeven werd of ze een negatieve, neutrale of positieve gevoelswaarde hebben.

Details

Dupira

Gemaakt op woensdag 30 november -0001   »Lexica

Parser voor het Nederlands voor toepassingen in Information Retrieval

Details

Eindhoven Corpus

Gemaakt op woensdag 30 november -0001   »Lexica

Een verzameling Nederlandstalige geschreven en getranscribeerde gesproken teksten uit de periode van 1960 tot 1976.

Details

Frequentielijsten Corpora

Gemaakt op woensdag 30 november -0001   »Lexica

De 5000 meest voorkomende woorden uit de Miljoenencorpora, het PAROLE-corpus 2004, het CGN, het ANW-corpus, het Eindhoven Corpus, het D-Coi-corpus en het SoNaR-corpus.

Details

Lassy Groot-corpus

Gemaakt op woensdag 30 november -0001   »Lexica

Een corpus bestaande uit circa 700 miljoen woorden dat automatisch voorzien werd van syntactische annotaties.

Details

Lassy Klein-corpus

Gemaakt op woensdag 30 november -0001   »Lexica

Een syntactisch geannoteerd corpus bestaande uit een miljoen woorden.

Details

Meertalige Ondertiteldata 2BDutch

Gemaakt op woensdag 30 november -0001   »Lexica

De ondertiteldata behorend bij de Nederlandstalige video’s op de website www.2BDutch.nl, vormt het product Meertalige Ondertiteldata 2BDutch.

Details

Paco-MT Parallelle Corpora

Gemaakt op woensdag 30 november -0001   »Lexica

Twee (bestaande) parallelle corpora voorzien van automatisch gegenereerde syntactische annotaties en node alignments.

Details

SoNaR Nieuwe Media Corpus

Gemaakt op woensdag 30 november -0001   »Lexica

Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR: sms'en, tweets en chatberichten.

Details

SoNaR-corpus

Gemaakt op woensdag 30 november -0001   »Lexica

Het SoNaR-corpus bevat ruim 500 miljoen woorden en het bevat (standaard) Nederlandstalige teksten van na 1954.

Details

SumNL-samenvattingencorpus

Gemaakt op woensdag 30 november -0001   »Lexica

Het SumNL-samenvattingencorpus is gebaseerd op 30 clusters. Ieder cluster bestaat uit een onderwerp en 5-25 krantenartikelen die relevant zijn voor het onderwerp.

Details