[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
[an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]![]() |
![]() |
![]() |
|||||||||||||||||||||||||
|
|||||||||||||||||||||||||||
![]() |
![]() |
![]() |
> Der er nu en ny udgave på adressen: > > http://hugin.ldraw.org/temp/gafl_tekst_fra_websted-20010313.tar.gz > > Jacob Den virker fint. Jeg har testet den på miljøministeriets hjemmeside www.mst.dk og efterprocesseret lidt på det resultatet og smidt det på: http://192.38.108.132/bop/environliste1.txt Processeringen er foretaget nogenlunde som følger: ./gafl www.mst.dk da - 1 > result ./newtok <result > result.tok cat result.tok | tr [:upper:] [:lower:] | sort | uniq > environ diff -u parole environ | grep "^+" | cut -c2- | grep [:alpha:] > environliste1.txt Kommentarer: 1. Tokeniseringen er ikke helt optimal, der er stadig få rester af diverse tegn og paranteser. 2. Ordlisten er ikke superinteressant som "miljø korpus" fordi der er for mange almindelige ord i den (vores parole korpus er ikke stort nok), men også en masse "offentlig sektor" ord... 3. Måden jeg gør det på ovenfor forhindrer mig i i første omgang at frasortere lavfrekvente ord idet jeg smider frekvensinformationen væk med uniq. /Bo
![]() |
![]() |
![]() |
||||||||||||
|
||||||||||||||
![]() | ||||||||||||||
|
||||||||||||||
![]() |
![]() |
![]() |