[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
 
[an error occurred while processing this directive] [an error occurred while processing this directive]
Skåne Sjælland Linux User Group - http://www.sslug.dk Home   Subscribe   Mail Archive   Forum   Calendar   Search
MhonArc Date: [Date Prev] [Date Index] [Date Next]   Thread: [Date Prev] [Thread Index] [Date Next]   MhonArc
 

ordlistornas källkod



Enligt GPL är källkoden "det format, som man helst redigerar", dvs om
jag skriver ett yacc-parser och låter yacc producera C-kod, så är den
C-koden inte källkod, eftersom den programmerare som har ett val,
väljer att redigera yacc-koden i stället för C-koden.

Är de svenska och danska dsdo/sol-ordlistorna (words-XX.sq) verkligen
källkod?  Eller var är källkoden?

Vore det inte mer hanterligt att redigera ordlistan i ispell-format,
där man kan ange affix-flaggor för böjningsmönstren?

Ordlistorna både till Aspell och Ispell saknar kommentarsyntax, vilket
jag som programmerare finner problematiskt.  Någon har lagt till ordet
A-avdrag, men jag vet inte vad A-avdrag är, och funderar på att ta
bort ordet.  Kanske är det rätt, kanske är det fel, men hur vet vi?

Innehållet i sol-1.3.8/words-sv.sq (med ord som "abborr",
"avloppssytem" och "överläkar") indikerar att någon har tagit den
gamla svenska ispell-ordlistan (t.ex. iswedish-1.2.1)  och kört

  ispell -d svenska -e < iswedish-1.2.1/svenska.datalista |
    tr ' ' '\n' | sort -u | ./sq > words-sv.sq

Detta ger 119629 ord, bara marginellt fler än de 119591 som finns i
aspell-sv-1.3.8/words-sv.sq

Nackdelen med detta är flera:
 * Det har skapat falska ord (abborr) som enligt ispell enbart får
   förekomma i sammansättningar (abborr-),
 * Det har fört med sig felaktigeter (avloppssytem) från den gamla
   listan.
 * Man har förlorat informationen om vilka stavningsvarianter som hör
   till vilken ordstam (t.ex. att adagionas kommer av adagio).

Även om aspell inte klarar affix på samma sätt som ispell, så kan man
fundera ut ett smartare källkodsformat för ordlistan, och sedan
konstruera aspell- och ispell-listorna utifrån detta.


-- 
  Lars Aronsson (sslug@sslug)
  Aronsson Datateknik
  Teknikringen 1e, SE-583 30 Linuxköping, Sweden
  tel +46-70-7891609
  http://aronsson.se/ http://elektrosmog.nu/ http://susning.nu/



 
Home   Subscribe   Mail Archive   Index   Calendar   Search

 
 
Questions about the web-pages to <www_admin>. Last modified 2005-08-10, 20:53 CEST [an error occurred while processing this directive]
This page is maintained by [an error occurred while processing this directive]MHonArc [an error occurred while processing this directive] # [an error occurred while processing this directive] *