lib/srx/segment.srx in srx-languagetool-0.4.0 vs lib/srx/segment.srx in srx-languagetool-0.5.0

- old
+ new

@@ -1132,10 +1132,18 @@ </rule> <rule break="no"><!-- U.S (no dot at end) --> <beforebreak>\bU\.</beforebreak> <afterbreak>[SK]\b</afterbreak> </rule> +<rule break="no"><!-- I.S (no dot at end) --> +<beforebreak>\bI\.</beforebreak> +<afterbreak>S\b</afterbreak> +</rule> +<rule break="no"><!-- M.Z (no dot at end) --> +<beforebreak>\bM\.</beforebreak> +<afterbreak>Z\b</afterbreak> +</rule> <rule break="no"><!-- URLs without "www."--> <beforebreak>\b(https?|ftp|file|chrome|chromium|android|(chrome|moz)\-extension):///?[A-Za-z0-9\-]+\.</beforebreak> <afterbreak>[A-Za-z0-9\-]+(\.|\b)</afterbreak> </rule> <rule break="no"><!-- Subdomains without "www." (e.g. foo.MyDomain.com)--> @@ -1518,10 +1526,15 @@ <afterbreak>\p{Lu}\p{Ll}</afterbreak> </rule> </languagerule> <languagerule languagerulename="Dutch"> <rule break="no"> +<!-- sp.a --> +<beforebreak>\b(sp|SP)</beforebreak> +<afterbreak>\.[aA]\b</afterbreak> +</rule> +<rule break="no"> <!-- .Net --> <beforebreak>\s[.]</beforebreak> <afterbreak>[Nn][Ee][Tt](\b|-)</afterbreak> </rule> <rule break="no"><!-- quoted sentence in sentence --> @@ -4953,33 +4966,33 @@ <beforebreak>\d+\.[\u00A0\s]</beforebreak> <afterbreak>Amtsperiode|Breitengrads?|Breitengrades|Jubiläum|Jhd?|Jhdts?|Konferenz|(Jahres|Partei)(-K|k)onferenz|Längengrade?s?|Tags?|Tages|(Jahres|Spiel|Partei|Geburts)tag|(Jahres|Spiel|Partei|Geburts)tages|(Jahres|Spiel|Partei|Geburts)tags|Jahrhunderts?|Jahrtausend|Platz|Platzes|Lebensjahrs?|Lebensjahres|Lochs?|Loches|Grads|Grades|Obergeschoss|Stock(werk)?s?|Etage|Klasse|Runde|Bezirk|Etappe|Staffel|Sinfonie</afterbreak> </rule> <!-- English abbreviations - but these work globally for all languages --> <rule break="no"> -<beforebreak>\b(Mrs?|No|pp|St|no|Sr|Jr|Bros|etc|[Bb]tw|vs|esp|[Ff]ig|Jan|Feb|Mar|Apr|Ju[nl]|Aug|Sept?|O[ck]t|Nov|Dec|PhD|BSc|BEng|BComp|BArch|al|cf|Inc|Ms|MEng|MSc|MComp|Gen|Sen|Prof|Corp|Co|co|Ltd)\.[\u00A0\s]</beforebreak> +<beforebreak>\b(Mrs?|No|pp|St|no|Sr|Jr|Bros|etc|[Bb]tw|vs|esp|[Ff]ig|Jan|Feb|Mar|Apr|Ju[nl]|Aug|Sept?|O[ck]t|Nov|Dec|PhD|BSc|BEng|BComp|BArch|al|cf|Inc|Ms|MEng|MSc|MComp|Gen|Sen|Prof|Corp|Co|co|Ltd|Buchst)\.[\u00A0\s]</beforebreak> <afterbreak></afterbreak> </rule> <!-- Latin abbreviations - but these work globally for all languages --> <rule break="no"> <beforebreak>\b(spp?)\.[\u00A0\s]</beforebreak> <afterbreak></afterbreak> </rule> <!-- German abbreviations --> <rule break="no"> -<beforebreak>\b(ggü|Mag|mtl|versch|d|Übers|usw|Bzw|bzw|Ab[hkst]|abzgl|bezgl|Abzw|ahd|Akk|aktual|allg|alltagsspr|altdt|alttest|amerikan|Anh|Ank|Anm|Art|autom|Auftragsnr|Az|Bat|bayr|Bde?|bearb|Bed|Bem|bes|bez|Bez|Bhf|bspw|btto|bw)\.[\u00A0\s]</beforebreak> +<beforebreak>\b(ggü|Mag|mtl|versch|d|Übers|usw|Bzw|bzw|Ab[hkst]|abzgl|[Ee]inschl|[Vv]mtl|bezgl|Abzw|[Vv]sl|ahd|Akk|aktual|allg|alltagsspr|altdt|alttest|amerikan|Anh|Ank|Anm|Art|autom|Auftragsnr|Az|Bat|bayr|Bde?|bearb|Bed|Bem|bes|bez|Bez|Bhf|bspw|btto|bw|Dtl|Dez)\.[\u00A0\s]</beforebreak> <afterbreak></afterbreak> </rule> <rule break="no"> -<beforebreak>\b(cts?|Ca|ca|chem|chin|Chr|cresc|dat|Dat|desgl|ders|dgl|Dipl|Dir?|Doz?|durchg|durchges|Dr|dt|ebd|Ed|eigtl|Eigtl|eigl|Eigl|akt|Engl|engl|Erg|al|et[cw]|Etw|ev(tl)?|Evtl|exkl|Expl|Exz)\.[\u00A0\s]</beforebreak> +<beforebreak>\b(cts?|Ca|ca|chem|chin|Chr|cresc|dat|Dat|desgl|ders|dgl|Dipl|Dir?|Doz?|durchg|durchges|Dr|dt|ebd|Ed|eigtl|Eigtl|eigl|Eigl|akt|Engl|engl|Erg|al|et[cw]|Etw|ev(tl)?|Evtl|Evt|evt|exkl|Expl|Exz)\.[\u00A0\s]</beforebreak> <afterbreak></afterbreak> </rule> <rule break="no"> <beforebreak>\bDipl\.-[A-Z][a-z]{2,4}\.[\u00A0\s]</beforebreak> <afterbreak></afterbreak> </rule> <rule break="no"> -<beforebreak>\b(ff|Fa|fachspr|fam|fem|Fem|Fr|franz|frz?|frdl|Frl|Fut|Gd|gebr?|Gebr|geh|geleg|gen|Gen|germ|gesch|ges|get|ggf|Ggf|Ggs|ggT|Gr|[Gg]rds|griech)\.[\u00A0\s]</beforebreak> +<beforebreak>\b(ff|Fa|fachspr|fam|fem|Fem|Fr|franz|frz?|[Aa]ltfranz|frdl|Frl|Fut|Gd|gebr?|Gebr|geh|geleg|gen|Gen|germ|gesch|ges|get|ggf|Ggf|Ggs|ggT|Gr|[Gg]rds|griech)\.[\u00A0\s]</beforebreak> <afterbreak></afterbreak> </rule> <rule break="no"> <beforebreak>\b(hebr|hg|hl|Hrsg|Hg|hist|hochd|hochspr|Hptst|Hr|hrsg|Allg|IdNr|ill|inkl|incl|Ind|Inf|Ing|ital|Tr|jap|Jb|Jg|Jhd?|Jhdts?|jmd[mns]?|jur|Kap|kart|kath|kfm|kaufm|Kfm|kgl|Kl|Konj|königl|Krs?|Kto)\.[\u00A0\s]</beforebreak> <afterbreak></afterbreak> @@ -5442,10 +5455,14 @@ </rule> <rule break="no"> <beforebreak>\bCo\.[\s\u00A0]</beforebreak> <afterbreak></afterbreak> </rule> +<rule break="no"> +<beforebreak>\bE\.[\s\u00A0]</beforebreak> +<afterbreak>\b[Cc]oli\b</afterbreak> +</rule> <!-- Break rules --> <rule break="yes"> <beforebreak>[\.!?…][\u0002|'|"|«|\)|\]|\}¹²³]?[\s\u00A0]+</beforebreak> <afterbreak></afterbreak> </rule> @@ -5514,10 +5531,10 @@ <afterbreak>[А-ЯІЇЄҐ]\.|[0-9]|[\h\v]*,|[\h\v]*[:«]|\([0-9]{4}</afterbreak> </rule> <!-- І. Коваль --> <rule break="no"> <beforebreak>[\h\v.]([А-ЯІЇЄҐACEIHOPX]\.-)?(?&lt;!°)[А-ЯІЇЄҐABCEIHOPX](?&lt;!(Куан[\h]+Ю|(Петр|Олександр)([аоу]|ові|ом)?[\h]+[IІ]+))\.[\h\v]*</beforebreak> -<afterbreak>(?!Від|Але)[А-ЯІЇЄҐ][а-яіїєґА-ЯІЇЄҐ'’ʼ]{2}</afterbreak> +<afterbreak>[А-ЯІЇЄҐ][а-яіїєґА-ЯІЇЄҐ'’ʼ]{3}</afterbreak> </rule> <!-- Ів. Франко (але Ів Бутільє) --> <rule break="no"> <beforebreak>(^|[\h\v])(Ів|Дж)\.[\h\v]+</beforebreak> <afterbreak>[А-ЯІЇЄҐA-Z]</afterbreak>