lib/srx/segment.srx in srx-languagetool-0.4.0 vs lib/srx/segment.srx in srx-languagetool-0.5.0
- old
+ new
@@ -1132,10 +1132,18 @@
</rule>
<rule break="no"><!-- U.S (no dot at end) -->
<beforebreak>\bU\.</beforebreak>
<afterbreak>[SK]\b</afterbreak>
</rule>
+<rule break="no"><!-- I.S (no dot at end) -->
+<beforebreak>\bI\.</beforebreak>
+<afterbreak>S\b</afterbreak>
+</rule>
+<rule break="no"><!-- M.Z (no dot at end) -->
+<beforebreak>\bM\.</beforebreak>
+<afterbreak>Z\b</afterbreak>
+</rule>
<rule break="no"><!-- URLs without "www."-->
<beforebreak>\b(https?|ftp|file|chrome|chromium|android|(chrome|moz)\-extension):///?[A-Za-z0-9\-]+\.</beforebreak>
<afterbreak>[A-Za-z0-9\-]+(\.|\b)</afterbreak>
</rule>
<rule break="no"><!-- Subdomains without "www." (e.g. foo.MyDomain.com)-->
@@ -1518,10 +1526,15 @@
<afterbreak>\p{Lu}\p{Ll}</afterbreak>
</rule>
</languagerule>
<languagerule languagerulename="Dutch">
<rule break="no">
+<!-- sp.a -->
+<beforebreak>\b(sp|SP)</beforebreak>
+<afterbreak>\.[aA]\b</afterbreak>
+</rule>
+<rule break="no">
<!-- .Net -->
<beforebreak>\s[.]</beforebreak>
<afterbreak>[Nn][Ee][Tt](\b|-)</afterbreak>
</rule>
<rule break="no"><!-- quoted sentence in sentence -->
@@ -4953,33 +4966,33 @@
<beforebreak>\d+\.[\u00A0\s]</beforebreak>
<afterbreak>Amtsperiode|Breitengrads?|Breitengrades|Jubiläum|Jhd?|Jhdts?|Konferenz|(Jahres|Partei)(-K|k)onferenz|Längengrade?s?|Tags?|Tages|(Jahres|Spiel|Partei|Geburts)tag|(Jahres|Spiel|Partei|Geburts)tages|(Jahres|Spiel|Partei|Geburts)tags|Jahrhunderts?|Jahrtausend|Platz|Platzes|Lebensjahrs?|Lebensjahres|Lochs?|Loches|Grads|Grades|Obergeschoss|Stock(werk)?s?|Etage|Klasse|Runde|Bezirk|Etappe|Staffel|Sinfonie</afterbreak>
</rule>
<!-- English abbreviations - but these work globally for all languages -->
<rule break="no">
-<beforebreak>\b(Mrs?|No|pp|St|no|Sr|Jr|Bros|etc|[Bb]tw|vs|esp|[Ff]ig|Jan|Feb|Mar|Apr|Ju[nl]|Aug|Sept?|O[ck]t|Nov|Dec|PhD|BSc|BEng|BComp|BArch|al|cf|Inc|Ms|MEng|MSc|MComp|Gen|Sen|Prof|Corp|Co|co|Ltd)\.[\u00A0\s]</beforebreak>
+<beforebreak>\b(Mrs?|No|pp|St|no|Sr|Jr|Bros|etc|[Bb]tw|vs|esp|[Ff]ig|Jan|Feb|Mar|Apr|Ju[nl]|Aug|Sept?|O[ck]t|Nov|Dec|PhD|BSc|BEng|BComp|BArch|al|cf|Inc|Ms|MEng|MSc|MComp|Gen|Sen|Prof|Corp|Co|co|Ltd|Buchst)\.[\u00A0\s]</beforebreak>
<afterbreak></afterbreak>
</rule>
<!-- Latin abbreviations - but these work globally for all languages -->
<rule break="no">
<beforebreak>\b(spp?)\.[\u00A0\s]</beforebreak>
<afterbreak></afterbreak>
</rule>
<!-- German abbreviations -->
<rule break="no">
-<beforebreak>\b(ggü|Mag|mtl|versch|d|Übers|usw|Bzw|bzw|Ab[hkst]|abzgl|bezgl|Abzw|ahd|Akk|aktual|allg|alltagsspr|altdt|alttest|amerikan|Anh|Ank|Anm|Art|autom|Auftragsnr|Az|Bat|bayr|Bde?|bearb|Bed|Bem|bes|bez|Bez|Bhf|bspw|btto|bw)\.[\u00A0\s]</beforebreak>
+<beforebreak>\b(ggü|Mag|mtl|versch|d|Übers|usw|Bzw|bzw|Ab[hkst]|abzgl|[Ee]inschl|[Vv]mtl|bezgl|Abzw|[Vv]sl|ahd|Akk|aktual|allg|alltagsspr|altdt|alttest|amerikan|Anh|Ank|Anm|Art|autom|Auftragsnr|Az|Bat|bayr|Bde?|bearb|Bed|Bem|bes|bez|Bez|Bhf|bspw|btto|bw|Dtl|Dez)\.[\u00A0\s]</beforebreak>
<afterbreak></afterbreak>
</rule>
<rule break="no">
-<beforebreak>\b(cts?|Ca|ca|chem|chin|Chr|cresc|dat|Dat|desgl|ders|dgl|Dipl|Dir?|Doz?|durchg|durchges|Dr|dt|ebd|Ed|eigtl|Eigtl|eigl|Eigl|akt|Engl|engl|Erg|al|et[cw]|Etw|ev(tl)?|Evtl|exkl|Expl|Exz)\.[\u00A0\s]</beforebreak>
+<beforebreak>\b(cts?|Ca|ca|chem|chin|Chr|cresc|dat|Dat|desgl|ders|dgl|Dipl|Dir?|Doz?|durchg|durchges|Dr|dt|ebd|Ed|eigtl|Eigtl|eigl|Eigl|akt|Engl|engl|Erg|al|et[cw]|Etw|ev(tl)?|Evtl|Evt|evt|exkl|Expl|Exz)\.[\u00A0\s]</beforebreak>
<afterbreak></afterbreak>
</rule>
<rule break="no">
<beforebreak>\bDipl\.-[A-Z][a-z]{2,4}\.[\u00A0\s]</beforebreak>
<afterbreak></afterbreak>
</rule>
<rule break="no">
-<beforebreak>\b(ff|Fa|fachspr|fam|fem|Fem|Fr|franz|frz?|frdl|Frl|Fut|Gd|gebr?|Gebr|geh|geleg|gen|Gen|germ|gesch|ges|get|ggf|Ggf|Ggs|ggT|Gr|[Gg]rds|griech)\.[\u00A0\s]</beforebreak>
+<beforebreak>\b(ff|Fa|fachspr|fam|fem|Fem|Fr|franz|frz?|[Aa]ltfranz|frdl|Frl|Fut|Gd|gebr?|Gebr|geh|geleg|gen|Gen|germ|gesch|ges|get|ggf|Ggf|Ggs|ggT|Gr|[Gg]rds|griech)\.[\u00A0\s]</beforebreak>
<afterbreak></afterbreak>
</rule>
<rule break="no">
<beforebreak>\b(hebr|hg|hl|Hrsg|Hg|hist|hochd|hochspr|Hptst|Hr|hrsg|Allg|IdNr|ill|inkl|incl|Ind|Inf|Ing|ital|Tr|jap|Jb|Jg|Jhd?|Jhdts?|jmd[mns]?|jur|Kap|kart|kath|kfm|kaufm|Kfm|kgl|Kl|Konj|königl|Krs?|Kto)\.[\u00A0\s]</beforebreak>
<afterbreak></afterbreak>
@@ -5442,10 +5455,14 @@
</rule>
<rule break="no">
<beforebreak>\bCo\.[\s\u00A0]</beforebreak>
<afterbreak></afterbreak>
</rule>
+<rule break="no">
+<beforebreak>\bE\.[\s\u00A0]</beforebreak>
+<afterbreak>\b[Cc]oli\b</afterbreak>
+</rule>
<!-- Break rules -->
<rule break="yes">
<beforebreak>[\.!?…][\u0002|'|"|«|\)|\]|\}¹²³]?[\s\u00A0]+</beforebreak>
<afterbreak></afterbreak>
</rule>
@@ -5514,10 +5531,10 @@
<afterbreak>[А-ЯІЇЄҐ]\.|[0-9]|[\h\v]*,|[\h\v]*[:«]|\([0-9]{4}</afterbreak>
</rule>
<!-- І. Коваль -->
<rule break="no">
<beforebreak>[\h\v.]([А-ЯІЇЄҐACEIHOPX]\.-)?(?<!°)[А-ЯІЇЄҐABCEIHOPX](?<!(Куан[\h]+Ю|(Петр|Олександр)([аоу]|ові|ом)?[\h]+[IІ]+))\.[\h\v]*</beforebreak>
-<afterbreak>(?!Від|Але)[А-ЯІЇЄҐ][а-яіїєґА-ЯІЇЄҐ'’ʼ]{2}</afterbreak>
+<afterbreak>[А-ЯІЇЄҐ][а-яіїєґА-ЯІЇЄҐ'’ʼ]{3}</afterbreak>
</rule>
<!-- Ів. Франко (але Ів Бутільє) -->
<rule break="no">
<beforebreak>(^|[\h\v])(Ів|Дж)\.[\h\v]+</beforebreak>
<afterbreak>[А-ЯІЇЄҐA-Z]</afterbreak>