lib/string_tools.rb in string_tools-0.12.2 vs lib/string_tools.rb in string_tools-0.13.0

- old
+ new

@@ -7,10 +7,13 @@ module StringTools autoload :HTML, 'string_tools/html' module CharDet + CP1251_COMPATIBLE_ENCODINGS = + %w(windows-1253 windows-1254 windows-1255 windows-1256 windows-1258 EUC-TW ISO-8859-8).freeze + # Возвращает true если строка содержит допустимую # последовательность байтов для кодировки utf8 и false в обратном случае # см. http://en.wikipedia.org/wiki/UTF-8 def valid_utf8?(string) string.respond_to?(:is_utf8?) && string.is_utf8? @@ -27,22 +30,10 @@ end def to_cp1251(str) str.to_cp1251 end - - def cp1251_compatible_encodings - [ - 'windows-1253', - 'windows-1254', - 'windows-1255', - 'windows-1256', - 'windows-1258', - 'EUC-TW', - 'ISO-8859-8' - ] - end end extend CharDet module WordProcessing def truncate_words(text, length = 75) @@ -254,6 +245,234 @@ rescue Addressable::URI::InvalidURIError nil end end extend Uri + + module Transliteration + LAYOUT_EN_TO_RU_MAP = { + 'q' => 'й', 'Q' => 'Й', + 'w' => 'ц', 'W' => 'Ц', + 'e' => 'у', 'E' => 'У', + 'r' => 'к', 'R' => 'К', + 't' => 'е', 'T' => 'Е', + 'y' => 'н', 'Y' => 'Н', + 'u' => 'г', 'U' => 'Г', + 'i' => 'ш', 'I' => 'Ш', + 'o' => 'щ', 'O' => 'Щ', + 'p' => 'з', 'P' => 'З', + '[' => 'х', + '{' => 'Х', + ']' => 'ъ', + '}' => 'Ъ', + '|' => '/', + '`' => 'ё', + '~' => 'Ё', + 'a' => 'ф', 'A' => 'Ф', + 's' => 'ы', 'S' => 'Ы', + 'd' => 'в', 'D' => 'В', + 'f' => 'а', 'F' => 'А', + 'g' => 'п', 'G' => 'П', + 'h' => 'р', 'H' => 'Р', + 'j' => 'о', 'J' => 'О', + 'k' => 'л', 'K' => 'Л', + 'l' => 'д', 'L' => 'Д', + ';' => 'ж', + ':' => 'Ж', + "'" => 'э', + '"' => 'Э', + 'z' => 'я', 'Z' => 'Я', + 'x' => 'ч', 'X' => 'Ч', + 'c' => 'с', 'C' => 'С', + 'v' => 'м', 'V' => 'М', + 'b' => 'и', 'B' => 'И', + 'n' => 'т', 'N' => 'Т', + 'm' => 'ь', 'M' => 'Ь', + ',' => 'б', + '<' => 'Б', + '.' => 'ю', + '>' => 'Ю', + '/' => '.', + '?' => ',', + '@' => '"', + '#' => '№', + '$' => ';', + '^' => ':', + '&' => '?' + }.freeze + LAYOUT_RU_TO_EN_MAP = { + 'й' => 'q', 'Й' => 'Q', + 'ц' => 'w', 'Ц' => 'W', + 'у' => 'e', 'У' => 'E', + 'к' => 'r', 'К' => 'R', + 'е' => 't', 'Е' => 'T', + 'н' => 'y', 'Н' => 'Y', + 'г' => 'u', 'Г' => 'U', + 'ш' => 'i', 'Ш' => 'I', + 'щ' => 'o', 'Щ' => 'O', + 'з' => 'p', 'З' => 'P', + 'х' => '[', + 'Х' => '{', + 'ъ' => ']', + 'Ъ' => '}', + '/' => '|', + 'ё' => '`', + 'Ё' => '~', + 'ф' => 'a', 'Ф' => 'A', + 'ы' => 's', 'Ы' => 'S', + 'в' => 'd', 'В' => 'D', + 'а' => 'f', 'А' => 'F', + 'п' => 'g', 'П' => 'G', + 'р' => 'h', 'Р' => 'H', + 'о' => 'j', 'О' => 'J', + 'л' => 'k', 'Л' => 'K', + 'д' => 'l', 'Д' => 'L', + 'ж' => ';', + 'Ж' => ':', + 'э' => "'", + 'Э' => '"', + 'я' => 'z', 'Я' => 'Z', + 'ч' => 'x', 'Ч' => 'X', + 'с' => 'c', 'С' => 'C', + 'м' => 'v', 'М' => 'V', + 'и' => 'b', 'И' => 'B', + 'т' => 'n', 'Т' => 'N', + 'ь' => 'm', 'Ь' => 'M', + 'б' => ',', + 'Б' => '<', + 'ю' => '.', + 'Ю' => '>', + '.' => '/', + ',' => '?', + '"' => '@', + '№' => '#', + ';' => '$', + ':' => '^', + '?' => '&' + }.freeze + LAYOUT_PERSISTENT = { + '0' => '0', + '1' => '1', + '2' => '2', + '3' => '3', + '4' => '4', + '5' => '5', + '6' => '6', + '7' => '7', + '8' => '8', + '9' => '9', + '!' => '!', + '*' => '*', + '(' => '(', + ')' => ')', + ' ' => ' ', + '-' => '-', + '—' => '—', + '_' => '_', + '=' => '=', + '+' => '+' + }.freeze + TRANSLIT_RU_TO_EN_MAP = { + 'щ' => 'shh', 'Щ' => 'Shh', + 'ё' => 'yo', 'Ё' => 'Yo', + 'ж' => 'zh', 'Ж' => 'Zh', + 'ц' => 'cz', 'Ц' => 'Cz', + 'ч' => 'ch', 'Ч' => 'Ch', + 'ш' => 'sh', 'Ш' => 'Sh', + 'ъ' => '``', 'Ъ' => '``', + 'ы' => 'y`', 'Ы' => 'Y`', + 'э' => 'e`', 'Э' => 'E`', + 'ю' => 'yu', 'Ю' => 'Yu', + 'я' => 'ya', 'Я' => 'Ya', + 'а' => 'a', 'А' => 'A', + 'б' => 'b', 'Б' => 'B', + 'в' => 'v', 'В' => 'V', + 'г' => 'g', 'Г' => 'G', + 'д' => 'd', 'Д' => 'D', + 'е' => 'e', 'Е' => 'E', + 'з' => 'z', 'З' => 'Z', + 'и' => 'i', 'И' => 'I', + 'й' => 'j', 'Й' => 'J', + 'к' => 'k', 'К' => 'K', + 'л' => 'l', 'Л' => 'L', + 'м' => 'm', 'М' => 'M', + 'н' => 'n', 'Н' => 'N', + 'о' => 'o', 'О' => 'O', + 'п' => 'p', 'П' => 'P', + 'р' => 'r', 'Р' => 'R', + 'с' => 's', 'С' => 'S', + 'т' => 't', 'Т' => 'T', + 'у' => 'u', 'У' => 'U', + 'ф' => 'f', 'Ф' => 'F', + 'х' => 'x', 'Х' => 'X', + 'ь' => '`', 'Ь' => '`' + }.freeze + + # Public: варианты строки с учетом смены раскладки и/или транслитерации для Русского и Английского языков + # Смена раскладки выполняется в обе стороны, транслитерация - с Русского на Английский. + # + # str - String + # + # Examples + # transliteration_variations('Ruby') + # => ['Ruby', 'Кгин', 'kgin'] + # transliteration_variations('Слово') + # => ['Слово', 'ckjdj', 'slovo'] + # transliteration_variations('КомпанияPro') + # => ['КомпанияPro'] + # transliteration_variations('ويكيبيدي') + # => ['ويكيبيدي'] + # + # returns Array of String + def transliteration_variations(str) + str_as_chars = str.chars + converted = convert_layout(str_as_chars) + + layout_swap = converted[:chars].try(:join) + tranliterated = (converted[:was_ru] ? transliterate(str_as_chars) : transliterate(converted[:chars])).try(:join) + + [str, layout_swap, tranliterated].tap(&:compact!) + end + + private + + # Internal: Смена раскладки массива символов, ru <-> en. + # Возвращает Hash с двумя ключами: + # :chars - Array, символы в другой раскладке(nil если не удалось сменить раскладку) + # :was_ru - Bool, принадлежали ли все символы русскому языку. + # + # splitted_string - Array of String + # + # Example: + # convert_layout(['a', 'b', 'c']) => + # {chars: ['ф', 'и', 'с'], was_ru: false} + # convert_layout(['а', 'б', 'в']) => + # {chars: ['f', ',', 'd'], was_ru: true} + # convert_layout(['ﻮ', 'ﻴ', 'ﻜ']) => + # {chars: nil, was_ru: false} + # + # returns Array + def convert_layout(splitted_string) + str_arr = splitted_string.map do |char| + LAYOUT_RU_TO_EN_MAP[char] || LAYOUT_PERSISTENT[char] || break + end + + return {chars: str_arr, was_ru: true} if str_arr + + {chars: splitted_string.map { |char| LAYOUT_EN_TO_RU_MAP[char] || LAYOUT_PERSISTENT[char] || break }, + was_ru: false} + end + + # Internal: Транслитерация массива символов, ru -> en + # Если символа нет в словаре, не изменяет его. + # + # splitted string - Array of String + # + # Returns Array + def transliterate(splitted_string) + return unless splitted_string + + splitted_string.map { |char| TRANSLIT_RU_TO_EN_MAP[char] || char } + end + end + extend Transliteration end