## Installation

```
$ sudo gem install maprename
```

## Usage

```
Usage: maprename [options]
    -c, --config CONFIG_FILE         Specify config file, defaults to `maprename.yml' in current directory
    -d, --dry                        dry run: only print generated file copy commands,
                                     not execute the generated commands, use this option
                                     for debugging or validating config file
    -h, --help                       Prints this help
```

## Config file example

```yaml
input:
  directory: ./tmp/in/
  pattern: "(.*).txt"
  source: "$1.pdf"
  name_parse:
    method: split
    pattern: "[-_]"
    fields:
      - name: customer_name
        value: "$1"
      - name: raw_trans_no
        value: "$2"
        name_parse:
          method: scan
          pattern: L(.*)
          fields:
            - name: trans_no
              value: "$1"
  content_parse:
    encoding: UTF-8
    fields:
      - name: address
        pattern: "您的地址 ([^:：]+)"
        value: "$1"
      - name: trade_date
        pattern: "交易日期：([0-9-]+)"
        value: "$1"

mapping:
  file: ./tmp/in/mapping.csv
  encoding: UTF-8
  column_separator: ","
  first_line_as_column_defination: false
  columns:
    - name: trans_id
      index: 1
    - name: account_no
      index: 2
  select:
    - keyword_column: trans_id
      keyword_value: trans_no
      select_column: account_no
      name: acct_no

output:
  directory: ./tmp/out/
  filename: "#{trade_date}/#{customer_name}-#{acct_no}-#{address}.pdf"
```

## Config file specification

+ `input`: 和输入文件相关的配置
  + `directory`: 指定输入文件所在的目录
  + `pattern`: 用于在匹配过滤输入文件的正则表达式, 其中的正则表达式分组可以用于 `source` 字段的值的生成
  + `source`: 指定将被拷贝的文件
  + `name_parse`: 关于文件名解析的规则配置
    + `method`: 文件名拆分方式，`split`: 使用指定的分割符分割，`scan`：使用正则表达式进行正则分组匹配
    + `pattern`: 对于 `split` 此字段为分割符，支持正则表达式, 对于 `scan` 此字段为用于分组匹配的正则表达式
    + `fields`: 定义要从文件名拆分出的字段
      + `name`: 将字段值存储到以 `name` 值为名称的变量中，在 `output.filename` 中可以使用 `#{变量名}` 的方法获取此变量的值
      + `value`: 字段值的生成规则，对于 `split` 方式 `$N` 指分割出的数组的第 N 个元素（索引从 1 开始）, 对于 `scan` 方法, `$N` 为第 N 个正则分组匹配的值
      + `name_parse` 是一个递归嵌套的结构，可以对拆分出的外层字段，进一步配置 `name_parse` 使得进一步对字段进行拆分
  + `content_parse`: 若需要从文件内容中抽取值，使用此字段对内容抽取规则进行配置
    + `encoding`: 文件内容的字符编码，默认值为 `UTF-8`, 若文件内容为乱码可以尝试配置此字段的值，常用的值有： `UTF-8`, `GBK`, `UTF-16LE`, `UTF-16BE`
    + `fields`: 定义要从文件内容中抽取的值
      + `name`: 将抽取到的值存储到以 `name` 值为名称的变量中，在 `output.filename` 中可以使用 `#{变量名}` 的方法获取此变量的值
      + `pattern`: 用于对文件内容进行匹配的正则表达式，其中的正则表达式分组可以用于下面 `value` 字段的值的生成
      + `value`: 值的生成规则，`$N` 为第 N 个正则分组匹配的值
+ `mapping`: 映射文件相关的配置, 仅支持 CSV 格式
  + `file`: 映射文件路径
  + `encoding`: 映射文件内容的字符编码，默认值为 `UTF-8`, 若文件内容为乱码可以尝试配置此字段的值，常用的值有： `UTF-8`, `GBK`, `UTF-16LE`, `UTF-16BE`
  + `column_separator`: CSV 的字段分割符, 默认为水平制表符 `\t`
  + `first_line_as_column_defination`: 是否使用 CSV 文件的第一行作为字段的名称, 若设置此字段为 `true`, 将忽略下面 `columns` 配置
  + `columns`: 关于映射文件字段的规则定义
    + `name`: 给字段定义一个名称
    + `index`: 字段的列号（索引从 1 开始）
  + `select`: 定义映射规则
    + `keyword_column`: 使用映射文件中的哪个字段进行匹配比较
    + `keyword_value`: 使用哪个变量的值来和 `keyword_column` 所指定的映射文件中的值进行匹配比较
    + `select_column`: 匹配到映射的行之后，用哪个字段的值作为要存储在 `name` 所指定的变量中的值
    + `name`: 要存储到变量的名称, 在 `output.filename` 中可以使用 `#{变量名}` 的方法获取此变量的值
+ `output`: 和输出文件相关的配置
  + `directory`: 输出的目录
  + `filename`: 输出文件名的生成规则，其中可以包含字符串字面量和 `#{变量名}` 形式的变量取值

## About YAML

YAML 是一种常用的配置文件格式，它以不同层次的缩进来表示配置项之间的从属关系和结构，缩紧所使用的空白字符个数必须是规范的：同一级配置项的缩紧必须相同，第 N 层和第 N+1 层之间的缩进差别必须等于第 N+1 层和 第 N+2 层之间的缩紧差别，一个缩进递进中，推荐使用两个空格作为缩进

以减号开头的配置项表示它的上一级配置项的值是数组类型，每个减号表示数组中的一个元素

See also: Official YAML specification: https://yaml.org/spec/1.2/spec.html

## Getting involved in Regular Expression

正则表达式30分钟入门教程: https://deerchao.cn/tutorials/regex/regex.htm

文中，在学习过程中使用一个 Windows 上的正则表达式测试器来帮助理解，Mac 上可以使用这个 Web 版的正则表达式测试器： https://deerchao.cn/tools/wegester/

Learn Regex the Easy Way: https://github.com/ziishaned/learn-regex/blob/master/translations/README-cn.md

## License

The gem is available as open source under the terms of the [MIT License](https://opensource.org/licenses/MIT).

## Code of Conduct

Everyone interacting in the Maprename project's codebases, issue trackers, chat rooms and mailing lists is expected to follow the [code of conduct](https://github.com/lululau/maprename/blob/master/CODE_OF_CONDUCT.md).