Sha256: 07a97296c665da861be630c1ea92bbb412c29e629b3bd3bddfce16cea849ffde

Contents?: true

Size: 1.72 KB

Versions: 4

Compression:

Stored size: 1.72 KB

Contents

## 使用 Ruby 语言编写的数据集校验脚本
# 使用 colorize 来输出带颜色的信息,https://github.com/fazibear/colorize
# 使用 progressbar 来显示进度条,https://github.com/piotrmurach/tty-progressbar
source = DatasetSource.new(File.join(__dir__, 'data'))
schema = source.schema.join('resume.ts').read
type_name = 'Resume'
prompt = Prompt.new(schema, type_name)
validate = Validate.new(schema: schema, type_name: type_name)
dataset = Dataset.new(source.row, prompt)

# # 
# # 可以使用 run_file 来验证单个文件
# response = validate.run_file(source.row.join('1.target.json'))
# puts response
# # 

## 一般来说直接 run_files 就可以了,支持 limit 来限制读取的文件数量
validate.run_files(source.row)

## 数据集处理部分
# 支持 limit 来限制读取的文件数量
dataset.scan()
dataset.save(source.join('train.jsonl'))

puts "Dataset 校验结果:#{dataset.validate}"

## 高级玩法,不要轻易尝试
#
### 可以加入 limit 来限制读取的文件数量,validate.run_files('./data/row', limit: 1) do |response, json, file| 
# validate.run_files(source.row) do |response, progressbar| 
#   progressbar.log response.to_s unless response.success?
# end
# 
#
## 也支持 limit 来进行限制
# Async do
#   dataset.each do |row, ds|
#     Async do
#       instruction = prompt.render(File.read row.input_file)
#       target = <<~Markdown
#       ```json
#       #{JSON.pretty_generate(JSON.parse(File.read(row.target_path)))}
#       ```
#       Markdown
#       ds.add({ instruction: instruction, output: target })

#       instruction = prompt.render(File.read(row.input_file), export: true)
#       ds.add({ instruction: instruction, output: target })
#     end
#   end
# end.wait

Version data entries

4 entries across 4 versions & 1 rubygems

Version Path
kaba-0.5.0 lib/kaba/_DPodfile_
kaba-0.4.0 lib/kaba/_DPodfile_
kaba-0.3.2 lib/kaba/_DPodfile_
kaba-0.3.0 lib/kaba/_DPodfile_