JavaShuo
欄目
標籤
爬網頁、洗數據、創建海量數據集一條龍!英偉達工程師小姐姐開源工具庫
時間 2021-07-13
欄目
系統性能
简体版
原文
原文鏈接
想做研究,卻沒有足夠的數據,着實讓人抓狂、苦惱。 現在,你可以自己動手創建數據集了。 英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名爲「lazynlp」的工具庫。 爬網頁、清洗數據、創建數據集都可以搞定。 她說,使用這個庫,你應該能創建一個比大於40G的文本數據集,比OpenAI訓練GPT-2時使用的還要大。 開源僅一天,項目在GitHub上就獲得了300多星,Twitter
>>阅读原文<<
相關文章
1.
達夢DM7數據庫網頁數據維護工具
2.
etlpy: 並行爬蟲和數據清洗工具(開源)
3.
數據清洗工具OpenRefine
4.
Java工具集-數據庫工具類
5.
hadoop大數據工程師、數據開發工程師、數據倉庫工程師 面試題目分享
6.
大數據工程師、BI工程師、數據庫工程師什麼區別?
7.
數據庫工程師
8.
達夢數據庫DM7使用數據庫配置工具建立數據庫
9.
大數據開源工具
10.
開源數據庫遷移工具 – Flyway
更多相關文章...
•
netwox網絡工具集入門教程
-
TCP/IP教程
•
SQLite 創建數據庫
-
SQLite教程
•
PHP開發工具
•
Flink 數據傳輸及反壓詳解
相關標籤/搜索
數據庫 工具
師姐
數據倉庫工具箱
工具類篇------數據庫
數據清洗
達夢數據庫
Oracle數據庫
系統性能
網站建設指南
NoSQL教程
Hibernate教程
數據庫
開發工具
數據傳輸
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
微軟準備淘汰 SHA-1
2.
Windows Server 2019 Update 2010,20H2
3.
Jmeter+Selenium結合使用(完整篇)
4.
windows服務基礎
5.
mysql 查看線程及kill線程
6.
DevExpresss LookUpEdit詳解
7.
GitLab簡單配置SSHKey與計算機建立連接
8.
桶排序(BucketSort)
9.
桶排序(BucketSort)
10.
C++ 桶排序(BucketSort)
本站公眾號
歡迎關注本站公眾號,獲取更多信息
相關文章
1.
達夢DM7數據庫網頁數據維護工具
2.
etlpy: 並行爬蟲和數據清洗工具(開源)
3.
數據清洗工具OpenRefine
4.
Java工具集-數據庫工具類
5.
hadoop大數據工程師、數據開發工程師、數據倉庫工程師 面試題目分享
6.
大數據工程師、BI工程師、數據庫工程師什麼區別?
7.
數據庫工程師
8.
達夢數據庫DM7使用數據庫配置工具建立數據庫
9.
大數據開源工具
10.
開源數據庫遷移工具 – Flyway
>>更多相關文章<<