AI for Science

Created2023-10-16

系统安装在官网下载Ubuntu镜像：Ubuntu 20.04.1 LTS (Focal Fossa)，选择Desktop Image版本，得到.iso的镜像文件。黑屏无法进入安装界面123sudo gedit /etc/default/grubGRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset“ sudo update-grub 选中引导界面，选中ubuntu，依据提示按e 1rw quiet splash nomodeset 锁定显卡自动更新关闭nouveau 1sudo vim /etc/modprobe.d/blacklist.conf 文件最后插入： 12blacklist nouveauoptions nouveau modeset=0 更新 1sudo update-initramfs -u GRUB1vim /etc/default/grub 找到 GRUB_HIDDEN_TIMEOUT=0 这行，使用#注释掉，变成 #GRUB_HIDDEN_TIMEOUT=0保存退出 1sudo u ...

深度学习数据集

Created2023-10-11|dataset

小目标检测、图像分类、图像识别宠物图像数据集数据集下载地址：http://m6z.cn/5TAgdC一个包含 37 个类别的宠物数据集，每个类别大约有 200 张图像。这些图像在比例、姿势和照明方面有很大的变化。所有图像都有相关的品种、头部 ROI 和像素级三元图分割的地面实况注释。街景门牌号 (SVHN) 数据集数据集下载地址：http://m6z.cn/5ExMWbSVHN 是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式化的要求最低。它可以被视为与MNIST风格相似（例如，图像是经过裁剪的小数字），但包含一个数量级的更多标记数据（超过 600,000 个数字图像），并且来自一个更难、未解决的现实世界问题（识别自然场景图像中的数字和数字）。SVHN 是从谷歌街景图像中的门牌号获得的。 3D MNIST 数字识别图像数据数据集下载地址：http://m6z.cn/5SUfEd该数据集的目的是提供一种简单的方法来开始处理 3D 计算机视觉问题，例如 3D 形状识别。文档影印和内容数据数据集下载地址：http://m6z.cn/6nF67SMediaTe ...

What is a Convolutional Neural Network?

Created2023-10-11|CNN

What is a Convolutional Neural Network?(https://poloclub.github.io/cnn-explainer/#article-input) 动态展示CNN运行过程。

论文阅读记录

Created2023-09-26

本文记录如何阅读文献，试图找到更好的阅读和记录方法。 1.找到目标文章

CV 相关问题

Created2023-09-18

CNN网络结构的发展

Transformer 相关问题

Created2023-09-18|questionstoturial

Transformer为什么 dot-product attention 需要被 scaled？ Attention/Self-Attention注意力机制到底在做什么，Q/K/V怎么来的？一文读懂Attention注意力机制超详细图解Self-Attention 狗都能看懂的Self-Attention讲解详解Transformer中Self-Attention以及Multi-Head Attention Vision Transformer狗都能看懂的Vision Transformer的讲解和代码实现 Vision Transformer详解 VIT(vision transformer)模型介绍+pytorch代码炸裂解析 Vision Transformer (ViT)模型与代码实现（PyTorch）【超详细】初学者包会的Vision Transformer（ViT）的PyTorch实现代码学习 VIDEOVIT(vision transformer)模型介绍+pytorch代码炸裂解析Transformer中Self-Attention以 ...

Personalized Federated Learning 个性化联邦学习

Created2023-09-15

Ref：个性化联邦学习 Towards Personalized Federated Learning

timm

Created2023-09-15|tutorial

timm timm install方法1. pip install timm方法2.

Vision Transformer(ViT)

Created2023-09-08|article

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE[原文]（https://arxiv.org/abs/2010.11929）中文 Vision Transformer(ViT)Paper:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleDosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2020). arXiv: Computer Vision and Pattern Recognition ABSTRACTWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applic ...

向量(vector)和张量(tensor)

Created2023-09-07

张量是多维数组，目的是把向量、矩阵推向更高的维度。点——标量（scalar）线——向量（vector）面——矩阵（matrix）体——张量（tensor）向量（vector）张量（tensor）url：PyTorch中张量的使用：http://t.csdn.cn/UdkHE PyTorchshape: 张量的形状，即各维度的大小。dtype: 张量的数据类型，例如float32、int64等。device: 张量存放的设备，例如cpu或cuda。Ref:张量（tensor）图解Vit 1：Vision Transformer——图像与Transformer基础